部署Hadoop集群并运行MapReduce集群案例
本帖最后由 御坂主机 于 2024-7-6 16:09 编辑1. 概述
Hadoop是一种流行的分布式计算框架,广泛应用于大数据处理。本文将介绍如何在多节点上部署Hadoop集群,并运行一个简单的MapReduce案例。
1.1 Hadoop简介
Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。它包括两个核心组件:HDFS(Hadoop Distributed File System)和MapReduce(用于分布式计算)。HDFS提供高吞吐量的数据访问,而MapReduce则提供并行处理的编程模型。
1.1.1 HDFS
HDFS是一个分布式文件系统,设计用于存储非常大的数据集,并通过集群中的多台机器提供高可用性和高吞吐量。
1.1.2 MapReduce
MapReduce是Hadoop的核心计算模型。它将计算任务分为两个阶段:Map阶段和Reduce阶段。Map阶段处理输入数据并生成中间结果,Reduce阶段则汇总这些中间结果。
2. 环境准备
在开始部署Hadoop集群之前,需要准备以下环境:
(1) 多台Linux服务器(至少两台,一台作为主节点,另一台作为从节点)
(2) 配置SSH无密码登录
(3) 安装Java环境(JDK)
2.1 配置SSH无密码登录
在所有节点上配置SSH无密码登录,便于Hadoop集群管理。
生成SSH密钥对:
ssh-keygen -t rsa -P ""
将公钥复制到所有从节点:
ssh-copy-id user@slave1
ssh-copy-id user@slave2
3. 安装Hadoop
下载并解压Hadoop:
wget <a href="https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz" target="_blank">https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz</a>
tar -xzvf hadoop-3.3.0.tar.gz
mv hadoop-3.3.0 /usr/local/hadoop
3.1 配置Hadoop环境变量
编辑~/.bashrc文件,添加以下内容:
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
保存并生效:
source ~/.bashrc
3.2 配置Hadoop核心文件
编辑core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
编辑hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>
编辑mapred-site.xml:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
编辑yarn-site.xml:
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>master</value>
</property>
</configuration>
4. 启动Hadoop集群
格式化HDFS:
hdfs namenode -format
启动HDFS和YARN:
start-dfs.sh
start-yarn.sh
检查是否启动成功:
jps
5. 运行MapReduce案例
我们将运行Hadoop自带的wordcount案例,演示MapReduce的工作流程。
5.1 准备输入数据
创建输入文件夹并上传数据:
hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put /path/to/local/file.txt /user/hadoop/input
5.2 运行wordcount任务
运行wordcount任务:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /user/hadoop/input /user/hadoop/output
5.3 查看输出结果
查看wordcount输出结果:
hdfs dfs -cat /user/hadoop/output/part-r-00000
6. 总结
本文详细介绍了如何在多节点上部署Hadoop集群,并通过运行wordcount案例演示了MapReduce的工作流程。通过这些步骤,您可以在自己的环境中部署并运行Hadoop,进一步了解大数据处理的基本原理和操作方法。
------------------------------------------------------------------------------------------------------------------------------------------
========御 坂 主 机========
>> VPS主机 服务器 前沿资讯 行业发布 技术杂谈 <<
>> 推广/合作/找我玩TG号 : @Misaka_Offical <<
-------------------------------------------------------------------------------------------------------------------------------------------
页:
[1]