御坂主机 发表于 2024-7-6 15:12:33

部署Hadoop集群并运行MapReduce集群案例

本帖最后由 御坂主机 于 2024-7-6 16:09 编辑

1. 概述

Hadoop是一种流行的分布式计算框架,广泛应用于大数据处理。本文将介绍如何在多节点上部署Hadoop集群,并运行一个简单的MapReduce案例。

1.1 Hadoop简介

Hadoop是一个开源的分布式计算框架,用于处理大规模数据集。它包括两个核心组件:HDFS(Hadoop Distributed File System)和MapReduce(用于分布式计算)。HDFS提供高吞吐量的数据访问,而MapReduce则提供并行处理的编程模型。

1.1.1 HDFS

HDFS是一个分布式文件系统,设计用于存储非常大的数据集,并通过集群中的多台机器提供高可用性和高吞吐量。

1.1.2 MapReduce

MapReduce是Hadoop的核心计算模型。它将计算任务分为两个阶段:Map阶段和Reduce阶段。Map阶段处理输入数据并生成中间结果,Reduce阶段则汇总这些中间结果。

2. 环境准备

在开始部署Hadoop集群之前,需要准备以下环境:

(1) 多台Linux服务器(至少两台,一台作为主节点,另一台作为从节点)
(2) 配置SSH无密码登录
(3) 安装Java环境(JDK)

2.1 配置SSH无密码登录

在所有节点上配置SSH无密码登录,便于Hadoop集群管理。

生成SSH密钥对:

ssh-keygen -t rsa -P ""

将公钥复制到所有从节点:

ssh-copy-id user@slave1
ssh-copy-id user@slave2

3. 安装Hadoop

下载并解压Hadoop:

wget <a href="https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz" target="_blank">https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz</a>
tar -xzvf hadoop-3.3.0.tar.gz
mv hadoop-3.3.0 /usr/local/hadoop

3.1 配置Hadoop环境变量

编辑~/.bashrc文件,添加以下内容:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

保存并生效:

source ~/.bashrc

3.2 配置Hadoop核心文件

编辑core-site.xml:

<configuration>
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://master:9000</value>
</property>
</configuration>

编辑hdfs-site.xml:

<configuration>
<property>
    <name>dfs.replication</name>
    <value>2</value>
</property>
</configuration>

编辑mapred-site.xml:

<configuration>
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>
</configuration>

编辑yarn-site.xml:

<configuration>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>master</value>
</property>
</configuration>

4. 启动Hadoop集群

格式化HDFS:

hdfs namenode -format

启动HDFS和YARN:

start-dfs.sh
start-yarn.sh

检查是否启动成功:

jps

5. 运行MapReduce案例

我们将运行Hadoop自带的wordcount案例,演示MapReduce的工作流程。

5.1 准备输入数据

创建输入文件夹并上传数据:

hdfs dfs -mkdir -p /user/hadoop/input
hdfs dfs -put /path/to/local/file.txt /user/hadoop/input

5.2 运行wordcount任务

运行wordcount任务:

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.0.jar wordcount /user/hadoop/input /user/hadoop/output

5.3 查看输出结果

查看wordcount输出结果:

hdfs dfs -cat /user/hadoop/output/part-r-00000

6. 总结

本文详细介绍了如何在多节点上部署Hadoop集群,并通过运行wordcount案例演示了MapReduce的工作流程。通过这些步骤,您可以在自己的环境中部署并运行Hadoop,进一步了解大数据处理的基本原理和操作方法。





------------------------------------------------------------------------------------------------------------------------------------------
========御 坂 主 机========
>> VPS主机 服务器 前沿资讯 行业发布 技术杂谈 <<
>> 推广/合作/找我玩TG号 : @Misaka_Offical <<
-------------------------------------------------------------------------------------------------------------------------------------------
页: [1]
查看完整版本: 部署Hadoop集群并运行MapReduce集群案例