Hadoop上路_02-hadoop介绍和环境准备

阅读量：5906 次

发布时间：2019-06-19

本文共 2385 字，大约阅读时间需要 7 分钟。

Hadoop介绍：

1. Hadoop项目组成：

1）hadoop Common :

hadoop的核心。包括文件系统、远程调用RPC的序列化函数。

2）HDSF :

高吞吐量分布式文件系统。是GFS的开源实现。通过hadoop fs命令来读取。

3）MapReduce :

大型分布式合并/计算数据处理模型。Google MapReduce的开源实现。

4）其它：

Cassandra : 由Facebook开发分布式数据仓库。apache已经将Cassandra应用到各种云计算系统中。

Hbase : 结构化分部式数据库。BigTable的开源实现。

Hive : 提供摘要和查询功能的数据仓库。

2. Hadoop系统构成：

每个节点都是一个Java进程。

namenode：主控节点

在一个hadoop系统中只有一个namenode。一旦主控服务器宕机，整个系统将无法运行。

namenode是整个hadoop系统的守护进程。

负责记录文件是如何分割成数据块。

管理数据块分别存储到哪些数据节点上。

对内存进行集中管理。

secondarynamenode：辅助节点

监控HDFS状态的辅助后台程序。如保存namenode的快照。

jobtracker：下发任务（拆分数据）

用户连接应用程序和hadoop。每一个hadoop集群中只一个 JobTracker,一般它运行在Master节点上。

tacktracker：执行任务（接收数据）

负责与DataNode进行结合。

datanode：数据存储

集群中的每个从服务器都运行一个DataNode后台程序，负责将HDFS数据块写到本地的文件系统。

一．配置VirtualBox虚拟机和Ubuntu：

本例系统为Ubuntu10.04LTS。初始用户hm，主机名hm-ubuntu。建议分配内存至少1G，安装略。

1.为虚拟机安装增强功能：

2.为Ubuntu初始化root用户：

3.修改用户（如果需要）：

1）修改用户密码：

sudo passwd 用户名

2）在当前用户下修改用户名：

sudo chfn -f 新名字 原名字

3）注销当前用户，使用root登陆：

usermod -l 新名字 -d /home/新名字 -m 原名字

4）注销root用户，使用新用户名登陆：

5）根据需要修改hostname和hosts。

6）注意：用户组没有改变，似乎不太要紧。

因为系统是复制ha得来，用户组仍为ha。对后续操作没有不良影响。

4.配置hostname和hosts：

1）HOSTNAME

hm@hm-ubuntu:~$ sudo gedit /etc/hostname

2）HOSTS

hm@hm-ubuntu:~$ sudo gedit /etc/hosts

3）重启系统。

5.安装OpenSSH：

openssh-client_5.3p1-3ubuntu3_i386.deb 重命名为openssh-client.deb  openssh-server_5.3p1-3ubuntu3_i386.deb 重命名为openssh-server.deb   ssh_5.3p1-3ubuntu3_all.deb             重命名为ssh.deb

1）安装openssh-client：

sudo dpkg -i openssh-client.deb

2）安装openssh-server：

sudo dpkg -i openssh-server.deb

3）安装ssh-all：

sudo dpkg -i ssh.deb

4）修改OpenSSH配置（跳过）：

5）创建密钥的空密码文件：

当要求“Enter passphrase (empty for no passphrase) :”以及再次输入时直接回车

6）配置.ssh目录权限（跳过）：

sudo chmod 700 -R .ssh

7）创建自动验证密码文件：

使用cat命令： authorized_keys 务必和ssh_config中的配置完全一致！

sudo cat id_rsa.pub >> authorized_keys

使用cp命令： authorized_keys

sudo cp id_rsa.pub authorized_keys

8）设置authorized_keys权限（跳过）：

chmod 600 authorized_keys

9）测试ssh无密码登陆：

6.安装JDK：

jdk-6u24-linux-i586.bin。务必与hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同，或者后期根据此版本jdk制作插件。

1）安装bin文件：

（1）进入安装目录：

（2）为当前用户赋予安装此文件的权限，执行安装：

... ...

2）配置jdk到环境变量：

3）重载配置文件，使之立即生效：

4）测试jdk：

7.安装Hadoop：

hadoop-1.1.2-bin.tar.gz。后期hadoop-eclipse-plugin-*.jar插件须符合此版本。

1）解压文件：

... ...

2）配置hadoop到环境变量：

export JAVA_HOME=/usr/jdk1.6.0_24exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$PATHexport PATH=/usr/hadoop-1.1.2/bin:$PATH

3）重载系统配置文件，使之立即生效：

-end

转载于:https://my.oschina.net/vigiles/blog/132244

你可能感兴趣的文章

监督学习最常见的五种算法，你知道几个？

查看>>

《Servlet和JSP学习指南》一1.3　编写基础的Servlet应用程序

查看>>

云服务鼻祖来告诉你99%的创业者不知道的事

查看>>

快递单信息泄露惊人隐形面单能拯救你的隐私吗？

查看>>

Nginx 反向代理分配方式防攻击真实Ip

elasticsearch Java API 之Bulk API（批量操作）

查看>>

[Maven问题总结]Jetty9的Maven配置——插件服务器

查看>>

rename命令

查看>>

【深入Lua】使用LDoc替代LuaDoc给Lua生成文档

查看>>

android 实现QQ好友列表（扩展listview:ExpandableListView）

linux文件属性、特殊符号、通配符、通配符与正则的区别

查看>>

Linux监控平台介绍， zabbix监控介绍，安装zabbix，忘记Admin密码如何做

查看>>

克拉克拉(KilaKila)：大规模实时计算平台架构实战

查看>>

我的友情链接

查看>>

leetCode 203. Remove Linked List Elements 链表

查看>>