博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop上路_02-hadoop介绍和环境准备
阅读量:5906 次
发布时间:2019-06-19

本文共 2385 字,大约阅读时间需要 7 分钟。

hot3.png

Hadoop介绍:

1. Hadoop项目组成:

        

        1)hadoop Common :

                hadoop的核心。包括文件系统、远程调用RPC的序列化函数。

        2)HDSF : 

                高吞吐量分布式文件系统。是GFS的开源实现。通过hadoop fs命令来读取。

        3)MapReduce : 

                大型分布式合并/计算数据处理模型。Google MapReduce的开源实现。

        4)其它:

                Cassandra : 由Facebook开发分布式数据仓库。apache已经将Cassandra应用到各种云计算系统中。

                Hbase : 结构化分部式数据库。BigTable的开源实现。
                Hive : 提供摘要和查询功能的数据仓库。

2. Hadoop系统构成:

        每个节点都是一个Java进程。 

          

        namenode:主控节点  

                在一个hadoop系统中只有一个namenode。一旦主控服务器宕机,整个系统将无法运行。

                namenode是整个hadoop系统的守护进程。 
                负责记录文件是如何分割成数据块。
                管理数据块分别存储到哪些数据节点上。
                对内存进行集中管理。 

        secondarynamenode:辅助节点  

                监控HDFS状态的辅助后台程序。如保存namenode的快照。

        jobtracker:下发任务(拆分数据)  

                用户连接应用程序和hadoop。每一个hadoop集群中只一个 JobTracker,一般它运行在Master节点上。

        tacktracker:执行任务(接收数据)  

                负责与DataNode进行结合。

        datanode:数据存储  

                集群中的每个从服务器都运行一个DataNode后台程序,负责将HDFS数据块写到本地的文件系统。  

一.配置VirtualBox虚拟机和Ubuntu:

本例系统为Ubuntu10.04LTS。初始用户hm,主机名hm-ubuntu。建议分配内存至少1G,安装略。

1.为虚拟机安装增强功能:

        

          

2.为Ubuntu初始化root用户:

        

 

3.修改用户(如果需要):

          

1)修改用户密码:

sudo passwd 用户名

          

2)在当前用户下修改用户名:

sudo chfn -f 新名字 原名字

        

3)注销当前用户,使用root登陆:

              

usermod -l 新名字 -d /home/新名字 -m 原名字

        

4)注销root用户,使用新用户名登陆:

            

5)根据需要修改hostname和hosts。  

6)注意:用户组没有改变,似乎不太要紧。  

        因为系统是复制ha得来,用户组仍为ha。对后续操作没有不良影响。    

4.配置hostname和hosts:

1)HOSTNAME

hm@hm-ubuntu:~$ sudo gedit /etc/hostname

          

2)HOSTS

hm@hm-ubuntu:~$ sudo gedit /etc/hosts

          

3)重启系统。

5.安装OpenSSH:

openssh-client_5.3p1-3ubuntu3_i386.deb 重命名为openssh-client.deb  openssh-server_5.3p1-3ubuntu3_i386.deb 重命名为openssh-server.deb   ssh_5.3p1-3ubuntu3_all.deb             重命名为ssh.deb

1)安装openssh-client:

sudo dpkg -i openssh-client.deb

         

2)安装openssh-server:

sudo dpkg -i openssh-server.deb

         

3)安装ssh-all:

sudo dpkg -i ssh.deb

         

4)修改OpenSSH配置(跳过):

            

5)创建密钥的空密码文件:

当要求“Enter passphrase (empty for no passphrase) :”以及再次输入时直接回车

          

6)配置.ssh目录权限(跳过):

sudo chmod 700 -R .ssh

7)创建自动验证密码文件:

         

使用cat命令: authorized_keys 务必和ssh_config中的配置完全一致!  

sudo cat id_rsa.pub >> authorized_keys

          

使用cp命令: authorized_keys 

sudo cp id_rsa.pub authorized_keys

          

8)设置authorized_keys权限(跳过):

chmod 600 authorized_keys

9)测试ssh无密码登陆:

        

        

6.安装JDK:

jdk-6u24-linux-i586.bin。务必与hadoop-eclipse-plugin-*.jar插件中使用的jdk版本相同,或者后期根据此版本jdk制作插件。  

1)安装bin文件:

(1)进入安装目录:

        

(2)为当前用户赋予安装此文件的权限,执行安装:

         

        ... ...  
        

2)配置jdk到环境变量:

          

3)重载配置文件,使之立即生效:

        

4)测试jdk:

          

7.安装Hadoop:

hadoop-1.1.2-bin.tar.gz。后期hadoop-eclipse-plugin-*.jar插件须符合此版本。  

     

1)解压文件:

         

        ... ...  
          

2)配置hadoop到环境变量:

export JAVA_HOME=/usr/jdk1.6.0_24exprot CLASSPATH=.:$JAVA_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$PATHexport PATH=/usr/hadoop-1.1.2/bin:$PATH

         

3)重载系统配置文件,使之立即生效:

        

-end 

转载于:https://my.oschina.net/vigiles/blog/132244

你可能感兴趣的文章
监督学习最常见的五种算法,你知道几个?
查看>>
《Servlet和JSP学习指南》一1.3 编写基础的Servlet应用程序
查看>>
云服务鼻祖来告诉你99%的创业者不知道的事
查看>>
快递单信息泄露惊人 隐形面单能拯救你的隐私吗?
查看>>
Nginx 反向代理 分配方式 防攻击真实Ip
查看>>
近5年133个Java面试问题列表
查看>>
在开源氛围下,“够用就是最好”
查看>>
elasticsearch Java API 之Bulk API(批量操作)
查看>>
[Maven问题总结]Jetty9的Maven配置——插件服务器
查看>>
rename命令
查看>>
【深入Lua】使用LDoc替代LuaDoc给Lua生成文档
查看>>
android 实现QQ好友列表(扩展listview:ExpandableListView)
查看>>
cacti
查看>>
[转载]Dubbo服务治理
查看>>
架构图
查看>>
linux文件属性、特殊符号、通配符、通配符与正则的区别
查看>>
Linux监控平台介绍, zabbix监控介绍,安装zabbix,忘记Admin密码如何做
查看>>
克拉克拉(KilaKila):大规模实时计算平台架构实战
查看>>
我的友情链接
查看>>
leetCode 203. Remove Linked List Elements 链表
查看>>