随着央视新闻天天说大数据,很多人纷纷开始关注大数据和Hadoop以及数据挖掘和数据可视化了。什么是Hadoop?
ApacheHadoop是一款支持数据密集型分布式应用并以Apache2.0许可协议发布的开源软件框架。Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。
Hadoop市场现状
开发人才目前比较匮乏,基本都集中在互联网。维护人才我觉得互联网外的行业一段时间内基本不用考虑,不是太多了,而是根本没有。Hadoop和云计算最后拼的就是运维,大规模分布式系统的运维人才极难培养。
Hadoop版本的选择
目前为止,作为半只脚迈进Hadoop大门的人,我建议大家还是选择Hadoop2.x用。
Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:
HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平扩展能力和可用性;
MapReduce将JobTracker中的资源管理及任务生命周期管理(包括定时触发及监控),拆分成两个独立的组件,并更名为YARN(YetAnotherResourceNegotiator)。
核心概念
Hadoop项目主要包含了以下四个模块:
Hadoop通用模块(HadoopCommon):为其他Hadoop模块提供支持的公共实用程序。
Hadoop分布式文件系统(HDFS,HadoopDistributedFileSystem):提供对应用程序数据的高吞吐量访问的分布式文件系统。
HadoopYARN:任务调度和集群资源管理框架。
HadoopMapReduce:基于YARN的大规模数据集并行计算框架。
对于初次学习Hadoop的用户而言,应重点关注HDFS和MapReduce。作为一个分布式计算框架,HDFS承载了该框架对于数据的存储需求,而MapReduce满足了该框架对于数据的计算需求。
下图是Hadoop集群的基本架构:
部署Hadoop
Hadoop主要有以下三种部署模式:
单机模式:在单台计算机上以单个进程的模式运行。
伪分布式模式:在单台计算机上以多个进程的模式运行。该模式可以在单节点下模拟“多节点”的场景。
完全分布式模式:在多台计算机上分别以单个进程的模式运行。
具体的部署步骤以及详细的教程大家可以戳我查看。
今天跟大家分享的这个教程,主要包含以下知识点:
1:Hadoop简介与安装部署
1:Hadoop系统部署
2:HDFS架构与操作
3:MapReduce原理与实践
2:使用MapReduce进行日志分析
4:YARN架构
3:用Hadoop计算圆周率
5:HBase基础
4:HBase数据导入
6:Sqoop数据迁移
5:HBase实现Web日志场景数据处理
7:Solr基础实战
8:Hive基础实战
6:导入数据到Hive
9:Flume基础实战
10:Flume、HDFS和Hive实现日志收集和分析
7:用Flume和MapReduce进行日志分析
11:Kafka基础实战
8:按需部署Kafka
12:使用Flume和Kafka实现实时日志收集
13:Pig基础实战
关于该教程的学习,你需要有一定的计算机基础和Java基础,并且对Hadoop感兴趣,以上就是动力Java培训机构小编介绍的“Hadoop入门基础教程,涨工资就靠它了”的内容,希望对大家有帮助,如有疑问,请在线咨询,有专业老师随时为你服务。
你适合学Java吗?4大专业测评方法
代码逻辑 吸收能力 技术学习能力 综合素质
先测评确定适合在学习