乱读天书, 不求甚解
周祎骏的个人云笔记
Toggle navigation
乱读天书, 不求甚解
主页
Linux:系统配置
Linux:用户管理
Linux:优化排错
Linux:进程调度
Linux:文件系统
Linux:网络
Linux:系统服务
Linux:安全
Linux:内核
容器:Docker
容器:containerd
容器编排:Kubernetes
IAC:Terraform
大数据:Hadoop
大数据:Zookeeper
大数据:Hbase
消息队列:rsyslog
消息队列:kafka
数据库:MySQL
数据库:MongoDB
搜索引擎:Elasticsearch
时序数据库:OpenTSDB
网站服务:Nginx
编程:Bash
编程:Perl
编程:Python
编程:C
编程:JAVA
编程:Rust
版本控制:gitlab
知识管理:docusaurus
常用小工具
关于我
标签
hadoop 0.02 基本介绍MapReduce
2016-07-04 13:53:04
63
0
0
admin
> hadoop 一个分布式计算的项目,旗下有很多成功的分布式计算工具。 本分类主要介绍hadoop 的核心功能HDFS/YARN/MapReduce #MapReduce MapReduce是hadoop 分布式计算的框架。 其处理数据有几个过程: **map** 这一过程并行处理那些没有依赖关系的数据(让所有机器一起跑起来)。它读取源数据(会把源数据分成好几个部分交给不同的map job,通常按照文件或者数量来分割),然后生成中间数据,中间数据可以没有。 **combine(可选)**处理map 的结果,数量与map 相同 **reduce** 处理map 的结果,然后写入文件,reduce 可以为空(-reduce none) 选项,这样就把map的结果作为最终结果了。 *** #注意: **map**是批量处理的job,**reduce**也是批量处理的job,两者可以任意定义,不要钻进map是干什么的,reduce 是干什么的死胡同。两者并没有太大区别(只是先后关系,还有一个数量多,一个数量少)。 一般性map可能用来筛选数据,reduce可能用来处理筛选过的数据,但是这个完全看你的需求,不要死脑筋。
上一篇:
hadoop 0.01 基本介绍YARN
下一篇:
hadoop 1.00 集群安装(hadoop-2.6.4)
文档导航