# Hadoop

> Hadoop的核心是DHFS 和Map-Reduce，而两者只是理论基础，不是具体的应用。

> 典型应用：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。



## HDFS

> HDFS-Hadoop Distributed File System,Hadoop分布式文件系统，是一个高度容错性的系统，适合部署在廉价的机器上，能提供高吞吐量的数据访问，适合有超大数据集的应用


**HDFS的设计特点：**

- **大数据文件**：非常适合T级别的数据。

- **文件分块存储**：HDFS会将一个完整的大文件平均分块储存到不同计算器上。

- **流式数据访问**：一次写入，多次读取，不支持动态改变文件内容，只能在文件末尾添加。

- **廉价硬件**：支持在普通PC应用。

- **允许硬件故障**：如果一台主机失效，可以迅速从另一副本读取文件。



**HDFS的核心：**

- **Block:** 文件分块储存的块，通常是64M。

- **NameNode:**保存整个文件系统的目录信息，文件信息，分块信息的节点，由一台专门主机保存，如果主机失效，NameNode则失效。

- **DataNode:**用于储存Block的节点，分布在集群的不同计算器上。



**HDFS优点**

- **高吞吐量访问：** HDFS的Block分布在不同的rack上，访问时HDFS会自动分配最优节点访问，Block在不同rack上有备份，可以做到多数据同时访问，另外HDFS可以并行从集群读写数据。

- **高容错性：** HDFS通过多方面保证数据的可靠性，多分复制并且分布在不同物理位置保存，数据校验功能，后台的连续自检数据一致性的功能，都为高容错提供了可能。

- **容量扩充：** HDFS的Block信息存储在NameNode上，文件的Block分布到DataNode上，当扩充的时候仅仅添加DataNode的数量即可，做到不停服扩充。


**HDFS的常见命令**

- 显示当前目录下的文件夹信息
**hadoop fs -ls**

- 递归显示所有文件夹和子文件(夹)
**hadoop fs -lsr**

- 创建目录dirname
**hadoop fs -mkdir /dirname**

- 把name.txt文件放到集群dirname个文件夹下
**hadoop fs -put name.text /dirname**

- 把集群上的demo.txt个文件下载到本地
**hadoop fs -get /dirname/demo.txt /home**

- 复制集群上的文件
**hadoop fs -cp src dst** #src源目录 dst目标目录

- 移动集群上的文件
**hadoop fs -mv src dst**

- 查看集群上某个文件的内容
**hadoop fs -cat /dirname/demo.txt**

- 删除集群上某个文件
**hadoop fs -rm /dirname/demo.txt**

- 删除集群上某个目录和目录下所有文件
**hadoop fs -rmr /dirname**

- 将本地文件上传到HDFS，并删除本地文件
**hadoop fs -moveFromLocal localsrc dst**（删除）
**hadoop fs -copyFromLocal localsrc dst**(不删除)



## Map-Reduce

> 通俗的说MapReduce是一套从海量数据提取分析元素，最后返回结果集的编程模型。


**MapReduce的基本原理**

- 1、对一个或多个Block进行map操作

- 2、对map后的结果进行汇总

- 3、对汇总后的结果进行reduce操作，得到最终结果

## Hadoop MapReduce实战 -- 词频统计

> **总体流程**
> 
> Map阶段： 完成 k-v 对的生成，（word,1）
>
> 排序阶段：对Map阶段的结果排序，相同word在一起
>
> Reduce阶段：对单词进行统计，得到（word，count)对


### 代码

- Map 阶段：

In [19]:
%%writefile mapper.py

#coding: utf-8
#!/usr/bin/env python

import sys

for line in sys.stdin:
    line = line.strip()
    words = line.split()
    
    for word in words:
        print(word,1)

Writing mapper.py


- 排序阶段

排序阶段是系统自动完成的，不需要写额外的代码

- Reduce阶段

In [20]:
%%writefile reducer.py

from operator import itemgetter
import sys

current_word = None
current_count = 0
word = None

for line in sys.stdin:
    line = line.strip()
    
    word,count = line.split("\t",1)
    
    try:
        count = int(count)
    except ValueError:
        continue
        
    if current_word == word:
        current_count += count
        
    else:
        if current_word:
            print(current_word,current_count)
            
if current_word == word:
    print(current_word,current_count)

Writing reducer.py


### 测试--本地测试代码

In [8]:
! echo "foo foo foof foo " | python mapper.py

Traceback (most recent call last):
  File "mapper.py", line 7, in <module>
    for line in sys.stdin():
TypeError: '_io.TextIOWrapper' object is not callable


### Hadoop集群运行

#### Data上传到HDFS

hadoop fs -copyFromLocal /HadoopDemo/Data /hduser/HadoopDemo1/Date

![](load.png)


#### 执行map-reduce任务

hadoop jar streamming的路径 -D mapred.reduce.tasks = 10 -mapper map代码路径 -reducer reduce代码路径 -input hadoop上的data路径  -output hadoop存放结果的路径


-D 指定reducer的个数


hadoop jar HadoopDemo/hadoop-streaming-2.8.5.jar -D mapreduce.job.name="HadoopDemo" -file /code/mapper.py -mapper /HadoopDemo/Code/mapper.py -file code/reducer.py -reducer /HadoopDemo/Code/reducer.py -input hduser/HadoopDemo1/Data/* -output hduser/HadoopDemo1/output/1


![](result.png)


#### 下载执行结果

hadoop fs -getmerge HadoopDemo1/output/1 result.txt

# Spark

> 在