# HDFS

Hadoop Distributed File System - распределенная файловая система. Запускалась на кластере ~ 4000 машин. 
- устойчива к падениям
- масштабируема 
- безопасность (права доступа и т.д.)
- написана на Java
- концепция основана на Google GFS
- на узлах кластера используются нативные файловые системы


Узлы бывают двух видов:
- `NameNode` - хранение метаинформации
- `DataNode` - хранение данных

Бывает `Secondary NameNode`.

В целом процесс получения/записи данных выглядит так:
1. Клиент обращается к `NameNode`
2. Клиент перенаправляется к соответствующему `DataNone` для  чтения/записи данных. 


![HDFS Architecture](https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/images/hdfsarchitecture.png)

Данные реплицируются, `NameNode` постоянно общается с `DataNode` и отслеживает их состояние, перераспределяет данные. `DataNode` могут обмениваться данными напрямую.

![](https://hadoop.apache.org/docs/r1.2.1/images/hdfsdatanodes.gif)

Логически HDFS представляет из себя привычную иерархическую файловую систему. 

- файлы делятся на блоки (по умолячанию 128Мб)
- каждый блок файла копируется по узлам сети (по умолчанию на 3 уззла)
- `NameNode` отслеживает каждый состояние узлов
- если узел стал недоступен, то блок автоматически до-реплицируется

# Коммандная строка

Для того, чтобы положить файл на `HDFS` с помощью командной строки, сделаем следующее:
#### 1. Запустим `bash` в контексте котейнера:

```bash
    docker exec -it hadoop-sandbox bash
```

#### 2. Посмотрим на соджержимое "домашней" директории:
```bash
    hadoop fs -ls /user/root
```    

### 3. Скопируем файл из локальной файловой системы на `HDFS`
```bash
    hadoop fs -put /course/data/weather.csv /user/root
```  

### 4. Проверим
```bash
    hadoop fs -ls /user/root
``` 

#### 5. Посмотрим содержимое текстового файла
```bash
    hadoop fs -cat /user/root/weather.csv
``` 

#### 6. Скопируем файл из `HDFS` на локальную файловую систему
```bash
    hadoop fs -get /user/root/weather.csv weather2.csv
``` 

#### 7. Удалим файл на `HDFS`
```bash
    hadoop fs -rm /user/root/weather.csv 
``` 

# Python API

HDFS представляет REST HTTP API, для которого есть клиенты, например, из `Python`

In [None]:
import hdfs

http_fs = hdfs.InsecureClient('http://localhost:14000', user='root')

with http_fs.write('lines.txt', encoding='utf-8') as w:
    for i in range(200):
        w.write(str(i))
        w.write('\n')

In [2]:
http_fs.delete('lines.txt')

True

In [None]:
http_fs.upload('weather.csv', 'data/weather.csv')

In [None]:
http_fs.delete('weather.csv')