# HDFS

Hadoop é um ecossistema muito popular de Big Data escrito em Java. Mas não é necessário usar Java para trabalhar com o Hadoop. Algumas outras linguagens de programação como Python também podem ser usadas. Python também pode ser usado para escrever código para Hadoop. 

Neste tutorial iremos ler e escrever dados no Hadoop Distributed File System (HDFS). O HDFS é um sistema de arquivos distribuído nativo do Hadoop que permite o armazenamento e transmissão de grandes conjuntos de dados em máquinas de baixo custo. Possui mecanismos que o caracteriza como um sistema altamente tolerante a falhas.

# Instalação da biblioteca HDFS em Python

Para conseguirmos ler e escrever os arquivos no HDFS é necessário instalar a biblioteca em Python.

In [None]:
!pip install hdfs

# Escrita e Leitura de dados no HDFS

Neste tutorial iremos criar um DataFrame Pandas em Python e escrever o resultado em um arquivo `.csv` no HDFS.

O primeiro passo é importar as bibliotecas do `pandas`, `hdfs` e `os` para conseguir ler e escrever os dados.

In [None]:
import pandas as pd
from hdfs import InsecureClient
import os

No código abaixo criamos uma conexão com o HDFS no host `namenode` e na porta `50070`. Importante notar que quem responde as solicitações de escrita e leitura é o Namenode e, por isso, colocamos o hostname do Namenode do HDFS.

In [None]:
client_hdfs = InsecureClient('http://namenode:50070')

Iremos criar um DataFrame pandas que contem duas colunas: `estudante` e `nota`.

In [None]:
# Criação de um Pandas DataFrame
estudantes = ['Luis','Gabriel']
notas = [9, 9.5]
df = pd.DataFrame(data = {'estudante' : estudantes, 'nota': notas})

O código abaixo escreve o Dataframe `df` no HDFS no caminho `/user/hdfs/notas.csv`

In [None]:
# EScrita do Dataframe df no HDFS
with client_hdfs.write('/user/hdfs/notas.csv', encoding = 'utf-8') as writer:
  df.to_csv(writer)

Finalmente iremos ler os dados de `/user/hdfs/notas.csv` em um DataFrame Pandas `notas_df`.

In [None]:
# ====== Leitra dos arquivos ======
with client_hdfs.read('/user/hdfs/notas.csv', encoding = 'utf-8') as reader:
  notas_df = pd.read_csv(reader,index_col=0)

In [None]:
notas_df

# Tarefa

Agora você vai construir um DataFrame pandas e escrever os dados do DataFrame no HDFS no caminho `/user/hdfs/temperatura.csv`. Este DataFrame deve ter o conteúdo abaixo com duas colunas: `cidade` e `temperatura`. Depois leia o arquivo `/user/hdfs/temperatura.csv` em um DataFrame Pandas e imprima o DataFrame na tela.

```code
cidades = ['São Paulo','Rio de Janeiro']
temperaturas = [14.2, 39.5]
```