# Apache Spark
O Apache Spark é um mecanismo de análise unificado para processamento de dados em grande escala com módulos integrados para SQL, streaming, machine learning e processamento de grafos. O Apache Spark é uma estrutura de processamento paralelo de código aberto que oferece suporte ao processamento na memória para aumentar o desempenho de aplicativos que analisam big data. As soluções de big data são projetadas para lidar com dados muito grandes ou complexos para bancos de dados tradicionais. O Spark processa grandes quantidades de dados na memória, o que é muito mais rápido do que as alternativas baseadas em disco.

## Leitura e Escrita de arquivos

Neste tutorial iremos ler o arquivo [censo_estado.csv](https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/censo_estado.csv) que está no meu github e escrever o conteúdo no HDFS utilizando o motor de processamento do Spark.

O Spark possui um módulo `SparkFiles` que realiza o download do arquivo e armazena localmente em uma pasta. O código abaixo realiza esta operação:

In [None]:
from pyspark import SparkFiles
url = "https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/censo_estado.csv"
spark.sparkContext.addFile(url)

O método `get` de `SparkFiles` pega o caminho para o arquivo que o Spark realizou o download:

In [None]:
file_path = SparkFiles.get("censo_estado.csv")

O código abaixo faz a leitura do arquivo *censo_estado.csv*:

- O arquivo é lido do caminho definido em `file_path`. O prefixo `file://` é para informar para o Spark que o arquivo está no disco local.
- O argumento `header=True` informa ao Spark que o arquivo csv tem cabeçalho.
- O argumento `inferSchema=True` diz

In [None]:
df = spark.read.csv("file://"+file_path, header=True, inferSchema= True)

O método `show` apresenta na tela o conteúdo do DataFrame Spark.

In [None]:
df.show(truncate=False)

A última etapa é escrever o arquivo no formato csv no HDFS. Para isto informamos o caminho do arquivo no HDFS e o prefixo `hdfs://` para que o Spark saiba que o arquivo deve ser escrito no HDFS.

In [None]:
df.write.csv("hdfs:///user/hdfs/censo.csv")

# Tarefa

Nesta atividade você deve ler um arquivo csv a partir de uma URL e escrever no HDFS:

- Primeiro leia o arquivo csv em https://raw.githubusercontent.com/savioteles/big_data/master/etl/datasets/rouanet.csv
- Escreve o arquivo no HDFS em `hdfs:///user/hdfs/rouanet.csv`