# Alura - Spark: apresentando a ferramenta

## Introdução

### [Apache Spark](https://spark.apache.org/)

Apache Spark é uma plataforma de computação em *cluster* que fornece uma API para programação distribuída para processamento de dados em larga escala, semelhante ao modelo *MapReduce*, mas projetada para ser rápida para consultas interativas e algoritmos iterativos.

O Spark permite que você distribua dados e tarefas em clusters com vários nós. Imagine cada nó como um computador separado. A divisão dos dados torna mais fácil o trabalho com conjuntos de dados muito grandes porque cada nó funciona processa apenas uma parte parte do volume total de dados.

O Spark é amplamente utilizado em projetos analíticos nas seguintes frentes:

- Preparação de dados
- Modelos de machine learning
- Análise de dados em tempo real

### [PySpark](https://spark.apache.org/docs/3.1.2/api/python/index.html)

PySpark é uma interface para Apache Spark em Python. Ele não apenas permite que você escreva aplicativos Spark usando APIs Python, mas também fornece o *shell* PySpark para analisar interativamente seus dados em um ambiente distribuído. O PySpark oferece suporte à maioria dos recursos do Spark, como Spark SQL, DataFrame, Streaming, MLlib (Machine Learning) e Spark Core.

<center><img src="https://caelum-online-public.s3.amazonaws.com/2273-introducao-spark/01/img-001.png"/></center>

#### Spark SQL e DataFrame

Spark SQL é um módulo Spark para processamento de dados estruturados. Ele fornece uma abstração de programação chamada DataFrame e também pode atuar como mecanismo de consulta SQL distribuído.

#### Spark Streaming

Executando em cima do Spark, o recurso de *streaming* no Apache Spark possibilita o uso de poderosas aplicações interativas e analíticas em *streaming* e dados históricos, enquanto herda a facilidade de uso do Spark e as características de tolerância a falhas.

#### Spark MLlib

Construído sobre o Spark, MLlib é uma biblioteca de aprendizado de máquina escalonável que fornece um conjunto uniforme de APIs de alto nível que ajudam os usuários a criar e ajustar *pipelines* de aprendizado de máquina práticos.

#### Spark Core

Spark Core é o mecanismo de execução geral subjacente para a plataforma Spark sobre o qual todas as outras funcionalidades são construídas. Ele fornece um RDD (*Resilient Distributed Dataset*) e recursos de computação na memória.

Ferramentas necessárias para rodar este notebook:
- Spark
- Python
- findspark 

## Definindo o acesso ao Spark

In [1]:
import os 
os.environ["SPARK_HOME"] = "/home/yuto/softwares/spark-3.4.1-bin-hadoop3"


In [2]:
import findspark 
findspark.init()

## [SparkSession](https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.SparkSession.html)

O ponto de entrada para programar o Spark com a API Dataset e DataFrame.

Uma SparkSession pode ser utilizada para criar DataFrames, registrar DataFrames como tabelas, executar consultas SQL em tabelas, armazenar em cache e ler arquivos parquet. Para criar uma SparkSession, use o seguinte padrão de construtor:

In [3]:
from pyspark.sql import SparkSession

In [4]:
spark = SparkSession.builder.master('local[*]').getOrCreate()

23/09/09 18:41:33 WARN Utils: Your hostname, yuto resolves to a loopback address: 127.0.1.1; using 192.168.1.141 instead (on interface wlp2s0)
23/09/09 18:41:33 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/09 18:41:34 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [5]:
spark

## DataFrames com Spark


### Interfaces Spark

Existem três interfaces principais do Apache Spark que você deve conhecer: Resilient Distributed Dataset, DataFrame e Dataset.

- **Resilient Distributed Dataset**: A primeira abstração do Apache Spark foi o Resilient Distributed Dataset (RDD). É uma interface para uma sequência de objetos de dados que consiste em um ou mais tipos localizados em uma coleção de máquinas (um cluster). Os RDDs podem ser criados de várias maneiras e são a API de “nível mais baixo” disponível. Embora esta seja a estrutura de dados original do Apache Spark, você deve se concentrar na API DataFrame, que é um superconjunto da funcionalidade RDD. A API RDD está disponível nas linguagens Java, Python e Scala.

- **DataFrame**: Trata-se de um conceito similar ao DataFrame que você pode estar familiarizado como o pacote pandas do Python e a linguagem R . A API DataFrame está disponível nas linguagens Java, Python, R e Scala.

- **Dataset**: uma combinação de DataFrame e RDD. Ele fornece a interface digitada que está disponível em RDDs enquanto fornece a conveniência do DataFrame. A API Dataset está disponível nas linguagens Java e Scala.

Em muitos cenários, especialmente com as otimizações de desempenho incorporadas em DataFrames e Datasets, não será necessário trabalhar com RDDs. Mas é importante entender a abstração RDD porque:

- O RDD é a infraestrutura subjacente que permite que o Spark seja executado com tanta rapidez e forneça a linhagem de dados.

- Se você estiver mergulhando em componentes mais avançados do Spark, pode ser necessário usar RDDs.

- As visualizações na Spark UI fazem referência a RDDs.

## Mãos a Obra: Projeto
Nosso projeto consiste em ler, manipular, tratar e salvar um conjunto de dados volumosos utilizando como ferramenta o Spark.

## Utilização dos dados

### Dados Públicos CNPJ
#### Receita Federal

Dados reduzidos para aprender e treinar
> [Empresas](https://caelum-online-public.s3.amazonaws.com/2273-introducao-spark/01/empresas.zip)
> 
> [Estabelecimentos](https://caelum-online-public.s3.amazonaws.com/2273-introducao-spark/01/estabelecimentos.zip)
> 
> [Sócios](https://caelum-online-public.s3.amazonaws.com/2273-introducao-spark/01/socios.zip)

[Fonte original dos dados](https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/consultas/dados-publicos-cnpj)

---
[property SparkSession.read](https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.SparkSession.read.html)

[DataFrameReader.csv(*args)](https://spark.apache.org/docs/3.1.2/api/python/reference/api/pyspark.sql.DataFrameReader.csv.html)


### Carregando os dados das empresas


In [6]:
import zipfile

In [7]:
zipfile.ZipFile('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/empresas.zip', 'r').extractall('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados')

In [8]:
path = '/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/empresas'
empresas = spark.read.csv(path, sep=';', inferSchema=True)

                                                                                

In [9]:
empresas.count()

                                                                                

4585679

### Carregando os dados dos sócios

In [10]:
zipfile.ZipFile('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/socios.zip', 'r').extractall('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados')

In [11]:
path = '/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/socios'
socios = spark.read.csv(path, sep=';', inferSchema=True)

                                                                                

In [12]:
socios.count()

                                                                                

2046430

### Carregando os dados dos estabelecimentos

In [13]:
zipfile.ZipFile('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/estabelecimentos.zip', 'r').extractall('/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados')

In [14]:
path = '/home/yuto/Documentos/estudos/data science/alura-spark-apresentando-a-ferramenta/dados/estabelecimentos'
estabelecimentos = spark.read.csv(path, sep=';', inferSchema=True)

                                                                                

In [15]:
estabelecimentos.count()

                                                                                

4836219