# Introdução ao Pyspark e Persistência dos Dados

## 1. Introdução Pyspark

Pandas e PySpark são bibliotecas populares no ecossistema Python para trabalhar com dados estruturados. Eles oferecem recursos de manipulação e análise de dados, mas diferem significativamente em termos de escalabilidade, desempenho e recursos de computação distribuída. Aqui, exploraremos as principais diferenças entre Pandas e PySpark DataFrames, juntamente com exemplos de uso de ambos em Python.

**1. Escalabilidade:**

- **Pandas:** O Pandas opera na memória e é adequado para lidar com conjuntos de dados menores que cabem na RAM disponível. Ele é projetado principalmente para processamento em uma única máquina.
   
- **PySpark:** O PySpark, por outro lado, foi projetado para computação distribuída e pode lidar com grandes conjuntos de dados que excedem a capacidade de memória de uma única máquina. Ele distribui dados por um cluster de máquinas, permitindo o processamento paralelo.

<img src="https://www.element61.be/sites/default/files/img_knowledge_base/PandasVsPySpark1.png" width=380 text="https://www.element61.be/en/resource/how-use-python-and-pandas-while-embracing-power-spark">

<img src="https://www.element61.be/sites/default/files/img_knowledge_base/PandasVsPySpark2.png" width=380 text="https://www.element61.be/en/resource/how-use-python-and-pandas-while-embracing-power-spark">

**2. Desempenho:**

- **Pandas:** O Pandas é otimizado para processamento em uma única máquina, o que o torna muito eficiente para conjuntos de dados de pequeno e médio porte. No entanto, pode ter dificuldades com conjuntos de dados maiores devido a limitações de memória.
   
- **PySpark:** o desempenho do PySpark é dimensionado de acordo com o tamanho do cluster, tornando-o adequado para processamento de big data. Ele aproveita mecanismos de computação distribuída como Apache Spark para alcançar alto desempenho.

<img src="https://liliasfaxi.github.io/Atelier-Spark/img/p4/rdd.png" width=500 text="https://liliasfaxi.github.io/Atelier-Spark/p4-batch/">


**3. Fácil de usar:**

- **Pandas:** O Pandas fornece uma API intuitiva e fácil de usar que é amplamente adotada por analistas de dados e cientistas. É conhecido por sua facilidade de uso e poderosos recursos de manipulação de dados.
   
- **PySpark:** a API Pandas do PySpark é semelhante ao Pandas, facilitando a transição dos usuários do Pandas. No entanto, configurar um cluster Spark e lidar com conceitos de computação distribuída pode ser mais complexo.

**4. Criação de DataFrame:**

- **Pandas:** Pandas DataFrames são criados a partir de várias fontes de dados, como arquivos CSV, planilhas Excel, bancos de dados SQL e dicionários Python.

- **PySpark:** PySpark DataFrames normalmente são criados a partir de fontes de dados distribuídas, como HDFS, Apache Hive, Apache HBase ou RDDs (Resilient Distributed Datasets) existentes.

**5. Casos de uso:**

- **Pandas:** O Pandas é ideal para exploração, análise e pré-processamento de dados em conjuntos de dados menores, especialmente em um ambiente de máquina única. É uma ferramenta indispensável para muitos cientistas de dados.

- **PySpark:** O PySpark foi projetado para processamento de big data e é mais adequado para situações em que os dados não cabem na memória ou quando você precisa aproveitar a computação distribuída para tarefas como ETL (Extrair, Transformar, Carregar) e tarefas de grande porte. análise de dados em escala.

<img src="https://miro.medium.com/v2/resize:fit:1100/format:webp/1*eo9rDC-kvAxCtP1dE5iZdg.png" width=600 text="https://medium.com/@rana.akansha321/an-introduction-to-pyspark-powering-big-data-processing-with-python-e398cfb6edd9">

Em resumo, Pandas e PySpark DataFrames atendem a propósitos diferentes no ecossistema de processamento de dados. O Pandas é excelente para trabalhar com conjuntos de dados de pequeno e médio porte em uma única máquina, enquanto o PySpark é excelente para lidar com tarefas de processamento de dados distribuídos em grande escala. A escolha entre eles depende do tamanho específico dos dados e dos requisitos de processamento.

## Exemplos Pyspark x Pandas

Vamos nos aprofundar nas diferenças entre Pandas e PySpark DataFrames e mostrar várias operações usando ambas as bibliotecas, incluindo leitura de arquivos CSV e JSON, adição de colunas, filtragem de dados e remoção de duplicatas.

**1. Lendo arquivos CSV:**


- **Pandas:**

   ```python
   import pandas as pd

   pandas_df = pd.read_csv('data.csv')
   ```

- **PySpark:**


Out[3]: Row(_c0=0, id=178, escolas_postos='HENFIL', bairro='CAJU', endereço='RUA CARLOS SEIDL', lat=-22.88089, lon=-43.22533, quantidade=20, subprefeitura='CENTRO', tipo_escola='CIEP', numero='S/N')

- `SparkSession.builder`: Inicia a construção de um `SparkSession`. O `SparkSession` é uma interface unificada para todos os recursos do Spark, incluindo SQL, DataFrames, DataSets, MLlib e GraphX.

- `.appName('Aula PySpark')`: Define o nome da aplicação que será exibido nos logs do Spark. Isso ajuda na identificação e rastreamento da aplicação em um ambiente de cluster.

- `.getOrCreate()`: Cria um novo `SparkSession` com as configurações especificadas ou retorna um `SparkSession` existente com o mesmo nome, se já existir. Isso é útil para evitar a criação de múltiplos `SparkSession`s com o mesmo nome, o que poderia levar a conflitos de recursos e estado.

Essa etapa só não é obrigatória dentro do Databricks, uma vez que ele foi criado para ser usado com spark.

In [0]:
nome_arquivo = '/FileStore/tables/df_escolas.csv'



**2. Lendo JSON:**

   - **Pandas:**
   ```python
   import pandas as pd

   pandas_df = pd.read_json('data.json')
   ```

   - **PySpark:**

   ```python
   from pyspark.sql import SparkSession
   
   spark = SparkSession.builder.appName('example').getOrCreate()

   pyspark_df = spark.read.json('data.json')
   ```

**3. Adicionando colunas:**

   - **Pandas:**

   ```python
   import pandas as pd
   
   pandas_df['New_Column'] = 1
   ```

   - **PySpark:**

   ```python
   from pyspark.sql.functions import lit

   pyspark_df = pyspark_df.withColumn('New_Column', lit(1))
   ```


**4. Filtrando os dados:**

   - **Pandas:**

   ```python
   import pandas as pd

   filtered_df = pandas_df[pandas_df['Age'] > 25]
   ```

   - **PySpark:**

   ```python
   from pyspark.sql.functions import col

   filtered_df = pyspark_df.filter(col('Age') > 25)
   ```

**5. Verificando Não nulos:**

   - **Pandas:**

   ```python
   import pandas as pd
   pandas_df = pandas_df[pandas_df.col1.notnull()]
   ```
<br>

   - **PySpark:**

   ```python
   
   pyspark_df = pyspark_df.where(col("col1").isNolNull())
   ```

**6. Excluindo duplicatas:**

   - **Pandas:**

   ```python
   import pandas as pd
   pandas_df = pandas_df.drop_duplicates()
   ```
<br>

   - **PySpark:**

   ```python
   
   pyspark_df = pyspark_df.dropDuplicates()
   ```


**7. Seleciona colunas:**

   - **Pandas:**

   ```python
   import pandas as pd
   lista_colunas = ["col1", "col2"]
   pandas_df = pandas_df[lista_colunas]
   ```
<br>

   - **PySpark:**

   ```python
   lista_colunas = ["col1", "col2"]
   pyspark_df = pyspark_df.select(lista_colunas)
   ```


**8. Cria df:**

- **Pandas:**

```python
data = [{"col1":"2   ", "col2" : "1", "col3":"3"},
        {"col1":"2    ", "col2" : "1", "col3":"3"},
        {"col1":"2     ", "col2" : "1", "col3":"3"}]

df = pd.DataFrame(data)
```
<br>

   - **PySpark:**

In [0]:
from pyspark.sql.functions import *

data = [{"col1":"2   ", "col2" : "1", "col3":"3"},
        {"col1":"2    ", "col2" : "1", "col3":"3"},
        {"col1":"2     ", "col2" : "1", "col3":"3"}]



**8. Converte df Pyspark <> Pandas:**

- **Pyspark para Pandas:**

```python
df = pyspark_df.toPandas()
```
<br>

   - **Pandas para PySpark:**

```python
df_spark = spark.createDataFrame(df)
```

## 2. Persistência de Dados

Persistir dados em vários formatos de arquivo como CSV, JSON, Parquet e outros é uma tarefa comum no processamento e análise de dados e no dia a dia de um Engenheiro de Dados. Python, Pandas e PySpark fornecem ferramentas e bibliotecas poderosas para fazer isso.

**1. CSV (valores separados por vírgula):**

**Exemplo - Escrevendo CSV Python:**

```python
import csv

data = [
    ["Name", "Age", "City"],
    ["Alice", 25, "New York"],
    ["Bob", 30, "Los Angeles"],
    ["Charlie", 28, "Chicago"]
]

with open("/FileStore/tables/data.csv", mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerows(data)
```
**Exemplo - Escrevendo CSV com Pandas:**

```python
import pandas as pd

data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 28],
    "City": ["New York", "Los Angeles", "Chicago"]
}

df = pd.DataFrame(data)
df.to_csv("/FileStore/tables/data.csv", index=False)
```


In [0]:
from pyspark.sql import SparkSession

# Inicializar SparkSession
spark = SparkSession.builder \
    .appName("Exemplo") \
    .getOrCreate()

# Dados
data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 28],
    "City": ["New York", "Los Angeles", "Chicago"]
}

# Criar DataFrame a partir dos dados
df = spark.createDataFrame(list(zip(data["Name"], data["Age"], data["City"])), ["Name", "Age", "City"])

# Salvar o DataFrame em formato CSV


**2. JSON :**


**Exemplo - Escrevendo JSON Python:**

```python
import json

data = {
    "Name": "Alice",
    "Age": 25,
    "City": "New York"
}

with open("/FileStore/tables/data.json", 'w') as file:
    json.dump(data, file)
```
**Exemplo - Escrevendo JSON com Pandas:**

```python
import pandas as pd

data = {
    "Name": ["Alice", "Bob", "Charlie"],
    "Age": [25, 30, 28],
    "City": ["New York", "Los Angeles", "Chicago"]
}

df = pd.DataFrame(data)
df.to_json("/FileStore/tables/data.json", orient="records")
```

**3. Parquet:**

Parquet é um formato de arquivo de armazenamento colunar altamente eficiente para processamento de big data. No PySpark, você pode usar o módulo `pyspark.sql` para ler e escrever arquivos Parquet.

<img src="https://miro.medium.com/v2/resize:fit:887/1*0yVtTZ6MSR-S_uF2YeeUqQ.png" width=500>

**Exemplo - Escrevendo Parquet com Pandas:**
```python
# Salvar o DataFrame em formato Parquet
df.to_parquet("/FileStore/tables/data.parquet", index=False)
```

**Exemplo - Escrevendo Parquet com PySpark:**


### Parquet x CSV

Podemos comparar o uso do Parquet e o uso do CSV da seguinte forma:

- Armazenamento de dados: O Parquet é um formato de armazenamento de dados de colunas otimizado para o processamento de grandes quantidades de dados em sistemas distribuídos, enquanto o CSV é um formato de arquivo simples e amplamente utilizado para armazenar dados em tabelas, com suporte a tipos de dados simples, como inteiros, reais e strings;

- Eficiência de armazenamento: O Parquet oferece compressão eficiente e armazenamento de dados estruturados de forma eficiente, enquanto o CSV não oferece compressão e armazenamento de dados estruturados pode ser ineficiente para grandes quantidades de dados;

- Leitura e escrita: O Parquet é otimizado para realizar leituras rápidas de subconjuntos de colunas, enquanto o CSV é mais adequado para a leitura e escrita de dados em uma tabela simples; e
    Integração com ferramentas: O Parquet é suportado por diversas ferramentas de análise de dados, enquanto o CSV é compatível com a maioria das ferramentas de análise de dados e de planilhas.

Em resumo, o Parquet é uma boa opção para o armazenamento de grandes quantidades de dados em sistemas distribuídos, enquanto o CSV é uma opção mais adequada para o armazenamento de dados simples em tabelas em uma única máquina.





**4. Outros formatos de arquivo:**

Existem muitos outros formatos de arquivo comumente usados para persistência de dados, como Avro, ORC e Feather. O PySpark também suporta muitos desses formatos e você pode usá-los de forma semelhante à forma como demonstramos o Parquet.

**Exemplo - Escrevendo Avro com PySpark:**

```python
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("AvroExample").getOrCreate()

data = [("Alice", 25, "New York"), ("Bob", 30, "Los Angeles"), ("Charlie", 28, "Chicago")]
columns = ["Name", "Age", "City"]
df = spark.createDataFrame(data, columns)

df.write.format("avro").save("data.avro")
spark.stop()
```

<center>
<img src="https://datacrump.com/wp-content/uploads/2023/04/format_cover.png" text="https://datacrump.com/csv-parquet-json-avro/" width=600>
</center>

Em resumo, Python, Pandas e PySpark oferecem maneiras versáteis de persistir dados em vários formatos de arquivo, facilitando o trabalho com diferentes fontes e ferramentas de dados em seus pipelines de processamento e análise de dados. Você pode escolher o formato que melhor atende às suas necessidades com base em fatores como eficiência, legibilidade e compatibilidade com outros sistemas.

## Bibliografia e material de aprofundamento
<br>

- https://medium.com/@rana.akansha321/an-introduction-to-pyspark-powering-big-data-processing-with-python-e398cfb6edd9
- https://datacrump.com/csv-parquet-json-avro/
- https://towardsdatascience.com/demystifying-the-parquet-file-format-13adb0206705


## [Avaliação anônima](https://forms.gle/tShxhxNYhvi6ZmQm8)

## Exercício

Converta o código da aula de exercício para pyspark, rode para 100 amostras ou mais, salve o arquivo final em csv e parquet e compare o tamanho dos arquivos.
