### Manipulação de Dados com DataFrames no PySpark - ForeachPartition

A função **`foreachPartition`** no PySpark é uma operação que permite aplicar uma função a cada partição do RDD ou DataFrame. Ao contrário do **`foreach`**, que aplica a função a cada linha (elemento), o **`foreachPartition`** trabalha em nível de partição, ou seja, a função é aplicada a um grupo de linhas de cada vez.

Essa função é útil quando você deseja executar operações que envolvem múltiplas linhas ao mesmo tempo, como inserir dados em um banco de dados, escrever em arquivos, ou outras operações onde é mais eficiente lidar com um lote de dados ao invés de elementos individuais.


### Benefícios do `foreachPartition`:

1. **Desempenho**: Operar em nível de partição reduz a sobrecarga de inicialização de operações externas (como conexões de banco de dados ou escrita em arquivos).
2. **Conexões externas**: Se você precisar conectar a serviços externos (como um banco de dados ou um API), pode inicializar a conexão uma vez por partição ao invés de para cada linha, melhorando significativamente a eficiência.

### Exemplo

Vamos criar um exemplo prático com massa de dados, onde usamos **`foreachPartition`** para simular a gravação de dados em uma operação externa (como gravar em um banco de dados).

#### Criar Massa de Dados


In [0]:
spark

In [0]:
from pyspark import TaskContext
import random

# Gerar massa de dados aleatórios
data = [(i, random.randint(1, 100)) for i in range(100)]

# Criar o DataFrame
df = spark.createDataFrame(data, ["id", "value"])

# Mostrar os dados iniciais
display(df)


#### Aplicar `foreachPartition`:

> **ATENÇÃO**: Precisa ser garantida a idempotência na escrita

In [0]:
# Função para processar cada partição
def process_partition(iterator):
    # Obter o ID da partição atual
    partition_id = TaskContext.get().partitionId()
    
    # Inicializar a conexão com o "banco de dados" (simulado aqui com print)
    print(f"Iniciando o processamento da partição {partition_id}")
    
    for row in iterator:
        # Simular operação de inserção em um banco de dados
        print(f"Processando o ID: {row['id']} com valor: {row['value']}")
    
    print("Fechando a conexão com o serviço externo para esta partição.")

In [0]:
df.foreachPartition(process_partition)

`[INFO]: FIM DO NOTEBOOK`