# Particionamento e `repartition()` vs. `coalesce()` 

üîß O que √© particionamento no Spark?
O particionamento define como os dados de um DataFrame s√£o distribu√≠dos fisicamente entre os n√≥s e n√∫cleos do cluster. Cada parti√ß√£o representa uma fatia de dados que pode ser processada paralelamente.

‚úîÔ∏è Quanto melhor os dados estiverem particionados, maior o paralelismo, menor o custo de shuffle e melhor o uso de CPU e mem√≥ria.

‚öôÔ∏è M√©todos de controle de particionamento
## `repartition(numPartitions)`
‚úÖ O que faz:
- Cria novas parti√ß√µes redistribuindo completamente os dados via shuffle total.
- Garante que as parti√ß√µes fiquem mais uniformes.

üß† Quando usar:
- Quando o DataFrame est√° desequilibrado (skewed).
- Antes de um join pesado, para garantir distribui√ß√£o adequada.
- Para aumentar o paralelismo de uma opera√ß√£o como write().

## coalesce(numPartitions)
‚úÖ O que faz:
- Reduz o n√∫mero de parti√ß√µes sem embaralhar os dados (shuffle evitado).
- Simplesmente funde parti√ß√µes j√° existentes.

üß† Quando usar:
- Antes de um salvamento para disco √∫nico (por exemplo, .toPandas(), .write.csv()).
- Ao final do pipeline para evitar muitos arquivos pequenos no output.

| Aspecto                  | `repartition()`                       | `coalesce()`                          |
| ------------------------ | ------------------------------------- | ------------------------------------- |
| Tipo de opera√ß√£o         | Com shuffle                           | Sem shuffle                           |
| Pode aumentar parti√ß√µes? | ‚úÖ Sim                                 | ‚ùå N√£o (s√≥ reduz)                      |
| Custo computacional      | Alto (embaralha dados)                | Baixo (mant√©m dados locais)           |
| Ideal para               | Equalizar carga antes de joins/writes | Otimizar escrita com menos arquivos   |
| Exemplo comum            | `df.repartition(200)`                 | `df.coalesce(1)` para salvar em 1 CSV |

In [0]:
from pyspark.sql.functions import col, expr, sequence
from pyspark.sql.types import StringType, DateType
import random
from datetime import datetime, timedelta

# Gerar uma lista de CPFs aleat√≥rios
def gerar_cpf():
    return ''.join([str(random.randint(0, 9)) for _ in range(11)])

cpfs = [gerar_cpf() for _ in range(10000)]

# Gerar uma lista de datas de refer√™ncia
data_inicial = datetime(2025, 1, 1).date()
datas_ref = [data_inicial + timedelta(days=i) for i in range(10000)]

# Criar DataFrame
df = spark.createDataFrame(zip(cpfs, datas_ref), schema=["CPF", "DT_REF"])

# Reparticionar o DataFrame
df_reparticionado = df.repartition(10)

display(df_reparticionado)

# Broadcast joins e quando utiliz√°-los

üìò O que √© um Broadcast Join?
√â uma t√©cnica usada quando uma das tabelas do join √© significativamente menor que a outra.

O Spark envia essa tabela pequena para todos os executores (n√≥s do cluster), permitindo que o join ocorra localmente em cada particionamento da tabela maior.

‚öôÔ∏è Como funciona internamente
Spark estima o tamanho das tabelas com base no metastore e estat√≠sticas de cardinalidade.

Se detectar que uma das tabelas est√° abaixo de um limite configur√°vel (`spark.sql.autoBroadcastJoinThreshold`, padr√£o 10 MB), ele automaticamente aplica o broadcast join.

> PySpark Broadcast Join is an important part of the SQL execution engine, With broadcast join, PySpark broadcast the smaller DataFrame to all executors and the executor keeps this DataFrame in memory and the larger DataFrame is split and distributed across all executors so that PySpark can perform a join without shuffling any data from the larger DataFrame as the data required for join colocated on every executor.

Ou voc√™ pode for√ßar com `broadcast()` manualmente.

| Vantagem                 | Explica√ß√£o                                                       |
| ------------------------ | ---------------------------------------------------------------- |
| üöÄ Performance           | Evita o **shuffle** da tabela maior ‚Üí menos I/O e tempo de rede. |
| üíæ Efici√™ncia de mem√≥ria | √ötil quando a tabela pequena **cabe na mem√≥ria dos executores**. |
| üîÅ Join Local            | Opera√ß√µes ocorrem localmente por parti√ß√£o, o que reduz lat√™ncia. |


In [0]:
from pyspark.sql.types import StructType, StructField, IntegerType, StringType
from pyspark.sql.functions import broadcast

# ================================
# 1. Criar a tabela de contratos
# ================================
schema_contratos = StructType([
    StructField("contrato_id", IntegerType(), True),
    StructField("cliente_id", IntegerType(), True),
    StructField("score_credito", IntegerType(), True)
])

dados_contratos = [
    (101, 1, 745),
    (102, 2, 620),
    (103, 3, 590),
    (104, 4, 710),
    (105, 5, 800),
    (106, 6, 670),
]

df_contratos = spark.createDataFrame(dados_contratos, schema=schema_contratos)

# ==========================================
# 2. Criar a tabela de faixas de score (pequena)
# ==========================================

schema_faixas = StructType([
    StructField("faixa_min", IntegerType(), True),
    StructField("faixa_max", IntegerType(), True),
    StructField("segmento", StringType(), True)
])

dados_faixas = [
    (300, 599, "Alto Risco"),
    (600, 699, "M√©dio Risco"),
    (700, 850, "Baixo Risco")
]

df_faixas_score = spark.createDataFrame(dados_faixas, schema=schema_faixas)

# ==========================================
# 3. Realizar o broadcast join
# ==========================================

df_join = df_contratos.join(
    broadcast(df_faixas_score),
    (df_contratos["score_credito"] >= df_faixas_score["faixa_min"]) &
    (df_contratos["score_credito"] <= df_faixas_score["faixa_max"]),
    how="left"
)

# ==========================================
# 4. Exibir resultado
# ==========================================
display(df_join.select("contrato_id", "cliente_id", "score_credito", "segmento"))

# Caching com `cache()` e `persist()`

No Apache Spark, os m√©todos `cache()` e `persist()` s√£o utilizados para armazenar em mem√≥ria (ou em disco) os dados intermedi√°rios de um DataFrame ou RDD, com o objetivo de acelerar reprocessamentos subsequentes. Isso √© especialmente √∫til em pipelines de transforma√ß√£o que reutilizam os mesmos dados v√°rias vezes (ex.: treinamentos iterativos de modelos de machine learning ou ETL intensivo). A escolha entre eles depende de necessidades espec√≠ficas de performance e uso de mem√≥ria.

##üîπ `cache()`: armazenamento padr√£o em mem√≥ria
- **Defini√ß√£o:** `cache()` √© um atalho para `persist(StorageLevel.MEMORY_AND_DISK)` em PySpark, embora nos bastidores use por padr√£o `MEMORY_AND_DISK` ou `MEMORY_ONLY`, dependendo da vers√£o e linguagem.

- **Comportamento:** Tenta armazenar os dados em mem√≥ria; se n√£o couberem completamente, Spark recomputa as parti√ß√µes n√£o armazenadas sempre que forem requisitadas.

- **Uso t√≠pico:** Quando os dados cabem razoavelmente na mem√≥ria e o custo de recomputa√ß√£o n√£o √© cr√≠tico para as parti√ß√µes faltantes.

Exemplo:

```
df.cache()
df.count()  # materializa o cache
```

Benef√≠cio real:

```
1¬™ chamada: df.count() -> 5.11 segundos
2¬™ chamada: df.count() -> 0.44 segundos
```

##üîπ `persist(storageLevel):` controle granular de armazenamento
- **Defini√ß√£o:** Permite escolher o n√≠vel de persist√™ncia desejado entre v√°rias op√ß√µes oferecidas pela enumera√ß√£o StorageLevel, como:

- `MEMORY_ONLY`
- `MEMORY_AND_DISK`
- `DISK_ONLY`
- `MEMORY_AND_DISK_SER` (vers√£o serializada)
- `OFF_HEAP`

- **Comportamento:** Armazena os dados no(s) n√≠vel(is) definidos. Se a mem√≥ria n√£o for suficiente e o n√≠vel permitir, armazena o excedente no disco.

Exemplo:

```
from pyspark.storagelevel import StorageLevel
df.persist(StorageLevel.DISK_ONLY)
df.count()  # materializa a persist√™ncia
```

> Ganho similar ao cache(), com maior flexibilidade e controle sobre o comportamento em ambientes com press√£o de mem√≥ria

##üîπ Quando utilizar?
Use `cache()`:

- Para opera√ß√µes leves e uso repetido dos dados durante uma √∫nica sess√£o;
- Quando os dados cabem confortavelmente em mem√≥ria.

Use `persist()`:

- Quando os dados n√£o cabem totalmente em mem√≥ria;
- Quando se deseja armazenamento serializado (reduz uso de heap) ou com fallback para disco;
- Quando √© necess√°rio replicar os dados entre executores para toler√¢ncia a falhas (`MEMORY_ONLY_2`, etc.).

##üîπ Boas pr√°ticas
- **Materializa√ß√£o:** o cache s√≥ √© efetivado ap√≥s a execu√ß√£o de uma a√ß√£o que varre completamente o DataFrame, como `count()` ou `collect()`. A√ß√µes parciais como `take(1)` cacheiam apenas uma parti√ß√£oLearning Spark 2nd.

- **Unpersist:** sempre remova dados da mem√≥ria ap√≥s o uso com `df.unpersist()` para liberar recursos.