# üìò Tutorial PySpark: Fun√ß√µes de Agrega√ß√£o e Cria√ß√£o de Fun√ß√µes Personalizadas

## Objetivo Geral
- Apresentar os principais conceitos e ferramentas do PySpark relacionados a agrupamentos e agrega√ß√µes de dados.  
- Ensinar como criar fun√ß√µes personalizadas e aplic√°-las com `groupBy`.  
- Preparar a base conceitual para c√°lculos como o PSI (Population Stability Index), mas com aplicabilidade mais ampla.  

---

## Sum√°rio


1. [Prepara√ß√£o do Ambiente](#2-prepara√ß√£o-do-ambiente)
2. [Introdu√ß√£o ao PySpark](#1-introdu√ß√£o-ao-pyspark)  
3. [Explora√ß√£o do Dataset](#3-explora√ß√£o-do-dataset)  
4. [üîç Agrupamentos com groupBy](#4-agrupamentos-com-groupby)  
5. [üß± Janela e Agrupamentos Avan√ßados](#5-janela-e-agrupamentos-avan√ßados)  
6. [üõ†Ô∏è Fun√ß√µes Personalizadas com UDF](#6-fun√ß√µes-personalizadas-com-udf)  
7. [üß™ Estudos de Caso](#7-estudos-de-caso)  
8. [üìä Exemplo Aplicado: C√°lculo do PSI](#8-exemplo-aplicado-c√°lculo-do-psi)  
9. [üîö Conclus√µes e Pr√≥ximos Passos](#9-conclus√µes-e-pr√≥ximos-passos)  

---


## 1. Prepara√ß√£o do Ambiente

### 1.1. Importa√ß√µes necess√°rias.


In [38]:
# Bibliotecas padr√£o
import numpy as np
import pandas as pd

# PySpark - Sess√£o
from pyspark.sql import SparkSession

# PySpark - Fun√ß√µes
from pyspark.sql.functions import (
    concat_ws,
    avg,
    col,
    count,
    lit,
    log,
    percentile_approx,
    sum as Fsum,
    udf,
    when,
    to_date,
    lpad,
)
from pyspark.sql import functions as F

# PySpark - Tipos
from pyspark.sql.types import IntegerType, StringType

# PySpark - Janela
from pyspark.sql.window import Window


### 1.2. Simula√ß√£o de um dataset 

Iremos simular um dataset com colunas `score`, `ambiente`, `modelo`, `target`.

üéØ Objetivo:
	‚Ä¢	Simular dois modelos (modelo_a, modelo_b)
	‚Ä¢	Cada um com dados nos ambientes:
	‚Ä¢	DEV: 6 meses
	‚Ä¢	OOT: 3 meses
	‚Ä¢	PRD: 12 meses
	‚Ä¢	modelo_a permanece calibrado
	‚Ä¢	modelo_b vai descalibrando ao longo do tempo

‚∏ª

üì¶ Etapas da simula√ß√£o:
	1.	Gerar uma base com colunas: score, env, year, month, model
	2.	modelo_a: score est√°vel em todos os ambientes
	3.	modelo_b: score muda ao longo do tempo (ex: m√©dia ou vari√¢ncia cresce em PRD)


In [5]:
import pandas as pd
import numpy as np

def simulate_model_data(model_name, start_year=2023):
    """
    Simula scores e vari√°vel resposta para um modelo nos ambientes DEV, OOT e PRD.
    
    modelo_a: score calibrado e est√°vel
    modelo_b: score descalibrando em PRD (aumenta m√©dia ao longo do tempo)
    """
    rows = []
    rng = np.random.default_rng(seed=42 if model_name == 'modelo_a' else 99)

    def generate_block(env, year, month, loc, size=1000):
        # Gera scores com m√©dia loc e desvio padr√£o 0.1
        scores = rng.normal(loc=loc, scale=0.1, size=size)
        scores = np.clip(scores, 0.01, 0.99)  # garantir intervalo v√°lido [0, 1]
        vr = rng.binomial(1, p=scores)  # vari√°vel resposta: simula desfecho com base no score
        return pd.DataFrame({
            'model': model_name,
            'env': env,
            'year': year,
            'month': month,
            'score': scores,
            'vr': vr
        })

    # Ambiente DEV (6 meses est√°veis)
    for month in range(1, 7):
        rows.append(generate_block('DEV', start_year, month, loc=0.5))

    # Ambiente OOT (3 meses)
    for month in range(7, 10):
        loc = 0.5 if model_name == 'modelo_a' else 0.55  # modelo_b levemente deslocado
        rows.append(generate_block('OOT', start_year, month, loc=loc))

    # Ambiente PRD (12 meses)
    for month in range(1, 13):
        year = start_year + 1
        loc = 0.5 if model_name == 'modelo_a' else 0.5 + 0.02 * month  # modelo_b descalibra gradualmente
        rows.append(generate_block('PRD', year, month, loc=loc))

    return pd.concat(rows, ignore_index=True)

# Gerar os dados simulados
df_a = simulate_model_data('modelo_a')
df_b = simulate_model_data('modelo_b')

# Unir os dois modelos em um √∫nico DataFrame
df = pd.concat([df_a, df_b], ignore_index=True)

# Visualizar primeiros registros
print(df.head())

      model  env  year  month     score  vr
0  modelo_a  DEV  2023      1  0.530472   0
1  modelo_a  DEV  2023      1  0.396002   0
2  modelo_a  DEV  2023      1  0.575045   1
3  modelo_a  DEV  2023      1  0.594056   1
4  modelo_a  DEV  2023      1  0.304896   0


üß™ Colunas do DataFrame final:

* model: "modelo_a" ou "modelo_b"
* env: ambiente (DEV, OOT, PRD)
* year: ano
* month: m√™s
* score: probabilidade estimada pelo modelo (entre 0 e 1)
* vr: vari√°vel resposta (0 ou 1), simulada com base no score

---

## 2. Introdu√ß√£o ao PySpark

### 2.1. Por que usar PySpark para grandes volumes de dados?

Em projetos de ci√™ncia de dados ou engenharia de dados que lidam com grandes volumes de informa√ß√£o (de gigabytes a terabytes ou mais), bibliotecas tradicionais como `pandas` deixam de ser eficientes, pois operam em mem√≥ria (RAM) e em apenas uma m√°quina. Isso limita o processamento a conjuntos de dados menores e torna as opera√ß√µes mais lentas e sujeitas a erros de mem√≥ria.

O **PySpark** √© a API em Python do **Apache Spark**, um motor de processamento distribu√≠do altamente escal√°vel. Ele permite:

- **Processamento paralelo em cluster**: divide os dados entre v√°rias m√°quinas ou n√∫cleos.
- **Escalabilidade**: funciona localmente, em clusters locais (como com `Spark Standalone`) ou em ambientes distribu√≠dos como Hadoop/YARN, Kubernetes, Databricks, EMR (AWS), etc.
- **Toler√¢ncia a falhas**: reexecuta automaticamente tarefas que falham.
- **Alto desempenho**: otimizado para processar dados em lote e em tempo real.

> üí° Em resumo: PySpark permite que voc√™ escale seu c√≥digo em Python para trabalhar com big data de maneira eficiente e robusta.


### 2.2. O que √© o `SparkSession` e por que ele √© essencial?

O `SparkSession` √© a **porta de entrada** para utilizar o PySpark. Ele √© o ponto central por onde voc√™ acessa todas as funcionalidades do Spark, como:

- Leitura e escrita de dados (CSV, Parquet, JSON, JDBC, etc.)
- Manipula√ß√£o de DataFrames e execu√ß√£o de SQL
- Cria√ß√£o de RDDs (Resilient Distributed Datasets)
- Configura√ß√£o do ambiente de execu√ß√£o (como n√∫mero de parti√ß√µes, uso de cache, etc.)


In [6]:
spark = SparkSession.builder \
    .appName("Tutorial PySpark") \
    .getOrCreate()

üß† Explicando o c√≥digo:

*	.builder: inicia a configura√ß√£o.
*	.appName("Tutorial PySpark"): define o nome da aplica√ß√£o, √∫til para monitoramento.
*	.getOrCreate(): cria a sess√£o Spark se n√£o existir, ou reutiliza uma existente.


üìù Nota: O objeto spark ser√° utilizado ao longo de todo o tutorial para criar e manipular DataFrames.


### 2.3. Transformando o pandas em um dataframe do pyspark

In [8]:
spkdf = spark.createDataFrame(df)

---
## 3. Explora√ß√£o do Dataset

- Inspe√ß√£o inicial com `.show()`, `.printSchema()`, `.select()`, `.filter()`, `.distinct()`.
- Entendimento da estrutura dos dados.


In [9]:
spkdf.show(10)

+--------+---+----+-----+-------------------+---+
|   model|env|year|month|              score| vr|
+--------+---+----+-----+-------------------+---+
|modelo_a|DEV|2023|    1| 0.5304717079754432|  0|
|modelo_a|DEV|2023|    1| 0.3960015893759504|  0|
|modelo_a|DEV|2023|    1| 0.5750451195806457|  1|
|modelo_a|DEV|2023|    1| 0.5940564716391213|  1|
|modelo_a|DEV|2023|    1|0.30489648113461637|  0|
|modelo_a|DEV|2023|    1| 0.3697820493137682|  0|
|modelo_a|DEV|2023|    1| 0.5127840403167285|  0|
|modelo_a|DEV|2023|    1|0.46837574076564176|  1|
|modelo_a|DEV|2023|    1|0.49831988424957113|  1|
|modelo_a|DEV|2023|    1|  0.414695607242642|  0|
+--------+---+----+-----+-------------------+---+
only showing top 10 rows



In [10]:
spkdf.printSchema()

root
 |-- model: string (nullable = true)
 |-- env: string (nullable = true)
 |-- year: long (nullable = true)
 |-- month: long (nullable = true)
 |-- score: double (nullable = true)
 |-- vr: long (nullable = true)



In [17]:
#  Select columns by different ways
spkdf.select("model","env").show(3)
spkdf.select(spkdf.model,spkdf.env).show(3)
spkdf.select(spkdf["model"],spkdf["env"]).show(3)

+--------+---+
|   model|env|
+--------+---+
|modelo_a|DEV|
|modelo_a|DEV|
|modelo_a|DEV|
+--------+---+
only showing top 3 rows

+--------+---+
|   model|env|
+--------+---+
|modelo_a|DEV|
|modelo_a|DEV|
|modelo_a|DEV|
+--------+---+
only showing top 3 rows

+--------+---+
|   model|env|
+--------+---+
|modelo_a|DEV|
|modelo_a|DEV|
|modelo_a|DEV|
+--------+---+
only showing top 3 rows



In [26]:
# By using col() function
spkdf.select(col("model"),col("env")).show(3)

# Select columns by regular expression
spkdf.select(spkdf.colRegex("`.*(mod).*`")).show(3)

#Selects columns 2 to 4  and top 3 rows
spkdf.select(spkdf.columns[2:4]).show(3)

+--------+---+
|   model|env|
+--------+---+
|modelo_a|DEV|
|modelo_a|DEV|
|modelo_a|DEV|
+--------+---+
only showing top 3 rows

+--------+
|   model|
+--------+
|modelo_a|
|modelo_a|
|modelo_a|
+--------+
only showing top 3 rows

+----+-----+
|year|month|
+----+-----+
|2023|    1|
|2023|    1|
|2023|    1|
+----+-----+
only showing top 3 rows



In [29]:
# filter
spkdf.filter(col("model") == "modelo_a").show(3)
spkdf.filter(spkdf.model == "modelo_a").show(3)
spkdf.filter("model = 'modelo_a'").show(3)

+--------+---+----+-----+------------------+---+
|   model|env|year|month|             score| vr|
+--------+---+----+-----+------------------+---+
|modelo_a|DEV|2023|    1|0.5304717079754432|  0|
|modelo_a|DEV|2023|    1|0.3960015893759504|  0|
|modelo_a|DEV|2023|    1|0.5750451195806457|  1|
+--------+---+----+-----+------------------+---+
only showing top 3 rows

+--------+---+----+-----+------------------+---+
|   model|env|year|month|             score| vr|
+--------+---+----+-----+------------------+---+
|modelo_a|DEV|2023|    1|0.5304717079754432|  0|
|modelo_a|DEV|2023|    1|0.3960015893759504|  0|
|modelo_a|DEV|2023|    1|0.5750451195806457|  1|
+--------+---+----+-----+------------------+---+
only showing top 3 rows

+--------+---+----+-----+------------------+---+
|   model|env|year|month|             score| vr|
+--------+---+----+-----+------------------+---+
|modelo_a|DEV|2023|    1|0.5304717079754432|  0|
|modelo_a|DEV|2023|    1|0.3960015893759504|  0|
|modelo_a|DEV|2023|

In [35]:
spkdf.filter("model = 'modelo_a' AND env = 'DEV'").show(3)

+--------+---+----+-----+------------------+---+
|   model|env|year|month|             score| vr|
+--------+---+----+-----+------------------+---+
|modelo_a|DEV|2023|    1|0.5304717079754432|  0|
|modelo_a|DEV|2023|    1|0.3960015893759504|  0|
|modelo_a|DEV|2023|    1|0.5750451195806457|  1|
+--------+---+----+-----+------------------+---+
only showing top 3 rows



---

## 4. Agrupamentos com `groupBy`

O m√©todo `.groupBy()` em PySpark √© usado para agrupar linhas de um DataFrame com base nos valores de uma ou mais colunas, permitindo aplicar fun√ß√µes de agrega√ß√£o sobre esses grupos. Ele √© equivalente ao `groupby()` do pandas, mas funciona de forma distribu√≠da e escal√°vel.


### 4.1. Sintaxe b√°sica

```python
df.groupBy("coluna").agg(fun√ß√£o_agregadora)
```

Voc√™ pode agrupar por uma ou mais colunas, e aplicar fun√ß√µes como `count()`, `sum()`, `avg()`, `min()`, `max()`, entre outras.



In [40]:
# Contagem de registros por model
spkdf.groupBy("model").count().show()

# M√©dia de score por env
spkdf.groupBy("env").agg(F.avg("score")).show()

# Soma de eventos por model e env
spkdf.groupBy("model", "env").agg(F.sum("vr")).show()



+--------+-----+
|   model|count|
+--------+-----+
|modelo_a|21000|
|modelo_b|21000|
+--------+-----+

+---+-------------------+
|env|         avg(score)|
+---+-------------------+
|PRD| 0.5645661802102114|
|OOT| 0.5278309204486932|
|DEV|0.49970832222858647|
+---+-------------------+

+--------+---+-------+
|   model|env|sum(vr)|
+--------+---+-------+
|modelo_a|DEV|   2987|
|modelo_a|OOT|   1485|
|modelo_a|PRD|   5947|
|modelo_b|DEV|   3052|
|modelo_b|OOT|   1656|
|modelo_b|PRD|   7588|
+--------+---+-------+



### 4.2. Agrega√ß√µes m√∫ltiplas com .agg({})

Voc√™ pode aplicar v√°rias agrega√ß√µes ao mesmo tempo, inclusive sobre diferentes colunas:

In [42]:
spkdf.groupBy("model").agg({
    "score": "avg",
    "vr": "sum"
}).show()


+--------+------------------+-------+
|   model|        avg(score)|sum(vr)|
+--------+------------------+-------+
|modelo_a|0.5004163597996216|  10419|
|modelo_b|0.5811585789851526|  12296|
+--------+------------------+-------+




‚ö†Ô∏è Essa forma √© mais limitada: voc√™ n√£o pode adicionar alias com nomes personalizados.



### 4.3. Agrega√ß√µes m√∫ltiplas com .agg(F.func()) (forma recomendada)

A forma mais flex√≠vel √© usando `F.func()` com alias (`.alias("nome_coluna")`):

In [49]:
spkdf.groupBy("model", "env").agg(
    F.avg("score").alias("media_score"),
    F.sum("vr").alias("total_eventos"),
    F.count("*").alias("quantidade_registros"),
    F.round(
        (F.sum("vr") / F.count("*")) * 100,
        2
    ).alias("exposi√ß√£o(%)")
).show()


+--------+---+-------------------+-------------+--------------------+------------+
|   model|env|        media_score|total_eventos|quantidade_registros|exposi√ß√£o(%)|
+--------+---+-------------------+-------------+--------------------+------------+
|modelo_a|DEV|0.49982095366508195|         2987|                6000|       49.78|
|modelo_a|OOT| 0.5012523963043177|         1485|                3000|        49.5|
|modelo_a|PRD| 0.5005050537407192|         5947|               12000|       49.56|
|modelo_b|DEV|0.49959569079209093|         3052|                6000|       50.87|
|modelo_b|OOT| 0.5544094445930686|         1656|                3000|        55.2|
|modelo_b|PRD| 0.6286273066797037|         7588|               12000|       63.23|
+--------+---+-------------------+-------------+--------------------+------------+



### 4.4. Agrupamentos n√£o agregativos

Voc√™ tamb√©m pode usar `groupBy()` para opera√ß√µes que n√£o s√£o diretamente agrega√ß√µes, como `collect_list` e `collect_set`:

*	`collect_list`: junta os valores de uma coluna em listas (permite repeti√ß√£o).
*	`collect_set`: junta os valores sem repetir (como um set).


In [51]:
# Lista de scores por model
spkdf.groupBy("model").agg(F.collect_list("score").alias("lista_scores")).show(truncate=False)

# Conjunto √∫nico de ambientes por model
spkdf.groupBy("model").agg(F.collect_set("env").alias("ambientes_unicos")).show()

                                                                                

+--------+------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

### 4.5.Uso com `.select()` ou `.withColumn()`

Em algumas situa√ß√µes, voc√™ pode querer transformar os resultados do groupBy() usando .select() ou .withColumn() para criar colunas derivadas ou realizar novos c√°lculos.

Exemplo: criar uma nova coluna com score m√©dio classificado

In [54]:
media_df = spkdf.groupBy("model").agg(F.avg("score").alias("media_score"))

# Adiciona uma nova coluna que classifica o score como alto ou baixo
media_df = media_df.withColumn(
    "classificacao",
    F.when(F.col("media_score") >= 0.6, "Alto").otherwise("Baixo")
)

media_df.show()

+--------+------------------+-------------+
|   model|       media_score|classificacao|
+--------+------------------+-------------+
|modelo_a|0.5004163597996216|        Baixo|
|modelo_b|0.5811585789851526|        Baixo|
+--------+------------------+-------------+




Voc√™ tamb√©m pode fazer .select() para reordenar ou renomear colunas ap√≥s a agrega√ß√£o:


In [57]:
media_df.select("model", "classificacao", "media_score").show()

+--------+-------------+------------------+
|   model|classificacao|       media_score|
+--------+-------------+------------------+
|modelo_a|        Baixo|0.5004163597996216|
|modelo_b|        Baixo|0.5811585789851526|
+--------+-------------+------------------+



In [58]:
spkdf.groupBy("model", "env") \
    .agg(F.avg("score").alias("media_score")) \
    .orderBy("model", "env") \
    .show()

                                                                                

+--------+---+-------------------+
|   model|env|        media_score|
+--------+---+-------------------+
|modelo_a|DEV|0.49982095366508195|
|modelo_a|OOT| 0.5012523963043177|
|modelo_a|PRD| 0.5005050537407192|
|modelo_b|DEV|0.49959569079209093|
|modelo_b|OOT| 0.5544094445930686|
|modelo_b|PRD| 0.6286273066797037|
+--------+---+-------------------+



---

## 5. Janela e Agrupamentos Avan√ßados

### 5.1. Diferen√ßa entre groupBy e fun√ß√µes de janela (window functions)



Embora `groupBy()` e `window functions` (fun√ß√µes de janela) pare√ßam semelhantes √† primeira vista (pois ambos trabalham com agrega√ß√µes), eles t√™m finalidades e comportamentos bem diferentes:



| Caracter√≠stica        | `groupBy()`                                  | Window Functions                                           |
|-----------------------|-----------------------------------------------|-------------------------------------------------------------|
| Tipo de opera√ß√£o      | Reduz a cardinalidade do DataFrame           | Mant√©m a cardinalidade (n√£o reduz n√∫mero de linhas)         |
| Retorno por linha     | N√£o (gera 1 linha por grupo)                 | Sim (retorna uma nova coluna com valores agregados)         |
| Exemplo de uso        | Soma total por categoria                     | Soma acumulada dentro de cada categoria                     |
| Ideal para            | Resumos agregados                            | C√°lculos linha a linha dentro de grupos                     |



### 5.2. Uso de Window.partitionBy().orderBy()

As fun√ß√µes de janela exigem que voc√™ defina um ‚Äúescopo‚Äù, ou seja, dentro de qual grupo a fun√ß√£o deve operar. Isso √© feito com partitionBy().

Voc√™ pode tamb√©m ordenar os dados dentro de cada parti√ß√£o com orderBy() ‚Äî o que √© necess√°rio para fun√ß√µes como rank() ou row_number().




In [65]:
janela = Window.partitionBy("model").orderBy(F.desc("score"))

spkdf.withColumn("rank_score", F.rank().over(janela)).show(5)

+--------+---+----+-----+------------------+---+----------+
|   model|env|year|month|             score| vr|rank_score|
+--------+---+----+-----+------------------+---+----------+
|modelo_a|PRD|2024|   11|0.9326920740610131|  1|         1|
|modelo_a|PRD|2024|    9|0.9087923070821299|  1|         2|
|modelo_a|DEV|2023|    5|0.9025824042727265|  1|         3|
|modelo_a|PRD|2024|    2|0.8556362785550131|  1|         4|
|modelo_a|PRD|2024|    8|0.8476567355053107|  0|         5|
+--------+---+----+-----+------------------+---+----------+
only showing top 5 rows



**Exemplo 1**: C√°lculo de propor√ß√µes dentro de grupos

Queremos calcular a propor√ß√£o de cada linha em rela√ß√£o ao total do grupo (por exemplo, propor√ß√£o de eventos dentro de cada modelo):

In [72]:
janela_model = Window.partitionBy("model")

spkdf.withColumn("prop_eventos_modelo", 
                F.round(
                    F.col("vr") / F.sum("vr").over(janela_model)*100, 2
                )
                ).show(5)

+--------+---+----+-----+-------------------+---+-------------------+
|   model|env|year|month|              score| vr|prop_eventos_modelo|
+--------+---+----+-----+-------------------+---+-------------------+
|modelo_a|DEV|2023|    1| 0.5304717079754432|  0|                0.0|
|modelo_a|DEV|2023|    1| 0.3960015893759504|  0|                0.0|
|modelo_a|DEV|2023|    1| 0.5750451195806457|  1|               0.01|
|modelo_a|DEV|2023|    1| 0.5940564716391213|  1|               0.01|
|modelo_a|DEV|2023|    1|0.30489648113461637|  0|                0.0|
+--------+---+----+-----+-------------------+---+-------------------+
only showing top 5 rows



**Exemplo 2**: Ranking por score dentro de cada modelo

Aqui usamos `row_number()` e `rank()` para identificar os maiores scores por modelo:

In [None]:
janela_ordenada = Window.partitionBy("model").orderBy(F.desc("score"))

spkdf.withColumn("posicao", F.row_number().over(janela_ordenada)).show()

+--------+---+----+-----+------------------+---+-------+
|   model|env|year|month|             score| vr|posicao|
+--------+---+----+-----+------------------+---+-------+
|modelo_a|PRD|2024|   11|0.9326920740610131|  1|      1|
|modelo_a|PRD|2024|    9|0.9087923070821299|  1|      2|
|modelo_a|DEV|2023|    5|0.9025824042727265|  1|      3|
|modelo_a|PRD|2024|    2|0.8556362785550131|  1|      4|
|modelo_a|PRD|2024|    8|0.8476567355053107|  0|      5|
|modelo_a|DEV|2023|    3|0.8454046402244182|  1|      6|
|modelo_a|PRD|2024|    4|0.8327472286429946|  1|      7|
|modelo_a|PRD|2024|   10|0.8308059325188116|  1|      8|
|modelo_a|PRD|2024|   11|0.8290696813621817|  1|      9|
|modelo_a|DEV|2023|    3| 0.827102612221459|  1|     10|
|modelo_a|PRD|2024|    5|0.8225993124147924|  0|     11|
|modelo_a|DEV|2023|    4|0.8208160913916495|  1|     12|
|modelo_a|OOT|2023|    9|0.8200242980517064|  0|     13|
|modelo_a|PRD|2024|   10|0.8193132037801697|  1|     14|
|modelo_a|DEV|2023|    1|0.8178

> ‚ö†Ô∏è **Aten√ß√£o**
> - `row_number()` d√° n√∫meros √∫nicos e sequenciais (`1, 2, 3, ‚Ä¶`)
> - `rank()` atribui a mesma posi√ß√£o a empates e pode pular posi√ß√µes (`1, 1, 3, ‚Ä¶`)

### 5.3. Quando usar Window Functions?

Use fun√ß√µes de janela quando voc√™ quiser:

*	Calcular totais ou m√©dias sem colapsar o DataFrame
*	Comparar cada linha com outras do mesmo grupo
*	Aplicar fun√ß√µes acumuladas, ranking, diferen√ßa entre linhas, entre outros



---

## 6. üõ†Ô∏è Fun√ß√µes Personalizadas com UDF

- Cria√ß√£o de UDFs com `@udf` ou `F.udf()`.
- Aplica√ß√£o pr√°tica para transformar colunas.
- Exemplo: criar faixas de `score` com base em percentis.

---

## 7. üß™ Estudos de Caso

- C√°lculo da propor√ß√£o de eventos por faixa de score.
- Compara√ß√£o entre ambientes (ex: `DEV` vs `PRD`).
- Visualiza√ß√£o de distribui√ß√µes e diferen√ßas ao longo do tempo.

---

## 8. üìä Exemplo Aplicado: C√°lculo do PSI

- O que √© o PSI e sua import√¢ncia para monitoramento de modelos.
- Passo a passo aplicando `groupBy`, UDFs e agrega√ß√µes.
- Coment√°rios sobre performance e escalabilidade no PySpark.

---

## 9. üîö Conclus√µes e Pr√≥ximos Passos

- Onde aplicar os conceitos aprendidos?
- Extens√µes poss√≠veis:  
  - KS Test  
  - CSI (Characteristic Stability Index)  
  - An√°lises temporais com janelas de tempo  
  - Agrega√ß√µes em dados de streaming  

---

‚úÖ **Pronto para come√ßar?**  
Se desejar, posso agora gerar o conte√∫do detalhado de cada se√ß√£o com c√≥digo PySpark e explica√ß√µes passo a passo.