# üßπ Tratamento e Transforma√ß√£o de Tabelas
## üìå Vis√£o Geral

### Este notebook tem como objetivo padronizar, tratar e transformar os datasets que comp√µem o projeto de cr√©dito.
### O processo √© orientado pelas melhores pr√°ticas de Engenharia de Dados, garantindo qualidade, confiabilidade e rastreabilidade para suportar an√°lises avan√ßadas e modelos preditivos.

## üéØ Objetivos

### Constru√ß√£o da Tabela Base
Estruturar e validar a tabela principal (train_base), assegurando a unicidade da chave prim√°ria, tratamento de valores nulos e convers√£o de tipos de dados.

### Integra√ß√£o e Tratamento de Tabelas Sat√©lites
Aplicar fun√ß√µes padronizadas de avalia√ß√£o, transforma√ß√£o e cria√ß√£o de vari√°veis derivadas, permitindo consist√™ncia na manipula√ß√£o de diferentes datasets.

### Documenta√ß√£o Automatizada de Vari√°veis
Atualizar o dicion√°rio de dados com descri√ß√µes em portugu√™s, assegurando maior clareza, interpretabilidade e alinhamento entre equipes de neg√≥cio e tecnologia.

## üõ†Ô∏è Benef√≠cios

Confiabilidade dos Dados: identifica√ß√£o e tratamento de inconsist√™ncias, duplicidades e nulos.

Escalabilidade: uso de fun√ß√µes reutiliz√°veis para diferentes tabelas, reduzindo retrabalho e aumentando efici√™ncia.

Transpar√™ncia: documenta√ß√£o clara das regras aplicadas e exporta√ß√£o de relat√≥rios para consulta.

Performance: persist√™ncia das tabelas tratadas em formato Parquet, otimizando consumo em pipelines anal√≠ticos.

## ‚úÖ Entreg√°veis

Tabela base tratada e consolidada.

Tabelas sat√©lites padronizadas, enriquecidas e integradas.

Dicion√°rio de vari√°veis atualizado, em formato leg√≠vel para consulta por stakeholders t√©cnicos e de neg√≥cio.

In [1]:
# Cria√ß√£o da SparkSession
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ExemploSparkSession") \
    .getOrCreate()

In [2]:
# Importa√ß√µes
from pyspark.sql.functions import col, when, count, isnan, isnull, countDistinct, to_date, format_string, to_date, datediff, lit, coalesce, isnan
from pyspark.sql.types import FloatType, DoubleType
from datetime import datetime
import pandas as pd
import os
import glob

In [56]:
caminho = r"C:\Users\fred\meu_projeto_etl"

### üìå Fun√ß√£o `avaliar_dataset(df, pk=None)`

Essa fun√ß√£o tem como objetivo **avaliar a qualidade e as caracter√≠sticas de um DataFrame Spark**.  
Ela gera um diagn√≥stico √∫til para entender a estrutura, a presen√ßa de valores nulos e a consist√™ncia dos dados.  

---

#### üîé O que a fun√ß√£o faz:

1. **Resumo inicial**
   - Conta o n√∫mero total de registros do DataFrame.  
   - Obt√©m o schema (nome e tipo de cada coluna).  

2. **An√°lise coluna a coluna**  
   Para cada coluna do DataFrame, calcula:  
   - **Tipo de dado** (ex.: string, integer, double).  
   - **% de valores nulos** e a **quantidade absoluta de nulos**.  
     - Para colunas num√©ricas (`float`, `double`), tamb√©m verifica valores `NaN`.  
   - **Quantidade de valores distintos** (cardinalidade da coluna).  
   - **Exemplo de at√© 3 valores distintos n√£o nulos** (√∫til para inspecionar rapidamente o conte√∫do).  
   - Campo reservado para **observa√ß√µes** (pode ser usado futuramente para anota√ß√µes manuais).  

   üëâ Todos esses resultados s√£o consolidados em um **DataFrame Pandas**, facilitando a visualiza√ß√£o tabular no notebook.

3. **Resumo geral do dataset**  
   Retorna um dicion√°rio com:  
   - Total de registros.  
   - Quantidade de colunas que possuem valores nulos.  
   - Quantidade de colunas totalmente nulas (100% nulos).  
   - N√∫mero de duplicatas na chave prim√°ria (se informada).  

4. **Verifica√ß√£o de chave prim√°ria (opcional)**  
   - Se o par√¢metro `pk` for passado e a coluna existir:  
     - Conta o n√∫mero de duplicatas na coluna que deveria ser √∫nica.  
     - Informa no console se a chave √© v√°lida (sem duplicatas) ou se h√° problemas.  
   - Caso a coluna informada n√£o exista no DataFrame, emite um alerta.  

---

#### ‚úÖ Exemplos de uso

```python
# Avalia√ß√£o b√°sica
resultados, resumo = avaliar_dataset(df)

# Avalia√ß√£o com verifica√ß√£o de chave prim√°ria
resultados, resumo = avaliar_dataset(df, pk="id_cliente")

# Exibir resultados
display(resultados)  # tabela detalhada por coluna
print(resumo)        # resumo geral


In [4]:
def avaliar_dataset(df, pk=None):

    print("üìä Avalia√ß√£o do DataFrame...")
    total_registros = df.count()
    schema = dict(df.dtypes)
    resultados = []

    for c in df.columns:
        tipo = schema[c]
        cond = isnull(col(c))
        if tipo in ("float", "double"):
            cond = cond | isnan(col(c))

        nulos = df.filter(cond).count()
        distintos = df.select(c).distinct().count()

        # Captura de exemplos distintos e n√£o nulos
        try:
            exemplos_df = df.select(c).where(col(c).isNotNull()).distinct().limit(3)
            exemplo = exemplos_df.toPandas()[c].tolist()
        except:
            exemplo = []

        resultados.append({
            "coluna": c,
            "tipo": tipo,
            "% nulos": round(nulos / total_registros * 100, 2),
            "qtd_nulos": nulos,
            "valores_distintos": distintos,
            "exemplo_valores": exemplo,
            "observacoes": ""
        })

    resultados_df = pd.DataFrame(resultados)

    # üîç Resumo geral
    resumo = {
        "total_registros": total_registros,
        "colunas_com_nulos": resultados_df[resultados_df["qtd_nulos"] > 0].shape[0],
        "colunas_totalmente_nulas": resultados_df[resultados_df["qtd_nulos"] == total_registros].shape[0],
        "duplicatas_pk": None
    }

    # Verifica√ß√£o de chave prim√°ria
    if pk and pk in df.columns:
        duplicatas_pk = df.groupBy(pk).count().filter(col("count") > 1).count()
        resumo["duplicatas_pk"] = duplicatas_pk
        print(f"\nüîç Chave prim√°ria '{pk}':")
        if duplicatas_pk > 0:
            print(f"‚ö†Ô∏è Encontradas {duplicatas_pk} duplicatas com base na chave '{pk}'")
        else:
            print("‚úÖ Chave prim√°ria √© √∫nica.")
    elif pk:
        print(f"‚ö†Ô∏è A coluna '{pk}' n√£o est√° presente no DataFrame.")


    return resultados_df, resumo



### üìå Fun√ß√£o `criar_flags_nulos(df)`

Essa fun√ß√£o tem como objetivo **criar colunas auxiliares ("flags") que indicam a presen√ßa de valores nulos ou `NaN` em cada coluna de um DataFrame Spark**.  

---

#### üîé O que a fun√ß√£o faz:

1. **Itera√ß√£o sobre as colunas do DataFrame**  
   Para cada coluna:
   - Define uma condi√ß√£o `cond` que identifica registros onde o valor √© **nulo** (`isNull`) ou **NaN** (`isnan`).  

2. **Verifica√ß√£o de exist√™ncia de valores ausentes**  
   - Se a coluna tiver ao menos um valor ausente:  
     - Cria uma **nova coluna flag** com o sufixo `_flag`.  
       - Valor `1` ‚Üí quando o registro √© nulo/NaN.  
       - Valor `0` ‚Üí quando o registro √© v√°lido.  
     - Exemplo: se a coluna original for `idade`, ser√° criada `idade_flag`.  
   - Caso n√£o haja valores ausentes:  
     - Nenhuma coluna extra √© criada.  
     - Um aviso √© impresso no console informando que a coluna est√° 100% completa.  

3. **Retorno**  
   - O DataFrame atualizado com as colunas de flags adicionadas.  

---

#### ‚úÖ Exemplo de uso

```python
# Executar a fun√ß√£o
df_flags = criar_flags_nulos(df)

# Listar todas as flags criadas
flags_criadas = [c for c in df_flags.columns if c.endswith("_flag")]
print("Flags criadas:", flags_criadas)

# Se quiser inspecionar algumas flags espec√≠ficas:
df_flags.select(flags_criadas).limit(5).toPandas()



In [5]:
def criar_flags_nulos(df):
    for c in df.columns:
        # Define a condi√ß√£o de aus√™ncia (null ou NaN)
        cond = col(c).isNull() | isnan(col(c))

        # Verifica se existe ao menos um valor ausente
        if df.filter(cond).count() > 0:
            nova_coluna = f"{c}_flag"
            df = df.withColumn(nova_coluna, when(cond, 1).otherwise(0))
            print(f"‚úÖ Flag criada: {nova_coluna}")
        else:
            print(f"üü© Sem valores ausentes em: {c} (flag n√£o criada)")
    return df


### üìå Fun√ß√£o `detectar_e_converter_datas(df, formatos_tentados=None, max_amostras=None)`

Esta fun√ß√£o tem como objetivo **detectar automaticamente colunas do tipo string que parecem representar datas** e convert√™-las para o tipo `date` do PySpark.  
Ela √© √∫til em datasets que chegam com campos de datas em formato textual e podem variar entre diferentes padr√µes (ex.: `yyyy-MM-dd`, `dd/MM/yyyy`, etc.).

---

#### üîé O que a fun√ß√£o faz

1. **Par√¢metros**
   - `df`: DataFrame Spark de entrada.
   - `formatos_tentados`: lista de formatos de data aceitos.  
     - Se n√£o informado, usa um conjunto padr√£o que cobre formatos comuns no Brasil e no exterior.
   - `max_amostras`: n√∫mero m√°ximo de registros n√£o nulos usados como amostra por coluna (default: 100).  
     - Evita trazer todo o dataset para o driver.

2. **Pr√©-processamento**
   - Considera apenas colunas do tipo `string`.  
   - Coleta at√© `max_amostras` valores n√£o nulos da coluna, converte para string, remove espa√ßos extras e transforma em lista.  
   - Se o valor cont√©m hor√°rio (`2024-01-01 12:00:00` ou `2024-01-01T12:00:00`), apenas a parte da data √© considerada.

3. **Valida√ß√£o de formatos**
   - Para cada formato da lista:
     - Tenta converter as amostras para `datetime` no Python (fazendo o mapeamento de tokens `yyyy ‚Üí %Y`, `MM ‚Üí %m`, `dd ‚Üí %d`).  
     - Caso especial: formatos `yyyy-MM` s√£o completados com `-01` (assumindo o primeiro dia do m√™s) apenas para valida√ß√£o.
     - Conta quantos valores foram parseados com sucesso e est√£o dentro de um intervalo plaus√≠vel (anos entre 1950 e 2050).

4. **Crit√©rio de convers√£o**
   - Se **‚â•70% das amostras** de uma coluna forem v√°lidas em algum formato, a fun√ß√£o assume que esse √© o padr√£o da coluna.  
   - A coluna √© convertida no Spark com `to_date(coluna, formato)`.  
   - O nome da coluna √© mantido (substituindo os valores originais).  
   - O processo √© interrompido ap√≥s o primeiro formato v√°lido.

5. **Retorno**
   - Um novo DataFrame com as colunas convertidas para `date`.  
   - Uma lista com os nomes das colunas que foram convertidas.

---

#### ‚úÖ Exemplo de uso

```python
df_convertido, colunas = detectar_e_converter_datas(df)

print("Colunas convertidas:", colunas)
df_convertido.printSchema()

# Visualizar uma amostra das colunas de data
df_convertido.select(colunas).show(10, truncate=False)


In [6]:
from pyspark.sql.functions import col, to_date

def detectar_e_converter_datas(df, formatos_tentados=None, max_amostras=None):
    """
    Detecta colunas string que parecem datas e converte para date.
    """
    # Define formatos padr√£o caso nenhum seja passado
    if formatos_tentados is None:
        formatos_tentados = [
            "yyyy-MM-dd",
            "dd/MM/yyyy",   # formato comum no Brasil
            "dd-MM-yyyy",
            "yyyy/MM/dd",
            "MM/dd/yyyy",
            "yyyy-MM",      # ano e m√™s apenas
            "yyyyMMdd",     # formato compacto
            "ddMMyyyy",
        ]
    # Define quantidade m√°xima de amostras por coluna
    if max_amostras is None:
        max_amostras = 100

    colunas_convertidas = []

    # Cache do schema (tipos de colunas)
    schema = dict(df.dtypes)

    for c in df.columns:
        # S√≥ analisa colunas string
        if schema.get(c) != "string":
            continue

        # Coleta amostras n√£o nulas da coluna
        try:
            amostras = (
                df.select(c)
                  .where(col(c).isNotNull())
                  .limit(max_amostras)
                  .toPandas()[c]
                  .dropna()
                  .astype(str)    # garante string
                  .str.strip()    # remove espa√ßos extras
                  .tolist()
            )
        except Exception:
            amostras = []

        if not amostras:
            continue

        # Fun√ß√£o auxiliar: remove parte de hor√°rio (ex.: "2024-01-01 12:00:00")
        def _limpo(v: str) -> str:
            if " " in v:
                v = v.split(" ", 1)[0]
            if "T" in v:
                v = v.split("T", 1)[0]
            return v

        amostras = [_limpo(v) for v in amostras if v]

        # Testa cada formato da lista
        for fmt in formatos_tentados:
            convertidos_validos = 0
            # Ajusta formato Spark -> formato Python
            py_fmt = fmt.replace("yyyy", "%Y").replace("MM", "%m").replace("dd", "%d")

            for valor in amostras:
                v = valor
                try:
                    # Caso especial: formato "yyyy-MM" precisa de dia para validar
                    if fmt == "yyyy-MM":
                        dt = datetime.strptime(v + "-01", "%Y-%m-%d")
                    else:
                        dt = datetime.strptime(v, py_fmt)

                    # Valida√ß√£o de faixa (anos plaus√≠veis)
                    if 1950 <= dt.year <= 2050 and 1 <= dt.month <= 12 and 1 <= dt.day <= 31:
                        convertidos_validos += 1
                except Exception:
                    continue

            # Converte se >=70% das amostras forem v√°lidas
            if convertidos_validos >= int(0.7 * len(amostras)):
                print(f"‚úÖ Coluna '{c}' convertida com formato: {fmt}")
                df = df.withColumn(c, to_date(col(c), fmt))  # convers√£o Spark
                colunas_convertidas.append(c)
                break  # para de testar formatos ap√≥s o primeiro sucesso

    return df, colunas_convertidas


### üìå Fun√ß√£o `comparar_datasets_parquet(path_a, path_b)`

Esta fun√ß√£o tem como objetivo **comparar dois datasets em formato Parquet** e verificar se eles possuem **as mesmas colunas** e **os mesmos tipos de dados**, ignorando a ordem das colunas.  
Ela √© √∫til em pipelines de ingest√£o e valida√ß√£o, quando √© necess√°rio garantir consist√™ncia de schema entre arquivos provenientes de diferentes fontes ou parti√ß√µes.

---

#### üîé O que a fun√ß√£o faz

1. **Par√¢metros**
   - `path_a`: caminho (string) do primeiro dataset Parquet.  
     - Pode incluir curingas (`*`) para ler m√∫ltiplos arquivos de uma vez.  
   - `path_b`: caminho (string) do segundo dataset Parquet.  
     - Tamb√©m aceita curingas.

2. **Leitura dos datasets**
   - Usa o `spark.read.parquet` para carregar os dois arquivos em DataFrames Spark (`dfA` e `dfB`).  
   - Extrai o schema de cada DataFrame em formato de dicion√°rio (`{coluna: tipo}`) por meio da fun√ß√£o auxiliar `schema_dict`.

3. **Compara√ß√£o de colunas**
   - Identifica colunas presentes em `dfA` mas ausentes em `dfB`, e vice-versa.  
   - Caso haja diferen√ßas, imprime as colunas faltantes em cada dataset.

4. **Compara√ß√£o de tipos**
   - Considera apenas as colunas comuns a ambos os datasets.  
   - Verifica se os tipos s√£o id√™nticos (`string`, `int`, `double`, etc.).  
   - Caso alguma coluna tenha tipos diferentes entre A e B, imprime a diverg√™ncia encontrada.

5. **Crit√©rio de igualdade**
   - Se **n√£o houver colunas faltantes/extras** e **n√£o houver diverg√™ncias de tipo**, a fun√ß√£o considera os datasets equivalentes em termos de schema.  
   - Retorna `True` nesse caso, caso contr√°rio retorna `False`.

---

#### ‚úÖ Exemplo de uso

```python
caminho_base = r"C:\Users\fred\meu_projeto_etl\data\raw\train"

# Comparar duas parti√ß√µes do mesmo grupo
resultado = comparar_datasets_parquet(
    fr"{caminho_base}\train_applprev_1_0.parquet",
    fr"{caminho_base}\train_applprev_1_1.parquet"
)

print("Resultado da compara√ß√£o:", resultado)


In [47]:
# --- Verificar colunas e tipos entre dois datasets Parquet (ordem ignorada) ---

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CompararSchemas").getOrCreate()

def schema_dict(df):
    # ex.: {"case_id": "string", "valor": "double", ...}
    return {nome: tipo for nome, tipo in df.dtypes}

def comparar_datasets_parquet(path_a: str, path_b: str) -> bool:
    """
    L√™ dois caminhos Parquet (podem aceitar curingas, ex.: ...\\tabela_*.parquet)
    e compara colunas e tipos (ordem ignorada).
    Retorna True se forem iguais, False caso contr√°rio.
    """
    dfA = spark.read.parquet(path_a)
    dfB = spark.read.parquet(path_b)

    schA = schema_dict(dfA)
    schB = schema_dict(dfB)

    colsA, colsB = set(schA.keys()), set(schB.keys())

    ok = True

    # 1) Colunas faltantes/extras
    faltando_em_B = sorted(colsA - colsB)
    faltando_em_A = sorted(colsB - colsA)

    if faltando_em_B:
        ok = False
        print(f"üß© Colunas presentes s√≥ em A (faltam em B): {faltando_em_B}")
    if faltando_em_A:
        ok = False
        print(f"üß© Colunas presentes s√≥ em B (faltam em A): {faltando_em_A}")

    # 2) Tipos divergentes nas colunas comuns
    comuns = sorted(colsA & colsB)
    divergentes = [(c, schA[c], schB[c]) for c in comuns if schA[c] != schB[c]]
    if divergentes:
        ok = False
        print("‚ö†Ô∏è Colunas com tipos diferentes:")
        for c, ta, tb in divergentes:
            print(f"   - {c}: A={ta} | B={tb}")

    if ok:
        print("‚úÖ Mesmas colunas e mesmos tipos (ordem ignorada).")
    return ok



## 1. üß± Tratamento da Tabela Base

In [7]:
#Importa√ß√£o da tabela base
test_base = spark.read.parquet(fr"{caminho}\\data\raw\test\test_base.parquet")

### Tratamento de nulos e duplicidade

In [8]:
# Fun√ß√£o avaliar_dataset
df = test_base
nome_dataset = "test_base"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")


üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚úÖ Chave prim√°ria √© √∫nica.


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,10,"[57543, 57549, 57569]",
1,date_decision,string,0.0,0,9,"[2022-01-17, 2022-06-04, 2021-03-16]",
2,MONTH,bigint,0.0,0,1,[202201],
3,WEEK_NUM,bigint,0.0,0,1,[100],


{'total_registros': 10, 'colunas_com_nulos': 0, 'colunas_totalmente_nulas': 0, 'duplicatas_pk': 0}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_base_avaliar.csv


### Tratamento de tipos de dados

In [9]:
# Altera√ß√£o de tipo da coluna date_decision
test_base_date = test_base.withColumn('date_decision', to_date(col('date_decision'), 'yyyy-MM-dd'))

In [10]:
# Verifica√ß√£o da altera√ß√£o do tipo
test_base_date.printSchema()

root
 |-- case_id: long (nullable = true)
 |-- date_decision: date (nullable = true)
 |-- MONTH: long (nullable = true)
 |-- WEEK_NUM: long (nullable = true)



In [11]:
# Altera√ß√£o de tipo da coluna MONTH
test_base_date = test_base_date.withColumn(
    "MONTH",
    to_date(format_string("%06d", col("MONTH")), "yyyyMM")
)

In [12]:
test_base_date.select('MONTH').distinct().orderBy('MONTH').show(20, truncate=False)

+----------+
|MONTH     |
+----------+
|2022-01-01|
+----------+



In [13]:
# Verifica√ß√£o da altera√ß√£o do tipo
test_base_date.printSchema()

root
 |-- case_id: long (nullable = true)
 |-- date_decision: date (nullable = true)
 |-- MONTH: date (nullable = true)
 |-- WEEK_NUM: long (nullable = true)



In [14]:
# Monta o caminho completo at√© o diret√≥rio de sa√≠da
caminho_saida = os.path.join(caminho, "data", "interim", "test_base_tratada")

# Salva o DataFrame Spark em formato Parquet no local desejado
test_base_date.write.mode("overwrite").parquet(caminho_saida)


### üìå Resumo do tratamento da tabela *Base*

- ‚úÖ Ap√≥s an√°lise e verifica√ß√£o de **unicidade**, a coluna **`case_id`** foi definida como **chave prim√°ria**.  
- ‚úÖ As **colunas de datas** foram identificadas e convertidas para o tipo **`date`**.  
- ‚úÖ A tabela tratada foi salva em formato **Parquet**.


## 2. üõ∞Ô∏è  Tratamento das tabelas "Sat√©lite"

### Tabela de descri√ß√£o de vari√°veis

## Empilhamento das tabelas

In [23]:
# Caminho base dos arquivos
caminho_1 = r"C:\Users\fred\meu_projeto_etl\data\raw\test"
caminho_base = caminho_1

# Lista dos grupos esperados
grupos = [
    "test_applprev_1",
    "test_applprev_2",
    "test_credit_bureau_a_1",
    "test_credit_bureau_a_2",
    "test_credit_bureau_b_1",
    "test_credit_bureau_b_2",
    "test_static_0",
    "test_base",
    "test_debitcard_1",
    "test_deposit_1",
    "test_other_1",
    "test_person_1",
    "test_person_2",
    "test_static_cb_0",
    "test_tax_registry_a_1",
    "test_tax_registry_b_1",
    "test_tax_registry_c_1"
]


In [24]:
import os, glob, re
from pyspark.sql.utils import AnalysisException
from pyspark.sql.functions import col

def _dtype_map(df):
    return {f.name: f.dataType.simpleString() for f in df.schema.fields}

def _print_coluna_problem√°tica(e_msg, dfA, dfB):
    colsA, colsB = dfA.columns, dfB.columns
    tiposA, tiposB = _dtype_map(dfA), _dtype_map(dfB)

    m = re.search(r"(\d+)(?:st|nd|rd|th) column", e_msg)
    if m:
        idx = int(m.group(1)) - 1
        nomeA = colsA[idx] if idx < len(colsA) else None
        nomeB = colsB[idx] if idx < len(colsB) else None
        if nomeA == nomeB:
            return [nomeA]

    comuns = sorted(set(colsA).intersection(colsB))
    diverg = [c for c in comuns if tiposA.get(c) != tiposB.get(c)]
    return diverg

def carregar_e_empilhar(grupo):
    padrao = os.path.join(caminho_base, f"{grupo}_*.parquet")
    arquivos = sorted(glob.glob(padrao))
    arquivo_unico = os.path.join(caminho_base, f"{grupo}.parquet")
    if os.path.exists(arquivo_unico):
        arquivos.append(arquivo_unico)
    if not arquivos:
        print(f"üö´ Nenhum arquivo encontrado para {grupo}")
        return None

    colunas_padrao = None
    dfs_validos, paths_validos = [], []

    for caminho_arquivo in arquivos:
        df = spark.read.parquet(caminho_arquivo)
        if colunas_padrao is None:
            colunas_padrao = df.columns
            dfs_validos.append(df.select(colunas_padrao))
            paths_validos.append(caminho_arquivo)
            continue

        set_padrao, set_atual = set(colunas_padrao), set(df.columns)
        if set_padrao != set_atual:
            faltando = sorted(set_padrao - set_atual)
            extras = sorted(set_atual - set_padrao)
            print(f"üö´ Colunas diferentes em: {caminho_arquivo}")
            if faltando:
                print(f"   FALTANDO: {faltando}")
            if extras:
                print(f"   EXTRAS  : {extras}")
            continue

        df = df.select(colunas_padrao)
        dfs_validos.append(df)
        paths_validos.append(caminho_arquivo)

    if not dfs_validos:
        print(f"‚ö†Ô∏è Nenhum DataFrame v√°lido para {grupo}")
        return None

    df_final = dfs_validos[0]
    for i in range(1, len(dfs_validos)):
        df_i = dfs_validos[i]
        try:
            df_final = df_final.unionByName(df_i)
        except AnalysisException as e:
            print("\n‚õî Tipos incompat√≠veis detectados durante o union.")
            colunas_problema = _print_coluna_problem√°tica(str(e), df_final, df_i)
            print(f"üîÑ Convertendo colunas para string: {colunas_problema}")

            for col_name in colunas_problema:
                df_final = df_final.withColumn(col_name, col(col_name).cast("string"))
                df_i = df_i.withColumn(col_name, col(col_name).cast("string"))

            try:
                df_final = df_final.unionByName(df_i)
                print(f"‚úÖ Union refeito com cast para string nas colunas: {colunas_problema}")
            except Exception as e2:
                print(f"‚ùå Falha mesmo ap√≥s cast: {e2}")
                return None

    print(f"‚úÖ {grupo} carregado com {len(dfs_validos)} arquivo(s).")
    return df_final


In [25]:
# Dicion√°rio com os DataFrames carregados com sucesso
variaveis_criadas = {}

# Carregar todos os grupos
for grupo in grupos:
    df = carregar_e_empilhar(grupo)
    if df is not None:
        variaveis_criadas[grupo] = df

# Exibir nomes dos DataFrames criados
print("\nüì¶ Vari√°veis carregadas:")
for nome in variaveis_criadas:
    print(f" - {nome}")


‚õî Tipos incompat√≠veis detectados durante o union.
üîÑ Convertendo colunas para string: ['isdebitcard_527L']
‚úÖ Union refeito com cast para string nas colunas: ['isdebitcard_527L']

‚õî Tipos incompat√≠veis detectados durante o union.
üîÑ Convertendo colunas para string: ['isdebitcard_527L']
‚úÖ Union refeito com cast para string nas colunas: ['isdebitcard_527L']
‚úÖ test_applprev_1 carregado com 3 arquivo(s).
‚úÖ test_applprev_2 carregado com 1 arquivo(s).
‚úÖ test_credit_bureau_a_1 carregado com 5 arquivo(s).
‚úÖ test_credit_bureau_a_2 carregado com 12 arquivo(s).
‚úÖ test_credit_bureau_b_1 carregado com 1 arquivo(s).
‚úÖ test_credit_bureau_b_2 carregado com 1 arquivo(s).

‚õî Tipos incompat√≠veis detectados durante o union.
üîÑ Convertendo colunas para string: ['isbidproductrequest_292L']
‚úÖ Union refeito com cast para string nas colunas: ['isbidproductrequest_292L']
‚úÖ test_static_0 carregado com 3 arquivo(s).
‚úÖ test_base carregado com 1 arquivo(s).
‚úÖ test_debitcard_1 

In [28]:
from pyspark.sql import DataFrame

def publicar_como_variaveis_globais(dfs_dict):
    for nome, df in dfs_dict.items():
        if isinstance(df, DataFrame):
            globals()[nome] = df
            print(f"‚ÜóÔ∏è publicado: {nome}")

publicar_como_variaveis_globais(variaveis_criadas)

# agora voc√™ pode usar diretamente:
# test_applprev_1.printSchema()


‚ÜóÔ∏è publicado: test_applprev_1
‚ÜóÔ∏è publicado: test_applprev_2
‚ÜóÔ∏è publicado: test_credit_bureau_a_1
‚ÜóÔ∏è publicado: test_credit_bureau_a_2
‚ÜóÔ∏è publicado: test_credit_bureau_b_1
‚ÜóÔ∏è publicado: test_credit_bureau_b_2
‚ÜóÔ∏è publicado: test_static_0
‚ÜóÔ∏è publicado: test_base
‚ÜóÔ∏è publicado: test_debitcard_1
‚ÜóÔ∏è publicado: test_deposit_1
‚ÜóÔ∏è publicado: test_other_1
‚ÜóÔ∏è publicado: test_person_1
‚ÜóÔ∏è publicado: test_person_2
‚ÜóÔ∏è publicado: test_static_cb_0
‚ÜóÔ∏è publicado: test_tax_registry_a_1
‚ÜóÔ∏è publicado: test_tax_registry_b_1
‚ÜóÔ∏è publicado: test_tax_registry_c_1


## Tratamento da tabela test_applprev_1_0

In [57]:
# Fun√ß√£o avaliar_dataset
df = test_applprev_1
nome_dataset = "test_applprev_1"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")


üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 4 duplicatas com base na chave 'case_id'


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,4,"[57543, 57549, 57760]",
1,actualdpd_943P,double,0.0,0,1,[0.0],
2,annuity_853A,double,0.0,0,22,"[3725.4001, 935.2, 4516.8003]",
3,approvaldate_319D,date,36.67,11,17,"[2016-08-31, 2011-12-24, 2018-12-29]",
4,byoccupationinc_3656910L,double,73.33,22,6,"[1.0, 15000.0, 35000.0]",
5,cancelreason_3545846M,string,0.0,0,3,"[a55475b1, P94_109_143, f2052b23]",
6,childnum_21L,int,0.0,0,3,"[1, 2, 0]",
7,creationdate_885D,date,0.0,0,24,"[2016-08-31, 2011-12-24, 2018-12-29]",
8,credacc_actualbalance_314A,double,83.33,25,5,"[34066.0, 17800.0, 0.0]",
9,credacc_credlmt_575A,double,0.0,0,6,"[0.0, 34066.0, 20000.0]",


{'total_registros': 30, 'colunas_com_nulos': 23, 'colunas_totalmente_nulas': 1, 'duplicatas_pk': 4}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_applprev_1_avaliar.csv


In [32]:
# Converter todas as colunas de data para DateType (assumindo formato yyyy-MM-dd)
test_applprev_1_date = test_applprev_1.withColumn("approvaldate_319D", to_date("approvaldate_319D")) \
       .withColumn("creationdate_885D", to_date("creationdate_885D")) \
       .withColumn("dateactivated_425D", to_date("dateactivated_425D")) \
       .withColumn("dtlastpmt_581D", to_date("dtlastpmt_581D")) \
       .withColumn("dtlastpmtallstes_3545839D", to_date("dtlastpmtallstes_3545839D")) \
       .withColumn("employedfrom_700D", to_date("employedfrom_700D")) \
       .withColumn("firstnonzeroinstldate_307D", to_date("firstnonzeroinstldate_307D"))


In [33]:
# Dias contados
test_applprev_1 = test_applprev_1_date.withColumn("dias_para_aprovacao", datediff("approvaldate_319D", "creationdate_885D")) \
       .withColumn("dias_ate_ativacao", datediff("dateactivated_425D", "creationdate_885D")) \
       .withColumn("dias_ult_pagamento", datediff("dtlastpmt_581D", "creationdate_885D")) \
       .withColumn("dias_ult_pagamento_all", datediff("dtlastpmtallstes_3545839D", "creationdate_885D")) \
       .withColumn("dias_desde_inicio_emprego", datediff("creationdate_885D", "employedfrom_700D")) \
       .withColumn("dias_para_primeira_parcela", datediff("firstnonzeroinstldate_307D", "creationdate_885D"))


In [34]:
# Cria√ß√£o de flags
test_applprev_1 = test_applprev_1 \
  .withColumn("sem_aprovacao_flag", when(col("approvaldate_319D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_ativacao_flag", when(col("dateactivated_425D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_pagamento_flag", when(col("dtlastpmt_581D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_pagamento_total_flag", when(col("dtlastpmtallstes_3545839D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_emprego_flag", when(col("employedfrom_700D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_parcela_flag", when(col("firstnonzeroinstldate_307D").isNull(), 1).otherwise(0))


In [None]:
colunas_float = [
    "credamount_590A",
    "currdebt_94A",
    "outstandingdebt_522A",
    "mainoccupationinc_437A",
    "byoccupationinc_3656910L",
    "annuity_853A",
    "revolvingaccount_394A"
]

for c in colunas_float:
    test_applprev_1 = test_applprev_1.withColumn(c, col(c).cast("double"))


In [35]:
# Flags de nulo/cruzamento
test_applprev_1 = test_applprev_1 \
    .withColumn("mainoccupationinc_null_flag", when(col("mainoccupationinc_437A").isNull(), 1).otherwise(0)) \
    .withColumn("byoccupationinc_null_flag", when(col("byoccupationinc_3656910L").isNull(), 1).otherwise(0)) \
    .withColumn("tem_revolving_flag", when(col("revolvingaccount_394A").isNotNull(), 1).otherwise(0))



In [36]:
from pyspark.sql.functions import coalesce

test_applprev_1 = test_applprev_1.withColumn("divida_total",
                   coalesce(col("currdebt_94A"), lit(0)) + coalesce(col("outstandingdebt_522A"), lit(0)))


In [37]:
# Cria√ß√£o de flag
test_applprev_1 = test_applprev_1 \
  .withColumn("limite_cartao_credito_flag", when(col("approvaldate_319D").isNull(), 1).otherwise(0))

In [38]:
from pyspark.sql.functions import when

categoricas_com_nulos = [
    "credtype_587L",
    "familystate_726L",
    "inittransactioncode_279L"
]

for c in categoricas_com_nulos:
    test_applprev_1 = test_applprev_1.withColumn(
        c,
        when(col(c).isNull(), "Desconhecido").otherwise(col(c))
    )


In [39]:
from pyspark.sql.types import StringType

categoricas_todas = [
    "cancelreason_3545846M", "credtype_587L", "district_544M",
    "education_1138M", "familystate_726L", "inittransactioncode_279L",
    "postype_4733339M", "profession_152M", "rejectreason_755M", "rejectreasonclient_4145042M"
]

for c in categoricas_todas:
    test_applprev_1 = test_applprev_1.withColumn(c, col(c).cast(StringType()))


In [40]:
from pyspark.sql.functions import when, col

# üîπ 1. Tratamento de flags booleanas (transformar em 0/1)
test_applprev_1 = test_applprev_1 \
    .withColumn("isbidproduct_390L", when(col("isbidproduct_390L") == True, 1)
                                      .when(col("isbidproduct_390L") == False, 0)
                                      .otherwise(0)) \
    .withColumn("isdebitcard_527L", when(col("isdebitcard_527L") == True, 1)
                                     .when(col("isdebitcard_527L") == False, 0)
                                     .otherwise(0))

# üîπ 2. Tratamento de colunas de contagem (nulos ‚Üí 0, cast para int)
cols_contagem = [
    "childnum_21L",
    "pmtnum_8L",
    "tenor_203L",
    "credacc_transactions_402L"
]

for c in cols_contagem:
    test_applprev_1 = test_applprev_1.withColumn(
        c,
        (when(col(c).isNull(), 0).otherwise(col(c))).cast("int")
    )

# üîπ 3. Tratamento de categorias discretas com valor num√©rico (nulos ‚Üí -1, cast para int)
test_applprev_1 = test_applprev_1 \
    .withColumn("credacc_status_367L", (when(col("credacc_status_367L").isNull(), -1)
                                        .otherwise(col("credacc_status_367L"))).cast("int")) \
    .withColumn("status_219L", (when(col("status_219L").isNull(), -1)
                                .otherwise(col("status_219L"))).cast("int"))


In [41]:
from pyspark.sql.functions import col, when, lit, first, avg, collect_set

from pyspark.sql.functions import when, col

# Define as colunas que indicam hist√≥rico de cr√©dito anterior
colunas_credito = [
    "credacc_actualbalance_314A",
    "credacc_maxhisbal_375A",
    "credacc_minhisbal_90A",
    "downpmt_134A",
    "maxdpdtolerance_577P"
]

# Cria uma condi√ß√£o para verificar se TODAS est√£o nulas
condicao_sem_credito = None
for c in colunas_credito:
    condicao_sem_credito = col(c).isNull() if condicao_sem_credito is None else (condicao_sem_credito & col(c).isNull())

# Cria a flag bin√°ria
test_applprev_1 = test_applprev_1.withColumn(
    "sem_historico_credito_flag",
    when(condicao_sem_credito, 1).otherwise(0)
)

In [42]:
# Categ√≥ricas: preenchimento de nulo e cast para string
colunas_categoricas = [
    "district_544M",
    "education_1138M",
    "profession_152M",
    "postype_4733339M",
    "rejectreason_755M",
    "rejectreasonclient_4145042M"
]

for c in colunas_categoricas:
    test_applprev_1 = test_applprev_1.withColumn(c, when(col(c).isNull(), "Desconhecido").otherwise(col(c)).cast("string"))

In [61]:
test_applprev_1.coalesce(1).write.mode("overwrite").parquet(fr"{caminho}\\data\interim\test_applprev_1.parquet")

In [62]:
caminho_base = r"C:\Users\fred\meu_projeto_etl\data\interim"
comparar_datasets_parquet(fr"{caminho_base}\\train_applprev_1.parquet",
                          fr"{caminho_base}\\test_applprev_1.parquet")


‚úÖ Mesmas colunas e mesmos tipos (ordem ignorada).


True

### üìå Resumo do tratamento da tabela *test_applprev_1*

- ‚úÖ Os **datasets particionados** foram carregados em uma √∫nica vari√°vel, permitindo que o tratamento fosse feito de forma **unificada**.  
- ‚úÖ A fun√ß√£o de **avalia√ß√£o** foi executada para observar o **comportamento e formato** dos dados.  
- ‚úÖ As **colunas que apresentaram formato de data** foram convertidas para o tipo **`date`**.  
- ‚úÖ Foi criada uma **coluna de tempo (em dias)** para compara√ß√£o entre **datas iniciais e finais**.  
- ‚úÖ Foram criadas **flags** para indicar a presen√ßa de **valores nulos**.  
- ‚úÖ Foi criada uma coluna de **d√≠vida total**.  
- ‚úÖ Colunas que tinham valores **num√©ricos mas eram categ√≥ricas** foram convertidas para **string**.  
- ‚úÖ A tabela tratada foi salva em formato **Parquet**.
- ‚úÖ A compara√ß√£o com o dataset **train** correspondente foi realizada **confirmando** a rela√ß√£o.

## Tratamento da tabela train_applprev_2

In [63]:
# Fun√ß√£o avaliar_dataset
df = test_applprev_2
nome_dataset = "test_applprev_2"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")



üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 1 duplicatas com base na chave 'case_id'


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,1,[57543],
1,cacccardblochreas_147M,string,0.0,0,1,[a55475b1],
2,conts_type_509L,string,40.0,4,3,"[PRIMARY_MOBILE, PHONE]",
3,credacc_cards_status_52L,int,100.0,10,1,[],
4,num_group1,bigint,0.0,0,5,"[0, 1, 3]",
5,num_group2,bigint,0.0,0,2,"[0, 1]",


{'total_registros': 10, 'colunas_com_nulos': 2, 'colunas_totalmente_nulas': 1, 'duplicatas_pk': 1}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_applprev_2_avaliar.csv


### üìå Resumo do tratamento da tabela *train_applprev_2*

- ‚úÖ A tabela foi **avaliada** com a fun√ß√£o de profiling (`avaliar_dataset`).  
- ‚ùå **N√£o foi incorporada ao pipeline de tratamento**, devido √†:  
  - Baixa relev√¢ncia das informa√ß√µes.  
  - Impossibilidade de defini√ß√£o de uma chave prim√°ria.  


## Tratamento da tabela train_credit_bureau_a_1

In [64]:
# Fun√ß√£o avaliar_dataset
df = test_credit_bureau_a_1
nome_dataset = "test_credit_bureau_a_1"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")


üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 5 duplicatas com base na chave 'case_id'


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,5,"[57551, 57543, 57633]",
1,annualeffectiverate_199L,double,74.0,37,8,"[8.28, 0.69, 34.5]",
2,annualeffectiverate_63L,double,80.0,40,6,"[34.5, 56.0, 38.48]",
3,classificationofcontr_13M,string,0.0,0,2,"[ea6782cc, a55475b1]",
4,classificationofcontr_400M,string,0.0,0,8,"[e6e56e83, ea6782cc, ada1729d]",
...,...,...,...,...,...,...,...
140,totalamount_996A_flag,int,0.0,0,2,"[1, 0]",
141,totaldebtoverduevalue_178A_flag,int,0.0,0,2,"[1, 0]",
142,totaldebtoverduevalue_718A_flag,int,0.0,0,2,"[1, 0]",
143,totaloutstanddebtvalue_39A_flag,int,0.0,0,2,"[1, 0]",


{'total_registros': 50, 'colunas_com_nulos': 66, 'colunas_totalmente_nulas': 2, 'duplicatas_pk': 5}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_credit_bureau_a_1_avaliar.csv


In [52]:
# Executar a fun√ß√£o criar_flags_nulos
test_credit_bureau_a_1_flags = criar_flags_nulos(test_credit_bureau_a_1)

# Listar todas as flags criadas
flags_criadas = [c for c in test_credit_bureau_a_1_flags.columns if c.endswith("_flag")]
print("Flags criadas:", flags_criadas)

# Se quiser inspecionar algumas flags espec√≠ficas:
test_credit_bureau_a_1_flags.select(flags_criadas).limit(5).toPandas()

üü© Sem valores ausentes em: case_id (flag n√£o criada)
‚úÖ Flag criada: annualeffectiverate_199L_flag
‚úÖ Flag criada: annualeffectiverate_63L_flag
üü© Sem valores ausentes em: classificationofcontr_13M (flag n√£o criada)
üü© Sem valores ausentes em: classificationofcontr_400M (flag n√£o criada)
üü© Sem valores ausentes em: contractst_545M (flag n√£o criada)
üü© Sem valores ausentes em: contractst_964M (flag n√£o criada)
‚úÖ Flag criada: contractsum_5085717L_flag
‚úÖ Flag criada: credlmt_230A_flag
‚úÖ Flag criada: credlmt_935A_flag
‚úÖ Flag criada: dateofcredend_289D_flag
‚úÖ Flag criada: dateofcredend_353D_flag
‚úÖ Flag criada: dateofcredstart_181D_flag
‚úÖ Flag criada: dateofcredstart_739D_flag
‚úÖ Flag criada: dateofrealrepmt_138D_flag
‚úÖ Flag criada: debtoutstand_525A_flag
‚úÖ Flag criada: debtoverdue_47A_flag
üü© Sem valores ausentes em: description_351M (flag n√£o criada)
‚úÖ Flag criada: dpdmax_139P_flag
‚úÖ Flag criada: dpdmax_757P_flag
‚úÖ Flag criada: dpdmaxdatemonth_

Unnamed: 0,annualeffectiverate_199L_flag,annualeffectiverate_63L_flag,contractsum_5085717L_flag,credlmt_230A_flag,credlmt_935A_flag,dateofcredend_289D_flag,dateofcredend_353D_flag,dateofcredstart_181D_flag,dateofcredstart_739D_flag,dateofrealrepmt_138D_flag,...,prolongationcount_599L_flag,refreshdate_3813885D_flag,residualamount_488A_flag,residualamount_856A_flag,totalamount_6A_flag,totalamount_996A_flag,totaldebtoverduevalue_178A_flag,totaldebtoverduevalue_718A_flag,totaloutstanddebtvalue_39A_flag,totaloutstanddebtvalue_668A_flag
0,0,1,1,1,1,1,0,0,1,0,...,1,1,1,1,0,1,1,1,1,1
1,1,1,0,1,0,0,0,0,0,0,...,1,0,1,0,0,1,0,0,0,0
2,1,1,0,1,0,0,0,0,0,0,...,1,0,1,0,0,1,1,1,1,1
3,1,1,1,0,1,1,0,0,1,0,...,1,1,0,1,1,1,1,1,1,1
4,1,1,1,0,1,1,0,0,1,0,...,1,1,0,1,1,1,1,1,1,1


In [53]:
# Executar a fun√ß√£o detectar_e_converter_datas
test_credit_bureau_a_1_date, cols_conv = detectar_e_converter_datas(test_credit_bureau_a_1_flags)

print("Colunas convertidas:", cols_conv)

# Verificar schema ap√≥s convers√£o
print(test_credit_bureau_a_1_date.printSchema())

# Exibir amostra das colunas convertidas (sem coletar tudo)
test_credit_bureau_a_1_date.select(*cols_conv).show(10, truncate=False)

‚úÖ Coluna 'dateofcredend_289D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'dateofcredend_353D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'dateofcredstart_181D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'dateofcredstart_739D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'dateofrealrepmt_138D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'lastupdate_1112D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'lastupdate_388D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'numberofoverdueinstlmaxdat_148D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'numberofoverdueinstlmaxdat_641D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'overdueamountmax2date_1002D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'overdueamountmax2date_1142D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'refreshdate_3813885D' convertida com formato: yyyy-MM-dd
Colunas convertidas: ['dateofcredend_289D', 'dateofcredend_353D', 'dateofcredstart_181D', 'dateofcredstart_739D', 'dateofrealrepmt_138D', 'lastupdate

+------------------+------------------+--------------------+--------------------+--------------------+----------------+---------------+-------------------------------+-------------------------------+---------------------------+---------------------------+--------------------+
|dateofcredend_289D|dateofcredend_353D|dateofcredstart_181D|dateofcredstart_739D|dateofrealrepmt_138D|lastupdate_1112D|lastupdate_388D|numberofoverdueinstlmaxdat_148D|numberofoverdueinstlmaxdat_641D|overdueamountmax2date_1002D|overdueamountmax2date_1142D|refreshdate_3813885D|
+------------------+------------------+--------------------+--------------------+--------------------+----------------+---------------+-------------------------------+-------------------------------+---------------------------+---------------------------+--------------------+
|NULL              |2023-07-02        |2018-09-10          |NULL                |2020-06-20          |NULL            |2020-06-24     |2018-11-04                     |NU

In [83]:
test_credit_bureau_a_1_group = test_credit_bureau_a_1_date.withColumn('num_group1', col('num_group1').cast('bigint'))

In [86]:
test_credit_bureau_a_1 = test_credit_bureau_a_1_group
test_credit_bureau_a_1.coalesce(1).write.mode("overwrite").parquet(
    fr"{caminho}\\data\interim\test_bureau_a_1.parquet"
)

In [87]:
caminho_base = r"C:\Users\fred\meu_projeto_etl\data\interim"
comparar_datasets_parquet(fr"{caminho_base}\\train_bureau_a_1.parquet",
                          fr"{caminho_base}\\test_bureau_a_1.parquet")

‚úÖ Mesmas colunas e mesmos tipos (ordem ignorada).


True

### üìå Resumo do tratamento da tabela *train_credit_bureau_a_1*

- ‚úÖ A fun√ß√£o de **avalia√ß√£o do dataset** foi executada.  
- ‚úÖ A fun√ß√£o de **cria√ß√£o de flags de nulos** foi aplicada, gerando diversas novas colunas.  
- ‚úÖ A fun√ß√£o de **detec√ß√£o e convers√£o de datas** foi executada, convertendo v√°rias colunas para o tipo `date`.
- ‚úÖ A compara√ß√£o com o dataset **train** correspondente foi realizada e a coluna **num_group1** e a mesma foi **tratada**.
- üîé Ap√≥s avalia√ß√£o detalhada das colunas e seus valores, **n√£o foram necess√°rias novas altera√ß√µes**.  
- üíæ O dataset tratado foi salvo em formato **Parquet**.  


## Tratamento da tabela train_credit_bureau_a_2

In [90]:
# Fun√ß√£o avaliar_dataset
df = test_credit_bureau_a_2
nome_dataset = "test_credit_bureau_a_2"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")

üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 12 duplicatas com base na chave 'case_id'


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,12,"[57551, 57631, 57681]",
1,collater_typofvalofguarant_298M,string,0.0,0,3,"[8fd95e4b, 9a0c095e, a55475b1]",
2,collater_typofvalofguarant_407M,string,0.0,0,3,"[8fd95e4b, 9a0c095e, a55475b1]",
3,collater_valueofguarantee_1124L,double,76.67,92,3,"[0.0, 7230000.0]",
4,collater_valueofguarantee_876L,double,44.17,53,3,"[0.0, 75200.0]",
5,collaterals_typeofguarante_359M,string,0.0,0,3,"[c7a5ad39, 3cbe86ba, a55475b1]",
6,collaterals_typeofguarante_669M,string,0.0,0,3,"[c7a5ad39, a55475b1, 7b62420e]",
7,num_group1,bigint,0.0,0,13,"[0, 7, 6]",
8,num_group2,bigint,0.0,0,10,"[0, 7, 6]",
9,pmts_dpd_1073P,double,84.17,101,2,[0.0],


{'total_registros': 120, 'colunas_com_nulos': 10, 'colunas_totalmente_nulas': 0, 'duplicatas_pk': 12}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_credit_bureau_a_2_avaliar.csv


In [91]:
# Executar a fun√ß√£o criar_flags_nulos
test_credit_bureau_a_2_flags = criar_flags_nulos(test_credit_bureau_a_2)

# Listar todas as flags criadas
flags_criadas = [c for c in test_credit_bureau_a_2_flags.columns if c.endswith("_flag")]
print("Flags criadas:", flags_criadas)

# Se quiser inspecionar algumas flags espec√≠ficas:
test_credit_bureau_a_2_flags.select(flags_criadas).limit(5).toPandas()

üü© Sem valores ausentes em: case_id (flag n√£o criada)
üü© Sem valores ausentes em: collater_typofvalofguarant_298M (flag n√£o criada)
üü© Sem valores ausentes em: collater_typofvalofguarant_407M (flag n√£o criada)
‚úÖ Flag criada: collater_valueofguarantee_1124L_flag
‚úÖ Flag criada: collater_valueofguarantee_876L_flag
üü© Sem valores ausentes em: collaterals_typeofguarante_359M (flag n√£o criada)
üü© Sem valores ausentes em: collaterals_typeofguarante_669M (flag n√£o criada)
üü© Sem valores ausentes em: num_group1 (flag n√£o criada)
üü© Sem valores ausentes em: num_group2 (flag n√£o criada)
‚úÖ Flag criada: pmts_dpd_1073P_flag
‚úÖ Flag criada: pmts_dpd_303P_flag
‚úÖ Flag criada: pmts_month_158T_flag
‚úÖ Flag criada: pmts_month_706T_flag
‚úÖ Flag criada: pmts_overdue_1140A_flag
‚úÖ Flag criada: pmts_overdue_1152A_flag
‚úÖ Flag criada: pmts_year_1139T_flag
‚úÖ Flag criada: pmts_year_507T_flag
üü© Sem valores ausentes em: subjectroles_name_541M (flag n√£o criada)
üü© Sem valor

Unnamed: 0,collater_valueofguarantee_1124L_flag,collater_valueofguarantee_876L_flag,pmts_dpd_1073P_flag,pmts_dpd_303P_flag,pmts_month_158T_flag,pmts_month_706T_flag,pmts_overdue_1140A_flag,pmts_overdue_1152A_flag,pmts_year_1139T_flag,pmts_year_507T_flag
0,0,0,1,1,0,0,1,1,0,0
1,0,0,1,1,0,0,1,1,0,0
2,1,0,1,1,1,0,1,1,1,0
3,1,0,1,1,1,0,1,1,1,0
4,1,0,1,1,1,0,1,1,1,0


In [92]:
test_credit_bureau_a_2 = test_credit_bureau_a_2_flags
test_credit_bureau_a_2.coalesce(1).write.mode("overwrite").parquet(
    fr"{caminho}\\data\interim\test_bureau_a_2.parquet"
)

In [93]:
caminho_base = r"C:\Users\fred\meu_projeto_etl\data\interim"
comparar_datasets_parquet(fr"{caminho_base}\\test_bureau_a_2.parquet",
                          fr"{caminho_base}\\test_bureau_a_2.parquet")

‚úÖ Mesmas colunas e mesmos tipos (ordem ignorada).


True

### üìå Resumo do tratamento da tabela *train_credit_bureau_a_2*

- ‚úÖ Execu√ß√£o da fun√ß√£o de **avalia√ß√£o do dataset**.  
- ‚úÖ **Avalia√ß√£o visual** do dataset.  
- ‚úÖ Execu√ß√£o da fun√ß√£o de **cria√ß√£o de flags** (valores nulos).  
- ‚úÖ A compara√ß√£o com o dataset **train** correspondente foi realizada **confirmando** a rela√ß√£o.
- üíæ Dataset salvo em formato **Parquet**.  
  


## Tratamento da tabela train_credit_bureau_b_1

In [94]:
# Fun√ß√£o avaliar_dataset
df = test_credit_bureau_b_1
nome_dataset = "test_credit_bureau_b_1"

# Avalia√ß√£o
tabela_resultado, resumo = avaliar_dataset(df=df, pk="case_id")

# Visualiza√ß√£o
from IPython.display import display
display(tabela_resultado)
print(resumo)

# Nome e caminho do arquivo
nome_arquivo = f"{nome_dataset}_avaliar"
caminho_saida = fr"{caminho}\\docs\\{nome_arquivo}.csv"

# Salvar CSV
tabela_resultado.to_csv(caminho_saida, index=False, encoding="utf-8-sig")
print(f"‚úÖ Tabela salva em: {caminho_saida}")

üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 3 duplicatas com base na chave 'case_id'


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,3,"[57675, 57754, 57775]",
1,amount_1115A,double,60.0,6,5,"[1932619.4, 3000.0, 1488000.0]",
2,classificationofcontr_1114M,string,0.0,0,3,"[ea6782cc, a55475b1, 01f63ac8]",
3,contractdate_551D,string,0.0,0,10,"[2020-04-22, 2021-01-20, 2020-06-26]",
4,contractmaturitydate_151D,string,0.0,0,10,"[2020-07-25, 2035-04-23, 2022-09-29]",
5,contractst_516M,string,0.0,0,3,"[04bf6e27, 7241344e, 0dc85f9d]",
6,contracttype_653M,string,0.0,0,4,"[1c9c5356, 60e784d6, 4257cbed]",
7,credlmt_1052A,double,80.0,8,3,"[132032.0, 220598.0]",
8,credlmt_228A,double,80.0,8,3,"[10000.0, 38000.0]",
9,credlmt_3940954A,double,40.0,4,6,"[0.0, 35232.0, 200598.0]",


{'total_registros': 10, 'colunas_com_nulos': 22, 'colunas_totalmente_nulas': 1, 'duplicatas_pk': 3}
‚úÖ Tabela salva em: C:\Users\fred\meu_projeto_etl\\docs\\test_credit_bureau_b_1_avaliar.csv


In [95]:
from pyspark.sql import functions as F

COL = "maxdebtpduevalodued_3940955A"  # coluna de dias
MAX_DIAS_PLAUSIVEL = 2000             # ajuste se necess√°rio

# 1) Filtrar valores absurdos (negativos ou > limite)
absurdos_df = (
    test_credit_bureau_b_1
    .filter((F.col(COL) < 0) | (F.col(COL) > F.lit(MAX_DIAS_PLAUSIVEL)))
)

qtd_absurdos = absurdos_df.count()

if qtd_absurdos == 0:
    # 2) Converter para inteiro (arredondando)
    test_credit_bureau_b_1 = test_credit_bureau_b_1.withColumn(COL, F.round(F.col(COL)).cast("int"))
    print(f"‚úÖ Sem valores absurdos detectados. Coluna '{COL}' convertida para int.")
else:
    print(f"‚ö†Ô∏è Encontrados {qtd_absurdos} valores absurdos em '{COL}'. Exemplos:")
    absurdos_df.select(COL).show(20, truncate=False)  # mostra at√© 20 exemplos


‚úÖ Sem valores absurdos detectados. Coluna 'maxdebtpduevalodued_3940955A' convertida para int.


In [96]:
test_credit_bureau_b_1 = test_credit_bureau_b_1.withColumn(
    COL,
    F.when((F.col(COL) < 0) | (F.col(COL) > MAX_DIAS_PLAUSIVEL), None).otherwise(F.col(COL))
)
print("‚úÖ Valores absurdos substitu√≠dos por nulo.")


‚úÖ Valores absurdos substitu√≠dos por nulo.


In [97]:
from pyspark.sql import functions as F

COL = "maxdebtpduevalodued_3940955A"  # coluna de dias
MAX_DIAS_PLAUSIVEL = 2000             # ajuste se necess√°rio

# 1) Filtrar valores absurdos (negativos ou > limite)
absurdos_df = (
    test_credit_bureau_b_1
    .filter((F.col(COL) < 0) | (F.col(COL) > F.lit(MAX_DIAS_PLAUSIVEL)))
)

qtd_absurdos = absurdos_df.count()

if qtd_absurdos == 0:
    # 2) Converter para inteiro (arredondando)
    test_credit_bureau_b_1 = test_credit_bureau_b_1.withColumn(COL, F.round(F.col(COL)).cast("int"))
    print(f"‚úÖ Sem valores absurdos detectados. Coluna '{COL}' convertida para int.")
else:
    print(f"‚ö†Ô∏è Encontrados {qtd_absurdos} valores absurdos em '{COL}'. Exemplos:")
    absurdos_df.select(COL).show(20, truncate=False)  # mostra at√© 20 exemplos


‚úÖ Sem valores absurdos detectados. Coluna 'maxdebtpduevalodued_3940955A' convertida para int.


In [98]:
from pyspark.sql import functions as F

COL = "overdueamountmaxdateyear_432T"

df_check = (
    test_credit_bureau_b_1
    .select(
        F.count(F.when(F.col(COL).isNull(), 1)).alias("qtd_nulos"),
        F.count(F.when(F.col(COL) == 1900, 1)).alias("qtd_1900")
    )
)

df_check.show(truncate=False)


+---------+--------+
|qtd_nulos|qtd_1900|
+---------+--------+
|0        |0       |
+---------+--------+



In [99]:
from pyspark.sql import functions as F

COL = "overdueamountmaxdateyear_432T"

anos_invalidos = (
    test_credit_bureau_b_1
    .filter((F.col(COL) < 1950) | (F.col(COL) > 2025))
    .groupBy(COL)
    .count()
    .orderBy("count", ascending=False)
)

anos_invalidos.show(truncate=False)


+-----------------------------+-----+
|overdueamountmaxdateyear_432T|count|
+-----------------------------+-----+
+-----------------------------+-----+



In [100]:
from pyspark.sql import functions as F

COL = "overdueamountmaxdateyear_432T"

test_credit_bureau_b_1 = test_credit_bureau_b_1.withColumn(
    COL,
    F.when(F.col(COL) == 1900, None).otherwise(F.col(COL))
)

print(f"‚úÖ Valores 1900 em '{COL}' foram substitu√≠dos por NULL.")


‚úÖ Valores 1900 em 'overdueamountmaxdateyear_432T' foram substitu√≠dos por NULL.


In [101]:
# Executar a fun√ß√£o criar_flags_nulos
test_credit_bureau_b_1_flags = criar_flags_nulos(test_credit_bureau_b_1)

# Listar todas as flags criadas
flags_criadas = [c for c in test_credit_bureau_b_1_flags.columns if c.endswith("_flag")]
print("Flags criadas:", flags_criadas)

# Se quiser inspecionar algumas flags espec√≠ficas:
test_credit_bureau_b_1_flags.select(flags_criadas).limit(5).toPandas()

üü© Sem valores ausentes em: case_id (flag n√£o criada)
‚úÖ Flag criada: amount_1115A_flag
üü© Sem valores ausentes em: classificationofcontr_1114M (flag n√£o criada)
üü© Sem valores ausentes em: contractdate_551D (flag n√£o criada)
üü© Sem valores ausentes em: contractmaturitydate_151D (flag n√£o criada)
üü© Sem valores ausentes em: contractst_516M (flag n√£o criada)
üü© Sem valores ausentes em: contracttype_653M (flag n√£o criada)
‚úÖ Flag criada: credlmt_1052A_flag
‚úÖ Flag criada: credlmt_228A_flag
‚úÖ Flag criada: credlmt_3940954A_flag
üü© Sem valores ausentes em: credor_3940957M (flag n√£o criada)
‚úÖ Flag criada: credquantity_1099L_flag
‚úÖ Flag criada: credquantity_984L_flag
üü© Sem valores ausentes em: debtpastduevalue_732A (flag n√£o criada)
‚úÖ Flag criada: debtvalue_227A_flag
‚úÖ Flag criada: dpd_550P_flag
‚úÖ Flag criada: dpd_733P_flag
üü© Sem valores ausentes em: dpdmax_851P (flag n√£o criada)
üü© Sem valores ausentes em: dpdmaxdatemonth_804T (flag n√£o criada)


Unnamed: 0,amount_1115A_flag,credlmt_1052A_flag,credlmt_228A_flag,credlmt_3940954A_flag,credquantity_1099L_flag,credquantity_984L_flag,debtvalue_227A_flag,dpd_550P_flag,dpd_733P_flag,installmentamount_644A_flag,...,interesteffectiverate_369L_flag,interestrateyearly_538L_flag,numberofinstls_810L_flag,periodicityofpmts_997L_flag,pmtnumpending_403L_flag,residualamount_1093A_flag,residualamount_127A_flag,residualamount_3940956A_flag,totalamount_503A_flag,totalamount_881A_flag
0,0,1,1,1,1,1,0,1,1,1,...,1,1,0,1,0,1,1,1,1,1
1,1,0,0,0,0,0,1,0,0,0,...,1,1,1,1,1,0,0,0,0,0
2,1,1,1,0,0,0,1,0,0,0,...,1,1,1,1,1,1,1,0,0,0
3,0,1,1,1,1,1,0,1,1,1,...,1,1,0,1,0,1,1,1,1,1
4,1,0,0,0,0,0,1,0,0,0,...,1,1,1,1,1,0,0,0,0,0


In [102]:
# Executar a fun√ß√£o detectar_e_converter_datas
test_credit_bureau_b_1_date, cols_conv = detectar_e_converter_datas(test_credit_bureau_b_1_flags)

print("Colunas convertidas:", cols_conv)

# Verificar schema ap√≥s convers√£o
print(test_credit_bureau_b_1_date.printSchema())

# Exibir amostra das colunas convertidas (sem coletar tudo)
test_credit_bureau_b_1_date.select(*cols_conv).show(10, truncate=False)

‚úÖ Coluna 'contractdate_551D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'contractmaturitydate_151D' convertida com formato: yyyy-MM-dd
‚úÖ Coluna 'lastupdate_260D' convertida com formato: yyyy-MM-dd
Colunas convertidas: ['contractdate_551D', 'contractmaturitydate_151D', 'lastupdate_260D']
root
 |-- case_id: long (nullable = true)
 |-- amount_1115A: double (nullable = true)
 |-- classificationofcontr_1114M: string (nullable = true)
 |-- contractdate_551D: date (nullable = true)
 |-- contractmaturitydate_151D: date (nullable = true)
 |-- contractst_516M: string (nullable = true)
 |-- contracttype_653M: string (nullable = true)
 |-- credlmt_1052A: double (nullable = true)
 |-- credlmt_228A: double (nullable = true)
 |-- credlmt_3940954A: double (nullable = true)
 |-- credor_3940957M: string (nullable = true)
 |-- credquantity_1099L: double (nullable = true)
 |-- credquantity_984L: double (nullable = true)
 |-- debtpastduevalue_732A: double (nullable = true)
 |-- debtvalue_227A: doubl

In [103]:
test_credit_bureau_b_1 = test_credit_bureau_b_1_date
test_credit_bureau_b_1.coalesce(1).write.mode("overwrite").parquet(
    fr"{caminho}\\data\interim\test_bureau_b_1.parquet"
)

In [104]:
caminho_base = r"C:\Users\fred\meu_projeto_etl\data\interim"
comparar_datasets_parquet(fr"{caminho_base}\\test_bureau_b_1.parquet",
                          fr"{caminho_base}\\test_bureau_b_1.parquet")

‚úÖ Mesmas colunas e mesmos tipos (ordem ignorada).


True

### üìå Resumo do tratamento da tabela *train_credit_bureau_b_1*

- ‚úÖ Execu√ß√£o da fun√ß√£o para **avaliar dataset**.  
- ‚úÖ **Avalia√ß√£o visual** do dataset.  
- ‚úÖ **Corre√ß√£o de inconsist√™ncias** na coluna `maxdebtpduevalodued_3940955A`.  
- ‚úÖ Execu√ß√£o da fun√ß√£o para **cria√ß√£o de flags**.  
- ‚úÖ Execu√ß√£o da fun√ß√£o para **tratamento de datas**. 
- ‚úÖ A compara√ß√£o com o dataset **train** correspondente foi realizada **confirmando** a rela√ß√£o.
- üíæ Arquivo final salvo em formato **Parquet**.  
