# üßπ Tratamento e Transforma√ß√£o das Tabelas

## üéØ Objetivo do Notebook

Este notebook executa as seguintes tarefas principais:

---

### 1. üß± Tratamento da Tabela Base

Realiza o tratamento e a defini√ß√£o da **tabela base**, com base no dataset `train_base`.

---

### 2. üõ∞Ô∏è Tratamento das Tabelas Sat√©lites Menos Relevantes

Executa tratamento **b√°sico e padronizado** para datasets sat√©lites com menor impacto direto na modelagem.

---

### 3. üåê Tratamento das Tabelas Sat√©lites Mais Relevantes

Aplica transforma√ß√µes e enriquecimentos em **datasets sat√©lites considerados mais relevantes** para construir uma tabela base mais informativa e robusta.

---


### 4. üìñ Atualiza√ß√£o de Dicion√°rio de Vari√°veis (em Portugu√™s)

Gera um **mapeamento interpret√°vel** com descri√ß√µes das vari√°veis criadas nesta fase, tornando a an√°lise mais acess√≠vel e compreens√≠vel.


In [1]:
# Cria√ß√£o da SparkSession
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("ExemploSparkSession") \
    .getOrCreate()

In [2]:
# Importa√ß√µes
from pyspark.sql.functions import col, when, count, isnan, isnull, countDistinct, to_date, format_string, to_date, datediff, lit, coalesce
from pyspark.sql.types import FloatType, DoubleType
import pandas as pd
import os

In [10]:

"""## Fun√ß√£o de avalialia√ß√£o de tabelas
### üìã Fun√ß√£o avaliar_dataset

### Avalia um DataFrame Spark realizando:

‚úÖ Exibi√ß√£o do schema (colunas e tipos de dados)

üß™ Contagem de valores nulos por coluna (e NaNs para colunas num√©ricas)

üîç Verifica√ß√£o de duplicatas pela chave prim√°ria (se fornecida)

üßØ Verifica√ß√£o de registros totalmente duplicados (todas as colunas)

üìÖ Visualiza√ß√£o amostral de colunas com datas (sem nulos)

### Par√¢metros:

df: DataFrame Spark a ser avaliado

pk (str): Nome da coluna que representa a chave prim√°ria (opcional)

colunas_data (list[str]): Lista de colunas de data para exibi√ß√£o (opcional)
def avaliar_dataset(df, pk=None, colunas_data=None):
    print("+ total de registros:", df.count())
    print("üß™ Schema do dataset:")
    df.printSchema()

    print("\nüö® Avalia√ß√£o de valores nulos por coluna:")
    schema = dict(df.dtypes)
    nulos = 0
    for c in df.columns:
        try:
            tipo_col = schema[c]
            cond = isnull(col(c))
            if tipo_col in ("float", "double"):
                cond = cond | isnan(col(c))
            nulos = df.filter(cond).count()
            if nulos > 0:
                print(f"  - {c}: {nulos} nulos")
                nulos = 1
        except Exception as e:
            print(f"  - Erro ao processar a coluna '{c}': {e}")
    if nulos == 0:
        print("N√£o h√° nulos no dataset")
    if pk:
        print(f"\nüîç Validando a chave prim√°ria '{pk}'...")
        if pk in df.columns:
            duplicatas_pk = df.groupBy(pk).count().filter(col("count") > 1).count()
            if duplicatas_pk > 0:
                print(f"  ‚ö†Ô∏è Encontradas {duplicatas_pk} duplicatas com base em '{pk}'")
            else:
                print("  ‚úÖ A chave prim√°ria √© √∫nica.")
        else:
            print(f"  ‚ö†Ô∏è Coluna '{pk}' n√£o encontrada no DataFrame.")
    print("\nüö® Quantidade de registros √∫nicos por coluna.")
    for c in df.columns:
        try:
            print(f"Quantidade de valores √∫nicos na coluna {c}: ", df.select(c).distinct().count())
        except Exception as e:
            print(f"  - Erro ao processar a coluna '{c}': {e}")
    if colunas_data:
        print("\nüìÖ Verificando amostras das colunas de data (sem nulos):")
        for data_col in colunas_data:
            if data_col in df.columns:
                try:
                    print(f"  üìÜ {data_col}:")
                    df.filter(col(data_col).isNotNull()).select(data_col).show(5, truncate=False)
                except Exception as e:
                    print(f"  - Erro ao exibir '{data_col}': {e}")
            else:
                print(f"  ‚ö†Ô∏è Coluna '{data_col}' n√£o encontrada.")"""

'## Fun√ß√£o de avalialia√ß√£o de tabelas\n### üìã Fun√ß√£o avaliar_dataset\n\n### Avalia um DataFrame Spark realizando:\n\n‚úÖ Exibi√ß√£o do schema (colunas e tipos de dados)\n\nüß™ Contagem de valores nulos por coluna (e NaNs para colunas num√©ricas)\n\nüîç Verifica√ß√£o de duplicatas pela chave prim√°ria (se fornecida)\n\nüßØ Verifica√ß√£o de registros totalmente duplicados (todas as colunas)\n\nüìÖ Visualiza√ß√£o amostral de colunas com datas (sem nulos)\n\n### Par√¢metros:\n\ndf: DataFrame Spark a ser avaliado\n\npk (str): Nome da coluna que representa a chave prim√°ria (opcional)\n\ncolunas_data (list[str]): Lista de colunas de data para exibi√ß√£o (opcional)\ndef avaliar_dataset(df, pk=None, colunas_data=None):\n    print("+ total de registros:", df.count())\n    print("üß™ Schema do dataset:")\n    df.printSchema()\n\n    print("\nüö® Avalia√ß√£o de valores nulos por coluna:")\n    schema = dict(df.dtypes)\n    nulos = 0\n    for c in df.columns:\n        try:\n         

### üß™ Fun√ß√£o: `avaliar_dataset`

Esta fun√ß√£o tem como objetivo realizar uma **an√°lise explorat√≥ria detalhada** de um DataFrame Spark, focando em qualidade e integridade dos dados. √â uma ferramenta √∫til para engenheiros e cientistas de dados durante as etapas iniciais do pipeline de dados.

#### ‚úÖ O que a fun√ß√£o faz:

- Exibe o **schema** (colunas e seus tipos de dados)
- Conta:
  - Total de registros
  - **Nulos e % de nulos por coluna**
  - **Valores distintos** por coluna
- Mostra **exemplos de valores** n√£o nulos por coluna
- Verifica **unicidade da chave prim√°ria** (se especificada)
- Mostra **amostras de colunas de data**, ignorando nulos
- Retorna:
  - Um **DataFrame Pandas** com o diagn√≥stico completo por coluna
  - Um **dicion√°rio resumo** com m√©tricas globais

#### üì• Par√¢metros:
- `df`: DataFrame Spark a ser avaliado
- `pk` *(str, opcional)*: Nome da coluna chave prim√°ria a ser validada
- `colunas_data` *(list[str], opcional)*: Lista de colunas com datas para exibir amostras
- `amostras_data` *(int, opcional)*: N√∫mero de registros a exibir por coluna de data (padr√£o: 5)

#### üß† Observa√ß√µes:
- A verifica√ß√£o de duplicatas √© feita **somente na chave prim√°ria** (n√£o em registros completos, para evitar sobrecarga de mem√≥ria).


In [14]:
from pyspark.sql.functions import col, isnull, isnan
import pandas as pd

def avaliar_dataset(df, pk=None, colunas_data=None, amostras_data=5):
    """
    Avalia um DataFrame Spark realizando:
    - Exibi√ß√£o do schema
    - Contagem de nulos e % de nulos por coluna
    - N√∫mero de valores distintos por coluna
    - Exemplo de valores distintos e n√£o nulos por coluna
    - Verifica√ß√£o de duplicatas na chave prim√°ria (se fornecida)
    - Visualiza√ß√£o de amostras em colunas de data (sem nulos)

    Retorna:
    - Um DataFrame Pandas com resultados por coluna
    - Um dicion√°rio com resumo geral
    """

    print("üìä Avalia√ß√£o do DataFrame...")
    total_registros = df.count()
    schema = dict(df.dtypes)
    resultados = []

    for c in df.columns:
        tipo = schema[c]
        cond = isnull(col(c))
        if tipo in ("float", "double"):
            cond = cond | isnan(col(c))

        nulos = df.filter(cond).count()
        distintos = df.select(c).distinct().count()

        # Captura de exemplos distintos e n√£o nulos
        try:
            exemplos_df = df.select(c).where(col(c).isNotNull()).distinct().limit(3)
            exemplo = exemplos_df.toPandas()[c].tolist()
        except:
            exemplo = []

        resultados.append({
            "coluna": c,
            "tipo": tipo,
            "% nulos": round(nulos / total_registros * 100, 2),
            "qtd_nulos": nulos,
            "valores_distintos": distintos,
            "exemplo_valores": exemplo,
            "observacoes": ""
        })

    resultados_df = pd.DataFrame(resultados)

    # üîç Resumo geral
    resumo = {
        "total_registros": total_registros,
        "colunas_com_nulos": resultados_df[resultados_df["qtd_nulos"] > 0].shape[0],
        "colunas_totalmente_nulas": resultados_df[resultados_df["qtd_nulos"] == total_registros].shape[0],
        "duplicatas_pk": None
    }

    # Verifica√ß√£o de chave prim√°ria
    if pk and pk in df.columns:
        duplicatas_pk = df.groupBy(pk).count().filter(col("count") > 1).count()
        resumo["duplicatas_pk"] = duplicatas_pk
        print(f"\nüîç Chave prim√°ria '{pk}':")
        if duplicatas_pk > 0:
            print(f"‚ö†Ô∏è Encontradas {duplicatas_pk} duplicatas com base na chave '{pk}'")
        else:
            print("‚úÖ Chave prim√°ria √© √∫nica.")
    elif pk:
        print(f"‚ö†Ô∏è A coluna '{pk}' n√£o est√° presente no DataFrame.")

    # Amostra de colunas de data
    if colunas_data:
        print("\nüìÖ Amostras de colunas de data (sem nulos):")
        for data_col in colunas_data:
            if data_col in df.columns:
                print(f"üìÜ {data_col}:")
                try:
                    df.filter(col(data_col).isNotNull()).select(data_col).show(amostras_data, truncate=False)
                except Exception as e:
                    print(f"‚ö†Ô∏è Erro ao exibir {data_col}: {e}")
            else:
                print(f"‚ö†Ô∏è Coluna {data_col} n√£o encontrada.")

    return resultados_df, resumo


## 1. üß± Tratamento da Tabela Base

In [11]:
#Importa√ß√£o da tabela base
train_base = spark.read.parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\raw\train\train_base.parquet")

### Tratamento de nulos e duplicidade

In [None]:
train_base.show()

In [15]:
# Executar
tabela_resultado, resumo = avaliar_dataset(
    df=train_applprev_1,
    pk="case_id",
    colunas_data=["date_decision", "MONTH"])

# Visualizar a tabela
import pandas as pd
from IPython.display import display
display(tabela_resultado)

# Exibir resumo
print(resumo)
avaliar_dataset(train_base, pk="case_id", colunas_data=["date_decision", "MONTH"])

üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 991955 duplicatas com base na chave 'case_id'

üìÖ Amostras de colunas de data (sem nulos):
‚ö†Ô∏è Coluna date_decision n√£o encontrada.
‚ö†Ô∏è Coluna MONTH n√£o encontrada.


Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,1221522,"[29, 964, 2453]",
1,actualdpd_943P,double,0.04,2500,190,"[160.0, 8.0, 70.0]",
2,annuity_853A,double,3.84,250736,89298,"[7171.0, 3069.6, 5482.2]",
3,approvaldate_319D,string,46.13,3010294,5403,"[2019-08-08, 2019-08-22, 2017-05-14]",
4,byoccupationinc_3656910L,double,76.49,4991531,29700,"[24923.0, 45953.0, 7542.62]",
5,cancelreason_3545846M,string,0.0,0,76,"[P205_40_167, P150_0_30, P60_137_164]",
6,childnum_21L,double,54.54,3559424,21,"[8.0, 0.0, 7.0]",
7,creationdate_885D,string,0.0,66,5406,"[2016-08-17, 2015-05-01, 2017-12-05]",
8,credacc_actualbalance_314A,double,95.1,6205945,93622,"[49.598003, 157.66801, 24594.0]",
9,credacc_credlmt_575A,double,2.97,194132,52332,"[14452.0, 24594.0, 16754.6]",


{'total_registros': 6525979, 'colunas_com_nulos': 32, 'colunas_totalmente_nulas': 0, 'duplicatas_pk': 991955}
üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚úÖ Chave prim√°ria √© √∫nica.

üìÖ Amostras de colunas de data (sem nulos):
üìÜ date_decision:
+-------------+
|date_decision|
+-------------+
|2019-01-03   |
|2019-01-03   |
|2019-01-04   |
|2019-01-03   |
|2019-01-04   |
+-------------+
only showing top 5 rows

üìÜ MONTH:
+------+
|MONTH |
+------+
|201901|
|201901|
|201901|
|201901|
|201901|
+------+
only showing top 5 rows



(          coluna    tipo  % nulos  qtd_nulos  valores_distintos  \
 0        case_id  bigint      0.0          0            1526659   
 1  date_decision  string      0.0          0                644   
 2          MONTH  bigint      0.0          0                 22   
 3       WEEK_NUM  bigint      0.0          0                 92   
 4         target  bigint      0.0          0                  2   
 
                         exemplo_valores observacoes  
 0                         [26, 29, 474]              
 1  [2019-08-08, 2019-08-22, 2019-08-23]              
 2              [201910, 201905, 202003]              
 3                          [26, 29, 65]              
 4                                [0, 1]              ,
 {'total_registros': 1526659,
  'colunas_com_nulos': 0,
  'colunas_totalmente_nulas': 0,
  'duplicatas_pk': 0})

### Tratamento de tipos de dados

In [None]:
# Altera√ß√£o de tipo da coluna date_decision
train_base_date = train_base.withColumn('date_decision', to_date(col('date_decision'), 'yyyy-MM-dd'))

In [None]:
# Verifica√ß√£o da altera√ß√£o do tipo
train_base_date.printSchema()

In [None]:
# Verifica√ß√£o do formato do m√™s
train_base_date.select('MONTH').show()

In [None]:
# Altera√ß√£o de tipo da coluna MONTH
train_base_date = train_base_date.withColumn(
    "MONTH",
    to_date(format_string("%06d", col("MONTH")), "yyyyMM")
)

In [None]:
train_base_date.select('MONTH').distinct().orderBy('MONTH').show(20, truncate=False)

In [None]:
# Verifica√ß√£o da altera√ß√£o do tipo
train_base_date.printSchema()

In [None]:
# Monta o caminho completo at√© o diret√≥rio de sa√≠da
caminho_saida = os.path.join(caminho, "data", "interim", "train_base_tratada")

# Salva o DataFrame Spark em formato Parquet no local desejado
train_base_date.write.mode("overwrite").parquet(caminho_saida)


## Tratamento das tabelas "Sat√©lite"

### Tabela de descri√ß√£o de vari√°veis

In [None]:
import pandas as pd

# Ler o arquivo markdown como texto
df_pd = pd.read_table(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\docs\tabela_descritiva.md", sep="|", engine="python", skipinitialspace=True)
df_pd = df_pd.loc[:, ~df_pd.columns.str.contains('^Unnamed')]
df_pd.columns = df_pd.columns.str.strip()
df_pd = df_pd.applymap(lambda x: x.strip() if isinstance(x, str) else x)

tabela_descritiva = spark.createDataFrame(df_pd)
tabela_descritiva.printSchema()
tabela_descritiva.show()

## Tratamento da tabela train_applprev_1_0

In [None]:
tabela_descritiva.columns

In [None]:
# Filtrar e selecionar
tabela_descritiva_filtrada = tabela_descritiva.filter(
    col('tabela') == 'train_applprev_1_0'
).select('coluna', 'tipo_dado', 'Descricao')

# Mostrar para inspe√ß√£o
tabela_descritiva_filtrada.show(45, truncate=False)

# Transformar em Pandas
tabela_descritiva_pd = tabela_descritiva_filtrada.toPandas()

# Salvar como Markdown
md_path = r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\docs\tabela_descritiva1.md"

with open(md_path, "w", encoding="utf-8") as f:
    f.write(tabela_descritiva_pd.to_markdown(index=False))


In [4]:
# Carregando e unindo tabelas
train_applprev_1_0 = spark.read.parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\raw\train\train_applprev_1_0.parquet")
train_applprev_1_1 = spark.read.parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\raw\train\train_applprev_1_1.parquet")
train_applprev_1 = train_applprev_1_0.unionByName(train_applprev_1_1)

In [5]:
# Executar
tabela_resultado, resumo = avaliar_dataset(
    df=train_applprev_1,
    pk="case_id",
    colunas_data=["approvaldate_319D", "creationdate_885D", "dateactivated_425D", "dtlastpmt_581D","dtlastpmtallstes_3545839D", "employedfrom_700D", "firstnonzeroinstldate_307D"])

# Visualizar a tabela
import pandas as pd
from IPython.display import display
display(tabela_resultado)

# Exibir resumo
print(resumo)


üìä Avalia√ß√£o do DataFrame...

üîç Chave prim√°ria 'case_id':
‚ö†Ô∏è Encontradas 991955 duplicatas com base na chave 'case_id'

üìÖ Amostras de colunas de data (sem nulos):
üìÜ approvaldate_319D:
+-----------------+
|approvaldate_319D|
+-----------------+
|2019-01-11       |
|2018-10-11       |
|2018-12-31       |
|2018-11-02       |
|2018-12-11       |
+-----------------+
only showing top 5 rows

üìÜ creationdate_885D:
+-----------------+
|creationdate_885D|
+-----------------+
|2013-04-03       |
|2013-04-03       |
|2019-01-07       |
|2019-01-08       |
|2019-01-16       |
+-----------------+
only showing top 5 rows

üìÜ dateactivated_425D:
+------------------+
|dateactivated_425D|
+------------------+
|2018-10-19        |
|2018-11-07        |
|2018-12-28        |
|2018-10-09        |
|2018-11-16        |
+------------------+
only showing top 5 rows

üìÜ dtlastpmt_581D:
+--------------+
|dtlastpmt_581D|
+--------------+
|2019-01-10    |
|2019-01-03    |
|2019-01-08    |
|2

Unnamed: 0,coluna,tipo,% nulos,qtd_nulos,valores_distintos,exemplo_valores,observacoes
0,case_id,bigint,0.0,0,1221522,"[2, 2]",
1,actualdpd_943P,double,0.04,2500,190,"[0.0, 0.0]",
2,annuity_853A,double,3.84,250736,89298,"[640.2, 1682.4]",
3,approvaldate_319D,string,46.13,3010294,5403,"[2019-01-11, 2018-10-11]",
4,byoccupationinc_3656910L,double,76.49,4991531,29700,"[1.0, 1.0]",
5,cancelreason_3545846M,string,0.0,0,76,"[a55475b1, a55475b1]",
6,childnum_21L,double,54.54,3559424,21,"[0.0, 0.0]",
7,creationdate_885D,string,0.0,66,5406,"[2013-04-03, 2013-04-03]",
8,credacc_actualbalance_314A,double,95.1,6205945,93622,"[30450.0, 0.0]",
9,credacc_credlmt_575A,double,2.97,194132,52332,"[0.0, 0.0]",


{'total_registros': 6525979, 'colunas_com_nulos': 32, 'colunas_totalmente_nulas': 0, 'duplicatas_pk': 991955}


In [None]:
# Converter todas as colunas de data para DateType (assumindo formato yyyy-MM-dd)
train_applprev_1_date = train_applprev_1.withColumn("approvaldate_319D", to_date("approvaldate_319D")) \
       .withColumn("creationdate_885D", to_date("creationdate_885D")) \
       .withColumn("dateactivated_425D", to_date("dateactivated_425D")) \
       .withColumn("dtlastpmt_581D", to_date("dtlastpmt_581D")) \
       .withColumn("dtlastpmtallstes_3545839D", to_date("dtlastpmtallstes_3545839D")) \
       .withColumn("employedfrom_700D", to_date("employedfrom_700D")) \
       .withColumn("firstnonzeroinstldate_307D", to_date("firstnonzeroinstldate_307D"))


In [None]:
# Dias contados
train_applprev_1 = train_applprev_1_date.withColumn("dias_para_aprovacao", datediff("approvaldate_319D", "creationdate_885D")) \
       .withColumn("dias_ate_ativacao", datediff("dateactivated_425D", "creationdate_885D")) \
       .withColumn("dias_ult_pagamento", datediff("dtlastpmt_581D", "creationdate_885D")) \
       .withColumn("dias_ult_pagamento_all", datediff("dtlastpmtallstes_3545839D", "creationdate_885D")) \
       .withColumn("dias_desde_inicio_emprego", datediff("creationdate_885D", "employedfrom_700D")) \
       .withColumn("dias_para_primeira_parcela", datediff("firstnonzeroinstldate_307D", "creationdate_885D"))


In [None]:
# Cria√ß√£o de flags
train_applprev_1 = train_applprev_1 \
  .withColumn("sem_aprovacao_flag", when(col("approvaldate_319D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_ativacao_flag", when(col("dateactivated_425D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_pagamento_flag", when(col("dtlastpmt_581D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_pagamento_total_flag", when(col("dtlastpmtallstes_3545839D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_emprego_flag", when(col("employedfrom_700D").isNull(), 1).otherwise(0)) \
  .withColumn("sem_parcela_flag", when(col("firstnonzeroinstldate_307D").isNull(), 1).otherwise(0))


In [None]:
colunas_float = [
    "credamount_590A",
    "currdebt_94A",
    "outstandingdebt_522A",
    "mainoccupationinc_437A",
    "byoccupationinc_3656910L",
    "annuity_853A",
    "revolvingaccount_394A"
]

for c in colunas_float:
    train_applprev_1 = train_applprev_1.withColumn(c, col(c).cast("double"))


In [None]:
# Flags de nulo/cruzamento
train_applprev_1 = train_applprev_1 \
    .withColumn("mainoccupationinc_null_flag", when(col("mainoccupationinc_437A").isNull(), 1).otherwise(0)) \
    .withColumn("byoccupationinc_null_flag", when(col("byoccupationinc_3656910L").isNull(), 1).otherwise(0)) \
    .withColumn("tem_revolving_flag", when(col("revolvingaccount_394A").isNotNull(), 1).otherwise(0))

# Imputa√ß√µes
train_applprev_1 = train_applprev_1 \
    .withColumn("credamount_590A", when(col("credamount_590A").isNull(), 0).otherwise(col("credamount_590A"))) \
    .withColumn("currdebt_94A", when(col("currdebt_94A").isNull(), 0).otherwise(col("currdebt_94A"))) \
    .withColumn("outstandingdebt_522A", when(col("outstandingdebt_522A").isNull(), 0).otherwise(col("outstandingdebt_522A"))) \
    .withColumn("mainoccupationinc_437A", when(col("mainoccupationinc_437A").isNull(), 0).otherwise(col("mainoccupationinc_437A"))) \
    .withColumn("annuity_853A", when(col("annuity_853A").isNull(), 0).otherwise(col("annuity_853A")))


In [None]:
from pyspark.sql.functions import coalesce

train_applprev_1 = train_applprev_1.withColumn("divida_total",
                   coalesce(col("currdebt_94A"), lit(0)) + coalesce(col("outstandingdebt_522A"), lit(0)))


In [None]:
train_applprev_1 = train_applprev_1.withColumn("tem_conta_credito_anterior", when(col("credacc_credlmt_575A").isNotNull(), 1).otherwise(0))

In [None]:
from pyspark.sql.functions import when

categoricas_com_nulos = [
    "credtype_587L",
    "familystate_726L",
    "inittransactioncode_279L"
]

for c in categoricas_com_nulos:
    train_applprev_1 = train_applprev_1.withColumn(
        c,
        when(col(c).isNull(), "Desconhecido").otherwise(col(c))
    )


In [None]:
from pyspark.sql.types import StringType

categoricas_todas = [
    "cancelreason_3545846M", "credtype_587L", "district_544M",
    "education_1138M", "familystate_726L", "inittransactioncode_279L",
    "postype_4733339M", "profession_152M", "rejectreason_755M", "rejectreasonclient_4145042M"
]

for c in categoricas_todas:
    train_applprev_1 = train_applprev_1.withColumn(c, col(c).cast(StringType()))


In [None]:
from pyspark.sql.functions import when, col

# üîπ 1. Tratamento de flags booleanas (transformar em 0/1)
train_applprev_1 = train_applprev_1 \
    .withColumn("isbidproduct_390L", when(col("isbidproduct_390L") == True, 1)
                                      .when(col("isbidproduct_390L") == False, 0)
                                      .otherwise(0)) \
    .withColumn("isdebitcard_527L", when(col("isdebitcard_527L") == True, 1)
                                     .when(col("isdebitcard_527L") == False, 0)
                                     .otherwise(0))

# üîπ 2. Tratamento de colunas de contagem (nulos ‚Üí 0, cast para int)
cols_contagem = [
    "childnum_21L",
    "pmtnum_8L",
    "tenor_203L",
    "credacc_transactions_402L"
]

for c in cols_contagem:
    train_applprev_1 = train_applprev_1.withColumn(
        c,
        (when(col(c).isNull(), 0).otherwise(col(c))).cast("int")
    )

# üîπ 3. Tratamento de categorias discretas com valor num√©rico (nulos ‚Üí -1, cast para int)
train_applprev_1 = train_applprev_1 \
    .withColumn("credacc_status_367L", (when(col("credacc_status_367L").isNull(), -1)
                                        .otherwise(col("credacc_status_367L"))).cast("int")) \
    .withColumn("status_219L", (when(col("status_219L").isNull(), -1)
                                .otherwise(col("status_219L"))).cast("int"))


In [None]:
from pyspark.sql.functions import (
    count, avg, max as spark_max, min as spark_min, sum as spark_sum, first
)

df_applprev_agg = train_applprev_1.groupBy("case_id").agg(
    # Quantidade de registros (aplica√ß√µes anteriores por cliente)
    count("*").alias("qtde_aplicacoes"),

    # Atrasos e d√≠vida
    avg("actualdpd_943P").alias("media_dias_atraso"),
    spark_max("actualdpd_943P").alias("max_dias_atraso"),
    avg("divida_total").alias("media_divida_total"),

    # Comportamento de produto
    spark_max("tem_revolving_flag").alias("usou_rotativo"),
    spark_max("isdebitcard_527L").alias("usou_debito"),
    spark_max("isbidproduct_390L").alias("recebeu_cross_sell"),

     # Parcelamento e pagamentos
    avg("pmtnum_8L").alias("media_pagamentos"),
    avg("tenor_203L").alias("media_parcelas"),

    # Renda e anuidade
    avg("mainoccupationinc_437A").alias("media_renda_principal"),
    avg("annuity_853A").alias("media_anuidade"),

    # Datas derivadas
    avg("dias_para_aprovacao").alias("tempo_aprovacao_medio"),
    avg("dias_desde_inicio_emprego").alias("tempo_emprego_medio"),

    # Status de aplica√ß√£o e cr√©dito
    spark_max("status_219L").alias("status_aplicacao_mais_recente"),
    spark_max("credacc_status_367L").alias("status_conta_mais_recente"),

    # Flags de aus√™ncia
    spark_max("sem_pagamento_flag").alias("tem_aplicacao_sem_pagamento"),
    spark_max("sem_ativacao_flag").alias("tem_aplicacao_nao_ativada"),
    spark_max("mainoccupationinc_null_flag").alias("renda_principal_nao_informada")
)


In [None]:
from pyspark.sql.functions import col, when, lit, first, avg, collect_set

from pyspark.sql.functions import when, col

# Define as colunas que indicam hist√≥rico de cr√©dito anterior
colunas_credito = [
    "credacc_actualbalance_314A",
    "credacc_maxhisbal_375A",
    "credacc_minhisbal_90A",
    "downpmt_134A",
    "maxdpdtolerance_577P"
]

# Cria uma condi√ß√£o para verificar se TODAS est√£o nulas
condicao_sem_credito = None
for c in colunas_credito:
    condicao_sem_credito = col(c).isNull() if condicao_sem_credito is None else (condicao_sem_credito & col(c).isNull())

# Cria a flag bin√°ria
train_applprev_1 = train_applprev_1.withColumn(
    "sem_historico_credito_flag",
    when(condicao_sem_credito, 1).otherwise(0)
)

In [None]:
# Categ√≥ricas: preenchimento de nulo e cast para string
colunas_categoricas = [
    "district_544M",
    "education_1138M",
    "profession_152M",
    "postype_4733339M",
    "rejectreason_755M",
    "rejectreasonclient_4145042M"
]

for c in colunas_categoricas:
    train_applprev_1 = train_applprev_1.withColumn(c, when(col(c).isNull(), "Desconhecido").otherwise(col(c)).cast("string"))

In [None]:
from pyspark.sql.functions import max as spark_max

df_extra_agg = train_applprev_1.groupBy("case_id").agg(
    avg("credacc_actualbalance_314A").alias("saldo_credito_medio"),
    avg("credacc_maxhisbal_375A").alias("saldo_maximo_medio"),
    avg("credacc_minhisbal_90A").alias("saldo_minimo_medio"),
    avg("downpmt_134A").alias("entrada_media"),
    avg("maxdpdtolerance_577P").alias("tolerancia_max_dpd_media"),
    first("district_544M", ignorenulls=True).alias("distrito_principal"),
    first("education_1138M", ignorenulls=True).alias("escolaridade"),
    first("profession_152M", ignorenulls=True).alias("profissao"),
    collect_set("postype_4733339M").alias("tipos_pos"),
    collect_set("rejectreason_755M").alias("motivos_rejeicao"),
    collect_set("rejectreasonclient_4145042M").alias("motivos_rejeicao_cliente"),
   spark_max("sem_historico_credito_flag").alias("flag_sem_historico_credito")
)


In [None]:
df_cliente = df_applprev_agg.join(df_extra_agg, on="case_id", how="left")


In [None]:
print(df_cliente.count())                      # n√∫mero total de clientes
print(df_cliente.columns)                      # ver todas as colunas dispon√≠veis
df_cliente.select("case_id").distinct().count()  # confirmar unicidade de case_id

In [None]:
df_cliente.coalesce(1).write.mode("overwrite").parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\silver\cliente_base_final.parquet")

In [None]:
from pyspark.sql.functions import col, when

# ‚úÖ Lista de colunas num√©ricas para tratamento
colunas_numericas = [
    'media_dias_atraso', 'max_dias_atraso', 'media_divida_total', 'media_anuidade',
    'media_pagamentos', 'media_parcelas', 'media_renda_principal', 'tempo_aprovacao_medio',
    'tempo_emprego_medio', 'saldo_credito_medio', 'saldo_maximo_medio', 'saldo_minimo_medio',
    'entrada_media', 'tolerancia_max_dpd_media'
]

# ‚úÖ Calcular percentis (1% e 99%) e armazenar limites
limites = {}
for coluna in colunas_numericas:
    quantis = df_cliente.approxQuantile(coluna, [0.01, 0.99], 0.01)
    if len(quantis) == 2:
        limites[coluna] = quantis

# ‚úÖ Aplicar clipping acumulando no mesmo DataFrame
df_cliente_outliers = df_cliente
for coluna in colunas_numericas:
    if coluna in limites:
        p01, p99 = limites[coluna]
        df_cliente_outliers = df_cliente_outliers.withColumn(
            f"{coluna}_clipped",
            when(col(coluna) < p01, p01)
            .when(col(coluna) > p99, p99)
            .otherwise(col(coluna))
        )

# ‚úÖ Substituir colunas originais pelas tratadas
for coluna in colunas_numericas:
    clipped = f"{coluna}_clipped"
    if clipped in df_cliente_outliers.columns:
        df_cliente_outliers = df_cliente_outliers.drop(coluna)
        df_cliente_outliers = df_cliente_outliers.withColumnRenamed(clipped, coluna)

# ‚úÖ Verifica√ß√£o
df_cliente_outliers.select("case_id", *colunas_numericas).show(5)


In [None]:
from pyspark.sql.functions import col

# Join entre a base principal e as agrega√ß√µes de aplica√ß√µes anteriores
df_base_save1 = train_base.join(
    df_cliente_outliers,
    on="case_id",
    how="left"
)


In [None]:
# Verificar se houve perda de registros
total_train = train_base.count()
total_final = df_base_save1.count()

print(f"Total de registros em train_base: {total_train}")
print(f"Total ap√≥s o join: {total_final}")
print(f"Registros com hist√≥rico de aplica√ß√µes: {df_cliente_outliers.select('case_id').distinct().count()}")


In [None]:
# Visualiza tipos para todas as colunas
df_base_save1.printSchema()


In [None]:
# Percentual de nulos por coluna ap√≥s o join
from pyspark.sql.functions import isnan, when, count

df_base_save1.select([
    count(when(col(c).isNull(), c)).alias(c)
    for c in df_base_save1.columns
]).show(n=20, truncate=False)


In [None]:
from pyspark.sql.functions import col, concat_ws
from pyspark.sql.types import ArrayType, StringType

# Tratando colunas com arraystring
df_tratado = df_base_save1

for nome_col, tipo_col in df_base_save1.dtypes:
    if "array<string>" in tipo_col.lower():
        df_tratado = df_tratado.withColumn(nome_col, concat_ws(",", col(nome_col)))

# Agora pode salvar como CSV
df_tratado.write.mode("overwrite").option("header", True).csv(
    r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\silver\save_point\df_base_save1"
)


In [None]:
# Garantir tipos corretos
appl = train_applprev_1.withColumn("creation_date", to_date("creationdate_885D"))
base = train_base.withColumn("date_decision", to_date("date_decision"))

# Join e teste de viola√ß√£o
joined = appl.join(base.select("case_id", "date_decision"), on="case_id", how="left")

violacoes = joined.filter(col("creation_date") > col("date_decision"))

print(f"N√∫mero de viola√ß√µes de ordem temporal: {violacoes.count()}")


In [None]:
train_credit_bureau_a_2 = spark.read.parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\raw\train\train_credit_bureau_a_2_*.parquet")

In [None]:
train_credit_bureau_a_2_0 = spark.read.parquet(r"C:\Users\fred\Documents\Estudo de dados\projeto_credito\data\raw\train\train_credit_bureau_a_2_0.parquet")

In [None]:
## Fun√ß√£o para avaliar tabelas com colunas iguais
def comparar_tabelas(tabela1, tabela2):
    a = 0
    for i in tabela1:
        if i not in tabela2:
            print('H√° coluna diferente.' )
            a = 1
            break
    if a == 0:
        print('Colunas Iguais.')

In [None]:
comparar_tabelas(train_credit_bureau_a_2.columns, train_credit_bureau_a_2_0.columns)

In [None]:
train_credit_bureau_a_2_0.select('case_id').count()

In [None]:
train_credit_bureau_a_2.select('case_id').count()

In [None]:
train_credit_bureau_a_2.printSchema()

In [None]:
tabela_descritiva.filter(col('tabela') == 'train_credit_bureau_a_2_0').select('coluna', 'Descricao').show(45, truncate = False)