### üìë Dicion√°rio de Dados - Vis√£o Geral

A base utilizada neste projeto cont√©m informa√ß√µes financeiras, comportamentais e hist√≥ricas de cr√©dito dos clientes. Abaixo, um resumo das principais colunas:

| Coluna                     | Descri√ß√£o                                                        |
|---------------------------|-------------------------------------------------------------------|
| ID                        | Identificador √∫nico do registro                                   |
| Customer_ID               | Identificador do cliente                                          |
| Month                     | M√™s de refer√™ncia da transa√ß√£o                                    |
| Name                      | Nome do cliente                                                   |
| Age                       | Idade do cliente                                                  |
| SSN                       | N√∫mero de seguran√ßa social (formato com caracteres especiais)     |
| Occupation                | Profiss√£o do cliente                                              |
| Annual_Income             | Renda anual                                                       |
| Monthly_Inhand_Salary     | Sal√°rio mensal dispon√≠vel                                         |
| Num_Bank_Accounts         | N√∫mero de contas banc√°rias                                        |
| Num_Credit_Card           | N√∫mero de cart√µes de cr√©dito                                      |
| Interest_Rate             | Taxa de juros                                                     |
| Num_of_Loan               | Quantidade de empr√©stimos ativos                                  |
| Type_of_Loan              | Tipos de empr√©stimos (texto com m√∫ltiplos valores)                |
| Delay_from_due_date       | Dias de atraso no pagamento                                       |
| Num_of_Delayed_Payment    | N√∫mero de pagamentos atrasados                                    |
| Changed_Credit_Limit      | Altera√ß√£o no limite de cr√©dito                                    |
| Num_Credit_Inquiries      | N√∫mero de consultas de cr√©dito                                    |
| Credit_Mix                | Tipo de cr√©dito utilizado (ruim, padr√£o, bom)                     |
| Outstanding_Debt          | D√≠vida pendente                                                   |
| Credit_Utilization_Ratio  | Percentual de utiliza√ß√£o do limite de cr√©dito                     |
| Credit_History_Age        | Tempo de hist√≥rico de cr√©dito                                     |
| Payment_of_Min_Amount     | Se o pagamento m√≠nimo foi realizado                               |
| Payment_Behaviour         | Comportamento de pagamento                                        |
| Monthly_Balance           | Saldo m√©dio mensal                                                |
| Amount_invested_monthly   | Valor investido mensalmente                                       |
| Credit_Score              | Classifica√ß√£o do cr√©dito (ruim, padr√£o, bom)                      |
 
Estas colunas passar√£o por etapas de limpeza, transforma√ß√£o e modelagem para alimentar o pipeline de classifica√ß√£o de clientes.


In [2]:
#Importa√ß√µes
from pyspark.sql.functions import col, sum, when, trim, regexp_replace, mean, min, max, count, when, percentile_approx, lit, expr, regexp_extract, round, translate, split, explode, first, create_map
from pyspark.sql.functions import sum as spark_sum
from pyspark.sql.types import DoubleType, IntegerType, StringType, NumericType
from functools import reduce
from pyspark.sql import DataFrame
from pyspark.sql import functions as F
from functools import reduce
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import re
from pyspark.sql.window import Window
from itertools import chain

ModuleNotFoundError: No module named 'pyspark'

In [None]:
#carregar base e visualizar dados
df_total = spark.read.csv("/FileStore/tables/client_credit_train.csv", header=True, inferSchema=True)
display(df_total)

In [None]:
# Fun√ß√µes b√°sicas

# Essa fun√ß√£o retorna os valores, repeti√ß√µes e % dos dados de uma coluna espec√≠fica
def get_valores(df, coluna):
    dados = df.groupBy(coluna).count()
    # Contagem dos valores e normaliza√ß√£o (frequ√™ncia percentual)
    total_count = df.count()
    dados_norm = dados.withColumn('percent', (F.col('count') / total_count) * 100)
    df_result = dados_norm.select(coluna, 'count', 'percent').orderBy(coluna)
    return df_result

# Essa fun√ß√£o identifica, conta e calcula a frequencia % de valores nulos de um dataframe
def get_nulos(df):
    df_nulos = df.select([F.sum(when(col(c).isNull(), 1).otherwise(0)).alias(c) for c in df.columns])
    df_count = df.select([F.count(F.col(c)).alias(c) for c in df.columns])
    
    # Calculando o percentual de nulos diretamente
    result = []
    for column in df.columns:
        nulos = df_nulos.select(column).first()[0]
        total = df_count.select(column).first()[0]
        percent = (nulos / total) * 100 if total > 0 else 0
        percent_format = f"{percent:.2f}"
        result.append((column, total, nulos, percent_format))
    
    df_final = df.sparkSession.createDataFrame(result, ["Column", "Total", "Null_Count", "Null_Percentage"])
    return df_final

# Essa fun√ß√£o identifica os valores n√£o numerais de uma coluna
def get_nao_numericos(df, coluna):
    pattern = r'\D+'  # Qualquer caractere n√£o num√©rico
    nao_numericos = df.filter(~F.col(coluna).rlike('^[0-9]+$')).select(coluna).distinct()
    return nao_numericos.rdd.flatMap(lambda x: x).collect()


# Essa funl√ß√£o limpa a coluna substituindo caracteres n√£o num√©ricos (exceto v√≠rgula e ponto), troca v√≠rgula por ponto, e converte para float.
def limpar_coluna_numerica(df, coluna):
    df = df.withColumn(coluna, regexp_replace(col(coluna), r'[^0-9,\.]', ''))
    df = df.withColumn(coluna, regexp_replace(col(coluna), ',', '.'))
    df = df.withColumn(coluna, col(coluna).cast('float'))
    return df

# Essa fun√ß√£o retorna os valores √∫nicos da coluna
def get_valores_unicos(df, coluna):
    df_unic = df.select(coluna).distinct()
    return df_unic

# Essa fun√ß√£o retorna os valores unicos negativos
def get_valores_negativos(df, coluna):
    df_negativos = df.filter(col(coluna) < 0)
    return df_negativos

# Corre√ß√£o de valores negativos substituindo por 0
def corrigir_valores_negativos(df, coluna):
    df_corrigido = df.withColumn(
        coluna,
        when(col(coluna) < 0, 0).otherwise(col(coluna))
    )
    return df_corrigido

# Retonar caracteres especiais de uma coluna, num√©rica ou n√£o
def get_caracteres_especiais(df, coluna):
    return df.filter(~col(coluna).rlike("^[a-zA-Z0-9 .,]*$"))

# Limpa a coluna com caracteres especiais
def limpar_caracteres_especiais(df, coluna):
    df = df.withColumn(coluna, regexp_replace(col(coluna), r'["""\'`]', ''))
    df = df.withColumn(coluna, regexp_replace(col(coluna), r'[^a-zA-Z0-9 .-]', ''))
    return df

# Padronizar valor colocando a moda entre os demais registros de um mesmo cliente
def padronizar(df, id_col, target_col):
    # Calcular a moda (idade mais frequente) por Customer_ID
    moda = (
        df.groupBy(id_col, target_col)
        .count()
        .withColumn("rank", F.row_number().over(Window.partitionBy(id_col).orderBy(F.desc("count"))))
        .filter(F.col("rank") == 1)
        .select(id_col, F.col(target_col).alias("moda"))
    )
    # Juntar com o dataframe original
    df_corrigido = (
        df.join(moda, on=id_col, how="left")
        .withColumn(
            target_col,
            F.when(F.col(target_col) != F.col("moda"), F.col("moda")).otherwise(F.col(target_col))
        )
        .drop("moda")
    )
    return df_corrigido

# Essa fun√ß√£o arredonda valores double para 2 casas decimais ap√≥s a v√≠rgula
def arredondar_coluna(df, coluna):
    df_arredondado = df.withColumn(coluna, round(col(coluna), 2))
    return df_arredondado

# Fun√ß√£o para dividir e criar novas colunas a partir de um registro separados por v√≠rgula
def expandir_loans(df, coluna):
    # 1 - remover espa√ßos e v√≠rgulas duplicadas
    df_limpo = df.withColumn(
        coluna,
        regexp_replace(col(coluna), " and ", ", ")
    ) 
    # 2 - eparar os valores em uma lista, temporariamente
    df_separado = df_limpo.withColumn(
        "loan_list",
        split(col(coluna), ",")
    )
    # 3 explodir para pegar cada valor individualmente
    df_explodido = df_separado.withColumn("loan_type", explode("loan_list"))
    # 4 - remover espa√ßos em branco ao redor
    df_explodido = df_explodido.withColumn("loan_type", trim(col("loan_type")))
    # 5 - pegar a lista de tipos √∫nicos
    tipos_unicos = [row["loan_type"] for row in df_explodido.select("loan_type").distinct().filter(col("loan_type").isNotNull()).collect()]
    # 6 - para cada tipo, criar uma nova coluna
    df_final = df_separado
    for tipo in tipos_unicos:
        df_final = df_final.withColumn(
            tipo.replace(" ", "_"),  # Nome da coluna sem espa√ßos
            F.when(F.array_contains(split(col(coluna), ","), tipo), lit(1)).otherwise(lit(0))
        )
    return df_final

    # Essa fun√ß√£o calcula os limites IQR para identificar os outliers
def calcular_limites_iqr(df, colunas):
    limites = []
    for coluna in colunas:
        q1, q3 = df.approxQuantile(coluna, [0.25, 0.75], 0.01)
        iqr = q3 - q1
        limite_inferior = q1 - 1.5 * iqr
        limite_superior = q3 + 1.5 * iqr
        limites.append((coluna, q1, q3, limite_inferior, limite_superior))
    return limites

# Essa fun√ß√£o especifica remove alguns outlears 
def remover_outliers(df):
    df = df.filter(df["Interest_Rate"] <= 38)
    df = df.filter(df["Num_Credit_Card"] <= 11.5)
    df = df.filter(df["Num_Bank_Accounts"] <= 13)
    df = df.filter(df["Num_Credit_Inquiries"] <= 15.5)
    return df

# Essa fu√ß√£o substitui os valores da coluna Payment_Behaviour
def substituir_payment_behaviour_por_id(df):
    mapping = {
        "Low_spent_Small_value_payments": 0,
        "High_spent_Medium_value_payments": 1,
        "High_spent_Small_value_payments": 2,
        "Low_spent_Large_value_payments": 3,
        "Low_spent_Medium_value_payments": 4,
        "High_spent_Large_value_payments": 5
    }

    map_expr = create_map([lit(k) if i % 2 == 0 else lit(v)
                           for i, (k, v) in enumerate(mapping.items(), 0)])
    
    df = df.withColumn("Payment_Behaviour", map_expr[col("Payment_Behaviour")])
    return df




In [None]:
# Diagn√≥stico Inicial do DataFrame

# Ver estrutura e tipos das colunas
print("\n Estrutura do DataFrame:")
df_total.printSchema()

# Ver n√∫mero de linhas e colunas
linhas = df_total.count()
colunas = len(df_total.columns)
print(f"\n Dimens√µes do DataFrame: {linhas} linhas x {colunas} colunas")

# Verificar valores nulos por coluna
print("\n Valores pela fun√ß√£o")
df_nulos = get_nulos(df_total)
df_nulos.show(27)

# Verificar valores em branco por coluna (strings vazias)
print(" Valores em Branco ('') por Coluna:")
df_total.select([
    sum(when(trim(col(c)) == "", 1).otherwise(0)).alias(c)
    for c in df_total.columns
]).show()

# Verificar registros duplicados
print("\n Total de registros duplicados:")
duplicados = df_total.groupBy(df_total.columns).count().filter("count > 1").count()
print(f"{duplicados} registros duplicados encontrados.")


In [None]:
# Verificar valores √∫nicos de cada coluna.

print("Valores unicos de cada coluna:")
for c in df_total.columns:
    print(f"Coluna: {c}")
    get_valores_unicos(df_total, c).show(truncate=False)

In [None]:
# Convers√£o de colunas que deveriam ser num√©ricas e valores de String para double
colunas_para_converter = {
    "Age": IntegerType(),
    "Annual_Income": DoubleType(),
    "Outstanding_Debt": DoubleType(),
    "Changed_Credit_Limit": DoubleType(),
    "Num_of_Delayed_Payment": IntegerType(),
    "Amount_invested_monthly": DoubleType(),
    "Monthly_Balance": DoubleType(),
    "Num_of_Loan": IntegerType(),
    "Num_Credit_Inquiries": IntegerType()
}

# Limpeza de caracteres inv√°lidos e convers√£o de tipo
for coluna, tipo in colunas_para_converter.items():
    df_total = limpar_coluna_numerica(df_total, coluna)
    df_total = df_total.withColumn(coluna, col(coluna).cast(tipo))

# Verificando novamente os tipos ap√≥s convers√£o
df_total.printSchema()

# Dados ap√≥s limpeza
df_total.select(list(colunas_para_converter.keys())).show(5)


In [None]:
# Corrigir valores nulos nas colunas num√©ricas (exceto Credit_History_Age e Age pois ser√£o tratadas posteriormente)
colunas_numericas = [
    "Monthly_Inhand_Salary",
    "Num_of_Delayed_Payment",
    "Changed_Credit_Limit",
    "Num_Credit_Inquiries",
    "Amount_invested_monthly",
    "Monthly_Balance"
]

# Lista para armazenar os resultados
resultados = []

# Loop para calcular estat√≠sticas
for coluna in colunas_numericas:
    resumo = df_total.select(
        col(coluna).cast("double").alias(coluna)
    ).agg(
        count(coluna).alias("total_registros"),
        count(when(col(coluna).isNull(), True)).alias("nulos"),
        mean(coluna).alias("media"),
        percentile_approx(coluna, 0.5, 100).alias("mediana"),
        min(coluna).alias("minimo"),
        max(coluna).alias("maximo")
    ).withColumn("coluna", lit(coluna))

    resultados.append(resumo)

# Uni√£o dos resultados
estatisticas_df = reduce(DataFrame.unionByName, resultados)

# Reordena as colunas para visualiza√ß√£o
estatisticas_df = estatisticas_df.select("coluna", "total_registros", "nulos", "media", "mediana", "minimo", "maximo")

# Exibe a tabela de estat√≠sticas
estatisticas_df.orderBy("coluna").show(truncate=False)


In [None]:
# Calcular a mediana de cada coluna usando percentile_approx (equivalente ao 50¬∫ percentil) das colunas num√©ricas acima
medianas = {
    coluna: df_total.select(percentile_approx(coluna, 0.5).alias("mediana")).first()["mediana"]
    for coluna in colunas_numericas
}

# Substituir nulos pela mediana correspondente
for coluna in colunas_numericas:
    mediana = medianas[coluna]
    df_total = df_total.withColumn(
        coluna,
        when(col(coluna).isNull(), mediana).otherwise(col(coluna))
    )

In [None]:
# Corrigir valores nulos nas colunas String
colunas_string = [f.name for f in df_total.schema.fields if isinstance(f.dataType, StringType)]

# Substituir valores nulos por "NA" nessas colunas
for coluna in colunas_string:
    df_total = df_total.withColumn(
        coluna,
        when(col(coluna).isNull(), "NA").otherwise(col(coluna))
    )


In [None]:
# Verifica√ß√£o se h√° nulos por coluna
get_nulos(df_total).show(27)

In [None]:
# A coluna "Name" foi verificado se h√° repeti√ß√£o ou valores "padronizados" como N/A ou *, pela frequencia de informa√ß√µes esta √© uma vari√°vel 
# quantitativa.

# Verificando valores √∫nicos e com caracteres especiais
df_name = get_valores(df_total, "Name")
df_name.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Name").show()
display(get_caracteres_especiais(df_total, "Name"))

# Janela particionada por cliente, ordenada (aqui usamos arbitrariamente por nenhuma coluna espec√≠fica)
window_spec = Window.partitionBy("Customer_ID").rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)

# Padronizar nomes
df_total = padronizar(df_total, "Customer_ID", "Name")

#Existem diversos valores que destoam do normal, vamos manter o . e o -, os demais v√£o ser limpos
df_total = limpar_caracteres_especiais(df_total, "Name")

# Verifica√ß√£o ap√≥s o tratamento
display(get_caracteres_especiais(df_total, "Name"))

In [None]:
# A coluna Age tem outliers f√°cilmente identific√°veis, aqui estamos filtrando os valores menores que 90 anos e substituindo
# pela mediana, nesse caso n√£o h√° regra de neg√≥cio que trate isso, por√©m, pode ser identificado como fralde a movimenta√ß√£o desse
# titular em compras recorrentes, esta √© uma coluna qualitativa.

# Verificando registros
df_age = get_valores(df_total, "Age")
df_age.orderBy(col("percent").desc()).show(truncate=False)

# Identificando os registros com idade maior que 90 anos
outliers_age = df_total.filter(col("Age") > 90)
print(f"Quantidade de outliers: {outliers_age.count()}")
display(df_total.filter(col("Customer_ID") == "CUS_0x39ce")) # Um cliente exemplo


# Vamos aplicar a padroniza√ß√£o com a moda com os registros do mesmo cliente. Exemplo: o cliente possui um registro em agosto com a idade de 29 e outro registro em dezembro com a idade 455, vamos usar a moda para padronizar esses valores.
df_total = padronizar(df_total, "Customer_ID", "Age")
display(df_total.filter(col("Customer_ID") == "CUS_0x39ce"))

# Calcular a mediana de Age para os valores que n√£o foram contemplados com a padroniza√ß√£o.
mediana_age = df_total.select(
    percentile_approx("Age", 0.5, 100).alias("mediana")
).collect()[0]["mediana"]

print(f"A mediana: {mediana_age}")

# Substituir valores maiores que 90 pela mediana
df_total = df_total.withColumn(
    "Age",
    when(col("Age") > 90, lit(mediana_age)).otherwise(col("Age"))
)

# Verifica√ß√£o ap√≥s tratamento
df_total.filter(col("Age") > 90).show()


In [None]:
# Na coluna SSN existem valores com caracteres especiais, vamos substituilos por NA. SSN √© uma variavel quantitativa, como um CPF, essa √© uma coluna qualitativa.

# Verificando valores
get_valores_unicos(df_total, "SSN").show()
df_ssn = get_valores(df_total, "SSN")
df_ssn.orderBy(col("percent").desc()).show(truncate=False)

# Aplicar a padroniza√ß√£o de acordo com o Customer_ID
df_ssn = df_total.filter(col("SSN") == "#F%$D@*&8")
print(f"Quantidade de outliers: {df_ssn.count()}")
display(df_ssn)
df_total = padronizar(df_total, "Customer_ID", "SSN")
display(df_total.filter(col("SSN") == "#F%$D@*&8"))

# Substituir os "#F%$D@*&8" que n√£o foram contemplados pela padroniza√ß√£o por "NA"
df_total = df_total.withColumn("SSN", when(col("SSN") == "#F%$D@*&8", "NA").otherwise(col("SSN")))

print("\n Verifica√ß√£o de valores #F%$D@*&8: ")
display(df_total.filter(df_total["SSN"]== "#F%$D@*&8").count())

In [None]:
# Na coluna Occupation fornece um contexto demogr√°fico e financeiro importante, visto que diferentes ocupa√ß√µes costumam ter diferentes n√≠veis de renda, h√°bitos de consumo e perfis de risco, que s√£o cruciais para a pontua√ß√£o de cr√©dito e outras an√°lises financeiras. Existem valores "______" onde subsentende que representa o NA, essa coluna √© definida como qualitativa.

# Verificando valores
df_occu = get_valores(df_total, "Occupation")
df_occu.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Occupation").show()

# Contar quantos registros t√™m na Occupation o valor "_______"
display(df_total.filter(df_total["Occupation"]== "_______").count())

# Substituindo "_______" por "NA"
df_total = df_total.withColumn(
    "Occupation",
    when(col("Occupation")== "_______", "NA").otherwise(col("Occupation"))
)

# Verificar valores ap√≥s tratamento
display(df_total.filter(df_total["Occupation"]== "_______").count())

In [None]:
# Na coluna Annual_Income representa a renda total que um cliente ganha em um ano. Esse valor √© um indicador crucial da estabilidade financeira geral do cliente e de sua capacidade de pagar empr√©stimos ou administrar outras obriga√ß√µes financeiras. Os valores nulos j√° foram corrigidos apenas precisamos arredondar o valor double para 2 casas decimais, essa coluna √© definida como quantitativa

# Verificando valores
df_ani = get_valores(df_total, "Annual_Income")
df_ani.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Annual_Income").show(50)

# Verificando se h√° valores negativos
get_valores_negativos(df_total, "Annual_Income").show()

# Visualizar dados ap√≥s tratamento
get_valores_unicos(df_total, "Annual_Income").show(50)

display(df_total)

In [None]:
# Na coluna Monthly_Inhand_Salary representa o valor do sal√°rio que um cliente. Este √© o sal√°rio l√≠quido que o cliente leva para casa mensalmente e pode ser um indicador importante da renda dispon√≠vel e da capacidade financeira do cliente. precisamos arredondar o valor double para 2 casas decimais, essa coluna tamb√©m √© uma coluna quantitativa

# Verificando valores
df_ani = get_valores(df_total, "Monthly_Inhand_Salary")
df_ani.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Monthly_Inhand_Salary").show(50)
get_caracteres_especiais(df_total, "Monthly_Inhand_Salary").show()

# Verificando se h√° valores negativos
get_valores_negativos(df_total, "Monthly_Inhand_Salary").show()

# Visualizar dados ap√≥s tratamento
get_valores_unicos(df_total, "Monthly_Inhand_Salary").show(50)

display(df_total)

In [None]:
# Na coluna Num_Bank_Accounts representa o n√∫mero de contas banc√°rias que um cliente possui. Ao analisar os dados, foi identificado um valor incomum de -1. Como n√£o √© poss√≠vel ter um n√∫mero negativo de contas banc√°rias, esse valor provavelmente representa dados ausentes ou desconhecidos.

# Verificando valores
df_nbank = get_valores(df_total, "Num_Bank_Accounts")
df_nbank.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Num_Bank_Accounts").show(50)

# Verificando se h√° valores negativos
get_valores_negativos(df_total, "Num_Bank_Accounts").show()

# Corrigindo os valores negativos
df_total = corrigir_valores_negativos(df_total, "Num_Bank_Accounts")

# Visualizar dados ap√≥s tratamento
get_valores_unicos(df_total, "Num_Bank_Accounts").show(50)
get_valores_negativos(df_total, "Num_Bank_Accounts").show()

In [None]:
# Na coluna Num_Credit_Card representa a quantidade de cart√µes de cr√©dito de um cliente, caracter√≠stica importante para categoriza√ß√£o do cliete. Essa coluna √© uma coluna qualitativa, semelhante √† coluna anterior

# Verificando valores
df_nbank = get_valores(df_total, "Num_Credit_Card")
df_nbank.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Num_Credit_Card").show(50)

# Verificando se h√° valores negativos
get_valores_negativos(df_total, "Num_Credit_Card").show()

# Corrigindo os valores negativos
df_total = corrigir_valores_negativos(df_total, "Num_Credit_Card")

# Visualizar dados ap√≥s tratamento
get_valores_unicos(df_total, "Num_Credit_Card").show(50)
get_valores_negativos(df_total, "Num_Credit_Card").show()

In [None]:
# Na coluna Interest_Rate representa a taxa de juros aplicada aos empr√©stimos ou cr√©ditos tomados pelo cliente. Ela fornece informa√ß√µes cruciais sobre o custo do empr√©stimo para cada cliente. Essa coluna √© uma coluna quantitativa

# Verificando valores
df_nbank = get_valores(df_total, "Interest_Rate")
df_nbank.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Interest_Rate").show(50)

# Verificando se h√° valores negativos
get_valores_negativos(df_total, "Interest_Rate").show()

# Corrigindo os valores negativos
df_total = corrigir_valores_negativos(df_total, "Interest_Rate")

# Visualizar dados ap√≥s tratamento
get_valores_unicos(df_total, "Interest_Rate").show(50)
get_valores_negativos(df_total, "Interest_Rate").show()

In [None]:

# Na coluna Num_of_Loan correspondente a quantidade de emprestimos, dado importante para categoriza√ß√£o do cliente, existem valores com caracteres especiais e negativos, essa √© uma coluna quantitativa

# Verificando valores
df_nbank = get_valores(df_total, "Num_of_Loan")
df_nbank.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Num_of_Loan").show()

# Verificar valores com caractere especial
display(get_caracteres_especiais(df_total, "Num_of_Loan"))

# Verificar valores negativos
display(get_valores_negativos(df_total, "Num_of_Loan"))

# Corrigir valores com caractere especial
df_total = limpar_caracteres_especiais(df_total, "Num_of_Loan")

# Corrigir valores negativos
df_total = corrigir_valores_negativos(df_total, "Num_of_Loan")

# Visualizar dados ap√≥s tratamento
display(get_caracteres_especiais(df_total, "Num_of_Loan"))
display(get_valores_negativos(df_total, "Num_of_Loan"))

In [None]:
# Backup do dataframe
df_total_bck_type_loan = df_total

In [None]:
# Reset do dataframe
#df_total = df_total_bck_type_loan

In [None]:
# Na coluna Type_of_Loan representa o(s) tipo(s) espec√≠fico(s) de empr√©stimo que um cliente contratou. Essas informa√ß√µes ajudam a categorizar os diferentes produtos de empr√©stimo que um cliente pode ter e podem ser usadas para entender seu comportamento ou prefer√™ncias financeiras. Precisei criar uma nova coluna para cada registro, pois os mesmos estavam agrupados em valores separados por "," s√£o importantes pois definem o tipo do emprestimo contratado, coluna categorica.

# Verificando valores
df_type = get_valores(df_total, "Type_of_Loan")
df_type.orderBy(col("percent").desc()).show(truncate=False)
get_valores_unicos(df_total, "Type_of_Loan").show()

# Antes de expandir a coluna precisamos padroniza-las retirando os espa√ßos em branco e o conector "and"
df_total = df_total.withColumn("Type_of_Loan", regexp_replace(col("Type_of_Loan"), "and", ""))
df_total = df_total.withColumn("Type_of_Loan", regexp_replace(col("Type_of_Loan"), " ", ""))
display(get_caracteres_especiais(df_total, "Type_of_Loan"))

# Criando as novas colunas e populando elas com inteiros
df_total = expandir_loans(df_total, "Type_of_Loan")

# Verifica√ß√£o ap√≥s o tratamento
get_valores_unicos(df_total, "Type_of_Loan").show()
display(df_total)


In [None]:
# Na coluna Num_of_Loan h√° uma diferen√ßa de acordo com o Type_of_Loan, exemplos h√° linhas que cont√©m "0" na Num_of_loan mas existem 3 Type_of_loan registrados, com as novas colunas criadas conseguimos realizar um somat√≥rio do tipo e totalizar na coluna Num_of_Loan o valor correto.

display(df_total.filter(col("SSN") == "473-91-5845"))

# Lista das colunas que representam os tipos de empr√©stimos
tipo_emprestimos = [
    "PersonalLoan", "MortgageLoan", "AutoLoan", "NotSpecified", "PaydayLoan",
    "HomeEquityLoan", "StudentLoan", "DebtConsolidationLoan", "Credit-BuilderLoan"
]

# Soma das colunas para atualizar a coluna Num_of_Loan
df_total = df_total.withColumn(
    "Num_of_Loan",
    reduce(lambda a, b: a + b, [col(c) for c in tipo_emprestimos])
)

# Verifica√ß√£o ap√≥s tratamento
display(df_total.filter(col("SSN") == "473-91-5845"))


In [None]:
# Na coluna Delay_from_due_date representa o n√∫mero de dias em que um pagamento est√° atrasado, o que √© um indicador cr√≠tico do comportamento de pagamento e da responsabilidade financeira do cliente. √â uma informa√ß√£o quantitativa, h√° valores negativos por√©m vou considerar como pagamentos adiantados

# Verificando valores
df_type = get_valores(df_total, "Delay_from_due_date")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Delay_from_due_date"))

In [None]:
# Na coluna Num_of_Delayed_Payment representa o n√∫mero de vezes que um cliente atrasou seu pagamento al√©m da data de vencimento. Isso normalmente se refere √† contagem total de pagamentos atrasados ‚Äã‚Äãque um cliente fez em empr√©stimos, cart√µes de cr√©dito ou outras obriga√ß√µes financeiras.
#Pode ser um recurso importante para modelos de pontua√ß√£o de cr√©dito, pois um n√∫mero maior de pagamentos atrasados ‚Äã‚Äãgeralmente indica um risco maior de inadimpl√™ncia ou instabilidade financeira. que define o n√∫mero de pagamentos atrasados, √© uma coluna quantitativa, a mesma j√° passou pela limpeza de caracteres especiais.

# Verificando valores
df_type = get_valores(df_total, "Num_of_Delayed_Payment")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Num_of_Delayed_Payment"))

In [None]:
# Na coluna Changed_Credit_Limit temos a mudan√ßa no limite de cr√©dito, podemos considerar o aumento positivo como um acr√©scimo e negativo como d√©bito. √â uma coluna quantitativa.

# Verificando valores
df_type = get_valores(df_total, "Changed_Credit_Limit")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Changed_Credit_Limit"))

# Verifica√ß√£o ap√≥s tratamento
display(df_total.select("Changed_Credit_Limit"))

In [None]:
# Na coluna Num_Credit_Inquiries representa o n√∫mero de consultas de cr√©dito feitas no relat√≥rio de cr√©dito de um cliente. Cada consulta normalmente ocorre quando um cliente solicita cr√©dito, como um empr√©stimo ou cart√£o de cr√©dito, e os credores solicitam a verifica√ß√£o do hist√≥rico de cr√©dito do cliente. Um n√∫mero maior de consultas de cr√©dito pode indicar um risco maior de instabilidade financeira, pois consultas frequentes podem sugerir que o cliente est√° buscando m√∫ltiplas fontes de cr√©dito. √â uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Num_Credit_Inquiries")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Num_Credit_Inquiries"))

In [None]:
# Na coluna Credit_Mix representa a variedade de tipos de cr√©dito que um cliente utiliza, como cart√µes de cr√©dito e empr√©stimos. Uma combina√ß√£o de cr√©dito equilibrada pode afetar positivamente a pontua√ß√£o de cr√©dito de um cliente, demonstrando sua capacidade de administrar diferentes tipos de cr√©dito. Existem 3 tipos de cr√©dito: Good, Bad, Standard, os valores diferentes disso est√£o substituidos por "Uncategorized". √â uma coluna qualitativa. 

# Verificando valores
df_type = get_valores(df_total, "Credit_Mix")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Credit_Mix"))

#Substituindo valores "_"
df_total = df_total.withColumn("Credit_Mix", regexp_replace(col("Credit_Mix"), "_", "Uncategorized"))

#Verifica√ß√£o de valores ap√≥s o tratamento
display(df_total.select("Credit_Mix"))


In [None]:
# Na coluna Outstanding_Debt representa o total de d√≠vidas n√£o pagas de um cliente, incluindo saldos de empr√©stimos, cart√µes de cr√©dito e outras linhas de cr√©dito. Ela fornece uma vis√£o clara das obriga√ß√µes financeiras atuais do cliente, o que √© fundamental para avaliar o risco de cr√©dito e determinar sua capacidade de gerenciar mais d√≠vidas. √â uma coluna quantitativa.

# Verificando valores
df_type = get_valores(df_total, "Outstanding_Debt")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Outstanding_Debt"))

# Verifica√ß√£o ap√≥s o tratamento
display(df_total.select("Outstanding_Debt"))

In [None]:
# Na coluna Credit_Utilization_Ratio representa a rela√ß√£o entre a d√≠vida pendente atual de um cliente e seu cr√©dito total dispon√≠vel. Mede quanto do cr√©dito dispon√≠vel do cliente est√° sendo utilizado, expresso em porcentagem. √â uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Credit_Utilization_Ratio")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Credit_Utilization_Ratio"))

# Verifica√ß√£o ap√≥s o tratamento
display(df_total.select("Credit_Utilization_Ratio"))


In [None]:
# Na coluna Credit_History_Age representa a dura√ß√£o total do hist√≥rico de cr√©dito de um cliente. Precisa ser transformada em uma coluna num√©rica. Est√° √© uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Credit_History_Age")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Credit_History_Age"))

#Extrair dos valores das strings
df_total = df_total.withColumn("credit_years", regexp_extract(col("Credit_History_Age"), r"(\d+)\s+Years", 1).cast("int"))
df_total = df_total.withColumn("credit_months", regexp_extract(col("Credit_History_Age"), r"(\d+)\s+Months", 1).cast("int"))

# Calcular o total de meses
df_total = df_total.withColumn("Credit_History_Months", (col("credit_years") * 12 + col("credit_months")))

# Remover as colunas tempor√°rias
df_total = df_total.drop("credit_years", "credit_months")

# Visualizar valores convertidos
df_total.select("Credit_History_Age", "Credit_History_Months").show(10, truncate=False)

In [None]:
# Substituir os valores Nulos da coluna Credit_History_Months
df_total = df_total.withColumn(
    "Credit_History_Months",
    when(col("Credit_History_Months").isNull(), 0).otherwise(col("Credit_History_Months"))
)

# Verifica√ß√£o ap√≥s substitui√ß√£o
df_total.select("Credit_History_Months").distinct().show(truncate=False)

In [None]:
# Na coluna Payment_of_Min_Amount representa se um cliente pagou o valor m√≠nimo exigido em suas parcelas de cr√©dito ou empr√©stimo. Existem valores NM ao qual n√£o aparecem em nenhuma outra coluna, ent√£o vamos supor que seja "No"
get_valores_unicos(df_total, "Payment_of_Min_Amount").show()
display(df_total.filter(df_total["Payment_of_Min_Amount"] == "NM").count())

# Substituindo "NN" por "No"
df_total = df_total.withColumn(
    "Payment_of_Min_Amount",
    when(col("Payment_of_Min_Amount") == "NM", "No").otherwise(col("Payment_of_Min_Amount"))
)
print("\n Verifica√ß√£o de valores NM: ")
display(df_total.filter(df_total["Payment_of_Min_Amount"] == "NM").count())

In [None]:
# Na coluna Total_EMI_per_month mostra quanto um cliente paga em parcelas mensais do empr√©stimo, incluindo principal e juros. Valores de EMI mais altos significam mais d√≠vidas, o que pode afetar sua capacidade de assumir novos empr√©stimos ou gerenciar outras despesas. Esta √© uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Total_EMI_per_month")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Total_EMI_per_month"))

# Verifica√ß√£o ap√≥s o tratamento
display(df_total.select("Total_EMI_per_month"))

In [None]:
# Na coluna Amount_invested_monthly temos o valor investido mensal por cliente por m√™s. Refletindo uma "garantia" para o cr√©dito, essa √© uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Amount_invested_monthly")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Amount_invested_monthly"))

# Verifica√ß√£o ap√≥s o tratamento
display(df_total.select("Amount_invested_monthly"))


In [None]:
# Na coluna Payment_Behaviour representam os padr√µes de gastos e pagamentos do cliente. Ela indica se o cliente gasta e faz pagamentos em valores pequenos, m√©dios ou grandes. Esse recurso ajuda a entender como o cliente gerencia suas finan√ßas em termos de gastos e pagamentos.m. Esta √© uma coluna qualitativa

# Verificando valores
df_type = get_valores(df_total, "Payment_Behaviour")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Payment_Behaviour"))

# Substituir o valor '!@9#%8' por NA na coluna Payment_Behaviour
df_total = df_total.withColumn(
    "Payment_Behaviour",
    when(col("Payment_Behaviour") == "!@9#%8", "NA").otherwise(col("Payment_Behaviour"))
)

# Verifica√ß√£o ap√≥s substitui√ß√£o
display(df_total.select("Payment_Behaviour").distinct())

In [None]:
# Na coluna Monthly_Balance reflete o saldo restante na conta de um cliente ao final de cada m√™s, ap√≥s a contabiliza√ß√£o de todas as despesas e receitas. Ele fornece insights sobre a estabilidade e a gest√£o financeira do cliente. Essa √© uma coluna quantitativa

# Verificando valores
df_type = get_valores(df_total, "Monthly_Balance")
df_type.orderBy(col("percent").desc()).show(truncate=False)
display(get_caracteres_especiais(df_total, "Monthly_Balance"))

# Verifica√ß√£o ap√≥s o tratamento
display(df_total.select("Monthly_Balance"))

In [None]:
# O recurso Credit_Score categoriza os clientes em Good, Poor, Standard com base em sua capacidade de cr√©dito. No mundo real das finan√ßas, isso ajuda os bancos a avaliar riscos, aprovar empr√©stimos e definir taxas de juros. Pontua√ß√µes de cr√©dito mais altas indicam menor risco, resultando em melhores condi√ß√µes de empr√©stimo, enquanto pontua√ß√µes mais baixas sugerem maior risco.

# Para o conjunto de dados e o modelo de ANN, o Credit_Score √© a vari√°vel-alvo que o modelo busca prever. Ao analisar caracter√≠sticas como renda, d√≠vida e comportamento de pagamento, o modelo aprende a classificar os clientes nessas categorias. Isso permite uma melhor avalia√ß√£o de riscos e tomada de decis√µes, auxiliando as institui√ß√µes financeiras a tomarem decis√µes informadas relacionadas a cr√©dito.

# Verifica√ß√£o de dados
get_valores_unicos(df_total, "Credit_Score").show()

Dada a natureza financeira dos dados, esses valores discrepantes podem representar varia√ß√µes leg√≠timas nos perfis financeiros dos clientes.
Portanto, nenhuma a√ß√£o imediata ser√° tomada em rela√ß√£o a esses valores discrepantes. Se necess√°rio, ap√≥s avaliar o desempenho do modelo, ajustes poder√£o ser considerados para aprimorar ainda mais os resultados.

Al√©m dos valores discrepantes, o conjunto de dados tamb√©m cont√©m atributos com alta assimetria,  Num_Bank_Accounts, Num_Credit_Inquiries, e Interest_Rate.

Essas distribui√ß√µes assim√©tricas sugerem que os dados n√£o est√£o distribu√≠dos uniformemente, com muitos valores agrupados em um lado.
Embora a assimetria possa afetar o desempenho de certos modelos, ela pode n√£o necessariamente prejudicar o processo de aprendizado de uma RNA, que √© mais robusta a tais irregularidades em compara√ß√£o com modelos lineares.

Vou criar um novo data frame voltado para an√°lise ANN enquanto o df_total ser√° reservado para a an√°lise de dados. No novo data frame por enquanto, os atributos assim√©tricos n√£o ser√£o transformados, pois lidar com eles pode n√£o ser crucial para uma RNA. Entretanto, se for constatado que a assimetria afeta o desempenho do modelo, transforma√ß√µes como a escala logar√≠tmica podem ser consideradas. Tamb√©m ser√£o dropadas as colunas que n√£o afetam o modelo como ID, Costumer_ID, Name, SSN. 

No df_total os outliers ser√£o transformados se nencess√°rio.

In [None]:
# Cria√ß√£o do novo data frame voltado para ANN
df_total_ann = df_total

In [None]:
# Iniciando verifica√ß√£o dos Outliers

# Seleciona apenas colunas num√©ricas
numeric_cols = [field.name for field in df_total.schema.fields if isinstance(field.dataType, NumericType)]

# Aplica o describe() somente √†s colunas num√©ricas
desc_df = df_total.select(numeric_cols).describe()

desc_transposed = (
    desc_df.toPandas()
    .set_index('summary')
    .transpose()
    .reset_index()
    .rename(columns={'index': 'feature'})
)

df_desc = spark.createDataFrame(desc_transposed)
display(df_desc)


In [None]:
# Vamos passar pela an√°lise de IQR as seguintes colunas com um desvio padr√£o muito alto com seus valores m√°ximos respectivamente: as cilunas: Annual_Income = 2.4198062E7 Precisamos verificar o caso, se o valor alto tamb√©m √© presente em outras colunas, j√° as colunas Num_Bank_Accounts = 1798, Num_Credit_Card = 1499, Interest_Rate = 1499, Num_Credit_Inquiries = 2597 s√£o valores claramente irreais.

colunas_outliers = {
    "Annual_Income",
    "Num_Bank_Accounts",
    "Num_Credit_Card",
    "Interest_Rate",
    "Num_Credit_Inquiries"
}

limites_iqr = calcular_limites_iqr(df_total, colunas_outliers)

for coluna, q1, q3, lim_inf, lim_sup in limites_iqr:
    print(f"{coluna}:\n  Q1 = {q1:.2f}, Q3 = {q3:.2f}, IQR = {q3 - q1:.2f}\n  Limite Inferior = {lim_inf:.2f}, Limite Superior = {lim_sup:.2f}\n")



In [None]:
df_annual_backup = df_total

In [None]:
# Vamos analisar a coluna Annual_Income primeiro, ela possui valores que betem e n√£o batem com outras, como Monthly_Inhand_Salary, Monthly_Balance entre outras, para usa-la vou aplicar uma corre√ß√£o usando o Monthly_Inhand_Salary * 12 em uma nova coluna. Isso vai ser aplicado apenas para os registros que est√£o com o acima do limite superior no IQR.

# Verifica√ß√£o de valores
df_total.orderBy(col("Annual_Income").desc()).show(5)
df_annual = df_total.filter(col("Annual_Income") > 150340.99)
display(df_annual.orderBy(col("Annual_Income").desc()))

# Corre√ß√£o de valores
df_total = df_total.withColumn(
    "Annual_Income",
    when(col("Annual_Income") > 150340.99, col("Monthly_Inhand_Salary") * 12)
    .otherwise(col("Annual_Income"))
)

# Verifica√ß√£o ap√≥s corre√ß√£o
display(df_total.orderBy(col("Annual_Income").desc()))

In [None]:
df_bck = df_total

In [None]:
display(df_total)
display(df_bck)

In [None]:
# Adequiar coluna Payment_of_Min_Amount para processamento ANN, vamos separa os dataframes
get_valores_unicos(df_total, "Payment_of_Min_Amount").show()

# Substituir 'Yes' por 0 e 'No' por 1 na coluna Payment_of_Min_Amount
df_total_ann = df_total.withColumn(
    "Payment_of_Min_Amount",
    when(col("Payment_of_Min_Amount") == "Yes", 0)
    .when(col("Payment_of_Min_Amount") == "No", 1)
    .otherwise(col("Payment_of_Min_Amount"))
)

# Filtrando os dados n√£o num√©ricos na coluna 'Payment_of_Min_Amount'
df_non_numeric = df_total.filter(col("Payment_of_Min_Amount").rlike("^[0-9]+$"))

# Mostrar os resultados
df_non_numeric.select(col("Payment_of_Min_Amount")).show(10)

df_total_ann.select(col("Payment_of_Min_Amount")).distinct().show()

A partir dessa parte vamos separar os dataframes, o "df_total" ser√° voltado para a An√°lise Explorat√≥ria dos Dados. O "df_total_ann" ser√° voltado para algoritmos de Machine Learn. 
Dito isso vamos descarregar o "df_total" em uma base de dados local para consulta.

In [None]:
from pyspark.sql.functions import concat_ws

df_total.coalesce(1).write.mode("overwrite").option("header", True).csv("/dbfs/FileStore/df_total_csv_4")

In [None]:
import pandas as pd
df_pd = df_total.toPandas()
df_pd.to_csv("/dbfs/FileStore/df_total_csv_4/df_total.csv", index=False)

/dbfs/FileStore/df_total_csv_4




Exploratory Data Analysis (EDA)


Colunas: ID, Customer_ID, Name, SSN

As colunas de identifica√ß√£o (ID, Customer_ID, Name, SSN) n√£o s√£o diretamente √∫teis em tarefas de classifica√ß√£o, embora forne√ßa identifica√ß√£o e podem aumentar a complexidade do modelo em vez de melhorar seu desempenho.
Portanto, essas colunas ser√£o descartadas ao final da etapa de limpeza dos dados.