# Projeto - Previsão de Risco de Crédito

## 1. Introdução

A análise de risco de crédito é um dos problemas mais clássicos e de maior impacto no setor financeiro. A concessão de crédito, seja para pessoas físicas ou jurídicas, é a base da atividade bancária, mas carrega consigo o risco inerente da inadimplência. Uma decisão de crédito equivocada pode levar a perdas financeiras significativas, enquanto uma política excessivamente conservadora pode resultar na perda de bons clientes e oportunidades de negócio valiosas.

Neste contexto, a ciência de dados emerge como uma ferramenta estratégica, permitindo que as instituições financeiras migrem de análises subjetivas e manuais para modelos preditivos objetivos, consistentes e escaláveis.

### 1.1. Descrição do problema

O problema central consiste em desenvolver um sistema inteligente capaz de classificar novos solicitantes de crédito em duas categorias: "bom risco" (provável que pague o empréstimo) e "mau risco" (provável que não pague o empréstimo).

Para esta análise, será utilizado conjunto de dados Statlog (German Credit Data), proveniente do repositório da UCI. Este dataset contém informações sobre 1.000 solicitantes de crédito na Alemanha, cada um descrito por 20 atributos, que incluem:

> Informações demográficas: idade, sexo, status civil.
> 
> Informações financeiras: status da conta corrente, histórico de crédito, valor e propósito do empréstimo, existência de poupança.
> 
> Informações profissionais e de moradia: tempo de emprego, tipo de trabalho, tipo de moradia.

A variável-alvo, risk, é binária, indicando se o cliente foi classificado como um bom ou mau pagador. Um desafio técnico relevante neste dataset é o desbalanceamento de classes, onde o número de "bons pagadores" é significativamente maior que o de "maus pagadores". Modelos treinados em dados desbalanceados podem se tornar tendenciosos, o que pode fazê-los performar mal ao identificar a classe minoritária, que é justamente a mais crítica para o negócio.

### 1.2. Objetivo

O objetivo principal deste projeto é construir um modelo de machine learning de classificação binária que preveja com alta acurácia e, mais importante, com alto poder de discriminação, a probabilidade de um solicitante de crédito se tornar inadimplente.

## 2. Configuração do Ambiente 

### 2.1 Importação de Bibliotecas

In [13]:
import pandas as pd
import numpy as np
import skrub

from src.data_ingestion import ingest_credit_data
from src import config

## 3. Carregamento dos Dados

### 3.1. Leitura do Conjunto de Dados

In [None]:
# Utiliza a URL definida no arquivo de configuração
url = config.GERMAN_CREDIT_ZIP_URL

# Carrega o arquivo através da URL
df = ingest_credit_data(url, True)

2025-10-22 16:00:02 - INFO - >>> INICIANDO O PIPELINE DE INGESTÃO DE DADOS <<<
2025-10-22 16:00:02 - INFO - Iniciando download de https://archive.ics.uci.edu/static/public/144/statlog+german+credit+data.zip
2025-10-22 16:00:03 - INFO - Arquivos extraídos com sucesso para: C:\Users\user\OneDrive\Documentos\HG\Projetos\Data Science\credit-risk-prediction\data\raw
2025-10-22 16:00:03 - INFO - Procurando por arquivo '.data' em 'C:\Users\user\OneDrive\Documentos\HG\Projetos\Data Science\credit-risk-prediction\data\raw'...
2025-10-22 16:00:03 - INFO - Arquivo alvo encontrado: 'german.data'
2025-10-22 16:00:03 - INFO - Arquivo renomeado para: 'credit_data.data'
2025-10-22 16:00:03 - INFO - Arquivo movido para: 'C:\Users\user\OneDrive\Documentos\HG\Projetos\Data Science\credit-risk-prediction\data\processed'
2025-10-22 16:00:03 - INFO - Arquivo extra 'german.data-numeric' removido.
2025-10-22 16:00:03 - INFO - Arquivo extra 'german.doc' removido.
2025-10-22 16:00:03 - INFO - Arquivo extra 'Ind

### 3.2. Visualização Inicial

In [15]:
# Gera um relatório exploratório interativo da tabela utilizando o TableReport do pacote skrub
skrub.TableReport(df)

2025-10-22 16:00:05 - INFO - Using categorical units to plot a list of strings that are all parsable as floats or dates. If these strings should be plotted as numbers, cast to the appropriate data type before plotting.
2025-10-22 16:00:05 - INFO - Using categorical units to plot a list of strings that are all parsable as floats or dates. If these strings should be plotted as numbers, cast to the appropriate data type before plotting.
2025-10-22 16:00:05 - INFO - Using categorical units to plot a list of strings that are all parsable as floats or dates. If these strings should be plotted as numbers, cast to the appropriate data type before plotting.
2025-10-22 16:00:05 - INFO - Using categorical units to plot a list of strings that are all parsable as floats or dates. If these strings should be plotted as numbers, cast to the appropriate data type before plotting.
2025-10-22 16:00:05 - INFO - Using categorical units to plot a list of strings that are all parsable as floats or dates. If 

Unnamed: 0_level_0,checking_account_status,duration_in_month,credit_history,purpose,credit_amount,savings_account_bonds,present_employment_since,installment_rate_percent,personal_status_and_sex,other_debtors_guarantors,present_residence_since,property,age_in_years,other_installment_plans,housing,number_of_existing_credits,job,number_of_dependents,telephone,foreign_worker,risk
Unnamed: 0_level_1,checking_account_status,duration_in_month,credit_history,purpose,credit_amount,savings_account_bonds,present_employment_since,installment_rate_percent,personal_status_and_sex,other_debtors_guarantors,present_residence_since,property,age_in_years,other_installment_plans,housing,number_of_existing_credits,job,number_of_dependents,telephone,foreign_worker,risk
0.0,A11,6.0,A34,A43,1169.0,A65,A75,4.0,A93,A101,4.0,A121,67.0,A143,A152,2.0,A173,1.0,A192,A201,1.0
1.0,A12,48.0,A32,A43,5951.0,A61,A73,2.0,A92,A101,2.0,A121,22.0,A143,A152,1.0,A173,1.0,A191,A201,2.0
2.0,A14,12.0,A34,A46,2096.0,A61,A74,2.0,A93,A101,3.0,A121,49.0,A143,A152,1.0,A172,2.0,A191,A201,1.0
3.0,A11,42.0,A32,A42,7882.0,A61,A74,2.0,A93,A103,4.0,A122,45.0,A143,A153,1.0,A173,2.0,A191,A201,1.0
4.0,A11,24.0,A33,A40,4870.0,A61,A73,3.0,A93,A101,4.0,A124,53.0,A143,A153,2.0,A173,2.0,A191,A201,2.0
,,,,,,,,,,,,,,,,,,,,,
995.0,A14,12.0,A32,A42,1736.0,A61,A74,3.0,A92,A101,4.0,A121,31.0,A143,A152,1.0,A172,1.0,A191,A201,1.0
996.0,A11,30.0,A32,A41,3857.0,A61,A73,4.0,A91,A101,4.0,A122,40.0,A143,A152,1.0,A174,1.0,A192,A201,1.0
997.0,A14,12.0,A32,A43,804.0,A61,A75,4.0,A93,A101,4.0,A123,38.0,A143,A152,1.0,A173,1.0,A191,A201,1.0
998.0,A11,45.0,A32,A43,1845.0,A61,A73,4.0,A93,A101,4.0,A124,23.0,A143,A153,1.0,A173,1.0,A192,A201,2.0

Column,Column name,dtype,Is sorted,Null values,Unique values,Mean,Std,Min,Median,Max
0,checking_account_status,ObjectDType,False,0 (0.0%),4 (0.4%),,,,,
1,duration_in_month,Int64DType,False,0 (0.0%),33 (3.3%),20.9,12.1,4.0,18.0,72.0
2,credit_history,ObjectDType,False,0 (0.0%),5 (0.5%),,,,,
3,purpose,ObjectDType,False,0 (0.0%),10 (1.0%),,,,,
4,credit_amount,Int64DType,False,0 (0.0%),921 (92.1%),3270.0,2820.0,250.0,2320.0,18424.0
5,savings_account_bonds,ObjectDType,False,0 (0.0%),5 (0.5%),,,,,
6,present_employment_since,ObjectDType,False,0 (0.0%),5 (0.5%),,,,,
7,installment_rate_percent,Int64DType,False,0 (0.0%),4 (0.4%),2.97,1.12,1.0,3.0,4.0
8,personal_status_and_sex,ObjectDType,False,0 (0.0%),4 (0.4%),,,,,
9,other_debtors_guarantors,ObjectDType,False,0 (0.0%),3 (0.3%),,,,,

Column 1,Column 2,Cramér's V,Pearson's Correlation
property,housing,0.553,
job,telephone,0.426,
credit_history,number_of_existing_credits,0.378,
checking_account_status,risk,0.352,
present_employment_since,job,0.311,
age_in_years,number_of_dependents,0.309,0.118
personal_status_and_sex,number_of_dependents,0.284,
duration_in_month,credit_amount,0.281,0.625
age_in_years,housing,0.279,
credit_amount,telephone,0.278,


## 4. Limpeza dos Dados

### 4.1. Verificação de dados ausentes, nulos e duplicados

In [20]:
# Verifica o número de valores ausentes por coluna
missing_values = df.isnull().sum()
print("Valores ausentes por coluna:")
print(missing_values)

Valores ausentes por coluna:
checking_account_status       0
duration_in_month             0
credit_history                0
purpose                       0
credit_amount                 0
savings_account_bonds         0
present_employment_since      0
installment_rate_percent      0
personal_status_and_sex       0
other_debtors_guarantors      0
present_residence_since       0
property                      0
age_in_years                  0
other_installment_plans       0
housing                       0
number_of_existing_credits    0
job                           0
number_of_dependents          0
telephone                     0
foreign_worker                0
risk                          0
dtype: int64


In [24]:
# Conta o número total de valores NaN no DataFrame
num_nan = df.isnull().sum().sum()
print(f"Número total de valores NaN: {num_nan}")

# Conta o número total de valores nulos (incluindo None) no DataFrame
num_null = df.isna().sum().sum()
print(f"Número total de valores nulos: {num_null}")

Número total de valores NaN: 0
Número total de valores nulos: 0


In [25]:
# Verifica se existem valores duplicados
num_duplicates = df.duplicated().sum()
print(f"Número de linhas duplicadas: {num_duplicates}")

Número de linhas duplicadas: 0


In [27]:
# Exibe amostra de linhas duplicadas, caso exista
if num_duplicates > 0:
    print("Exemplo de linhas duplicadas:")
    display(df[df.duplicated()])