# Ingestão e Análise Inicial dos Dados

Este notebook é responsável pela ingestão do conjunto de dados de risco de crédito e pela realização de verificações iniciais de estrutura, tipos de dados e consistência. Nenhuma transformação ou codificação é realizada nesta etapa.

In [9]:
import pandas as pd


DATA_RAW_PATH = "../data/raw/german_data.csv"

df = pd.read_csv(
    DATA_RAW_PATH,
    sep=r"\s+",
    header=None,
    engine="python"
)

df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,11,12,13,14,15,16,17,18,19,20
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


In [10]:
df.shape

(1000, 21)

O dataset `german.data` contém 20 variáveis explicativas e 1 variável alvo, totalizando 21 colunas. Diferentemente da versão `german.data-numeric`, esta representação preserva variáveis categóricas em formato alfanumérico, permitindo uma análise exploratória mais interpretável antes do processo de codificação.

O dataset original não possui cabeçalho. Os nomes das colunas foram definidos com base na documentação oficial do German Credit Dataset (`german.txt`), respeitando a ordem original.

In [15]:
columns = [
    "status_checking_account", "duration_months", "credit_history",
    "purpose", "credit_amount", "savings_account", "employment_since",
    "installment_rate", "personal_status_sex", "other_debtors",
    "residence_since", "property", "age", "other_installment_plans",
    "housing", "existing_credits", "job", "num_dependents",
    "telephone", "foreign_worker", "target"
]

df.columns = columns
df.head()

Unnamed: 0,status_checking_account,duration_months,credit_history,purpose,credit_amount,savings_account,employment_since,installment_rate,personal_status_sex,other_debtors,...,property,age,other_installment_plans,housing,existing_credits,job,num_dependents,telephone,foreign_worker,target
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,...,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,...,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,...,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,...,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,...,A124,53,A143,A153,2,A173,2,A191,A201,2


In [17]:
with pd.option_context("display.max_columns", None):
    display(df)

Unnamed: 0,status_checking_account,duration_months,credit_history,purpose,credit_amount,savings_account,employment_since,installment_rate,personal_status_sex,other_debtors,residence_since,property,age,other_installment_plans,housing,existing_credits,job,num_dependents,telephone,foreign_worker,target
0,A11,6,A34,A43,1169,A65,A75,4,A93,A101,4,A121,67,A143,A152,2,A173,1,A192,A201,1
1,A12,48,A32,A43,5951,A61,A73,2,A92,A101,2,A121,22,A143,A152,1,A173,1,A191,A201,2
2,A14,12,A34,A46,2096,A61,A74,2,A93,A101,3,A121,49,A143,A152,1,A172,2,A191,A201,1
3,A11,42,A32,A42,7882,A61,A74,2,A93,A103,4,A122,45,A143,A153,1,A173,2,A191,A201,1
4,A11,24,A33,A40,4870,A61,A73,3,A93,A101,4,A124,53,A143,A153,2,A173,2,A191,A201,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,A14,12,A32,A42,1736,A61,A74,3,A92,A101,4,A121,31,A143,A152,1,A172,1,A191,A201,1
996,A11,30,A32,A41,3857,A61,A73,4,A91,A101,4,A122,40,A143,A152,1,A174,1,A192,A201,1
997,A14,12,A32,A43,804,A61,A75,4,A93,A101,4,A123,38,A143,A152,1,A173,1,A191,A201,1
998,A11,45,A32,A43,1845,A61,A73,4,A93,A101,4,A124,23,A143,A153,1,A173,1,A192,A201,2


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   status_checking_account  1000 non-null   object
 1   duration_months          1000 non-null   int64 
 2   credit_history           1000 non-null   object
 3   purpose                  1000 non-null   object
 4   credit_amount            1000 non-null   int64 
 5   savings_account          1000 non-null   object
 6   employment_since         1000 non-null   object
 7   installment_rate         1000 non-null   int64 
 8   personal_status_sex      1000 non-null   object
 9   other_debtors            1000 non-null   object
 10  residence_since          1000 non-null   int64 
 11  property                 1000 non-null   object
 12  age                      1000 non-null   int64 
 13  other_installment_plans  1000 non-null   object
 14  housing                  1000 non-null   

A variável alvo (`target`) indica o comportamento de pagamento do cliente:
- 1: bom pagador
- 2: mau pagador

Para facilitar a interpretação do modelo, a variável será convertida para um formato binário,
onde:
- 0 representa clientes adimplentes
- 1 representa clientes inadimplentes

In [19]:
df["target"] = df["target"].map({1: 0, 2: 1})

df["target"].value_counts(normalize=True)

target
0    0.7
1    0.3
Name: proportion, dtype: float64

A distribuição da variável alvo permite identificar o nível de desbalanceamento entre as classes.

Em problemas de risco de crédito, é comum que a classe de inadimplentes seja minoritária.
Essa informação é importante para a escolha de métricas de avaliação e possíveis ajustes no modelo.

## Salvamento do Dataset Processado

In [22]:
# Caminho do arquivo processado
output_path = "../data/processed/german_credit_clean.csv"

# Salvando o dataset
df.to_csv(output_path, index=False)

print(f"Arquivo salvo com sucesso em {output_path}")

Arquivo salvo com sucesso em ../data/processed/german_credit_clean.csv


O dataset foi salvo após a etapa de ingestão e padronização das variáveis, permitindo que as etapas subsequentes do projeto sejam executadas de forma independente e reprodutível.