In [2]:
import os
import pandas as pd
from sklearn.datasets import fetch_openml

os.makedirs("../artifacts/dataset", exist_ok=True)

data = fetch_openml(name="credit-g", version=1, as_frame=True)
df = data.frame.copy()
# Generación de la Tabla de Estadísticas Descriptivas
# Transponemos (.T) para facilitar la lectura de las variables en filas
description = df.describe().T
description['mode'] = df.mode().iloc[0] # Agregamos la moda para contexto
display(description)

# Verificación de tipos y nulos
print("\nInformación del Dataset:")
df.info()

print("Dataset shape:", df.shape)

display(df.head())

raw_path = "../artifacts/dataset/german_credit_raw.csv"
df.to_csv(raw_path, index=False)
print("Saved:", raw_path)


  warn(


Unnamed: 0,count,mean,std,min,25%,50%,75%,max,mode
duration,1000.0,20.903,12.058814,4.0,12.0,18.0,24.0,72.0,24.0
credit_amount,1000.0,3271.258,2822.736876,250.0,1365.5,2319.5,3972.25,18424.0,1258.0
installment_commitment,1000.0,2.973,1.118715,1.0,2.0,3.0,4.0,4.0,4.0
residence_since,1000.0,2.845,1.103718,1.0,2.0,3.0,4.0,4.0,4.0
age,1000.0,35.546,11.375469,19.0,27.0,33.0,42.0,75.0,27.0
existing_credits,1000.0,1.407,0.577654,1.0,1.0,1.0,2.0,4.0,1.0
num_dependents,1000.0,1.155,0.362086,1.0,1.0,1.0,1.0,2.0,1.0



Información del Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype   
---  ------                  --------------  -----   
 0   checking_status         1000 non-null   category
 1   duration                1000 non-null   float64 
 2   credit_history          1000 non-null   category
 3   purpose                 1000 non-null   category
 4   credit_amount           1000 non-null   float64 
 5   savings_status          1000 non-null   category
 6   employment              1000 non-null   category
 7   installment_commitment  1000 non-null   float64 
 8   personal_status         1000 non-null   category
 9   other_parties           1000 non-null   category
 10  residence_since         1000 non-null   float64 
 11  property_magnitude      1000 non-null   category
 12  age                     1000 non-null   float64 
 13  other_payment_plans     1000 non-null   category
 14 

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6.0,critical/other existing credit,radio/tv,1169.0,no known savings,>=7,4.0,male single,none,...,real estate,67.0,none,own,2.0,skilled,1.0,yes,yes,good
1,0<=X<200,48.0,existing paid,radio/tv,5951.0,<100,1<=X<4,2.0,female div/dep/mar,none,...,real estate,22.0,none,own,1.0,skilled,1.0,none,yes,bad
2,no checking,12.0,critical/other existing credit,education,2096.0,<100,4<=X<7,2.0,male single,none,...,real estate,49.0,none,own,1.0,unskilled resident,2.0,none,yes,good
3,<0,42.0,existing paid,furniture/equipment,7882.0,<100,4<=X<7,2.0,male single,guarantor,...,life insurance,45.0,none,for free,1.0,skilled,2.0,none,yes,good
4,<0,24.0,delayed previously,new car,4870.0,<100,1<=X<4,3.0,male single,none,...,no known property,53.0,none,for free,2.0,skilled,2.0,none,yes,bad


Saved: ../artifacts/dataset/german_credit_raw.csv


# Fase 1: Comprensión del Negocio, Carga de Datos y Análisis Exploratorio (EDA)

## 1.1 Contexto del Proyecto
Este proyecto implementa una arquitectura de **Inteligencia Artificial** por fases para la gestión del riesgo crediticio. El objetivo es clasificar solicitantes como *Buenos* o *Malos* pagadores. Iniciamos con la ingesta y validación de datos del **German Credit Dataset** (UCI Repository), un estándar en la industria financiera.

## 1.2 Descripción del Dataset y Diccionario de Datos
El conjunto de datos consta de **1000 instancias** y **20 atributos**. A continuación, se presenta la definición de las variables más relevantes seleccionadas para el estudio:

| Variable | Tipo | Descripción |
| :--- | :--- | :--- |
| **checking_status** | Categórica | Estado de la cuenta corriente del cliente. |
| **duration** | Numérica | Duración del crédito en meses. |
| **credit_history** | Categórica | Historial de cumplimiento de créditos pasados. |
| **purpose** | Categórica | Propósito del préstamo (ej. auto, educación). |
| **credit_amount** | Numérica | Monto del crédito solicitado (en DM). |
| **savings_status** | Categórica | Cuentas de ahorro o bonos. |
| **employment** | Categórica | Antigüedad en el empleo actual. |
| **age** | Numérica | Edad del solicitante en años. |
| **class / target** | Objetivo | Clasificación del riesgo (Good/Bad). |

## 1.3 Estrategia de Análisis Exploratorio (EDA)
Para validar la calidad de los datos antes del modelado, se realizarán las siguientes tareas estadísticas:
1.  **Estadística Descriptiva:** Análisis de tendencia central (media) y dispersión (desviación estándar) de las variables numéricas.
2.  **Análisis de Distribución:** Verificación del balance de clases (`target`) para detectar desequilibrios.
3.  **Detección de Anomalías:** Identificación de valores atípicos (*outliers*) en montos y edades.

## 1.4 Análisis e Interpretación Estadística
A partir de la tabla estadística generada anteriormente, se destacan los siguientes hallazgos sobre la distribución de los datos:

### Análisis de Variables Numéricas
* **Credit Amount (Monto):** Existe una alta dispersión en los montos de crédito solicitados (alta desviación estándar). Se observa que la media es significativamente mayor que la mediana (percentil 50%), lo que indica una **distribución sesgada a la derecha**; es decir, la mayoría de los créditos son montos pequeños/medios, pero existen *outliers* de montos muy altos que elevan el promedio.
* **Age (Edad):** La edad media de los solicitantes ronda los 35 años. El rango abarca desde adultos jóvenes (aprox. 19-20 años) hasta jubilados (+70 años), lo cual garantiza representatividad demográfica.
* **Duration (Duración):** Los plazos varían considerablemente, sugiriendo una mezcla de créditos de corto plazo (consumo) y largo plazo.

### Análisis de Balance de Clases
Es crucial notar la proporción de la variable objetivo. En datasets financieros como este, es común encontrar un **desbalance de clases** (más "buenos pagadores" que "malos"). Si la clase minoritaria ("Bad") representa menos del 30% de los datos, deberemos considerar métricas como *F1-Score* o *ROC-AUC* en la fase de modelado, ya que el *Accuracy* por sí solo sería una métrica engañosa.