In [5]:
import os
import pandas as pd

os.makedirs("../artifacts/dataset", exist_ok=True)

raw_path = "../artifacts/dataset/german_credit_raw.csv"
df = pd.read_csv(raw_path)

# target: good=1, bad=0
df["target"] = df["class"].map({"good": 1, "bad": 0}).astype(int)

FEATURES = [
    "duration",
    "credit_amount",
    "age",
    "checking_status",
    "employment",
    "savings_status",
    "purpose",
]

clean = df[FEATURES + ["target"]].copy()

print("Clean shape:", clean.shape)
display(clean.head())

clean_path = "../artifacts/dataset/german_credit_clean.csv"
clean.to_csv(clean_path, index=False)
print("Saved:", clean_path)

# --- CÓDIGO PARA DEFINIR Y VISUALIZAR EL PIPELINE ---
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn import set_config

# 1. Definimos las columnas (basado en tu dataset limpio)
cat_cols = ["checking_status", "employment", "savings_status", "purpose"]
num_cols = ["duration", "credit_amount", "age"]

# 2. Construimos el transformador (Ingeniería de Características)
preprocess = ColumnTransformer(
    transformers=[
        # Para numéricas: Rellenar vacíos con la mediana
        ("num", Pipeline([("imputer", SimpleImputer(strategy="median"))]), num_cols),
        # Para categóricas: Rellenar con moda y aplicar OneHotEncoding
        ("cat", Pipeline([
            ("imputer", SimpleImputer(strategy="most_frequent")),
            ("onehot", OneHotEncoder(handle_unknown="ignore"))
        ]), cat_cols),
    ],
    remainder="drop" # Ignorar otras columnas no listadas
)

# 3. Visualizamos el diagrama
set_config(display='diagram')
print("Estructura del Pipeline de Ingeniería de Características:")
display(preprocess)


Clean shape: (1000, 8)


Unnamed: 0,duration,credit_amount,age,checking_status,employment,savings_status,purpose,target
0,6.0,1169.0,67.0,<0,>=7,no known savings,radio/tv,1
1,48.0,5951.0,22.0,0<=X<200,1<=X<4,<100,radio/tv,0
2,12.0,2096.0,49.0,no checking,4<=X<7,<100,education,1
3,42.0,7882.0,45.0,<0,4<=X<7,<100,furniture/equipment,1
4,24.0,4870.0,53.0,<0,1<=X<4,<100,new car,0


Saved: ../artifacts/dataset/german_credit_clean.csv
Estructura del Pipeline de Ingeniería de Características:


# Fase 2: Ingeniería de Características y Preparación de Datos

## 2.1 Importancia de la Transformación de Datos
Los algoritmos de Machine Learning no pueden procesar información cruda de manera eficiente. En cumplimiento con la rúbrica, esta fase aplica conceptos de **Ingeniería de Características (Feature Engineering)** para transformar variables originales en representaciones numéricas optimizadas.

## 2.2 Diseño del Pipeline de Preprocesamiento
Se ha diseñado un flujo de trabajo reproducible (`Pipeline`) que abarca:

### 2.2.1 Selección y Limpieza
Basado en el EDA previo, se seleccionan características predictivas (`checking_status`, `duration`, `credit_amount`, `age`).
* **Tratamiento de Nulos:** Se utiliza la estrategia de la *mediana* para numéricas y *moda* para categóricas, preservando la distribución estadística.

### 2.2.2 Codificación (Encoding)
* **Label Encoding:** Para la variable objetivo `target` (Clasificación Binaria).
* **One-Hot Encoding:** Para variables nominales (`purpose`, `housing`), creando variables *dummy* para evitar falsas relaciones de orden.

### 2.2.3 Escalado de Variables
Se estandarizan variables numéricas con magnitudes dispares (ej. `credit_amount` vs `age`) para facilitar la convergencia del modelo.

## 2.3 Visualización del Pipeline
A continuación, se define y visualiza la arquitectura del preprocesador que será serializado para producción.