In [1]:
import pandas as pd

df = pd.read_csv("./data/credit_npo.csv")

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier

# He añadido las variables numericas en variable para que sean las que transformemos
numeric_features = ["age", "RevolvingUtilizationOfUnsecuredLines", "DebtRatio", "MonthlyIncome"]
categorical_features = []  # Aunque no lo planteo para las categoricas, creo la lista de variables categoricas igualmente

# Pipeline para columnas numéricas--> Utilizo le simple imputer para que si hay valores faltantes me los rellene con la mediana, puedo cambiar eso por la media.
# Luego hago el standarscaler para hacer que las variables numericas sean comparables
numeric_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="median")),
    ("scaler", StandardScaler())
])

# Pipeline para columnas categóricas --> Aqui el simple imputer usa la moda al ser categorica
# el onehotencoder transforma las variables categóricas en columnas binarias. 
# La opción handle_unknown="ignore" asegura que el encoder no producirá errores si encuentra una categoría en los datos de validación o prueba que no estaba en el entrenamiento.
categorical_pipeline = Pipeline([
    ("imputer", SimpleImputer(strategy="most_frequent")),
    ("onehot", OneHotEncoder(handle_unknown="ignore"))
])

# Pipeline completo con el que se aplicara a cualquier base de datos
preprocessor = ColumnTransformer([
    ("num", numeric_pipeline, numeric_features),
    ("cat", categorical_pipeline, categorical_features)
])

model_pipeline = Pipeline([
    ("preprocessor", preprocessor),
    ("classifier", RandomForestClassifier())
])

# Aqui, el model_pipeline está preparado para entrenarse y usarse con datos de train, validación y test
