In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Creamos un DataFrame de ejemplo
data = {
    'Age': [25, 30, np.nan, 22, 35],
    'Income': [50000, np.nan, 60000, 75000, 80000],
    'Gender': ['Male', 'Female', 'Male', np.nan, 'Female'],
    'Target': [1, 0, 1, 0, 1]
}
df = pd.DataFrame(data)

# Dividir en características (X) y la variable objetivo (y)
x = df.drop('Target', axis=1)
y = df['Target']

# Dividir los datos en entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

#### Pipeline para imputar, normalizar y codificar

In [2]:
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline

# Definimos las columnas numéricas y categóricas para cada
numeric_features = x_train.select_dtypes(include=['float64', 'int64']).columns
categorical_features = x_train.select_dtypes(include=['object']).columns

# Creamos transformers para imputación y escala
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')),
    ('scaler', StandardScaler())
])

# Creamos transformer para codificación de variables categóricas
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('onehot', OneHotEncoder(handle_unknown='ignore'))
])

# Creamos un preprocesador que aplique los transformers apropiados a las columnas correctas
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Creamos el pipeline completo
pipeline = Pipeline(steps=[('preprocessor', preprocessor)])

#### En el caso de que no se quiera usar un tipo de preprocesamiento, solo hay que borrar la linea donde lo ponde en los transformadores

In [3]:
# asi se usa el pipeline 
x_train_prep = pipeline.fit_transform(x_train)
x_test_prep = pipeline.transform(x_test)
x_val_prep = pipeline.transform(x_val)

#### Para transformar a un df despues de aplicar el pipeline

In [4]:
# x_train_prep es la variable donde se guardo el df transformado al usar el pipeline 

x_train = pd.DataFrame(x_train_prep, columns=list(pd.get_dummies(x_train)), index=x_train.index)

In [6]:
x_train

Unnamed: 0,Age,Income,Gender_Female,Gender_Male
4,1.59285,1.153113,1.0,0.0
2,0.0,-0.524142,0.0,1.0
0,-0.48478,-1.36277,0.0,1.0
3,-1.108069,0.733799,0.0,1.0


#### Para ver la importancia de cada caracteristica

In [None]:
feature_importances = tree_model.feature_importances_

# Crea un DataFrame para visualizar las importancias junto con los nombres de las características
feature_importance_df = pd.DataFrame({'Feature': x_train.columns, 'Importance': feature_importances})

# Ordena el DataFrame por importancia en orden descendente
feature_importance_df = feature_importance_df.sort_values(by='Importance', ascending=False)

# Plotea las importancias de las características
plt.figure(figsize=(10, 6))
plt.bar(feature_importance_df['Feature'], feature_importance_df['Importance'])
plt.xticks(rotation=90)
plt.xlabel('Feature')
plt.ylabel('Importance')
plt.title('Feature Importances')
plt.show()