In [2]:
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder

# Construir el pipeline para atributos numéricos
num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="median")),
    ('std_scaler', StandardScaler())
])

# Construir el pipeline para atributos categóricos
cat_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy="most_frequent", fill_value="missing")),
    ('one_hot_encoder', OneHotEncoder(sparse_output=False))  # Cambiado de 'sparse' a 'sparse_output'
])

# Crear el preprocesador para atributos numéricos y categóricos
preprocessor = ColumnTransformer([
    ("num", num_pipeline, num_attribs),
    ("cat", cat_pipeline, cat_attribs)
])

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Ejemplo de conjuntos de datos
# Puedes sustituir estos datos con tus propios conjuntos de datos
data_train = {'categorical_column': ['A', 'B', 'A', 'C']}
data_val = {'categorical_column': ['B', 'A', 'C', 'D']}

x_train = pd.DataFrame(data_train)
x_val = pd.DataFrame(data_val)

# Inicializar y ajustar el codificador en el conjunto de datos de entrenamiento
encoder = OneHotEncoder(sparse=False, drop='first')  # 'drop' elimina una de las columnas dummy para evitar multicolinealidad
encoder.fit(x_train[['categorical_column']])

# Aplicar one-hot encoding a ambos conjuntos de datos
x_train_encoded = encoder.transform(x_train[['categorical_column']])
x_val_encoded = encoder.transform(x_val[['categorical_column']])

# Obtener nombres de columnas después del one-hot encoding
encoded_columns = encoder.get_feature_names_out(['categorical_column'])

# Crear DataFrames con las columnas codificadas
x_train_encoded_df = pd.DataFrame(x_train_encoded, columns=encoded_columns)
x_val_encoded_df = pd.DataFrame(x_val_encoded, columns=encoded_columns)

# Asegurarse de que ambos conjuntos de datos tengan las mismas columnas
common_columns = set(x_train_encoded_df.columns) & set(x_val_encoded_df.columns)
x_train_encoded_df = x_train_encoded_df[common_columns]
x_val_encoded_df = x_val_encoded_df[common_columns]

# Resultados
print("Conjunto de datos de entrenamiento después del one-hot encoding:")
print(x_train_encoded_df)

print("\nConjunto de datos de validación después del one-hot encoding:")
print(x_val_encoded_df)
