# Notebook 3: Ingeniería de Características

En este notebook se realiza la ingeniería de características, que incluye:
- Imputación de valores faltantes.
- Codificación de variables categóricas (One-Hot Encoding).
- Estandarización de variables numéricas.
- Guardado de los datos preprocesados para su uso posterior.

In [ ]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
import os

# Cargar el dataset
file_path = '../data/raw/HeartDiseaseTrain-Test.csv'
data = pd.read_csv(file_path)

# Seleccionar columnas categóricas y numéricas
categorical_features = ['chest_pain_type', 'fasting_blood_sugar', 'rest_ecg']
numerical_features = ['age', 'resting_blood_pressure', 'cholestoral', 'oldpeak']

# Separar características (X) y variable objetivo (y)
X = data.drop(columns=['target'])
y = data['target']

# Dividir los datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un ColumnTransformer para las transformaciones
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), numerical_features),
        ('cat', OneHotEncoder(handle_unknown='ignore'), categorical_features)
    ]
)

# Ajustar y transformar los datos
X_train_transformed = preprocessor.fit_transform(X_train)
X_test_transformed = preprocessor.transform(X_test)

# Convertir X_train y X_test a DataFrames
encoded_columns = preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_features)
transformed_columns = list(numerical_features) + list(encoded_columns)
X_train_df = pd.DataFrame(X_train_transformed, columns=transformed_columns)
X_test_df = pd.DataFrame(X_test_transformed, columns=transformed_columns)

# Guardar los datos preprocesados
os.makedirs('../data/processed', exist_ok=True)
X_train_df.to_csv('../data/processed/X_train_transformed.csv', index=False)
X_test_df.to_csv('../data/processed/X_test_transformed.csv', index=False)
y_train.to_csv('../data/processed/y_train.csv', index=False, header=False)
y_test.to_csv('../data/processed/y_test.csv', index=False, header=False)

print('Datos preprocesados guardados en la carpeta data/processed.')