# Fase 2: Preprocesamiento de Datos para Machine Learning
En este notebook realizamos la transformación de variables para que el modelo pueda procesarlas. Siguiendo la estructura de tu proyecto, utilizaremos la carpeta data/ para gestionar las entradas y salidas.

## 1. Importación y Carga
Mantenemos la coherencia con las librerías necesarias para el aprendizaje supervisado.

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.model_selection import train_test_split # Necesario para validación

# Carga de datos
df = pd.read_csv("../data/ecommerce.csv")

## 2. Selección de Variables y Feature Engineering
Mejora técnica: El nombre del producto y la fecha completa tienen demasiadas categorías únicas para un OneHotEncoder básico. Optamos por extraer el mes y el año de la fecha, y por agrupar los productos en categorías más amplias basadas en su tipo.

In [2]:
# Transformación de fecha (basado en recomendaciones de limpieza)
df['Order Date'] = pd.to_datetime(df['Order Date'])
df['Month'] = df['Order Date'].dt.month

# Selección de características (eliminamos 'Product Name' por alta cardinalidad para este ejemplo)
features = ['Month', 'Category', 'Region', 'Quantity', 'Sales']
target = 'Profit'

X = df[features]
y = df[target]

## 3. Construcción del Pipeline de Transformación
Aquí es donde aplicamos las herramientas de scikit-learn.

In [3]:
# Importaciones necesarias para el preprocesamiento
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Identificación de tipos de columnas
numeric_features = ['Quantity', 'Sales', 'Month']
categorical_features = ['Category', 'Region']

# Definición de transformadores (Ahora StandardScaler estará definido)
numeric_transformer = StandardScaler()
categorical_transformer = OneHotEncoder(handle_unknown='ignore', sparse_output=False)

# Unión en un ColumnTransformer
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ]
)

## 4. Aplicación de las Transformaciones
Corrección importante: En tu versión original el preprocessor no se ejecutaba. Aquí lo aplicamos para obtener la matriz de datos final.

In [4]:
# Ajustar y transformar los datos
X_processed = preprocessor.fit_transform(X)

# Obtener los nombres de las nuevas columnas generadas por OneHotEncoder
cat_columns = preprocessor.named_transformers_['cat'].get_feature_names_out(categorical_features)
columns = numeric_features + list(cat_columns)

# Crear DataFrame final procesado
df_processed = pd.DataFrame(X_processed, columns=columns)
df_processed[target] = y.values

# Guardar el dataset listo para el modelo
df_processed.to_csv("../data/ecommerce_prepared.csv", index=False)
print("Archivo 'ecommerce_prepared.csv' guardado con éxito.")

Archivo 'ecommerce_prepared.csv' guardado con éxito.
