# Ingeniería de Características
# Proyecto: Predicción de Ventas

**Autor:** Javier Gacitúa  
**Fecha:** Octubre 2025

---

## Objetivos de la Ingeniería de Características

1. Crear nuevas variables que mejoren el rendimiento del modelo.
2. Transformar variables existentes para optimizar su uso en el modelado.
3. Evaluar la importancia de las características generadas.

In [1]:
# Importar librerías necesarias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# Configuración de visualización
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

print('Librerías importadas correctamente')

Librerías importadas correctamente


## 1. Carga de Datos Procesados

Cargamos el dataset limpio que se generó en el análisis previo.

In [2]:
# Cargar dataset procesado
df = pd.read_csv('../data/processed/sales_clean.csv')

print(f'Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas')

Cargando dataset procesado...
Dataset cargado: (filas, columnas)


## 2. Creación de Nuevas Características

A continuación, generaremos nuevas características a partir de los datos existentes.

In [3]:
# Crear nuevas características
df['Total Price'] = df['sales'] * df['quantity']  # Precio total
df['Discounted Price'] = df['Total Price'] * (1 - df['discount'])  # Precio con descuento
df['Sales per Day'] = df['sales'] / df['days_since_order']  # Ventas por día

print('Nuevas características creadas:')
print(df[['Total Price', 'Discounted Price', 'Sales per Day']].head())

## 3. Evaluación de la Importancia de las Características

Analizaremos la importancia de las características generadas para determinar su impacto en el modelo.

In [4]:
# Evaluar la importancia de las características
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# Separar características y variable objetivo
X = df.drop(['sales'], axis=1)
y = df['sales']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar modelo
model = RandomForestRegressor()
model.fit(X_train, y_train)

# Importancia de las características
importances = model.feature_importances_
feature_names = X.columns

# Visualizar importancia
indices = np.argsort(importances)[::-1]
plt.figure(figsize=(12, 6))
plt.title('Importancia de las Características')
plt.bar(range(X.shape[1]), importances[indices], align='center')
plt.xticks(range(X.shape[1]), feature_names[indices], rotation=90)
plt.xlim([-1, X.shape[1]])
plt.show()

## 4. Guardar el Dataset Procesado

Guardamos el dataset con las nuevas características para su uso en el modelado.

In [5]:
# Guardar dataset procesado
df.to_csv('../data/processed/sales_featured.csv', index=False)
print('Dataset procesado guardado correctamente.')

Dataset procesado guardado correctamente.


## 5. Conclusiones

Hemos creado nuevas características que pueden mejorar el rendimiento del modelo. A continuación, se procederá al entrenamiento del modelo en el siguiente cuaderno.