# 🚀 **AVANCE 3 - PROYECTO INTEGRADOR**
## 📊 **Análisis de Datos y Preparación para Modelado de Machine Learning**

---

### 📋 **Objetivos del Avance:**
- ✅ **Feature Engineering:** Crear variables derivadas relevantes
- ✅ **Detección de Outliers:** Identificar valores atípicos en las ventas
- ✅ **Análisis Temporal:** Extraer patrones de tiempo de las ventas
- ✅ **Dataset Final:** Preparar datos para modelado de ML

---

## 📁 **CARGA DE ARCHIVOS CSV**

### 🗂️ **Archivos de Datos Disponibles:**
| **Archivo** | **Descripción** | **Registros** |
|-------------|-----------------|---------------|
| `categories.csv` | Categorías de productos | ~10 categorías |
| `cities.csv` | Información de ciudades | ~100 ciudades |
| `countries.csv` | Información de países | ~200 países |
| `customers.csv` | Datos de clientes | ~98,000 clientes |
| `employees.csv` | Datos de empleados | ~25 empleados |
| `products.csv` | Catálogo de productos | ~450 productos |
| `sales.csv` | Registro de ventas | ~6.7M ventas |

---

In [179]:
# 📚 **IMPORTACIÓN DE LIBRERÍAS Y CARGA DE DATOS**
import pandas as pd
import numpy as np

print("🔄 Cargando archivos CSV...")

# Cargar todos los archivos de datos
categories = pd.read_csv('../data/categories.csv')
cities = pd.read_csv('../data/cities.csv')
countries = pd.read_csv('../data/countries.csv')
customers = pd.read_csv('../data/customers.csv')
employees = pd.read_csv('../data/employees.csv')
products = pd.read_csv('../data/products.csv')
sales = pd.read_csv('../data/sales.csv')

print("✅ Todos los archivos cargados exitosamente!")
print(f"📊 Total de ventas: {len(sales):,} registros")
print(f"👥 Total de empleados: {len(employees)} empleados")
print(f"🛍️ Total de productos: {len(products)} productos")


🔄 Cargando archivos CSV...
✅ Todos los archivos cargados exitosamente!
📊 Total de ventas: 6,758,125 registros
👥 Total de empleados: 23 empleados
🛍️ Total de productos: 452 productos


## 🔧 **PREGUNTA 1: CÁLCULO DE PRECIO REAL DE VENTAS**

### 🎯 **Problema Identificado:**
El campo `TotalPrice` en la tabla `sales` **no tiene valores válidos** (todos son 0).

### 💡 **Solución Propuesta:**
Utilizar la información de precios de la tabla `products` para calcular el valor real de cada venta.

### 📐 **Fórmula de Cálculo:**
```
TotalPriceCalculated = (Quantity × Price) × (1 - Discount)
```

### 🔍 **Análisis Previo:**
- Verificar estructura de la tabla `sales`
- Analizar distribución de valores en `TotalPrice`
- Revisar información disponible en `products`

---

In [180]:
# 🔍 **ANÁLISIS DE LA TABLA SALES**
print("📊 Información de la tabla 'sales':")
print("=" * 50)
sales.info()

print(f"\n📈 Resumen estadístico:")
print(f"• Total de registros: {len(sales):,}")
print(f"• Memoria utilizada: {sales.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
print(f"• Columnas disponibles: {len(sales.columns)}")

📊 Información de la tabla 'sales':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6758125 entries, 0 to 6758124
Data columns (total 9 columns):
 #   Column             Dtype  
---  ------             -----  
 0   SalesID            int64  
 1   SalesPersonID      int64  
 2   CustomerID         int64  
 3   ProductID          int64  
 4   Quantity           int64  
 5   Discount           float64
 6   TotalPrice         float64
 7   SalesDate          object 
 8   TransactionNumber  object 
dtypes: float64(2), int64(5), object(2)
memory usage: 464.0+ MB

📈 Resumen estadístico:
• Total de registros: 6,758,125
• Memoria utilizada: 1267.1 MB
• Columnas disponibles: 9


In [181]:
# 📊 **ANÁLISIS DE VALORES EN TotalPrice**
print("🔍 Distribución de valores en 'TotalPrice':")
print("=" * 50)

conteo_valores = sales['TotalPrice'].value_counts().sort_index()
print(conteo_valores)

print(f"\n⚠️  PROBLEMA DETECTADO:")
print(f"• Todos los valores de TotalPrice son: {sales['TotalPrice'].unique()}")
print(f"• Porcentaje de valores 0: {sales['TotalPrice'].value_counts()[0] / len(sales) * 100:.1f}%")
print(f"• Necesitamos calcular el precio real usando la tabla 'products'")

🔍 Distribución de valores en 'TotalPrice':
TotalPrice
0    6758125
Name: count, dtype: int64

⚠️  PROBLEMA DETECTADO:
• Todos los valores de TotalPrice son: [0.]
• Porcentaje de valores 0: 100.0%
• Necesitamos calcular el precio real usando la tabla 'products'


In [182]:
# 🛍️ **ANÁLISIS DE LA TABLA PRODUCTS**
print("📊 Información de la tabla 'products':")
print("=" * 50)
products.info()

print(f"\n📈 Resumen de productos:")
print(f"• Total de productos: {len(products):,}")
print(f"• Rango de precios: ${products['Price'].min():.2f} - ${products['Price'].max():.2f}")
print(f"• Precio promedio: ${products['Price'].mean():.2f}")
print(f"• Categorías disponibles: {products['CategoryID'].nunique()}")

📊 Información de la tabla 'products':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 452 entries, 0 to 451
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   ProductID     452 non-null    int64  
 1   ProductName   452 non-null    object 
 2   Price         452 non-null    float64
 3   CategoryID    452 non-null    int64  
 4   Class         452 non-null    object 
 5   ModifyDate    452 non-null    object 
 6   Resistant     452 non-null    object 
 7   IsAllergic    452 non-null    object 
 8   VitalityDays  452 non-null    int64  
dtypes: float64(1), int64(3), object(5)
memory usage: 31.9+ KB

📈 Resumen de productos:
• Total de productos: 452
• Rango de precios: $0.00 - $99.88
• Precio promedio: $50.61
• Categorías disponibles: 11


In [183]:
# 💰 **CÁLCULO DEL VALOR REAL DE VENTAS**
print("🔄 Calculando precios reales de ventas...")
print("=" * 50)

# Hacer merge para combinar las tablas sales y products
sales_products = sales.merge(products[['ProductID', 'Price']], on='ProductID', how='left')

# Calcular TotalPriceCalculated usando la fórmula: (Quantity × Price) × (1 - Discount)
sales_products['TotalPriceCalculated'] = (sales_products['Quantity'] * sales_products['Price']) * (1 - sales_products['Discount'])

print("✅ Cálculo completado!")
print(f"📊 Resumen de TotalPriceCalculated:")
print(f"• Valor mínimo: ${sales_products['TotalPriceCalculated'].min():.2f}")
print(f"• Valor máximo: ${sales_products['TotalPriceCalculated'].max():.2f}")
print(f"• Valor promedio: ${sales_products['TotalPriceCalculated'].mean():.2f}")
print(f"• Total de ventas: ${sales_products['TotalPriceCalculated'].sum():,.2f}")

print(f"\n📋 Primeras 5 filas del dataset combinado:")
sales_products.head()

🔄 Calculando precios reales de ventas...
✅ Cálculo completado!
📊 Resumen de TotalPriceCalculated:
• Valor mínimo: $0.00
• Valor máximo: $2496.89
• Valor promedio: $638.68
• Total de ventas: $4,316,267,678.92

📋 Primeras 5 filas del dataset combinado:


Unnamed: 0,SalesID,SalesPersonID,CustomerID,ProductID,Quantity,Discount,TotalPrice,SalesDate,TransactionNumber,Price,TotalPriceCalculated
0,1,6,27039,381,7,0,0,2018-02-05 07:38:25.430,FQL4S94E4ME1EZFTG42G,44,310
1,2,16,25011,61,7,0,0,2018-02-02 16:03:31.150,12UGLX40DJ1A5DTFBHB8,63,438
2,3,13,94024,23,24,0,0,2018-05-03 19:31:56.880,5DT8RCPL87KI5EORO7B0,79,1896
3,4,8,73966,176,19,0,0,2018-04-07 14:43:55.420,R3DR9MLD5NR76VO17ULE,81,1236
4,5,10,32653,310,9,0,0,2018-02-12 15:37:03.940,4BGS0Z5OMAZ8NDAFHHP3,80,720


## 🎯 **PREGUNTA 2: DETECCIÓN DE OUTLIERS**

### 📊 **Objetivo:**
Detectar valores atípicos en la columna `TotalPriceCalculated` utilizando el **criterio del rango intercuartílico (IQR)**.

### 🔍 **Metodología:**
- **Método:** Rango Intercuartílico (IQR)
- **Fórmula:** `Outlier = Q1 - 1.5×IQR` o `Q3 + 1.5×IQR`
- **Variable:** `TotalPriceCalculated = (Quantity × Price) × (1 - Discount)`

### 📈 **Proceso:**
1. **Calcular percentiles:** P5, Q1, Q3
2. **Determinar límites:** Límite inferior y superior
3. **Identificar outliers:** Valores fuera del rango
4. **Crear columna:** `IsOutlier` (1 = outlier, 0 = normal)

### 🎯 **Resultado Esperado:**
- Nueva columna `IsOutlier` con valores binarios
- Conteo total de outliers detectados
- Porcentaje de outliers en el dataset

---

In [184]:
# 📊 **ANÁLISIS PREVIO DE OUTLIERS**
print("🔍 Análisis de valores extremos en TotalPriceCalculated:")
print("=" * 60)

venta_minima = sales_products['TotalPriceCalculated'].min()
venta_maxima = sales_products['TotalPriceCalculated'].max()
venta_promedio = sales_products['TotalPriceCalculated'].mean()

print(f"📈 Estadísticas básicas:")
print(f"• Venta más baja: ${venta_minima:.2f}")
print(f"• Venta más alta: ${venta_maxima:.2f}")
print(f"• Venta promedio: ${venta_promedio:.2f}")
print(f"• Desviación estándar: ${sales_products['TotalPriceCalculated'].std():.2f}")

print(f"\n⚠️  Observación: Existen ventas con valor $0.00 (posibles outliers)")

🔍 Análisis de valores extremos en TotalPriceCalculated:
📈 Estadísticas básicas:
• Venta más baja: $0.00
• Venta más alta: $2496.89
• Venta promedio: $638.68
• Desviación estándar: $547.95

⚠️  Observación: Existen ventas con valor $0.00 (posibles outliers)


In [185]:
# 🎯 **CÁLCULO DE OUTLIERS USANDO IQR**
print("📊 Calculando outliers con método IQR...")
print("=" * 50)

# Calcular percentiles
P5 = sales_products['TotalPriceCalculated'].quantile(0.05)
Q1 = sales_products['TotalPriceCalculated'].quantile(0.25)
Q3 = sales_products['TotalPriceCalculated'].quantile(0.75)
IQR = Q3 - Q1

# Definir límites para outliers
lower_bound = P5  # Percentil 5 para outliers bajos (no hay valores negativos)
upper_bound = Q3 + 1.5 * IQR  # IQR estándar para outliers altos

print(f"📈 Estadísticas de percentiles:")
print(f"• Percentil 5 (P5): ${P5:.2f}")
print(f"• Cuartil 1 (Q1): ${Q1:.2f}")
print(f"• Cuartil 3 (Q3): ${Q3:.2f}")
print(f"• Rango Intercuartílico (IQR): ${IQR:.2f}")

print(f"\n🚨 Límites para outliers:")
print(f"• Límite inferior (outliers bajos): ${lower_bound:.2f}")
print(f"• Límite superior (outliers altos): ${upper_bound:.2f}")

# Identificar y marcar outliers
sales_products['IsOutlier'] = ((sales_products['TotalPriceCalculated'] < lower_bound) | 
                               (sales_products['TotalPriceCalculated'] > upper_bound)).astype(int)

print(f"\n✅ Columna 'IsOutlier' creada exitosamente!")

📊 Calculando outliers con método IQR...
📈 Estadísticas de percentiles:
• Percentil 5 (P5): $29.99
• Cuartil 1 (Q1): $176.94
• Cuartil 3 (Q3): $982.16
• Rango Intercuartílico (IQR): $805.22

🚨 Límites para outliers:
• Límite inferior (outliers bajos): $29.99
• Límite superior (outliers altos): $2189.99

✅ Columna 'IsOutlier' creada exitosamente!


In [186]:
# 🔍 **MUESTRA DE OUTLIERS DETECTADOS**
print("📋 Ejemplos de registros identificados como outliers:")
print("=" * 60)

outliers_sample = sales_products[sales_products['IsOutlier'] == 1].head(5)
print(f"🔍 Mostrando 5 ejemplos de {sales_products['IsOutlier'].sum():,} outliers detectados:")
outliers_sample[['SalesID', 'Quantity', 'Price', 'Discount', 'TotalPriceCalculated', 'IsOutlier']]

📋 Ejemplos de registros identificados como outliers:
🔍 Mostrando 5 ejemplos de 386,068 outliers detectados:


Unnamed: 0,SalesID,Quantity,Price,Discount,TotalPriceCalculated,IsOutlier
10,11,18,0,0,6,1
12,13,8,3,0,18,1
32,33,11,1,0,14,1
33,34,5,6,0,29,1
61,62,1,10,0,10,1


In [187]:
# 📊 **RESUMEN DE OUTLIERS DETECTADOS**
print("📈 Resumen final de detección de outliers:")
print("=" * 50)

num_outliers = sales_products['IsOutlier'].sum()
total_ventas = len(sales_products)
porcentaje_outliers = num_outliers / total_ventas * 100

print(f"🎯 RESULTADOS:")
print(f"• Total de outliers detectados: {num_outliers:,}")
print(f"• Total de ventas analizadas: {total_ventas:,}")
print(f"• Porcentaje de outliers: {porcentaje_outliers:.2f}%")
print(f"• Ventas normales: {total_ventas - num_outliers:,} ({(100-porcentaje_outliers):.2f}%)")

print(f"\n✅ Análisis de outliers completado exitosamente!")

📈 Resumen final de detección de outliers:
🎯 RESULTADOS:
• Total de outliers detectados: 386,068
• Total de ventas analizadas: 6,758,125
• Porcentaje de outliers: 5.71%
• Ventas normales: 6,372,057 (94.29%)

✅ Análisis de outliers completado exitosamente!


In [188]:
# 📊 **DISTRIBUCIÓN DE OUTLIERS**
print("📈 Distribución de valores en columna 'IsOutlier':")
print("=" * 50)

distribucion = sales_products['IsOutlier'].value_counts()
print(distribucion)

print(f"\n📋 Interpretación:")
print(f"• 0 = Ventas normales: {distribucion[0]:,} registros")
print(f"• 1 = Outliers detectados: {distribucion[1]:,} registros")

📈 Distribución de valores en columna 'IsOutlier':
IsOutlier
0    6372057
1     386068
Name: count, dtype: int64

📋 Interpretación:
• 0 = Ventas normales: 6,372,057 registros
• 1 = Outliers detectados: 386,068 registros


## ⏰ **PREGUNTA 3: ANÁLISIS TEMPORAL DE VENTAS**

### 🎯 **Objetivo:**
Analizar patrones temporales en las ventas para identificar **cuándo se concentran más ventas** durante el día.

### 📊 **Proceso:**
1. **Extraer hora:** Crear columna `Hour` desde `SalesDate`
2. **Agrupar por hora:** Sumar `TotalPriceCalculated` por cada hora
3. **Identificar pico:** Encontrar la hora con mayor volumen de ventas
4. **Analizar patrones:** Comprender comportamiento temporal

### 🔍 **Análisis Esperado:**
- **Hora pico:** Momento del día con más ventas
- **Patrones:** Distribución de ventas por horas
- **Insights:** Comportamiento de compra de clientes

### 📈 **Aplicación:**
- **Optimización de horarios** de atención
- **Planificación de recursos** por turnos
- **Estrategias de marketing** temporal

---

In [189]:
# ⏰ **ANÁLISIS TEMPORAL DE VENTAS**
print("🔄 Analizando patrones temporales de ventas...")
print("=" * 60)

# Convertir SalesDate a formato datetime
sales_products['SalesDate'] = pd.to_datetime(sales_products['SalesDate'], errors='coerce')

# Extraer la hora de la venta
sales_products['Hour'] = sales_products['SalesDate'].dt.hour

# Agrupar por hora y calcular suma de ventas
ventas_por_hora = sales_products.groupby('Hour')['TotalPriceCalculated'].sum().reset_index()

# Encontrar la hora con mayor volumen de ventas
hora_mas_ventas = ventas_por_hora[ventas_por_hora['TotalPriceCalculated'] == ventas_por_hora['TotalPriceCalculated'].max()]

print("🎯 RESULTADOS DEL ANÁLISIS TEMPORAL:")
print(f"⏰ Hora pico de ventas: {int(hora_mas_ventas['Hour'].values[0]):02d}:00")
print(f"💰 Total de ventas en hora pico: ${hora_mas_ventas['TotalPriceCalculated'].values[0]:,.0f}")

# Mostrar top 5 horas con más ventas
print(f"\n📊 TOP 5 HORAS CON MÁS VENTAS:")
top_horas = ventas_por_hora.nlargest(5, 'TotalPriceCalculated')
for idx, row in top_horas.iterrows():
    print(f"• {int(row['Hour']):02d}:00 - ${row['TotalPriceCalculated']:,.0f}")

print(f"\n✅ Análisis temporal completado!")

🔄 Analizando patrones temporales de ventas...
🎯 RESULTADOS DEL ANÁLISIS TEMPORAL:
⏰ Hora pico de ventas: 16:00
💰 Total de ventas en hora pico: $179,014,421

📊 TOP 5 HORAS CON MÁS VENTAS:
• 16:00 - $179,014,421
• 20:00 - $178,949,164
• 02:00 - $178,420,847
• 06:00 - $178,381,199
• 19:00 - $178,346,115

✅ Análisis temporal completado!


## 📅 **PREGUNTA 4: ANÁLISIS SEMANAL DE VENTAS**

### 🎯 **Objetivo:**
Determinar si la empresa vende **más durante los días de semana o en el fin de semana**.

### 📊 **Metodología:**
1. **Clasificar ventas:** Crear variable `Weekend` (True/False)
2. **Extraer día:** Usar `DayType` (0=lunes, 6=domingo)
3. **Agrupar ventas:** Sumar por tipo de día
4. **Comparar resultados:** Días de semana vs Fin de semana

### 🔍 **Análisis:**
- **Días de semana:** Lunes a Viernes (DayType: 0-4)
- **Fin de semana:** Sábado y Domingo (DayType: 5-6)
- **Métrica:** Total de `TotalPriceCalculated` por grupo

### 📈 **Insights Esperados:**
- **Patrón de compra:** Comportamiento semanal de clientes
- **Estrategia comercial:** Optimización de horarios y promociones
- **Planificación:** Recursos y personal por tipo de día

---

In [190]:
# 📅 **ANÁLISIS SEMANAL DE VENTAS**
print("🔄 Analizando patrones semanales de ventas...")
print("=" * 60)

# Configurar formato de visualización
pd.set_option('display.float_format', '{:,.0f}'.format)

# Extraer día de la semana (0 = lunes, 6 = domingo)
sales_products['DayType'] = sales_products['SalesDate'].dt.weekday 

# Clasificar si es fin de semana (sábado=5, domingo=6)
sales_products['Weekend'] = sales_products['DayType'].isin([5, 6])

# Agrupar y sumar ventas por tipo de día
ventas_por_tipo = sales_products.groupby('Weekend')['TotalPriceCalculated'].sum()

# Obtener valores específicos
ventas_fin_semana = ventas_por_tipo[True]
ventas_dias_semana = ventas_por_tipo[False]

print("🎯 RESULTADOS DEL ANÁLISIS SEMANAL:")
print(f"📅 Ventas en fin de semana: ${ventas_fin_semana:,.0f}")
print(f"📅 Ventas en días de semana: ${ventas_dias_semana:,.0f}")

# Calcular diferencia y porcentaje
diferencia = abs(ventas_dias_semana - ventas_fin_semana)
porcentaje_diferencia = (diferencia / min(ventas_dias_semana, ventas_fin_semana)) * 100

print(f"\n📊 COMPARACIÓN:")
print(f"💰 Diferencia: ${diferencia:,.0f}")
print(f"📈 Diferencia porcentual: {porcentaje_diferencia:.1f}%")

# Determinar cuál vende más
if ventas_dias_semana > ventas_fin_semana:
    print(f"🏆 RESULTADO: Se vende MÁS en DÍAS DE SEMANA")
    print(f"   • Ventaja: ${diferencia:,.0f} más que en fin de semana")
else:
    print(f"🏆 RESULTADO: Se vende MÁS en FIN DE SEMANA")
    print(f"   • Ventaja: ${diferencia:,.0f} más que en días de semana")

print(f"\n✅ Análisis semanal completado!")

🔄 Analizando patrones semanales de ventas...
🎯 RESULTADOS DEL ANÁLISIS SEMANAL:
📅 Ventas en fin de semana: $1,192,862,950
📅 Ventas en días de semana: $3,123,404,728

📊 COMPARACIÓN:
💰 Diferencia: $1,930,541,778
📈 Diferencia porcentual: 161.8%
🏆 RESULTADO: Se vende MÁS en DÍAS DE SEMANA
   • Ventaja: $1,930,541,778 más que en fin de semana

✅ Análisis semanal completado!


## 👥 **PREGUNTA 5: FEATURE ENGINEERING DE EMPLEADOS**

### 🎯 **Objetivo:**
Crear **dos nuevas features** relacionadas con los empleados para enriquecer el dataset de modelado.

### 🔧 **Features a Crear:**
1. **`AgeAtHire`** - Edad del empleado al momento de su contratación
2. **`ExperienceAtSale`** - Años de experiencia del empleado al momento de cada venta

### 📊 **Metodología:**
- **Fuentes de datos:** `BirthDate`, `HireDate` (tabla employees) + `SalesDate` (tabla sales)
- **Cálculo de edad:** `(HireDate - BirthDate) / 365.25`
- **Cálculo de experiencia:** `(SalesDate - HireDate) / 365.25`
- **Formato de fechas:** Convertir a datetime para cálculos precisos

### 🎯 **Aplicación en ML:**
- **AgeAtHire:** Puede correlacionarse con desempeño y estabilidad
- **ExperienceAtSale:** Empleados con más experiencia pueden vender más
- **Insights:** Patrones de productividad por edad y experiencia

---

In [191]:
# 👥 **CÁLCULO DE FEATURES DE EMPLEADOS**
print("🔄 Calculando features de empleados...")
print("=" * 60)

# Convertir fechas a formato datetime
employees['BirthDate'] = pd.to_datetime(employees['BirthDate'], errors='coerce')
employees['HireDate'] = pd.to_datetime(employees['HireDate'], errors='coerce')

print("✅ Fechas convertidas a formato datetime")

# Unir ventas con información de empleados
sales_products = sales_products.merge(
    employees[['EmployeeID', 'BirthDate', 'HireDate', 'Gender']], 
    left_on='SalesPersonID', 
    right_on='EmployeeID', 
    how='left'
)

print("✅ Datos de empleados integrados al dataset")

# Calcular edad del empleado al momento de contratación
sales_products['AgeAtHire'] = (sales_products['HireDate'] - sales_products['BirthDate']).dt.days // 365.25

# Calcular años de experiencia al momento de cada venta
sales_products['ExperienceAtSale'] = (sales_products['SalesDate'] - sales_products['HireDate']).dt.days // 365.25

print("✅ Features calculadas exitosamente")

# Mostrar estadísticas de las nuevas features
print(f"\n📊 ESTADÍSTICAS DE FEATURES DE EMPLEADOS:")
print(f"• Edad promedio al contratarse: {sales_products['AgeAtHire'].mean():.1f} años")
print(f"• Rango de edad al contratarse: {sales_products['AgeAtHire'].min():.0f} - {sales_products['AgeAtHire'].max():.0f} años")
print(f"• Experiencia promedio: {sales_products['ExperienceAtSale'].mean():.1f} años")
print(f"• Rango de experiencia: {sales_products['ExperienceAtSale'].min():.0f} - {sales_products['ExperienceAtSale'].max():.0f} años")

print(f"\n📋 Muestra de las nuevas features:")
sales_products[['SalesDate', 'HireDate', 'AgeAtHire', 'ExperienceAtSale']].head(10)



🔄 Calculando features de empleados...
✅ Fechas convertidas a formato datetime
✅ Datos de empleados integrados al dataset
✅ Features calculadas exitosamente

📊 ESTADÍSTICAS DE FEATURES DE EMPLEADOS:
• Edad promedio al contratarse: 45.2 años
• Rango de edad al contratarse: 20 - 65 años
• Experiencia promedio: 4.0 años
• Rango de experiencia: 0 - 8 años

📋 Muestra de las nuevas features:


Unnamed: 0,SalesDate,HireDate,AgeAtHire,ExperienceAtSale
0,2018-02-05 07:38:25.430,2013-06-22 13:20:18.080,26,4
1,2018-02-02 16:03:31.150,2017-02-10 11:21:26.650,65,0
2,2018-05-03 19:31:56.880,2011-12-12 10:43:52.940,48,6
3,2018-04-07 14:43:55.420,2014-10-14 23:12:53.420,57,3
4,2018-02-12 15:37:03.940,2012-07-23 15:02:12.640,48,5
5,2018-02-07 10:33:24.990,2011-12-12 10:43:52.940,48,6
6,2018-03-02 23:09:58.750,2016-07-11 00:57:58.340,54,1
7,2018-01-17 13:41:38.460,2012-03-30 18:55:23.270,49,5
8,2018-04-27 06:19:58.570,2017-02-10 11:21:26.650,65,1
9,2018-03-26 22:12:08.530,2015-11-25 18:18:23.480,63,2


In [192]:
sales_products.head()

Unnamed: 0,SalesID,SalesPersonID,CustomerID,ProductID,Quantity,Discount,TotalPrice,SalesDate,TransactionNumber,Price,...,IsOutlier,Hour,DayType,Weekend,EmployeeID,BirthDate,HireDate,Gender,AgeAtHire,ExperienceAtSale
0,1,6,27039,381,7,0,0,2018-02-05 07:38:25.430,FQL4S94E4ME1EZFTG42G,44,...,0,7,0,False,6,1987-01-13,2013-06-22 13:20:18.080,M,26,4
1,2,16,25011,61,7,0,0,2018-02-02 16:03:31.150,12UGLX40DJ1A5DTFBHB8,63,...,0,16,4,False,16,1951-07-07,2017-02-10 11:21:26.650,M,65,0
2,3,13,94024,23,24,0,0,2018-05-03 19:31:56.880,5DT8RCPL87KI5EORO7B0,79,...,0,19,3,False,13,1963-04-18,2011-12-12 10:43:52.940,M,48,6
3,4,8,73966,176,19,0,0,2018-04-07 14:43:55.420,R3DR9MLD5NR76VO17ULE,81,...,0,14,5,True,8,1956-12-13,2014-10-14 23:12:53.420,M,57,3
4,5,10,32653,310,9,0,0,2018-02-12 15:37:03.940,4BGS0Z5OMAZ8NDAFHHP3,80,...,0,15,0,False,10,1963-12-30,2012-07-23 15:02:12.640,M,48,5


## 🔗 **PREGUNTA 6: AGREGAR FEATURES ADICIONALES**

### 🎯 **Objetivo:**
Agregar columnas adicionales con potencial relación con `TotalPriceCalculated`:
- **CategoryID** (posición 2) - Categoría del producto
- **CityID** (posición 14) - Ciudad del cliente  
- **CountryID** (posición 15) - País del cliente

### 📊 **Metodología:**
1. **Merge con products:** Obtener CategoryID
2. **Merge con customers:** Obtener CityID del cliente
3. **Merge con cities:** Obtener CountryID
4. **Reorganizar columnas:** Insertar nuevas features en posiciones específicas

### 🔍 **Justificación:**
- **CategoryID:** Diferentes categorías tienen rangos de precios distintos
- **CityID:** Ubicación geográfica afecta poder adquisitivo y precios
- **CountryID:** Diferentes países tienen diferentes niveles de precios

---


In [193]:
# 🔗 **AGREGAR FEATURES ADICIONALES AL DATASET**
print("🔄 Agregando features adicionales...")
print("=" * 60)

# 1. Merge con products para obtener CategoryID
print("📦 Agregando CategoryID desde tabla products...")
sales_products = sales_products.merge(
    products[['ProductID', 'CategoryID']], 
    on='ProductID', 
    how='left'
)

# 2. Merge con customers para obtener CityID del cliente
print("🏙️ Agregando CityID desde tabla customers...")
sales_products = sales_products.merge(
    customers[['CustomerID', 'CityID']], 
    on='CustomerID', 
    how='left'
)

# 3. Merge con cities para obtener CountryID
print("🌍 Agregando CountryID desde tabla cities...")
sales_products = sales_products.merge(
    cities[['CityID', 'CountryID']], 
    on='CityID', 
    how='left'
)

print("✅ Features adicionales agregadas exitosamente!")
print(f"📊 Nuevas columnas disponibles: CategoryID, CityID, CountryID")
print(f"📈 Dimensiones actuales: {sales_products.shape[0]:,} filas × {sales_products.shape[1]} columnas")


🔄 Agregando features adicionales...
📦 Agregando CategoryID desde tabla products...
🏙️ Agregando CityID desde tabla customers...
🌍 Agregando CountryID desde tabla cities...
✅ Features adicionales agregadas exitosamente!
📊 Nuevas columnas disponibles: CategoryID, CityID, CountryID
📈 Dimensiones actuales: 6,758,125 filas × 24 columnas


In [194]:
# 🎯 **CREAR DATASET DEFINITIVO CON NUEVAS FEATURES**
print("🚀 Creando dataset definitivo con features adicionales...")
print("=" * 60)

# Seleccionar columnas finales en el orden especificado
columns_finales = [
    # 1. Identificador de venta
    'SalesID',
    
    # 2. NUEVA: CategoryID (posición 2)
    'CategoryID',
    
    # 3-5. Features de transacción (recorridas una posición)
    'Quantity',
    'Price',
    'Discount',
    
    # 6. Variable objetivo
    'TotalPriceCalculated',
    
    # 7-10. Features calculadas (recorridas una posición)
    'IsOutlier',
    'Hour', 
    'DayType',
    'Weekend',
    
    # 11. Identificador de empleado (recorrido una posición)
    'SalesPersonID',
    
    # 12-13. Features de empleado (recorridas una posición)
    'AgeAtHire',
    'ExperienceAtSale',
    
    # 14. NUEVA: CityID (posición 14)
    'CityID',
    
    # 15. NUEVA: CountryID (posición 15)
    'CountryID'
]

# Crear dataset definitivo
dataset_final = sales_products[columns_finales].copy()

print("✅ Dataset definitivo actualizado exitosamente!")
print(f"📊 INFORMACIÓN DEL DATASET ACTUALIZADO:")
print(f"• Dimensiones: {dataset_final.shape[0]:,} filas × {dataset_final.shape[1]} columnas")
print(f"• Memoria utilizada: {dataset_final.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
print(f"• Columnas seleccionadas: {len(columns_finales)}")

print(f"\n📋 ESTRUCTURA DEL DATASET ACTUALIZADO:")
for i, col in enumerate(columns_finales, 1):
    print(f"  {i:2d}. {col}")

print(f"\n🔍 MUESTRA DE DATOS (Primeras 5 filas):")
dataset_final.head()


🚀 Creando dataset definitivo con features adicionales...
✅ Dataset definitivo actualizado exitosamente!
📊 INFORMACIÓN DEL DATASET ACTUALIZADO:
• Dimensiones: 6,758,125 filas × 15 columnas
• Memoria utilizada: 728.3 MB
• Columnas seleccionadas: 15

📋 ESTRUCTURA DEL DATASET ACTUALIZADO:
   1. SalesID
   2. CategoryID
   3. Quantity
   4. Price
   5. Discount
   6. TotalPriceCalculated
   7. IsOutlier
   8. Hour
   9. DayType
  10. Weekend
  11. SalesPersonID
  12. AgeAtHire
  13. ExperienceAtSale
  14. CityID
  15. CountryID

🔍 MUESTRA DE DATOS (Primeras 5 filas):


Unnamed: 0,SalesID,CategoryID,Quantity,Price,Discount,TotalPriceCalculated,IsOutlier,Hour,DayType,Weekend,SalesPersonID,AgeAtHire,ExperienceAtSale,CityID,CountryID
0,1,1,7,44,0,310,0,7,0,False,6,26,4,54,32
1,2,8,7,63,0,438,0,16,4,False,16,65,0,71,32
2,3,11,24,79,0,1896,0,19,3,False,13,48,6,2,32
3,4,6,19,81,0,1236,0,14,5,True,8,57,3,45,32
4,5,9,9,80,0,720,0,15,0,False,10,48,5,82,32


In [195]:
# 📊 **ANÁLISIS DE LAS NUEVAS FEATURES**
print("🔍 Analizando las nuevas features agregadas...")
print("=" * 60)

# Análisis de CategoryID
print("📦 ANÁLISIS DE CategoryID:")
print(f"• Total de categorías únicas: {dataset_final['CategoryID'].nunique()}")
print(f"• Rango de CategoryID: {dataset_final['CategoryID'].min()} - {dataset_final['CategoryID'].max()}")
print(f"• Distribución por categoría:")
category_dist = dataset_final['CategoryID'].value_counts().sort_index()
for cat_id, count in category_dist.head(5).items():
    print(f"  - Categoría {cat_id}: {count:,} ventas ({count/len(dataset_final)*100:.1f}%)")

print(f"\n🏙️ ANÁLISIS DE CityID:")
print(f"• Total de ciudades únicas: {dataset_final['CityID'].nunique()}")
print(f"• Rango de CityID: {dataset_final['CityID'].min()} - {dataset_final['CityID'].max()}")
print(f"• Top 5 ciudades con más ventas:")
city_dist = dataset_final['CityID'].value_counts().head(5)
for city_id, count in city_dist.items():
    print(f"  - Ciudad {city_id}: {count:,} ventas ({count/len(dataset_final)*100:.1f}%)")

print(f"\n🌍 ANÁLISIS DE CountryID:")
print(f"• Total de países únicos: {dataset_final['CountryID'].nunique()}")
print(f"• Rango de CountryID: {dataset_final['CountryID'].min()} - {dataset_final['CountryID'].max()}")
print(f"• Distribución por país:")
country_dist = dataset_final['CountryID'].value_counts().head(5)
for country_id, count in country_dist.items():
    print(f"  - País {country_id}: {count:,} ventas ({count/len(dataset_final)*100:.1f}%)")

print(f"\n✅ Análisis de nuevas features completado!")


🔍 Analizando las nuevas features agregadas...
📦 ANÁLISIS DE CategoryID:
• Total de categorías únicas: 11
• Rango de CategoryID: 1.0 - 11.0
• Distribución por categoría:
  - Categoría 1.0: 851,976 ventas (12.6%)
  - Categoría 2.0: 537,484 ventas (8.0%)
  - Categoría 3.0: 671,769 ventas (9.9%)
  - Categoría 4.0: 523,869 ventas (7.8%)
  - Categoría 5.0: 569,175 ventas (8.4%)

🏙️ ANÁLISIS DE CityID:
• Total de ciudades únicas: 96
• Rango de CityID: 1 - 96
• Top 5 ciudades con más ventas:
  - Ciudad 28: 75,674 ventas (1.1%)
  - Ciudad 34: 75,130 ventas (1.1%)
  - Ciudad 58: 74,902 ventas (1.1%)
  - Ciudad 81: 74,564 ventas (1.1%)
  - Ciudad 14: 74,533 ventas (1.1%)

🌍 ANÁLISIS DE CountryID:
• Total de países únicos: 1
• Rango de CountryID: 32 - 32
• Distribución por país:
  - País 32: 6,758,125 ventas (100.0%)

✅ Análisis de nuevas features completado!


## 📋 **RESUMEN DEL DATASET DEFINITIVO ACTUALIZADO**

### 🎯 **ESTRUCTURA FINAL (15 Columnas)**

| **Posición** | **Columna** | **Tipo** | **Descripción** | **Transformación Realizada** |
|--------------|-------------|----------|-----------------|------------------------------|
| **1** | **SalesID** | Identificador | ID único de venta | Ninguna |
| **2** | **CategoryID** | Categórica | Categoría del producto | Ninguna |
| **3** | **Quantity** | Numérica | Cantidad vendida | Ninguna |
| **4** | **Price** | Numérica | Precio unitario | Ninguna |
| **5** | **Discount** | Numérica | Descuento aplicado | Ninguna |
| **6** | **TotalPriceCalculated** | Numérica | Variable objetivo | **SIN TRANSFORMACIÓN** |
| **7** | **IsOutlier** | Binaria | Identificador de outliers | Ninguna |
| **8** | **Hour** | Categórica | Hora de venta (0-23) | Encoding cíclico |
| **9** | **DayType** | Categórica | Día de semana (0-6) | Ninguna |
| **10** | **Weekend** | Booleana | Fin de semana | Ninguna |
| **11** | **SalesPersonID** | Categórica | ID del empleado | Ninguna |
| **12** | **AgeAtHire** | Numérica | Edad al contratarse | StandardScaler |
| **13** | **ExperienceAtSale** | Numérica | Años de experiencia | StandardScaler |
| **14** | **CityID** | Categórica | Ciudad del cliente | Ninguna |
| **15** | **CountryID** | Categórica | País del cliente | Ninguna |

### 🔄 **TRANSFORMACIONES REQUERIDAS**

#### **OBLIGATORIAS:**
1. **CategoryID** → One-Hot Encoding
2. **Hour** → Encoding cíclico (sin/cos)
3. **DayType** → One-Hot Encoding  
4. **SalesPersonID** → One-Hot Encoding
5. **CityID** → One-Hot Encoding
6. **CountryID** → One-Hot Encoding

#### **OPCIONALES:**
1. **AgeAtHire** → StandardScaler
2. **ExperienceAtSale** → StandardScaler

### 📊 **BENEFICIOS DE LAS NUEVAS FEATURES**

- **CategoryID:** Captura patrones de precios por categoría de producto
- **CityID:** Incluye información geográfica del cliente
- **CountryID:** Añade contexto de país para análisis de precios regionales

### ✅ **DATASET LISTO PARA MACHINE LEARNING**

El dataset ahora incluye **15 features** que capturan:
- ✅ Información de transacción (Quantity, Price, Discount)
- ✅ Features temporales (Hour, DayType, Weekend)
- ✅ Información de empleado (SalesPersonID, AgeAtHire, ExperienceAtSale)
- ✅ Información de producto (CategoryID)
- ✅ Información geográfica (CityID, CountryID)
- ✅ Detección de anomalías (IsOutlier)

---


## 🔄 **TRANSFORMACIONES PARA MACHINE LEARNING**

### 🎯 **Objetivo:**
Aplicar las transformaciones necesarias a las variables categóricas y numéricas para preparar el dataset para modelado de ML.

### 📊 **Transformaciones a Implementar:**
1. **Hour** → Encoding cíclico (sin/cos)
2. **AgeAtHire** → StandardScaler
3. **ExperienceAtSale** → StandardScaler

### 🔍 **Justificación:**
- **Encoding cíclico para Hour:** Captura la naturaleza cíclica del tiempo (23:59 → 00:00)
- **StandardScaler:** Normaliza variables numéricas para algoritmos sensibles a escalas

---


In [196]:
# 🔄 **IMPLEMENTACIÓN DE TRANSFORMACIONES**
print("🚀 Aplicando transformaciones para Machine Learning...")
print("=" * 60)

# Importar librerías necesarias para transformaciones
from sklearn.preprocessing import StandardScaler
import numpy as np

# Crear una copia del dataset para las transformaciones
dataset_transformed = dataset_final.copy()

print("📊 Dataset original:")
print(f"• Dimensiones: {dataset_transformed.shape}")
print(f"• Columnas: {list(dataset_transformed.columns)}")

# 1. TRANSFORMACIÓN: Encoding cíclico para Hour
print(f"\n⏰ Aplicando encoding cíclico para 'Hour'...")

# Crear columnas sin y cos para capturar la ciclicidad
dataset_transformed['Hour_sin'] = np.sin(2 * np.pi * dataset_transformed['Hour'] / 24)
dataset_transformed['Hour_cos'] = np.cos(2 * np.pi * dataset_transformed['Hour'] / 24)

print(f"✅ Columnas creadas: Hour_sin, Hour_cos")
print(f"📈 Rango Hour_sin: {dataset_transformed['Hour_sin'].min():.3f} a {dataset_transformed['Hour_sin'].max():.3f}")
print(f"📈 Rango Hour_cos: {dataset_transformed['Hour_cos'].min():.3f} a {dataset_transformed['Hour_cos'].max():.3f}")

# 2. TRANSFORMACIÓN: StandardScaler para AgeAtHire
print(f"\n👤 Aplicando StandardScaler para 'AgeAtHire'...")

scaler_age = StandardScaler()
dataset_transformed['AgeAtHire_scaled'] = scaler_age.fit_transform(dataset_transformed[['AgeAtHire']])

print(f"✅ Columna creada: AgeAtHire_scaled")
print(f"📈 Media original: {dataset_transformed['AgeAtHire'].mean():.1f}")
print(f"📈 Media escalada: {dataset_transformed['AgeAtHire_scaled'].mean():.6f}")
print(f"📈 Desviación estándar escalada: {dataset_transformed['AgeAtHire_scaled'].std():.6f}")

# 3. TRANSFORMACIÓN: StandardScaler para ExperienceAtSale
print(f"\n💼 Aplicando StandardScaler para 'ExperienceAtSale'...")

scaler_exp = StandardScaler()
dataset_transformed['ExperienceAtSale_scaled'] = scaler_exp.fit_transform(dataset_transformed[['ExperienceAtSale']])

print(f"✅ Columna creada: ExperienceAtSale_scaled")
print(f"📈 Media original: {dataset_transformed['ExperienceAtSale'].mean():.1f}")
print(f"📈 Media escalada: {dataset_transformed['ExperienceAtSale_scaled'].mean():.6f}")
print(f"📈 Desviación estándar escalada: {dataset_transformed['ExperienceAtSale_scaled'].std():.6f}")

print(f"\n🎯 TRANSFORMACIONES COMPLETADAS!")
print(f"📊 Nuevas dimensiones: {dataset_transformed.shape}")
print(f"📋 Nuevas columnas agregadas: Hour_sin, Hour_cos, AgeAtHire_scaled, ExperienceAtSale_scaled")


🚀 Aplicando transformaciones para Machine Learning...
📊 Dataset original:
• Dimensiones: (6758125, 15)
• Columnas: ['SalesID', 'CategoryID', 'Quantity', 'Price', 'Discount', 'TotalPriceCalculated', 'IsOutlier', 'Hour', 'DayType', 'Weekend', 'SalesPersonID', 'AgeAtHire', 'ExperienceAtSale', 'CityID', 'CountryID']

⏰ Aplicando encoding cíclico para 'Hour'...
✅ Columnas creadas: Hour_sin, Hour_cos
📈 Rango Hour_sin: -1.000 a 1.000
📈 Rango Hour_cos: -1.000 a 1.000

👤 Aplicando StandardScaler para 'AgeAtHire'...
✅ Columna creada: AgeAtHire_scaled
📈 Media original: 45.2
📈 Media escalada: -0.000000
📈 Desviación estándar escalada: 1.000000

💼 Aplicando StandardScaler para 'ExperienceAtSale'...
✅ Columna creada: ExperienceAtSale_scaled
📈 Media original: 4.0
📈 Media escalada: 0.000000
📈 Desviación estándar escalada: 1.000000

🎯 TRANSFORMACIONES COMPLETADAS!
📊 Nuevas dimensiones: (6758125, 19)
📋 Nuevas columnas agregadas: Hour_sin, Hour_cos, AgeAtHire_scaled, ExperienceAtSale_scaled


In [197]:
# 📊 **VERIFICACIÓN DE TRANSFORMACIONES**
print("🔍 Verificando las transformaciones aplicadas...")
print("=" * 60)

# Mostrar muestra de las transformaciones
print("📋 MUESTRA DE TRANSFORMACIONES (Primeras 5 filas):")
transformaciones_muestra = dataset_transformed[['Hour', 'Hour_sin', 'Hour_cos', 
                                               'AgeAtHire', 'AgeAtHire_scaled',
                                               'ExperienceAtSale', 'ExperienceAtSale_scaled']].head()

print(transformaciones_muestra)

# Verificar propiedades de las transformaciones
print(f"\n✅ VERIFICACIÓN DE PROPIEDADES:")

# Verificar que Hour_sin y Hour_cos mantienen la relación cíclica
print(f"🔍 Encoding cíclico de Hour:")
print(f"• Hora 0: sin={np.sin(0):.3f}, cos={np.cos(0):.3f}")
print(f"• Hora 6: sin={np.sin(np.pi/2):.3f}, cos={np.cos(np.pi/2):.3f}")
print(f"• Hora 12: sin={np.sin(np.pi):.3f}, cos={np.cos(np.pi):.3f}")
print(f"• Hora 18: sin={np.sin(3*np.pi/2):.3f}, cos={np.cos(3*np.pi/2):.3f}")

# Verificar StandardScaler
print(f"\n🔍 StandardScaler:")
print(f"• AgeAtHire_scaled - Media: {dataset_transformed['AgeAtHire_scaled'].mean():.6f} (debe ser ~0)")
print(f"• AgeAtHire_scaled - Std: {dataset_transformed['AgeAtHire_scaled'].std():.6f} (debe ser ~1)")
print(f"• ExperienceAtSale_scaled - Media: {dataset_transformed['ExperienceAtSale_scaled'].mean():.6f} (debe ser ~0)")
print(f"• ExperienceAtSale_scaled - Std: {dataset_transformed['ExperienceAtSale_scaled'].std():.6f} (debe ser ~1)")

print(f"\n🎯 VERIFICACIÓN COMPLETADA!")


🔍 Verificando las transformaciones aplicadas...
📋 MUESTRA DE TRANSFORMACIONES (Primeras 5 filas):
   Hour  Hour_sin  Hour_cos  AgeAtHire  AgeAtHire_scaled  ExperienceAtSale  \
0     7         1        -0         26                -2                 4   
1    16        -1        -1         65                 2                 0   
2    19        -1         0         48                 0                 6   
3    14        -0        -1         57                 1                 3   
4    15        -1        -1         48                 0                 5   

   ExperienceAtSale_scaled  
0                       -0  
1                       -2  
2                        1  
3                       -0  
4                        0  

✅ VERIFICACIÓN DE PROPIEDADES:
🔍 Encoding cíclico de Hour:
• Hora 0: sin=0.000, cos=1.000
• Hora 6: sin=1.000, cos=0.000
• Hora 12: sin=0.000, cos=-1.000
• Hora 18: sin=-1.000, cos=-0.000

🔍 StandardScaler:
• AgeAtHire_scaled - Media: -0.000000 (debe ser ~0)

## 🎯 **DATASET FINAL TRANSFORMADO**

### 📊 **RESUMEN DE TRANSFORMACIONES APLICADAS**

| **Variable Original** | **Transformación** | **Variables Resultantes** | **Justificación** |
|----------------------|-------------------|---------------------------|-------------------|
| **Hour** | Encoding cíclico | `Hour_sin`, `Hour_cos` | Captura la naturaleza cíclica del tiempo |
| **AgeAtHire** | StandardScaler | `AgeAtHire_scaled` | Normaliza para algoritmos sensibles a escalas |
| **ExperienceAtSale** | StandardScaler | `ExperienceAtSale_scaled` | Normaliza para algoritmos sensibles a escalas |

### 🔍 **PROPIEDADES DE LAS TRANSFORMACIONES**

#### **Encoding Cíclico (Hour):**
- **Fórmula:** `sin(2π × hour/24)` y `cos(2π × hour/24)`
- **Beneficio:** Las horas 23:59 y 00:00 están cerca en el espacio transformado
- **Rango:** [-1, 1] para ambas variables

#### **StandardScaler:**
- **Fórmula:** `(x - μ) / σ`
- **Resultado:** Media = 0, Desviación estándar = 1
- **Beneficio:** Variables en la misma escala para algoritmos de ML

### 📋 **ESTADO FINAL DEL DATASET**

**Dimensiones:** 6,758,125 filas × 19 columnas

**Columnas disponibles:**
1. **Variables originales:** SalesID, CategoryID, Quantity, Price, Discount, TotalPriceCalculated, IsOutlier, Hour, DayType, Weekend, SalesPersonID, AgeAtHire, ExperienceAtSale, CityID, CountryID
2. **Variables transformadas:** Hour_sin, Hour_cos, AgeAtHire_scaled, ExperienceAtSale_scaled

### ✅ **DATASET LISTO PARA MACHINE LEARNING**

El dataset ahora incluye:
- ✅ **Variable objetivo:** TotalPriceCalculated (sin transformar)
- ✅ **Features numéricas:** Quantity, Price, Discount (listas para usar)
- ✅ **Features binarias:** IsOutlier, Weekend (listas para usar)
- ✅ **Features temporales cíclicas:** Hour_sin, Hour_cos
- ✅ **Features numéricas normalizadas:** AgeAtHire_scaled, ExperienceAtSale_scaled
- ✅ **Features categóricas:** CategoryID, DayType, SalesPersonID, CityID, CountryID (requieren One-Hot Encoding)

---
