# Feature Engineering con un Dataset de Ventas

En este ejercicio, aplicaremos técnicas de feature engineering a un dataset de ventas.
Se creará una columna logarítmica de ventas, se generarán interacciones entre ventas y precio unitario,
y se aplicará One-Hot Encoding a la variable categórica 'región'.

Tareas:
1. Crear una columna logarítmica de ventas.
2. Generar una nueva característica que sea la interacción entre ventas y precio unitario.
3. Aplicar One-Hot Encoding a la columna 'region'.
4. Mostrar el DataFrame final con las transformaciones.

In [1]:
# Paso 1: Importar las librerías necesarias
# -------------------------------------------
import pandas as pd
import numpy as np

# Paso 2: Crear el DataFrame con el dataset
# -------------------------------------------
# Dataset de ventas con columnas de ventas, precio unitario y región.
data = {
    'ventas': [100, 200, 300, 400],
    'precio_unitario': [10, 20, 15, 25],
    'region': ['Norte', 'Sur', 'Norte', 'Este']
}

df = pd.DataFrame(data)

In [2]:
# Paso 3: Crear una columna logarítmica de ventas
# -------------------------------------------
# Transformación logarítmica de la columna 'ventas'.
df['log_ventas'] = np.log(df['ventas'])

In [3]:
# Paso 4: Generar una interacción entre ventas y precio unitario
# -------------------------------------------
# La nueva columna 'ventas_x_precio' es el producto de 'ventas' y 'precio_unitario'.
df['ventas_x_precio'] = df['ventas'] * df['precio_unitario']

In [4]:
# Paso 5: Aplicar One-Hot Encoding a la columna 'region'
# -------------------------------------------
# Convertimos la columna 'region' en variables dummy (0 o 1) para cada categoría.
df = pd.get_dummies(df, columns=['region'], prefix='region')
print(df)

   ventas  precio_unitario  log_ventas  ventas_x_precio  region_Este  \
0     100               10    4.605170             1000        False   
1     200               20    5.298317             4000        False   
2     300               15    5.703782             4500        False   
3     400               25    5.991465            10000         True   

   region_Norte  region_Sur  
0          True       False  
1         False        True  
2          True       False  
3         False       False  
