# Pr√°ctica: Transformaci√≥n y Enriquecimiento de Datos

## 1. Carga de Datos (Simulaci√≥n E-commerce)
Trabajaremos con un DataFrame que simula un reporte de ventas diarias. Contiene precios, costos, categor√≠as y c√≥digos abreviados que necesitan ser traducidos.

In [None]:
import pandas as pd
import numpy as np

# Datos simulados de ventas
data = {
    'producto': ['Laptop Gamer', 'Mouse Inal√°mbrico', 'Monitor 4K', 'Teclado Mec√°nico', 'USB 32GB', 'Silla Ergon√≥mica'],
    'precio_venta': [1200.00, 25.50, 300.00, 85.00, 10.00, 250.00],
    'costo_unitario': [800.00, 10.00, 180.00, 40.00, 2.00, 150.00],
    'categoria': ['Electronics', 'Accessories', 'Electronics', 'Accessories', 'Storage', 'Furniture'],
    'codigo_pago': ['CC', 'PP', 'CC', 'DB', 'CS', 'PP'], # CC: Credit Card, PP: PayPal, etc.
    'cliente_vip': [True, False, True, False, False, True]
}

df = pd.DataFrame(data)

print("--- Dataset de Ventas Inicial ---")
display(df)

## 2. Creaci√≥n de Nuevas Columnas (Operaciones Vectorizadas)
Pandas nos permite operar columnas enteras como si fueran n√∫meros simples.
**Ejemplo:** Vamos a calcular la **Ganancia (Profit)** y el **Margen de ganancia** por producto.

In [None]:
# 1. Crear columna de Ganancia Neta (Precio - Costo)
df['ganancia_neta'] = df['precio_venta'] - df['costo_unitario']

# 2. Crear columna de Margen (%)
# F√≥rmula: (Ganancia / Precio Venta) * 100
df['margen_porcentaje'] = (df['ganancia_neta'] / df['precio_venta']) * 100

# Redondeamos a 2 decimales para que se vea limpio
df['margen_porcentaje'] = df['margen_porcentaje'].round(2)

print("--- Datos con nuevas m√©tricas financieras ---")
display(df[['producto', 'precio_venta', 'ganancia_neta', 'margen_porcentaje']])

## 3. Transformaciones complejas con `apply()` y `lambda`
A veces la l√≥gica no es una simple suma o resta. Usamos `apply` con una funci√≥n `lambda` cuando queremos aplicar una condici√≥n "fila por fila".

**Caso de uso:**
1. Aplicar un **Impuesto (IVA)**: 16% para Electr√≥nicos, 0% para el resto.
2. Etiquetar el producto como "High End" si cuesta m√°s de $100.

In [None]:
# EJEMPLO 1: L√≥gica condicional compleja
# Si la categor√≠a es 'Electronics', el impuesto es 16%, si no, es 0.
df['impuesto_calculado'] = df.apply(
    lambda row: row['precio_venta'] * 0.16 if row['categoria'] == 'Electronics' else 0,
    axis=1
)

# EJEMPLO 2: Etiquetado de texto basado en n√∫meros
# "Premium" si precio > 100, sino "Econ√≥mico"
df['tipo_producto'] = df['precio_venta'].apply(lambda x: "Premium" if x > 100 else "Econ√≥mico")

print("--- Resultado de la l√≥gica condicional ---")
display(df[['producto', 'categoria', 'precio_venta', 'impuesto_calculado', 'tipo_producto']])

## 4. Reemplazo de Valores (`map` vs `replace`)
Ideal para limpiar datos categ√≥ricos o traducir c√≥digos.
* **`map()`**: Usa un diccionario para transformar **toda** una columna. Lo que no est√© en el diccionario se convierte en `NaN`.
* **`replace()`**: Busca y reemplaza valores espec√≠ficos, respetando los que no encuentre.

In [None]:
# Diccionario de traducci√≥n de c√≥digos de pago
diccionario_pagos = {
    'CC': 'Tarjeta de Cr√©dito',
    'PP': 'PayPal',
    'DB': 'Tarjeta de D√©bito',
    'CS': 'Efectivo'
}

# Usamos MAP para traducir la columna completa
df['metodo_pago_completo'] = df['codigo_pago'].map(diccionario_pagos)

# Usamos REPLACE para cambiar un valor espec√≠fico en la columna 'categoria'
# Cambiamos 'Storage' por 'Almacenamiento'
df['categoria'] = df['categoria'].replace('Storage', 'Almacenamiento')

print("--- Datos traducidos y estandarizados ---")
display(df[['producto', 'codigo_pago', 'metodo_pago_completo', 'categoria']])

## üìå Validaci√≥n de Transformaciones
Verificamos que los c√°lculos y transformaciones tengan sentido l√≥gico.

In [None]:
# 1. Validar que la ganancia no sea negativa (en este caso hipot√©tico)
assert (df['ganancia_neta'] >= 0).all(), "Error: Hay ganancias negativas."

# 2. Validar que el mapeo funcion√≥ (no deben quedar nulos en metodo_pago_completo)
assert df['metodo_pago_completo'].isnull().sum() == 0, "Error: Fall√≥ el mapeo de pagos."

# 3. Validar l√≥gica de apply (Si es Premium, precio debe ser > 100)
check_premium = df[df['tipo_producto'] == 'Premium']
assert (check_premium['precio_venta'] > 100).all(), "Error: La etiqueta Premium est√° mal asignada."

print("‚úÖ Todas las transformaciones pasaron las pruebas l√≥gicas.")
display(df.head())