In [None]:
# ============================================================================
# M 8: AUTOMATIZACI√ìN DE PROCESOS DE DATOS
# S1: Conceptos B√°sicos de ETL y Automatizaci√≥n
# ============================================================================

def crear_banner(titulo, emoji="üöÄ", ancho=80):
    """Crear banners visuales atractivos"""
    linea = "=" * ancho
    print(f"\n{linea}")
    print(f"{emoji} {titulo.center(ancho-4)} {emoji}")
    print(f"{linea}\n")

def mostrar_concepto(concepto, definicion, ejemplo=""):
    """Mostrar conceptos de forma clara"""
    print(f" **{concepto}**")
    print(f"   {definicion}")
    if ejemplo:
        print(f"    Ejemplo: {ejemplo}")
    print()

# ============================================================================
# PARTE 1: ¬øQU√â ES ETL? - CONCEPTOS FUNDAMENTALES
# ============================================================================

crear_banner("¬øQU√â ES ETL? - CONCEPTOS B√ÅSICOS", "üìö")

print(" **ETL** son las siglas de:")
print("    **E**xtract (Extraer)")
print("    **T**ransform (Transformar)")
print("    **L**oad (Cargar)")
print()

mostrar_concepto(
    "EXTRACT (Extraer)",
    "Obtener datos de diferentes fuentes (archivos, bases de datos, APIs)",
    "Leer un archivo CSV, conectarse a una base de datos, descargar datos de internet"
)

mostrar_concepto(
    "TRANSFORM (Transformar)",
    "Limpiar, procesar y modificar los datos para que sean √∫tiles",
    "Eliminar duplicados, cambiar formatos de fecha, calcular nuevas columnas"
)

mostrar_concepto(
    "LOAD (Cargar)",
    "Guardar los datos procesados en su destino final",
    "Guardar en una base de datos, exportar a Excel, subir a la nube"
)

print(" **¬øPor qu√© es importante ETL?**")
print("    Automatiza tareas repetitivas")
print("    Reduce errores humanos")
print("    Ahorra tiempo y recursos")
print("    Mantiene los datos actualizados")
print("    Permite an√°lisis m√°s eficientes")

# ============================================================================
# PARTE 2: EJEMPLO PR√ÅCTICO SIMPLE - MI PRIMER ETL
# ============================================================================

crear_banner("MI PRIMER ETL - EJEMPLO PR√ÅCTICO", "üîß")

print(" **Para estudiantes que saben poco:**")
print("Vamos a crear un ETL s√∫per simple paso a paso")
print()

# PASO 1: EXTRACT - Crear datos de ejemplo
print(" **PASO 1: EXTRACT (Extraer datos)**")
print("Vamos a simular que tenemos datos de ventas desordenados:")

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

# Crear datos de ejemplo "sucios"
np.random.seed(42)
datos_sucios = pd.DataFrame({
    'fecha': ['2024-01-15', '2024/01/16', '15-01-2024', '2024.01.17', '2024-01-18'],
    'producto': ['  laptop  ', 'MOUSE', 'teclado', 'Monitor ', 'LAPTOP'],
    'precio': [1200.50, 25.99, 45.0, 299.99, 1150.00],
    'cantidad': [1, 2, 1, 1, 1],
    'vendedor': ['Ana Garc√≠a', 'ana garcia', 'Luis Mart√≠n', 'LUIS MARTIN', 'Mar√≠a L√≥pez'],
    'region': ['Norte', 'norte', 'Sur', 'SUR', 'Este']
})

print(" Datos originales (¬°est√°n muy desordenados!):")
print(datos_sucios)
print()
print(" **Problemas que vemos:**")
print("   ‚Ä¢ Fechas en diferentes formatos")
print("   ‚Ä¢ Nombres de productos con espacios y may√∫sculas inconsistentes")
print("   ‚Ä¢ Nombres de vendedores duplicados pero escritos diferente")
print("   ‚Ä¢ Regiones en may√∫sculas y min√∫sculas mezcladas")

# PASO 2: TRANSFORM - Limpiar los datos
print("\n **PASO 2: TRANSFORM (Transformar/Limpiar datos)**")
print("Ahora vamos a limpiar estos datos:")

# Crear una copia para transformar
datos_limpios = datos_sucios.copy()

# 1. Limpiar fechas
print("   1 Limpiando fechas...")
datos_limpios['fecha'] = pd.to_datetime(datos_limpios['fecha'], errors='coerce')

# 2. Limpiar nombres de productos
print("   2 Limpiando nombres de productos...")
datos_limpios['producto'] = datos_limpios['producto'].str.strip().str.title()

# 3. Limpiar nombres de vendedores
print("   3 Limpiando nombres de vendedores...")
datos_limpios['vendedor'] = datos_limpios['vendedor'].str.title()

# 4. Limpiar regiones
print("   4 Limpiando regiones...")
datos_limpios['region'] = datos_limpios['region'].str.title()

# 5. Calcular total de venta
print("   5 Calculando total de venta...")
datos_limpios['total_venta'] = datos_limpios['precio'] * datos_limpios['cantidad']

print("\n **Datos despu√©s de la transformaci√≥n:**")
print(datos_limpios)

# PASO 3: LOAD - Guardar los datos
print("\n **PASO 3: LOAD (Cargar/Guardar datos)**")
print("Finalmente, guardamos los datos limpios:")

# Guardar en diferentes formatos
datos_limpios.to_csv('ventas_limpias.csv', index=False)
datos_limpios.to_excel('ventas_limpias.xlsx', index=False)

print(" Datos guardados en:")
print("    ventas_limpias.csv")
print("    ventas_limpias.xlsx")

print("\n **¬°Felicidades! Has creado tu primer proceso ETL**")

# ============================================================================
# PARTE 3: ETL M√ÅS AVANZADO - PARA ESTUDIANTES CON M√ÅS EXPERIENCIA
# ============================================================================

crear_banner("ETL AVANZADO - M√öLTIPLES FUENTES", "‚ö°")

print(" **Para estudiantes con m√°s experiencia:**")
print("Vamos a crear un ETL que combine m√∫ltiples fuentes de datos")
print()

# Simular m√∫ltiples fuentes de datos
print(" **EXTRACT: M√∫ltiples fuentes de datos**")

# Fuente 1: Datos de productos
productos = pd.DataFrame({
    'id_producto': [1, 2, 3, 4, 5],
    'nombre': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Tablet'],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras', 'Computadoras'],
    'precio_base': [1200, 25, 45, 300, 800]
})

# Fuente 2: Datos de ventas
ventas = pd.DataFrame({
    'id_venta': range(1, 21),
    'id_producto': np.random.choice([1, 2, 3, 4, 5], 20),
    'fecha': pd.date_range('2024-01-01', periods=20, freq='D'),
    'cantidad': np.random.randint(1, 5, 20),
    'descuento': np.random.choice([0, 0.05, 0.10, 0.15], 20),
    'id_vendedor': np.random.choice([101, 102, 103], 20)
})

# Fuente 3: Datos de vendedores
vendedores = pd.DataFrame({
    'id_vendedor': [101, 102, 103],
    'nombre': ['Ana Garc√≠a', 'Luis Mart√≠n', 'Mar√≠a L√≥pez'],
    'region': ['Norte', 'Sur', 'Este'],
    'comision': [0.05, 0.07, 0.06]
})

print(" **Fuente 1 - Productos:**")
print(productos.head())
print("\n **Fuente 2 - Ventas:**")
print(ventas.head())
print("\n **Fuente 3 - Vendedores:**")
print(vendedores.head())

# TRANSFORM: Combinar y procesar
print("\n **TRANSFORM: Combinando y procesando datos**")

# 1. Unir todas las tablas
datos_completos = ventas.merge(productos, on='id_producto', how='left')
datos_completos = datos_completos.merge(vendedores, on='id_vendedor', how='left')

# 2. Calcular m√©tricas
datos_completos['precio_con_descuento'] = datos_completos['precio_base'] * (1 - datos_completos['descuento'])
datos_completos['total_venta'] = datos_completos['precio_con_descuento'] * datos_completos['cantidad']
datos_completos['comision_vendedor'] = datos_completos['total_venta'] * datos_completos['comision']

# 3. Agregar informaci√≥n adicional
datos_completos['mes'] = datos_completos['fecha'].dt.month
datos_completos['dia_semana'] = datos_completos['fecha'].dt.day_name()

print(" **Datos combinados y procesados:**")
print(datos_completos[['fecha', 'nombre_x', 'categoria', 'cantidad', 'total_venta', 'nombre_y', 'region']].head())

# LOAD: Guardar con diferentes formatos
print("\n **LOAD: Guardando en m√∫ltiples formatos**")

# Resumen por vendedor
resumen_vendedor = datos_completos.groupby(['nombre_y', 'region']).agg({
    'total_venta': 'sum',
    'comision_vendedor': 'sum',
    'id_venta': 'count'
}).rename(columns={'id_venta': 'num_ventas'}).reset_index()

# Resumen por producto
resumen_producto = datos_completos.groupby(['nombre_x', 'categoria']).agg({
    'total_venta': 'sum',
    'cantidad': 'sum'
}).reset_index()

# Guardar m√∫ltiples hojas en Excel
with pd.ExcelWriter('reporte_ventas_completo.xlsx') as writer:
    datos_completos.to_excel(writer, sheet_name='Datos_Completos', index=False)
    resumen_vendedor.to_excel(writer, sheet_name='Resumen_Vendedores', index=False)
    resumen_producto.to_excel(writer, sheet_name='Resumen_Productos', index=False)

print(" **Archivos generados:**")
print("    reporte_ventas_completo.xlsx (3 hojas)")
print("    Datos completos, resumen por vendedor y por producto")

print("\n **M√©tricas calculadas:**")
print(f"    Total de ventas: ${datos_completos['total_venta'].sum():,.2f}")
print(f"    Mejor vendedor: {resumen_vendedor.loc[resumen_vendedor['total_venta'].idxmax(), 'nombre_y']}")
print(f"    Producto m√°s vendido: {resumen_producto.loc[resumen_producto['cantidad'].idxmax(), 'nombre_x']}")