# Introducci√≥n a Python para Miner√≠a de Datos

Este notebook cubre los fundamentos de Python necesarios para el curso de Miner√≠a de Datos. Est√° dise√±ado como una referencia completa que podr√°s consultar durante todo el semestre.

## Contenido

1. **Fundamentos de Python**: Tipos de datos, estructuras, control de flujo y funciones
2. **NumPy**: Computaci√≥n num√©rica eficiente con arrays
3. **Pandas**: Manipulaci√≥n y an√°lisis de datos estructurados
4. **Visualizaci√≥n**: Creaci√≥n de gr√°ficos con Matplotlib y Seaborn
5. **Caso Integrador**: An√°lisis de datos reales con Online Retail Dataset

**Nota importante**: Este notebook cubre **exclusivamente** herramientas de manipulaci√≥n y visualizaci√≥n de datos. Los algoritmos de Machine Learning se cubrir√°n en notebooks posteriores del curso.

---


## 0. Configuraci√≥n del Entorno

Primero importamos todas las librer√≠as que usaremos en este notebook:


In [None]:
# Librer√≠as para manipulaci√≥n de datos
import numpy as np
import pandas as pd

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Para reproducibilidad
np.random.seed(42)

print("‚úì Librer√≠as importadas correctamente")
print(f"  - NumPy versi√≥n: {np.__version__}")
print(f"  - Pandas versi√≥n: {pd.__version__}")


In [None]:
# Configuraci√≥n de visualizaci√≥n
sns.set_style('whitegrid')  # Estilo de los gr√°ficos
plt.rcParams['figure.figsize'] = (10, 6)  # Tama√±o por defecto de las figuras
plt.rcParams['font.size'] = 10  # Tama√±o de fuente
%matplotlib inline

print("‚úì Configuraci√≥n visual establecida")


---
# 1. Fundamentos de Python

**Objetivos de aprendizaje:**
- Comprender los tipos de datos b√°sicos en Python
- Dominar las estructuras de datos fundamentales (listas, diccionarios, tuplas)
- Utilizar estructuras de control de flujo
- Definir funciones con type hints

**Conceptos clave**: tipos de datos, listas, diccionarios, iteraci√≥n, funciones


## 1.1 Tipos de Datos B√°sicos

Python tiene varios tipos de datos b√°sicos que usaremos constantemente:


In [None]:
# Enteros (int)
numero_clientes = 1500
print(f"N√∫mero de clientes: {numero_clientes} (tipo: {type(numero_clientes).__name__})")

# Flotantes (float)
precio_producto = 299.99
print(f"Precio del producto: ${precio_producto:.2f} (tipo: {type(precio_producto).__name__})")

# Cadenas de texto (str)
nombre_producto = "Laptop HP"
print(f"Producto: {nombre_producto} (tipo: {type(nombre_producto).__name__})")

# Booleanos (bool)
producto_disponible = True
print(f"¬øDisponible?: {producto_disponible} (tipo: {type(producto_disponible).__name__})")

# Operaciones aritm√©ticas b√°sicas
ingreso_total = numero_clientes * precio_producto
print(f"\nIngreso total estimado: ${ingreso_total:,.2f}")


In [None]:
# Operaciones con strings
nombre = "Juan"
apellido = "P√©rez"

# Concatenaci√≥n
nombre_completo = nombre + " " + apellido
print(f"Nombre completo: {nombre_completo}")

# Formateo con f-strings
mensaje = f"Bienvenido {nombre_completo}"
print(mensaje)

# M√©todos √∫tiles de strings
print(f"\nMay√∫sculas: {nombre_completo.upper()}")
print(f"Min√∫sculas: {nombre_completo.lower()}")
print(f"Longitud: {len(nombre_completo)} caracteres")


## 1.2 Estructuras de Datos

Las estructuras de datos nos permiten organizar y almacenar informaci√≥n de manera eficiente.


In [None]:
# LISTAS: Colecciones ordenadas y mutables
regiones = ['Norte', 'Sur', 'Este', 'Oeste', 'Centro']
print(f"Regiones: {regiones}")
print(f"N√∫mero de regiones: {len(regiones)}")

# Indexaci√≥n (empieza en 0)
print(f"\nPrimera regi√≥n: {regiones[0]}")
print(f"√öltima regi√≥n: {regiones[-1]}")

# Slicing (rebanado)
print(f"Primeras 3 regiones: {regiones[:3]}")
print(f"√öltimas 2 regiones: {regiones[-2:]}")

# M√©todos √∫tiles
regiones.append('Sureste')  # Agregar al final
print(f"\nDespu√©s de agregar: {regiones}")

regiones.remove('Sureste')  # Eliminar elemento
print(f"Despu√©s de eliminar: {regiones}")


In [None]:
# DICCIONARIOS: Colecciones de pares clave-valor
producto = {
    'nombre': 'Laptop',
    'precio': 15000.00,
    'stock': 45,
    'categoria': 'Electr√≥nica',
    'disponible': True
}

# Acceso a valores
print(f"Producto: {producto['nombre']}")
print(f"Precio: ${producto['precio']:,.2f}")
print(f"Stock disponible: {producto['stock']} unidades")

# M√©todos √∫tiles
print(f"\nClaves: {list(producto.keys())}")
print(f"Valores: {list(producto.values())}")

# Agregar nueva clave
producto['marca'] = 'HP'
print(f"\nProducto actualizado: {producto}")


In [None]:
# TUPLAS: Colecciones ordenadas e inmutables
coordenadas = (19.4326, -99.1332)  # Latitud, Longitud de CDMX
print(f"Coordenadas CDMX: {coordenadas}")
print(f"Latitud: {coordenadas[0]}, Longitud: {coordenadas[1]}")

# Las tuplas son √∫tiles para retornar m√∫ltiples valores de una funci√≥n
def obtener_estadisticas(numeros: list) -> tuple:
    """Retorna el m√≠nimo, m√°ximo y promedio de una lista de n√∫meros."""
    return min(numeros), max(numeros), sum(numeros) / len(numeros)

ventas = [1200, 1500, 980, 2100, 1750]
minimo, maximo, promedio = obtener_estadisticas(ventas)
print(f"\nVentas - M√≠nimo: ${minimo:,.0f}, M√°ximo: ${maximo:,.0f}, Promedio: ${promedio:,.0f}")


## 1.3 Control de Flujo

Las estructuras de control nos permiten tomar decisiones y repetir operaciones.


In [None]:
# Condicionales: if / elif / else
precio = 850.00

if precio > 1000:
    categoria_precio = "Alto"
    descuento = 0.15
elif precio > 500:
    categoria_precio = "Medio"
    descuento = 0.10
else:
    categoria_precio = "Bajo"
    descuento = 0.05

precio_final = precio * (1 - descuento)
print(f"Precio: ${precio:.2f}")
print(f"Categor√≠a: {categoria_precio}")
print(f"Descuento: {descuento * 100:.0f}%")
print(f"Precio final: ${precio_final:.2f}")

# Operadores l√≥gicos
stock_disponible = 10
pedido_urgente = True

if stock_disponible > 0 and pedido_urgente:
    print("\n‚úì Procesar pedido urgente")
elif stock_disponible == 0:
    print("\n‚úó Sin stock disponible")


In [None]:
# Bucles FOR con range()
print("Pron√≥stico de ventas para los pr√≥ximos 5 meses:")
venta_base = 10000

for mes in range(1, 6):
    crecimiento = 1.05 ** mes  # Crecimiento del 5% mensual compuesto
    venta_proyectada = venta_base * crecimiento
    print(f"  Mes {mes}: ${venta_proyectada:,.2f}")

# Bucles FOR con enumerate() - muy √∫til cuando necesitas el √≠ndice
print("\nProductos m√°s vendidos:")
productos_top = ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Aud√≠fonos']

for posicion, producto in enumerate(productos_top, start=1):
    print(f"  {posicion}. {producto}")


In [None]:
# List comprehensions (estilo pyth√≥nico)
precios = [100, 250, 380, 520, 890]

# M√©todo tradicional
precios_con_iva_tradicional = []
for precio in precios:
    precios_con_iva_tradicional.append(precio * 1.16)

# List comprehension (m√°s pyth√≥nico y eficiente)
precios_con_iva = [precio * 1.16 for precio in precios]
print(f"Precios con IVA: {[f'${p:.2f}' for p in precios_con_iva]}")

# Con filtrado
precios_premium = [precio for precio in precios if precio > 300]
print(f"\nProductos premium (precio > $300): {precios_premium}")


## 1.4 Funciones con Type Hints

Las funciones nos permiten encapsular l√≥gica reutilizable. Los type hints hacen el c√≥digo m√°s legible y mantenible.


In [None]:
def calcular_descuento(precio: float, porcentaje_descuento: float) -> float:
    """
    Calcula el precio final despu√©s de aplicar un descuento.
    
    Args:
        precio: Precio original del producto
        porcentaje_descuento: Descuento a aplicar (entre 0 y 1)
        
    Returns:
        Precio final despu√©s del descuento
        
    Ejemplo:
        >>> calcular_descuento(1000, 0.15)
        850.0
    """
    precio_final = precio * (1 - porcentaje_descuento)
    return precio_final


# Uso de la funci√≥n
precio_original = 1500.00
descuento = 0.20
precio_con_descuento = calcular_descuento(precio_original, descuento)

print(f"Precio original: ${precio_original:,.2f}")
print(f"Descuento: {descuento * 100:.0f}%")
print(f"Precio final: ${precio_con_descuento:,.2f}")


In [None]:
def categorizar_cliente(valor_compras: float, num_transacciones: int) -> str:
    """
    Categoriza un cliente basado en su valor de compras y frecuencia.
    
    Args:
        valor_compras: Valor total de compras del cliente
        num_transacciones: N√∫mero de transacciones realizadas
        
    Returns:
        Categor√≠a del cliente: 'Premium', 'Regular' o 'B√°sico'
    """
    if valor_compras > 10000 and num_transacciones > 10:
        return 'Premium'
    elif valor_compras > 5000 or num_transacciones > 5:
        return 'Regular'
    else:
        return 'B√°sico'


# Ejemplos de categorizaci√≥n
clientes = [
    ('Cliente A', 15000, 15),
    ('Cliente B', 6000, 8),
    ('Cliente C', 2000, 3)
]

print("Categorizaci√≥n de clientes:")
for nombre, valor, transacciones in clientes:
    categoria = categorizar_cliente(valor, transacciones)
    ticket_promedio = valor / transacciones
    print(f"  {nombre}: {categoria} (${valor:,.0f} en {transacciones} compras, ticket: ${ticket_promedio:,.0f})")


---
# 2. NumPy - Computaci√≥n Num√©rica

**Objetivos de aprendizaje:**
- Comprender las ventajas de NumPy sobre las listas de Python
- Crear y manipular arrays multidimensionales
- Realizar operaciones vectorizadas eficientes
- Generar datos sint√©ticos para an√°lisis

**Conceptos clave**: arrays, vectorizaci√≥n, broadcasting, indexaci√≥n, agregaciones


## 2.1 Introducci√≥n a Arrays

### ¬øPor qu√© NumPy?

NumPy (Numerical Python) es la librer√≠a fundamental para computaci√≥n cient√≠fica en Python. Sus principales ventajas:

1. **Velocidad**: Los arrays de NumPy son 10-100x m√°s r√°pidos que las listas de Python
2. **Memoria**: Usan menos memoria que las listas equivalentes
3. **Operaciones vectorizadas**: Permiten operaciones matem√°ticas sobre arrays completos sin bucles expl√≠citos
4. **Broadcasting**: Operaciones entre arrays de diferentes formas

üí° **Conexi√≥n con el curso**: NumPy es la base sobre la que se construye Pandas, y todas las operaciones num√©ricas en an√°lisis de datos lo utilizan.


In [None]:
# Creaci√≥n de arrays desde listas
ventas_semana = np.array([1200, 1500, 1100, 1800, 2100, 900, 1300])
print(f"Ventas de la semana: {ventas_semana}")
print(f"Tipo: {type(ventas_semana)}")

# Atributos importantes de un array
print(f"\nAtributos del array:")
print(f"  - Shape (forma): {ventas_semana.shape}")
print(f"  - Dtype (tipo de datos): {ventas_semana.dtype}")
print(f"  - Ndim (n√∫mero de dimensiones): {ventas_semana.ndim}")
print(f"  - Size (n√∫mero total de elementos): {ventas_semana.size}")


In [None]:
# Diferentes formas de crear arrays

# Array de ceros
inventario = np.zeros(5)
print(f"Inventario inicial (ceros): {inventario}")

# Array de unos
productos_activos = np.ones(5)
print(f"Productos activos (unos): {productos_activos}")

# Array con rango de valores
dias_mes = np.arange(1, 31)  # Del 1 al 30
print(f"\nD√≠as del mes: {dias_mes}")

# Array con valores espaciados uniformemente
percentiles = np.linspace(0, 100, 11)  # 11 puntos entre 0 y 100
print(f"\nPercentiles: {percentiles}")


In [None]:
# Arrays multidimensionales (matrices)
# Ventas por regi√≥n (filas) y producto (columnas)
ventas_matriz = np.array([
    [1200, 1500, 980],   # Norte
    [1100, 1300, 1050],  # Sur
    [1400, 1250, 1100],  # Este
    [1350, 1450, 1200]   # Oeste
])

print("Matriz de ventas por regi√≥n y producto:")
print(ventas_matriz)
print(f"\nShape: {ventas_matriz.shape} (4 regiones √ó 3 productos)")
print(f"N√∫mero de dimensiones: {ventas_matriz.ndim}")
print(f"Total de elementos: {ventas_matriz.size}")


## 2.2 Generaci√≥n de Datos Sint√©ticos

NumPy nos permite generar datos aleatorios que siguen diferentes distribuciones estad√≠sticas. Esto es √∫til para:
- Crear datos de prueba
- Simular escenarios de negocio
- Probar algoritmos antes de usar datos reales


In [None]:
# Establecer semilla para reproducibilidad
np.random.seed(42)

# N√∫meros aleatorios uniformes (todos los valores tienen la misma probabilidad)
precios_aleatorios = np.random.uniform(low=50, high=1500, size=10)
print("Precios aleatorios (distribuci√≥n uniforme entre $50 y $1500):")
print([f"${p:.2f}" for p in precios_aleatorios])

# N√∫meros enteros aleatorios
cantidades = np.random.randint(low=1, high=10, size=10)
print(f"\nCantidades vendidas (enteros entre 1 y 10): {cantidades}")

# N√∫meros aleatorios con distribuci√≥n normal (campana de Gauss)
# √ötil para simular medidas naturales: alturas, tiempos, errores, etc.
tiempos_entrega = np.random.normal(loc=3.0, scale=0.5, size=100)  # Media=3 d√≠as, desv.std=0.5
print(f"\nTiempos de entrega (distribuci√≥n normal):")
print(f"  Media: {tiempos_entrega.mean():.2f} d√≠as")
print(f"  Desviaci√≥n est√°ndar: {tiempos_entrega.std():.2f} d√≠as")
print(f"  Rango: {tiempos_entrega.min():.2f} - {tiempos_entrega.max():.2f} d√≠as")


In [None]:
# Muestreo de categor√≠as con np.random.choice()
regiones = np.array(['Norte', 'Sur', 'Este', 'Oeste', 'Centro'])
productos = np.array(['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Aud√≠fonos', 'Webcam'])

# Generar 20 ventas aleatorias
n_ventas = 20
regiones_ventas = np.random.choice(regiones, size=n_ventas)
productos_ventas = np.random.choice(productos, size=n_ventas)

print("Primeras 10 transacciones simuladas:")
for i in range(10):
    print(f"  Venta {i+1}: {productos_ventas[i]} en regi√≥n {regiones_ventas[i]}")

# Tambi√©n podemos especificar probabilidades
segmentos_cliente = np.random.choice(
    ['Premium', 'Regular', 'B√°sico'],
    size=100,
    p=[0.2, 0.5, 0.3]  # 20% Premium, 50% Regular, 30% B√°sico
)
print(f"\nDistribuci√≥n de segmentos (100 clientes):")
print(f"  Premium: {(segmentos_cliente == 'Premium').sum()}")
print(f"  Regular: {(segmentos_cliente == 'Regular').sum()}")
print(f"  B√°sico: {(segmentos_cliente == 'B√°sico').sum()}")


## 2.3 Operaciones con Arrays

Una de las mayores ventajas de NumPy es la **vectorizaci√≥n**: podemos aplicar operaciones a arrays completos sin escribir bucles expl√≠citos.


In [None]:
# Operaciones vectorizadas b√°sicas
precios = np.array([100, 250, 380, 520, 890])
print(f"Precios originales: {precios}")

# Aplicar IVA (16%) a todos los precios a la vez
precios_con_iva = precios * 1.16
print(f"Precios con IVA: {[f'${p:.2f}' for p in precios_con_iva]}")

# Aplicar descuento del 20%
precios_descuento = precios * 0.80
print(f"Precios con descuento: {[f'${p:.2f}' for p in precios_descuento]}")

# Operaciones entre arrays
cantidades = np.array([5, 3, 2, 4, 1])
ingresos = precios * cantidades
print(f"\nIngresos por producto: {[f'${i:,.0f}' for i in ingresos]}")
print(f"Ingreso total: ${ingresos.sum():,.2f}")


In [None]:
# Broadcasting: operaciones entre arrays de diferentes formas
# Ejemplo: calcular precio final para diferentes descuentos en m√∫ltiples productos

precios = np.array([[100], [250], [380]])  # 3 productos (columna)
descuentos = np.array([0.10, 0.15, 0.20, 0.25])  # 4 niveles de descuento (fila)

# NumPy autom√°ticamente expande ambos arrays para hacer la operaci√≥n
precios_finales = precios * (1 - descuentos)

print("Matriz de precios finales (productos √ó descuentos):")
print(precios_finales)
print(f"\nShape: {precios_finales.shape} (3 productos √ó 4 niveles de descuento)")

print("\nInterpretaci√≥n:")
productos_nombres = ['Producto A ($100)', 'Producto B ($250)', 'Producto C ($380)']
for i, nombre in enumerate(productos_nombres):
    print(f"{nombre}: {[f'${p:.0f}' for p in precios_finales[i]]}")


In [None]:
valores = np.array([4, 9, 16, 25, 36])
print(f"Valores: {valores}")

# Ra√≠z cuadrada
raices = np.sqrt(valores)
print(f"Ra√≠ces cuadradas: {raices}")

# Logaritmo natural
ventas = np.array([100, 1000, 10000, 100000])
log_ventas = np.log10(ventas)  # Logaritmo base 10
print(f"\nVentas: {ventas}")
print(f"Log10 de ventas: {log_ventas}")

# Exponencial (crecimiento compuesto)
tasas_crecimiento = np.array([0.05, 0.10, 0.15, 0.20])  # 5%, 10%, 15%, 20%
periodos = 12  # meses
multiplicadores = np.exp(tasas_crecimiento * periodos)
print(f"\nMultiplicadores de crecimiento despu√©s de {periodos} meses:")
for tasa, mult in zip(tasas_crecimiento, multiplicadores):
    print(f"  Tasa {tasa*100:.0f}%: {mult:.2f}x")


In [None]:
# Agregaciones: calcular estad√≠sticas sobre arrays
ventas_mes = np.random.randint(low=5000, high=15000, size=30)  # 30 d√≠as

print(f"Ventas del mes (30 d√≠as):")
print(f"  Total: ${ventas_mes.sum():,.2f}")
print(f"  Promedio diario: ${ventas_mes.mean():,.2f}")
print(f"  Mediana: ${np.median(ventas_mes):,.2f}")
print(f"  Desviaci√≥n est√°ndar: ${ventas_mes.std():,.2f}")
print(f"  M√≠nimo: ${ventas_mes.min():,.2f}")
print(f"  M√°ximo: ${ventas_mes.max():,.2f}")
print(f"  Rango (max - min): ${ventas_mes.max() - ventas_mes.min():,.2f}")

# Percentiles
percentiles = np.percentile(ventas_mes, [25, 50, 75, 90, 95])
print(f"\nPercentiles de ventas:")
for p, valor in zip([25, 50, 75, 90, 95], percentiles):
    print(f"  P{p}: ${valor:,.2f}")


## 2.4 Indexaci√≥n y Slicing

La indexaci√≥n nos permite acceder y modificar elementos espec√≠ficos de un array.


In [None]:
# Indexaci√≥n b√°sica 1D
ventas_semana = np.array([1200, 1500, 1100, 1800, 2100, 900, 1300])
dias = ['Lun', 'Mar', 'Mi√©', 'Jue', 'Vie', 'S√°b', 'Dom']

print("Ventas por d√≠a:")
for dia, venta in zip(dias, ventas_semana):
    print(f"  {dia}: ${venta:,.0f}")

print(f"\nVentas del lunes (√≠ndice 0): ${ventas_semana[0]:,}")
print(f"Ventas del domingo (√≠ndice -1): ${ventas_semana[-1]:,}")

# Slicing (rebanado)
ventas_lun_a_vie = ventas_semana[:5]  # Primeros 5 elementos
ventas_fin_semana = ventas_semana[-2:]  # √öltimos 2 elementos

print(f"\nVentas lun-vie: ${ventas_lun_a_vie.sum():,} (promedio: ${ventas_lun_a_vie.mean():,.0f})")
print(f"Ventas fin de semana: ${ventas_fin_semana.sum():,} (promedio: ${ventas_fin_semana.mean():,.0f})")


In [None]:
# Indexaci√≥n booleana (masking)
ventas_semana = np.array([1200, 1500, 1100, 1800, 2100, 900, 1300])

# Crear una m√°scara booleana
ventas_altas = ventas_semana > 1400
print(f"M√°scara de ventas > $1400: {ventas_altas}")

# Usar la m√°scara para filtrar
dias_buenos = ventas_semana[ventas_altas]
print(f"D√≠as con ventas > $1400: {dias_buenos} (${dias_buenos.sum():,} total)")

# Filtrado directo
ventas_bajas = ventas_semana[ventas_semana < 1200]
print(f"D√≠as con ventas < $1200: {ventas_bajas}")

# M√∫ltiples condiciones con & (and) y | (or)
ventas_medias = ventas_semana[(ventas_semana >= 1200) & (ventas_semana <= 1500)]
print(f"D√≠as con ventas entre $1200 y $1500: {ventas_medias}")


In [None]:
# Indexaci√≥n en arrays 2D (matrices)
# Ventas por regi√≥n (filas) y producto (columnas)
ventas_matriz = np.array([
    [1200, 1500, 980],   # Norte
    [1100, 1300, 1050],  # Sur
    [1400, 1250, 1100],  # Este
    [1350, 1450, 1200]   # Oeste
])

regiones_nombres = ['Norte', 'Sur', 'Este', 'Oeste']
productos_nombres = ['Producto A', 'Producto B', 'Producto C']

# Acceder a elemento espec√≠fico: fila 0, columna 1
print(f"Ventas de Producto B en Norte: ${ventas_matriz[0, 1]:,}")

# Acceder a fila completa (todas las ventas de una regi√≥n)
ventas_norte = ventas_matriz[0, :]  # o simplemente ventas_matriz[0]
print(f"\nVentas en Norte: {ventas_norte} (Total: ${ventas_norte.sum():,})")

# Acceder a columna completa (todas las ventas de un producto)
ventas_producto_a = ventas_matriz[:, 0]
print(f"Ventas de Producto A en todas las regiones: {ventas_producto_a}")

# Agregaciones por filas y columnas
print(f"\nTotal por regi√≥n:")
totales_region = ventas_matriz.sum(axis=1)  # Sumar a lo largo de las columnas
for region, total in zip(regiones_nombres, totales_region):
    print(f"  {region}: ${total:,}")

print(f"\nTotal por producto:")
totales_producto = ventas_matriz.sum(axis=0)  # Sumar a lo largo de las filas
for producto, total in zip(productos_nombres, totales_producto):
    print(f"  {producto}: ${total:,}")


## 2.5 Manipulaci√≥n de Dimensiones

A veces necesitamos cambiar la forma de nuestros arrays para realizar ciertas operaciones.


In [None]:
# Reshape: cambiar la forma del array sin modificar los datos
ventas_12_meses = np.arange(1, 13) * 1000  # [1000, 2000, ..., 12000]
print(f"Ventas originales (12 meses): {ventas_12_meses}")
print(f"Shape: {ventas_12_meses.shape}")

# Reorganizar como 4 trimestres √ó 3 meses
ventas_por_trimestre = ventas_12_meses.reshape(4, 3)
print(f"\nVentas por trimestre (4 √ó 3):")
print(ventas_por_trimestre)

# Calcular totales por trimestre
totales_trimestre = ventas_por_trimestre.sum(axis=1)
print(f"\nTotales por trimestre: {[f'${t:,}' for t in totales_trimestre]}")

# Volver a forma original
ventas_flat = ventas_por_trimestre.flatten()  # o .reshape(-1)
print(f"\nDe vuelta a forma 1D: {ventas_flat}") 


In [None]:
# Transpose (transponer): intercambiar filas y columnas
ventas_regiones_productos = np.array([
    [1200, 1500, 980],   # Norte
    [1100, 1300, 1050],  # Sur
    [1400, 1250, 1100]   # Este
])

print("Ventas originales (regiones √ó productos):")
print(ventas_regiones_productos)
print(f"Shape: {ventas_regiones_productos.shape}")

# Transponer
ventas_productos_regiones = ventas_regiones_productos.T
print("\nVentas transpuestas (productos √ó regiones):")
print(ventas_productos_regiones)
print(f"Shape: {ventas_productos_regiones.shape}")


In [None]:
# Concatenaci√≥n de arrays
ventas_q1 = np.array([10000, 12000, 11000])  # Ene, Feb, Mar
ventas_q2 = np.array([13000, 14000, 15000])  # Abr, May, Jun

# Concatenar horizontalmente
ventas_semestre = np.concatenate([ventas_q1, ventas_q2])
print(f"Ventas primer semestre: {ventas_semestre}")

# Apilar verticalmente (crear matriz)
ventas_comparacion = np.vstack([ventas_q1, ventas_q2])
print(f"\nComparaci√≥n por trimestre:")
print(ventas_comparacion)
print(f"Diferencia Q2-Q1: {ventas_comparacion[1] - ventas_comparacion[0]}")

# Apilar horizontalmente
norte = np.array([[1200], [1500], [1100]])
sur = np.array([[1100], [1300], [1050]])
ventas_combinadas = np.hstack([norte, sur])
print(f"\nVentas Norte y Sur por mes:")
print(ventas_combinadas)


---
# 3. Pandas - Manipulaci√≥n de Datos

**Objetivos de aprendizaje:**
- Comprender la estructura de Series y DataFrames
- Dominar t√©cnicas de selecci√≥n, filtrado e indexaci√≥n
- Realizar agregaciones y transformaciones de datos
- Combinar datasets con joins y merges
- Trabajar con strings, fechas y datos faltantes

**Conceptos clave**: Series, DataFrame, indexaci√≥n, groupby, joins, limpieza de datos


## Creaci√≥n de Datos Sint√©ticos

Primero crearemos datasets sint√©ticos que usaremos a lo largo de esta secci√≥n:


In [None]:
# Generamos datos sint√©ticos de ventas (1000 transacciones)
np.random.seed(42)

n_transacciones = 1000

ventas_df = pd.DataFrame({
    'fecha': pd.date_range('2023-01-01', periods=n_transacciones, freq='h'),
    'producto': np.random.choice(['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Aud√≠fonos', 'Webcam'], n_transacciones),
    'categoria': np.random.choice(['Electr√≥nica', 'Accesorios', 'Computadoras'], n_transacciones, p=[0.3, 0.4, 0.3]),
    'cantidad': np.random.randint(1, 10, n_transacciones),
    'precio_unitario': np.random.uniform(50, 1500, n_transacciones).round(2),
    'cliente_id': np.random.randint(1, 201, n_transacciones),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste', 'Centro'], n_transacciones)
})

# Crear columna calculada
ventas_df['ingreso_total'] = ventas_df['cantidad'] * ventas_df['precio_unitario']

print(f"‚úì Dataset de ventas creado: {ventas_df.shape[0]} transacciones")
print(f"\nPrimeras 5 filas:")
print(ventas_df.head())


In [None]:
# Dataset de clientes (para joins posteriores)
n_clientes = 200

clientes_df = pd.DataFrame({
    'cliente_id': range(1, n_clientes + 1),
    'nombre': [f'Cliente_{i}' for i in range(1, n_clientes + 1)],
    'segmento': np.random.choice(['Premium', 'Regular', 'B√°sico'], n_clientes, p=[0.2, 0.5, 0.3]),
    'fecha_registro': pd.date_range('2020-01-01', periods=n_clientes, freq='D')
})

print(f"‚úì Dataset de clientes creado: {clientes_df.shape[0]} clientes")
print(f"\nPrimeras 5 filas:")
print(clientes_df.head())


## 3.1 Series

Una Series es un array unidimensional etiquetado, similar a una columna de Excel.


In [None]:
# Crear Series desde una lista
precios = pd.Series([100, 250, 380, 520, 890], name='precio')
print("Series de precios:")
print(precios)

# Series desde un diccionario (con √≠ndices personalizados)
ventas_region = pd.Series({
    'Norte': 45000,
    'Sur': 38000,
    'Este': 52000,
    'Oeste': 41000,
    'Centro': 48000
}, name='ventas')

print("\nSeries de ventas por regi√≥n:")
print(ventas_region)


In [None]:
# Indexaci√≥n en Series
print(f"Ventas en el Norte: ${ventas_region['Norte']:,}")
print(f"Ventas en el Sur: ${ventas_region['Sur']:,}")

# Indexaci√≥n por posici√≥n
print(f"\nPrimera regi√≥n (posici√≥n 0): ${ventas_region.iloc[0]:,}")
print(f"√öltimas 2 regiones: {ventas_region.iloc[-2:]}")

# Operaciones vectorizadas
ventas_en_miles = ventas_region / 1000
print(f"\nVentas en miles:")
print(ventas_en_miles.round(1))


In [None]:
# M√©todos √∫tiles de Series
productos = pd.Series(['Laptop', 'Mouse', 'Laptop', 'Teclado', 'Mouse', 'Laptop', 'Monitor', 'Mouse'])

print("Valores √∫nicos:")
print(productos.unique())

print(f"\nN√∫mero de valores √∫nicos: {productos.nunique()}")

print("\nConteo de frecuencias:")
print(productos.value_counts())

# Estad√≠sticas descriptivas
print("\nEstad√≠sticas de ventas por regi√≥n:")
print(ventas_region.describe())


## 3.2 DataFrames - Creaci√≥n y Exploraci√≥n

Un DataFrame es una tabla bidimensional con filas y columnas etiquetadas, similar a una hoja de Excel.


In [None]:
# Ya creamos ventas_df arriba, ahora explor√©moslo

print("Informaci√≥n general del DataFrame:")
print(ventas_df.info())


In [None]:
# Atributos importantes
print(f"Shape (forma): {ventas_df.shape} (filas √ó columnas)")
print(f"\nColumnas: {list(ventas_df.columns)}")
print(f"\nTipos de datos:")
print(ventas_df.dtypes)
print(f"\n√çndice: {ventas_df.index}")


In [None]:
# M√©todos de inspecci√≥n
print("Primeras 10 filas:")
print(ventas_df.head(10))

print("\n√öltimas 5 filas:")
print(ventas_df.tail())


In [None]:
# Estad√≠sticas descriptivas
print("Estad√≠sticas descriptivas de columnas num√©ricas:")
print(ventas_df.describe().round(2))

# Para todas las columnas (incluyendo categ√≥ricas)
print("\nDescripci√≥n de columnas categ√≥ricas:")
print(ventas_df[['producto', 'region']].describe())


In [None]:
# Selecci√≥n de columnas
# M√©todo 1: Notaci√≥n de corchetes
print("Seleccionar una columna (devuelve Series):")
print(ventas_df['producto'].head())

# Seleccionar m√∫ltiples columnas (devuelve DataFrame)
print("\nSeleccionar m√∫ltiples columnas:")
columnas_interes = ['fecha', 'producto', 'ingreso_total']
print(ventas_df[columnas_interes].head())

# M√©todo 2: Notaci√≥n de punto (solo para nombres sin espacios)
print(f"\nUsando notaci√≥n de punto:")
print(f"Precio promedio: ${ventas_df.precio_unitario.mean():.2f}")


## 3.3 Indexaci√≥n y Selecci√≥n

Pandas ofrece m√∫ltiples formas de seleccionar datos. Las dos principales son `.loc[]` (por etiqueta) y `.iloc[]` (por posici√≥n).


In [None]:
# .loc[] - Indexaci√≥n por etiqueta
print("Seleccionar filas 0 a 4 con .loc:")
print(ventas_df.loc[0:4, ['producto', 'cantidad', 'ingreso_total']])

# .iloc[] - Indexaci√≥n por posici√≥n
print("\nSeleccionar primeras 5 filas y primeras 3 columnas con .iloc:")
print(ventas_df.iloc[0:5, 0:3])

# Seleccionar filas y columnas espec√≠ficas
print("\nSeleccionar filas [0, 5, 10] y columnas espec√≠ficas:")
print(ventas_df.loc[[0, 5, 10], ['producto', 'precio_unitario', 'cantidad']])


In [None]:
# Selecci√≥n booleana (filtrado condicional)
# Filtrar ventas mayores a $5000
ventas_altas = ventas_df[ventas_df['ingreso_total'] > 5000]
print(f"Transacciones con ingreso > $5000: {len(ventas_altas)}")
print(ventas_altas[['producto', 'cantidad', 'precio_unitario', 'ingreso_total']].head())

# M√∫ltiples condiciones con & (and), | (or), ~ (not)
ventas_laptops_norte = ventas_df[
    (ventas_df['producto'] == 'Laptop') & 
    (ventas_df['region'] == 'Norte')
]
print(f"\nLaptops vendidas en el Norte: {len(ventas_laptops_norte)}")
print(f"Ingreso total: ${ventas_laptops_norte['ingreso_total'].sum():,.2f}")


In [None]:
# M√©todo .query() - sintaxis tipo SQL
# Equivalente al filtrado anterior
ventas_laptops_norte_query = ventas_df.query("producto == 'Laptop' and region == 'Norte'")
print(f"Con .query(): {len(ventas_laptops_norte_query)} transacciones")

# Query m√°s compleja
ventas_premium = ventas_df.query("ingreso_total > 3000 and (region == 'Norte' or region == 'Sur')")
print(f"\nVentas premium en Norte o Sur: {len(ventas_premium)}")
print(f"Productos m√°s vendidos:")
print(ventas_premium['producto'].value_counts().head())


## 3.4 Manipulaci√≥n de Columnas

Podemos crear nuevas columnas y transformar las existentes f√°cilmente.


In [None]:
# Crear nuevas columnas a partir de c√°lculos
ventas_df['ingreso_con_iva'] = ventas_df['ingreso_total'] * 1.16
ventas_df['descuento_10pct'] = ventas_df['ingreso_total'] * 0.10
ventas_df['precio_final'] = ventas_df['ingreso_total'] - ventas_df['descuento_10pct']

print("Nuevas columnas creadas:")
print(ventas_df[['ingreso_total', 'ingreso_con_iva', 'descuento_10pct', 'precio_final']].head())


In [None]:
# Categorizaci√≥n con .apply()
def categorizar_venta(ingreso):
    if ingreso > 5000:
        return 'Alta'
    elif ingreso > 2000:
        return 'Media'
    else:
        return 'Baja'

ventas_df['categoria_venta'] = ventas_df['ingreso_total'].apply(categorizar_venta)

print("Distribuci√≥n de categor√≠as de venta:")
print(ventas_df['categoria_venta'].value_counts())
print(f"\nEjemplo de categorizaci√≥n:")
print(ventas_df[['ingreso_total', 'categoria_venta']].head(10))


In [None]:
# Transformar valores con .map() y .replace()
# Renombrar regiones
mapeo_regiones = {
    'Norte': 'N',
    'Sur': 'S',
    'Este': 'E',
    'Oeste': 'O',
    'Centro': 'C'
}
ventas_df['region_codigo'] = ventas_df['region'].map(mapeo_regiones)

print("Mapeo de regiones a c√≥digos:")
print(ventas_df[['region', 'region_codigo']].head())

# Reemplazar valores espec√≠ficos
print(f"\nConteo antes del reemplazo:")
print(ventas_df['categoria'].value_counts())

# Eliminar columnas temporales
ventas_df = ventas_df.drop(['ingreso_con_iva', 'descuento_10pct', 'precio_final', 'region_codigo'], axis=1)
print(f"\nColumnas actuales: {list(ventas_df.columns)}")


## 3.5 Agregaciones y Estad√≠sticas

Las agregaciones nos permiten resumir grandes cantidades de datos.


In [None]:
# Funciones de agregaci√≥n b√°sicas
print("Estad√≠sticas de ingresos:")
print(f"  Total: ${ventas_df['ingreso_total'].sum():,.2f}")
print(f"  Promedio: ${ventas_df['ingreso_total'].mean():,.2f}")
print(f"  Mediana: ${ventas_df['ingreso_total'].median():,.2f}")
print(f"  M√≠nimo: ${ventas_df['ingreso_total'].min():,.2f}")
print(f"  M√°ximo: ${ventas_df['ingreso_total'].max():,.2f}")
print(f"  Desv. Est√°ndar: ${ventas_df['ingreso_total'].std():,.2f}")

# M√∫ltiples agregaciones con .agg()
estadisticas = ventas_df['ingreso_total'].agg(['sum', 'mean', 'median', 'min', 'max', 'std'])
print("\nEstad√≠sticas con .agg():")
print(estadisticas.round(2))


In [None]:
# Agregaciones en m√∫ltiples columnas
resumen = ventas_df[['cantidad', 'precio_unitario', 'ingreso_total']].agg({
    'cantidad': ['sum', 'mean'],
    'precio_unitario': ['min', 'max', 'mean'],
    'ingreso_total': ['sum', 'mean', 'median']
})

print("Resumen de m√∫ltiples columnas:")
print(resumen.round(2))

# Percentiles con .quantile()
percentiles = ventas_df['ingreso_total'].quantile([0.25, 0.50, 0.75, 0.90, 0.95])
print("\nPercentiles de ingresos:")
for q, valor in percentiles.items():
    print(f"  P{int(q*100)}: ${valor:,.2f}")


## 3.6 GroupBy - El Poder de la Agregaci√≥n

El m√©todo `.groupby()` implementa el patr√≥n **split-apply-combine**, una de las operaciones m√°s poderosas de Pandas.


In [None]:
# Agrupaci√≥n simple: ventas totales por regi√≥n
ventas_por_region = ventas_df.groupby('region')['ingreso_total'].sum().sort_values(ascending=False)
print("Ventas totales por regi√≥n:")
print(ventas_por_region.apply(lambda x: f"${x:,.2f}"))

# Agrupaci√≥n con m√∫ltiples agregaciones
resumen_region = ventas_df.groupby('region').agg({
    'ingreso_total': ['sum', 'mean', 'count'],
    'cantidad': 'sum',
    'cliente_id': 'nunique'  # N√∫mero de clientes √∫nicos
})
print("\nResumen por regi√≥n:")
print(resumen_region.round(2))


In [None]:
# Agrupaci√≥n por m√∫ltiples columnas
ventas_region_producto = ventas_df.groupby(['region', 'producto'])['ingreso_total'].sum()
print("Ventas por regi√≥n y producto (primeras 15):")
print(ventas_region_producto.sort_values(ascending=False).head(15))

# Convertir a tabla pivote
pivot_ventas = ventas_region_producto.unstack(fill_value=0)
print("\nFormato de tabla pivote:")
print(pivot_ventas.round(0))


In [None]:
# Transform: agregar columna con estad√≠stica del grupo
ventas_df['ingreso_promedio_region'] = ventas_df.groupby('region')['ingreso_total'].transform('mean')

print("Comparaci√≥n de ingreso vs promedio regional:")
print(ventas_df[['region', 'producto', 'ingreso_total', 'ingreso_promedio_region']].head(10).round(2))

# Calcular desviaci√≥n respecto al promedio regional
ventas_df['desviacion_region'] = ventas_df['ingreso_total'] - ventas_df['ingreso_promedio_region']
print(f"\nTransacciones por encima del promedio regional: {(ventas_df['desviacion_region'] > 0).sum()}")


In [None]:
# Filtrado de grupos con .filter()
# Mantener solo regiones con m√°s de 180 transacciones
regiones_activas = ventas_df.groupby('region').filter(lambda x: len(x) > 180)
print(f"Transacciones en regiones activas (>180 transacciones): {len(regiones_activas)}")
print(f"Regiones incluidas: {regiones_activas['region'].unique()}")

# Top productos por regi√≥n
top_producto_region = ventas_df.groupby('region').apply(
    lambda x: x.groupby('producto')['ingreso_total'].sum().idxmax()
)
print("\nProducto m√°s vendido por regi√≥n:")
print(top_producto_region)


## 3.7 Operaciones con Strings (.str accessor)

El accessor `.str` nos permite aplicar operaciones de strings a Series completas.


In [None]:
# Operaciones b√°sicas con strings
productos_ejemplo = pd.Series(['laptop hp', 'MOUSE logitech', 'Teclado Mec√°nico', 'Monitor DELL'])

print("Strings originales:")
print(productos_ejemplo)

print("\nMin√∫sculas:")
print(productos_ejemplo.str.lower())

print("\nMay√∫sculas:")
print(productos_ejemplo.str.upper())

print("\nCapitalizar primera letra:")
print(productos_ejemplo.str.capitalize())

print("\nTitle case (cada palabra capitalizada):")
print(productos_ejemplo.str.title())


In [None]:
# B√∫squeda y reemplazo
print("Productos que contienen 'o':")
print(productos_ejemplo.str.contains('o', case=False))

print("\nFiltrar productos que contienen 'o':")
print(productos_ejemplo[productos_ejemplo.str.contains('o', case=False)])

# Reemplazar texto
productos_limpio = productos_ejemplo.str.replace('hp', 'HP').str.replace('logitech', 'Logitech')
print("\nDespu√©s de reemplazar marcas:")
print(productos_limpio)

# Split (dividir)
print("\nDividir por espacios (primera palabra):")
print(productos_ejemplo.str.split().str[0])


## 3.8 Operaciones con Fechas (.dt accessor)

El accessor `.dt` nos da acceso a propiedades y m√©todos de fechas.


In [None]:
# Ya tenemos columna 'fecha' en ventas_df
# Extraer componentes de fecha
ventas_df['a√±o'] = ventas_df['fecha'].dt.year
ventas_df['mes'] = ventas_df['fecha'].dt.month
ventas_df['dia'] = ventas_df['fecha'].dt.day
ventas_df['hora'] = ventas_df['fecha'].dt.hour
ventas_df['dia_semana'] = ventas_df['fecha'].dt.day_name()

print("Componentes de fecha extra√≠dos:")
print(ventas_df[['fecha', 'a√±o', 'mes', 'dia', 'hora', 'dia_semana']].head())

# Ventas por d√≠a de la semana
ventas_por_dia_semana = ventas_df.groupby('dia_semana')['ingreso_total'].sum().sort_values(ascending=False)
print("\nVentas por d√≠a de la semana:")
print(ventas_por_dia_semana.apply(lambda x: f"${x:,.2f}"))


In [None]:
# Operaciones con per√≠odos
ventas_df['trimestre'] = ventas_df['fecha'].dt.quarter
ventas_df['semana_a√±o'] = ventas_df['fecha'].dt.isocalendar().week

print("Ventas por trimestre:")
ventas_trimestre = ventas_df.groupby('trimestre')['ingreso_total'].sum()
print(ventas_trimestre.apply(lambda x: f"${x:,.2f}"))

# Calcular antig√ºedad
fecha_hoy = pd.Timestamp('2023-02-01')
ventas_df['dias_desde_venta'] = (fecha_hoy - ventas_df['fecha']).dt.days

print(f"\nRango de antig√ºedad de ventas: {ventas_df['dias_desde_venta'].min()} a {ventas_df['dias_desde_venta'].max()} d√≠as")


## 3.9 Manejo de Valores Faltantes

Los datos reales casi siempre tienen valores faltantes. Pandas ofrece herramientas para detectarlos y tratarlos.


In [None]:
# Crear datos con valores faltantes para demostraci√≥n
df_con_nulos = pd.DataFrame({
    'producto': ['Laptop', 'Mouse', None, 'Monitor', 'Teclado'],
    'precio': [1000, 25, 350, None, 85],
    'stock': [5, None, 15, 8, 12],
    'categoria': ['Computadoras', 'Accesorios', 'Accesorios', 'Computadoras', None]
})

print("DataFrame con valores faltantes:")
print(df_con_nulos)

# Detectar valores faltantes
print("\n¬øHay valores faltantes por columna?")
print(df_con_nulos.isna().sum())

print("\n¬øHay valores NO faltantes por columna?")
print(df_con_nulos.notna().sum())

# Porcentaje de valores faltantes
print("\nPorcentaje de valores faltantes:")
print((df_con_nulos.isna().sum() / len(df_con_nulos) * 100).round(1))


In [None]:
# Eliminar filas con valores faltantes
df_sin_nulos = df_con_nulos.dropna()
print(f"Original: {len(df_con_nulos)} filas")
print(f"Sin nulos: {len(df_sin_nulos)} filas")
print("\nDataFrame sin nulos:")
print(df_sin_nulos)

# Eliminar columnas con valores faltantes
df_sin_columnas_nulas = df_con_nulos.dropna(axis=1)
print(f"\nColumnas originales: {list(df_con_nulos.columns)}")
print(f"Columnas sin nulos: {list(df_sin_columnas_nulas.columns)}")

# Imputar (rellenar) valores faltantes
# Estrategia 1: Valor constante
df_imputado = df_con_nulos.fillna({
    'producto': 'Desconocido',
    'precio': df_con_nulos['precio'].median(),
    'stock': 0,
    'categoria': 'Sin categor√≠a'
})
print("\nDataFrame con valores imputados:")
print(df_imputado)

# Estrategia 2: Forward fill (propagar valor anterior)
df_ffill = df_con_nulos.fillna(method='ffill')
print("\nCon forward fill:")
print(df_ffill)


## 3.10 Ordenamiento

Ordenar datos es fundamental para an√°lisis y presentaci√≥n.


In [None]:
# Ordenar por una columna
ventas_ordenadas = ventas_df.sort_values('ingreso_total', ascending=False)
print("Top 10 transacciones por ingreso:")
print(ventas_ordenadas[['fecha', 'producto', 'cantidad', 'precio_unitario', 'ingreso_total']].head(10))

# Ordenar por m√∫ltiples columnas
ventas_multi_orden = ventas_df.sort_values(['region', 'ingreso_total'], ascending=[True, False])
print("\nPrimeras transacciones ordenadas por regi√≥n (asc) e ingreso (desc):")
print(ventas_multi_orden[['region', 'producto', 'ingreso_total']].head(10))

# Ordenar por √≠ndice
ventas_df_reset = ventas_df.reset_index(drop=True)
ventas_ordenadas_idx = ventas_df_reset.sort_index(ascending=False)
print(f"\nPrimeras filas despu√©s de ordenar por √≠ndice descendente:")
print(ventas_ordenadas_idx[['producto', 'ingreso_total']].head())


## 3.11 Joins y Merges

Combinar m√∫ltiples datasets es una operaci√≥n fundamental en an√°lisis de datos.


In [None]:
# Ya tenemos clientes_df creado anteriormente
# Agreguemos una tabla de inventario para demostrar joins
inventario_df = pd.DataFrame({
    'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Aud√≠fonos', 'Webcam', 'Impresora'],
    'stock_actual': [15, 120, 45, 22, 67, 34, 8],
    'stock_minimo': [5, 30, 15, 10, 20, 10, 5],
    'proveedor': ['Proveedor A', 'Proveedor B', 'Proveedor B', 'Proveedor A', 'Proveedor C', 'Proveedor B', 'Proveedor A']
})

print("Dataset de inventario:")
print(inventario_df)

# Calcular ventas totales por producto
ventas_por_producto = ventas_df.groupby('producto').agg({
    'cantidad': 'sum',
    'ingreso_total': 'sum'
}).reset_index()
ventas_por_producto.columns = ['producto', 'unidades_vendidas', 'ingreso_total']

print("\nVentas por producto:")
print(ventas_por_producto)


In [None]:
# INNER JOIN: Solo productos que est√°n en ambas tablas
inner_join = pd.merge(ventas_por_producto, inventario_df, on='producto', how='inner')
print("INNER JOIN (productos en ambas tablas):")
print(inner_join)
print(f"Registros: {len(inner_join)}")


In [None]:
# LEFT JOIN: Todos los productos de ventas, con info de inventario si existe
left_join = pd.merge(ventas_por_producto, inventario_df, on='producto', how='left')
print("LEFT JOIN (todas las ventas, con inventario si existe):")
print(left_join)
print(f"Registros: {len(left_join)}")

# RIGHT JOIN: Todos los productos de inventario, con ventas si existen
right_join = pd.merge(ventas_por_producto, inventario_df, on='producto', how='right')
print("\nRIGHT JOIN (todo el inventario, con ventas si existen):")
print(right_join)
print(f"Registros: {len(right_join)}")

# OUTER JOIN: Todos los productos de ambas tablas
outer_join = pd.merge(ventas_por_producto, inventario_df, on='producto', how='outer')
print("\nOUTER JOIN (uni√≥n de ambas tablas):")
print(outer_join)
print(f"Registros: {len(outer_join)}")


In [None]:
# Join de ventas con clientes
# Primero calculamos ventas por cliente
ventas_por_cliente = ventas_df.groupby('cliente_id').agg({
    'ingreso_total': 'sum',
    'fecha': 'count'  # N√∫mero de transacciones
}).reset_index()
ventas_por_cliente.columns = ['cliente_id', 'valor_total_compras', 'num_transacciones']

# Hacer join con datos de clientes
clientes_con_ventas = pd.merge(clientes_df, ventas_por_cliente, on='cliente_id', how='left')

# Rellenar NaN con 0 para clientes sin compras
clientes_con_ventas['valor_total_compras'] = clientes_con_ventas['valor_total_compras'].fillna(0)
clientes_con_ventas['num_transacciones'] = clientes_con_ventas['num_transacciones'].fillna(0)

print("Clientes con informaci√≥n de ventas:")
print(clientes_con_ventas.head(10))

print(f"\nClientes sin compras: {(clientes_con_ventas['num_transacciones'] == 0).sum()}")
print(f"Clientes con compras: {(clientes_con_ventas['num_transacciones'] > 0).sum()}")


## 3.12 Operaciones Avanzadas

Finalmente, veamos algunas operaciones avanzadas muy √∫tiles en an√°lisis de datos.


In [None]:
# One-hot encoding de variables categ√≥ricas
categorias_encoded = pd.get_dummies(ventas_df['categoria'], prefix='cat')
print("One-hot encoding de categor√≠as:")
print(categorias_encoded.head())

# Combinar con el DataFrame original
ventas_encoded = pd.concat([ventas_df, categorias_encoded], axis=1)
print(f"\nDataFrame con one-hot encoding: {ventas_encoded.shape}")
print(ventas_encoded[['categoria', 'cat_Accesorios', 'cat_Computadoras', 'cat_Electr√≥nica']].head())

# Label encoding (menos recomendado para variables sin orden)
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
ventas_df['categoria_codigo'] = le.fit_transform(ventas_df['categoria'])
print("\nLabel encoding de categor√≠as:")
print(ventas_df[['categoria', 'categoria_codigo']].drop_duplicates().sort_values('categoria_codigo'))


In [None]:
# Rolling windows (ventanas m√≥viles) - √∫til para series temporales
# Calcular media m√≥vil de 7 transacciones
ventas_sorted = ventas_df.sort_values('fecha').reset_index(drop=True)
ventas_sorted['media_movil_7'] = ventas_sorted['ingreso_total'].rolling(window=7).mean()

print("Media m√≥vil de 7 transacciones:")
print(ventas_sorted[['fecha', 'ingreso_total', 'media_movil_7']].head(15).round(2))

# Acumulados
ventas_sorted['ingreso_acumulado'] = ventas_sorted['ingreso_total'].cumsum()
print(f"\nIngreso acumulado final: ${ventas_sorted['ingreso_acumulado'].iloc[-1]:,.2f}")

# Ver primeras transacciones con acumulado
print(ventas_sorted[['fecha', 'ingreso_total', 'ingreso_acumulado']].head(10).round(2))


In [None]:
# Pivot tables (tablas din√°micas)
pivot_region_producto = pd.pivot_table(
    ventas_df,
    values='ingreso_total',
    index='region',
    columns='categoria',
    aggfunc='sum',
    fill_value=0,
    margins=True,  # Agregar totales
    margins_name='TOTAL'
)

print("Tabla pivote: Ingresos por regi√≥n y categor√≠a")
print(pivot_region_producto.round(0))

# Pivot table con m√∫ltiples agregaciones
pivot_multi = pd.pivot_table(
    ventas_df,
    values='ingreso_total',
    index='region',
    columns='categoria',
    aggfunc=['sum', 'mean', 'count'],
    fill_value=0
)

print("\nPivot table con m√∫ltiples agregaciones (primeras filas):")
print(pivot_multi.head())


---
# 4. Visualizaci√≥n de Datos

**Objetivos de aprendizaje:**
- Crear gr√°ficos b√°sicos con Matplotlib
- Personalizar visualizaciones (t√≠tulos, etiquetas, colores, leyendas)
- Utilizar Seaborn para visualizaciones estad√≠sticas avanzadas
- Elegir el tipo de gr√°fico apropiado para cada an√°lisis

**Conceptos clave**: matplotlib, seaborn, tipos de gr√°ficos, est√©tica, visualizaci√≥n exploratoria

## 4.1 Matplotlib B√°sico

Matplotlib es la librer√≠a fundamental de visualizaci√≥n en Python. Proporciona control total sobre cada aspecto del gr√°fico.


In [None]:
# Anatom√≠a de una figura en Matplotlib
fig, ax = plt.subplots(figsize=(10, 6))  # fig = figura completa, ax = √°rea del gr√°fico

# Crear datos
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun']
ventas_2022 = [45, 52, 48, 61, 58, 65]
ventas_2023 = [52, 58, 55, 68, 72, 79]

# Gr√°fico de l√≠nea
ax.plot(meses, ventas_2022, marker='o', linewidth=2, label='2022')
ax.plot(meses, ventas_2023, marker='s', linewidth=2, label='2023')

# Personalizaci√≥n
ax.set_title('Evoluci√≥n de Ventas 2022 vs 2023', fontsize=14, fontweight='bold')
ax.set_xlabel('Mes', fontsize=12)
ax.set_ylabel('Ventas (miles de $)', fontsize=12)
ax.legend(fontsize=10, loc='upper left')
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# M√∫ltiples subplots
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# Subplot 1: Ventas por regi√≥n
ventas_region = ventas_df.groupby('region')['ingreso_total'].sum().sort_values(ascending=False)
axes[0, 0].bar(ventas_region.index, ventas_region.values, color='steelblue')
axes[0, 0].set_title('Ventas Totales por Regi√≥n')
axes[0, 0].set_ylabel('Ingresos ($)')
axes[0, 0].tick_params(axis='x', rotation=45)

# Subplot 2: Productos m√°s vendidos
top_productos = ventas_df.groupby('producto')['cantidad'].sum().sort_values(ascending=False).head(6)
axes[0, 1].barh(top_productos.index, top_productos.values, color='coral')
axes[0, 1].set_title('Top 6 Productos por Unidades Vendidas')
axes[0, 1].set_xlabel('Cantidad')

# Subplot 3: Distribuci√≥n de ingresos
axes[1, 0].hist(ventas_df['ingreso_total'], bins=30, color='green', alpha=0.7, edgecolor='black')
axes[1, 0].set_title('Distribuci√≥n de Ingresos por Transacci√≥n')
axes[1, 0].set_xlabel('Ingreso ($)')
axes[1, 0].set_ylabel('Frecuencia')

# Subplot 4: Scatter de precio vs cantidad
axes[1, 1].scatter(ventas_df['precio_unitario'], ventas_df['cantidad'], alpha=0.5, c='purple')
axes[1, 1].set_title('Precio Unitario vs Cantidad')
axes[1, 1].set_xlabel('Precio Unitario ($)')
axes[1, 1].set_ylabel('Cantidad')

plt.tight_layout()
plt.show()

In [None]:
# Guardar figuras
fig, ax = plt.subplots(figsize=(10, 6))

# Ventas por categor√≠a
ventas_categoria = ventas_df.groupby('categoria')['ingreso_total'].sum()
colores = ['#FF6B6B', '#4ECDC4', '#45B7D1']
ax.pie(ventas_categoria.values, labels=ventas_categoria.index, autopct='%1.1f%%', 
       startangle=90, colors=colores, explode=(0.05, 0, 0))
ax.set_title('Distribuci√≥n de Ventas por Categor√≠a', fontsize=14, fontweight='bold')

plt.tight_layout()

# Guardar en diferentes formatos (comentado para no crear archivos)
# plt.savefig('ventas_categoria.png', dpi=300, bbox_inches='tight')
# plt.savefig('ventas_categoria.pdf', bbox_inches='tight')

plt.show()


## 4.2 Tipos de Gr√°ficos con Matplotlib

Cada tipo de gr√°fico es apropiado para diferentes situaciones.


In [None]:
# Gr√°ficos de dispersi√≥n (scatter plots)
fig, ax = plt.subplots(figsize=(10, 6))

# Colorear por categor√≠a
categorias = ventas_df['categoria'].unique()
colores_map = {'Electr√≥nica': 'red', 'Accesorios': 'blue', 'Computadoras': 'green'}

for cat in categorias:
    datos = ventas_df[ventas_df['categoria'] == cat]
    ax.scatter(datos['precio_unitario'], datos['ingreso_total'], 
               alpha=0.6, s=50, label=cat, c=colores_map[cat])

ax.set_xlabel('Precio Unitario ($)', fontsize=12)
ax.set_ylabel('Ingreso Total ($)', fontsize=12)
ax.set_title('Relaci√≥n entre Precio Unitario e Ingreso Total', fontsize=14)
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Gr√°ficos de barras con comparaci√≥n
fig, ax = plt.subplots(figsize=(12, 6))

# Comparar ventas por regi√≥n y categor√≠a
comparacion = ventas_df.groupby(['region', 'categoria'])['ingreso_total'].sum().unstack()

x = np.arange(len(comparacion.index))
width = 0.25

for i, col in enumerate(comparacion.columns):
    ax.bar(x + i*width, comparacion[col], width, label=col)

ax.set_xlabel('Regi√≥n', fontsize=12)
ax.set_ylabel('Ingresos ($)', fontsize=12)
ax.set_title('Ventas por Regi√≥n y Categor√≠a', fontsize=14)
ax.set_xticks(x + width)
ax.set_xticks(x + width)
ax.set_xticklabels(comparacion.index)
ax.legend()
ax.grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

In [None]:
# Histogramas con personalizaci√≥n
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Histograma b√°sico
axes[0].hist(ventas_df['ingreso_total'], bins=50, color='skyblue', edgecolor='black', alpha=0.7)
axes[0].set_xlabel('Ingreso Total ($)')
axes[0].set_ylabel('Frecuencia')
axes[0].set_title('Distribuci√≥n de Ingresos')
axes[0].axvline(ventas_df['ingreso_total'].mean(), color='red', linestyle='--', linewidth=2, label='Media')
axes[0].axvline(ventas_df['ingreso_total'].median(), color='green', linestyle='--', linewidth=2, label='Mediana')
axes[0].legend()

# Histograma por categor√≠a
for cat in ventas_df['categoria'].unique():
    datos = ventas_df[ventas_df['categoria'] == cat]['ingreso_total']
    axes[1].hist(datos, bins=30, alpha=0.5, label=cat, edgecolor='black')

axes[1].set_xlabel('Ingreso Total ($)')
axes[1].set_ylabel('Frecuencia')
axes[1].set_title('Distribuci√≥n de Ingresos por Categor√≠a')
axes[1].legend()

plt.tight_layout()
plt.show()


In [None]:
# Boxplots (diagramas de caja)
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Boxplot de ingresos por regi√≥n
datos_boxplot = [ventas_df[ventas_df['region'] == r]['ingreso_total'].values 
                 for r in ventas_df['region'].unique()]
axes[0].boxplot(datos_boxplot, labels=ventas_df['region'].unique())
axes[0].set_xlabel('Regi√≥n')
axes[0].set_ylabel('Ingreso Total ($)')
axes[0].set_title('Distribuci√≥n de Ingresos por Regi√≥n')
axes[0].grid(axis='y', alpha=0.3)

# Boxplot horizontal de productos
productos_orden = ventas_df.groupby('producto')['ingreso_total'].median().sort_values(ascending=False).index
datos_productos = [ventas_df[ventas_df['producto'] == p]['ingreso_total'].values 
                   for p in productos_orden]
bp = axes[1].boxplot(datos_productos, labels=productos_orden, vert=False, patch_artist=True)

# Colorear cajas
colores = plt.cm.Set3(np.linspace(0, 1, len(productos_orden)))
for patch, color in zip(bp['boxes'], colores):
    patch.set_facecolor(color)

axes[1].set_xlabel('Ingreso Total ($)')
axes[1].set_ylabel('Producto')
axes[1].set_title('Distribuci√≥n de Ingresos por Producto')
axes[1].grid(axis='x', alpha=0.3)

plt.tight_layout()
plt.show()

print("\nInterpretaci√≥n del boxplot:")
print("  - Caja: rango intercuart√≠lico (Q1 a Q3)")
print("  - L√≠nea en la caja: mediana")
print("  - Bigotes: 1.5 √ó IQR")
print("  - Puntos fuera: valores at√≠picos (outliers)")


## 4.3 Seaborn - Visualizaci√≥n Estad√≠stica

Seaborn est√° construido sobre Matplotlib y proporciona interfaces de alto nivel para crear gr√°ficos estad√≠sticos atractivos.


In [None]:
# ¬øPor qu√© Seaborn?
# 1. Est√©tica mejorada autom√°ticamente
# 2. Funciones estad√≠sticas integradas
# 3. Trabajo m√°s f√°cil con DataFrames de Pandas
# 4. Paletas de colores profesionales

# Comparaci√≥n Matplotlib vs Seaborn
fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Matplotlib
axes[0].scatter(ventas_df['precio_unitario'], ventas_df['ingreso_total'], alpha=0.5)
axes[0].set_title('Con Matplotlib')
axes[0].set_xlabel('Precio Unitario')
axes[0].set_ylabel('Ingreso Total')

# Seaborn
sns.scatterplot(data=ventas_df, x='precio_unitario', y='ingreso_total', 
                hue='categoria', size='cantidad', alpha=0.6, ax=axes[1])
axes[1].set_title('Con Seaborn')

plt.tight_layout()
plt.show()

In [None]:
# Distribuciones con Seaborn
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Histplot con KDE
sns.histplot(data=ventas_df, x='ingreso_total', kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Histograma con KDE (Kernel Density Estimation)')

# Histplot por categor√≠a
sns.histplot(data=ventas_df, x='ingreso_total', hue='categoria', kde=True, ax=axes[0, 1])
axes[0, 1].set_title('Histograma por Categor√≠a')

# KDE plot
sns.kdeplot(data=ventas_df, x='ingreso_total', hue='region', fill=True, ax=axes[1, 0])
axes[1, 0].set_title('Distribuci√≥n de Densidad por Regi√≥n')

# Violinplot
sns.violinplot(data=ventas_df, x='categoria', y='ingreso_total', ax=axes[1, 1])
axes[1, 1].set_title('Violinplot de Ingresos por Categor√≠a')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Gr√°ficos de relaciones con Seaborn
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Scatterplot con m√∫ltiples dimensiones
sns.scatterplot(data=ventas_df, x='precio_unitario', y='ingreso_total', 
                hue='categoria', size='cantidad', style='region', 
                alpha=0.6, ax=axes[0, 0])
axes[0, 0].set_title('Scatterplot Multi-dimensional')
axes[0, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=8)

# Lineplot con intervalos de confianza
ventas_por_hora = ventas_df.groupby('hora')['ingreso_total'].mean().reset_index()
sns.lineplot(data=ventas_por_hora, x='hora', y='ingreso_total', ax=axes[0, 1])
axes[0, 1].set_title('Ventas Promedio por Hora del D√≠a')
axes[0, 1].set_xlabel('Hora')

# Regplot (regresi√≥n lineal)
sns.regplot(data=ventas_df, x='precio_unitario', y='cantidad', 
            scatter_kws={'alpha': 0.3}, ax=axes[1, 0])
axes[1, 0].set_title('Relaci√≥n Precio-Cantidad con L√≠nea de Tendencia')

# Hexbin plot (para muchos datos)
axes[1, 1].hexbin(ventas_df['precio_unitario'], ventas_df['ingreso_total'], 
                  gridsize=20, cmap='YlOrRd')
axes[1, 1].set_title('Hexbin Plot (densidad de puntos)')
axes[1, 1].set_xlabel('Precio Unitario')
axes[1, 1].set_ylabel('Ingreso Total')

plt.tight_layout()
plt.show()


In [None]:
# Gr√°ficos categ√≥ricos con Seaborn
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Barplot con errores est√°ndar
sns.barplot(data=ventas_df, x='region', y='ingreso_total', errorbar='sd', ax=axes[0, 0])
axes[0, 0].set_title('Ingresos por Regi√≥n (con desv. est√°ndar)')
axes[0, 0].tick_params(axis='x', rotation=45)

# Countplot
sns.countplot(data=ventas_df, x='categoria', hue='region', ax=axes[0, 1])
axes[0, 1].set_title('N√∫mero de Transacciones por Categor√≠a y Regi√≥n')
axes[0, 1].tick_params(axis='x', rotation=45)

# Boxplot con Seaborn
sns.boxplot(data=ventas_df, x='categoria', y='ingreso_total', ax=axes[1, 0])
axes[1, 0].set_title('Boxplot de Ingresos por Categor√≠a')
axes[1, 0].tick_params(axis='x', rotation=45)

# Swarmplot (puntos individuales)
# Nota: Solo usar con datasets peque√±os
muestra = ventas_df.groupby('region').sample(n=20, random_state=42)
sns.swarmplot(data=muestra, x='region', y='ingreso_total', ax=axes[1, 1])
axes[1, 1].set_title('Swarmplot de Ingresos (muestra de 20 por regi√≥n)')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()


In [None]:
# Matrices y correlaciones
# Calcular matriz de correlaci√≥n
columnas_numericas = ['cantidad', 'precio_unitario', 'ingreso_total']
correlacion = ventas_df[columnas_numericas].corr()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Heatmap de correlaci√≥n
sns.heatmap(correlacion, annot=True, fmt='.2f', cmap='coolwarm', 
            center=0, square=True, ax=axes[0])
axes[0].set_title('Matriz de Correlaci√≥n')

# Heatmap de pivot table
pivot = pd.pivot_table(ventas_df, values='ingreso_total', 
                       index='region', columns='categoria', aggfunc='sum')
sns.heatmap(pivot, annot=True, fmt='.0f', cmap='YlGnBu', ax=axes[1])
axes[1].set_title('Ingresos por Regi√≥n y Categor√≠a')

plt.tight_layout()
plt.show()



In [None]:
# Pairplot - Exploraci√≥n multivariada
# Crear un subset m√°s peque√±o para pairplot (es computacionalmente costoso)
ventas_sample = ventas_df.sample(n=200, random_state=42)

# Pairplot con todas las variables num√©ricas
pairplot = sns.pairplot(ventas_sample[['cantidad', 'precio_unitario', 'ingreso_total', 'categoria']], 
                        hue='categoria', diag_kind='kde', plot_kws={'alpha': 0.6})
pairplot.fig.suptitle('Pairplot de Variables Num√©ricas', y=1.02)

plt.show()

print("\nEl pairplot muestra:")
print("  - Diagonal: distribuci√≥n de cada variable")
print("  - Fuera de diagonal: relaci√≥n entre pares de variables")
print("  - Colores: diferentes categor√≠as")


In [None]:
# Facet Grid - M√∫ltiples subplots basados en variables categ√≥ricas
g = sns.FacetGrid(ventas_df, col='categoria', row='region', height=3, aspect=1.2)
g.map(sns.histplot, 'ingreso_total', bins=20, kde=True)
g.set_axis_labels('Ingreso Total ($)', 'Frecuencia')
g.set_titles(col_template='{col_name}', row_template='{row_name}')
g.add_legend()

plt.show()

print("Cada subplot muestra la distribuci√≥n de ingresos para una combinaci√≥n regi√≥n-categor√≠a")


---
# 5. Caso Integrador: An√°lisis de Datos Reales

**Objetivos de aprendizaje:**
- Aplicar todas las t√©cnicas aprendidas en un caso real
- Realizar un an√°lisis exploratorio completo
- Limpiar y preparar datos con problemas reales
- Generar insights accionables de negocio

**Dataset**: Simulaci√≥n basada en Online Retail Dataset (UCI)

En esta secci√≥n aplicaremos todo lo aprendido a un dataset que simula transacciones reales de e-commerce, con problemas t√≠picos como valores faltantes, datos duplicados y outliers.

## 5.1 Carga y Exploraci√≥n Inicial del Dataset

Primero cargaremos y exploraremos el dataset para entender su estructura y calidad.


In [None]:
# Generar datos sint√©ticos realistas que simulan Online Retail
# Este dataset simula transacciones de e-commerce con caracter√≠sticas reales

np.random.seed(42)

# Par√°metros del dataset
n_transacciones = 5000
n_clientes = 500
n_productos = 100

# Generar IDs de factura
invoice_ids = [f'INV{str(i).zfill(6)}' for i in range(1, n_transacciones + 1)]

# Generar productos con descripciones realistas
productos_base = [
    'WHITE HANGING HEART T-LIGHT HOLDER', 'WHITE METAL LANTERN', 
    'CREAM CUPID HEARTS COAT HANGER', 'KNITTED UNION FLAG HOT WATER BOTTLE',
    'RED WOOLLY HOTTIE WHITE HEART', 'SET 7 BABUSHKA NESTING BOXES',
    'GLASS STAR FROSTED T-LIGHT HOLDER', 'HAND WARMER UNION JACK',
    'HAND WARMER RED POLKA DOT', 'ASSORTED COLOUR BIRD ORNAMENT',
    'PACK OF 60 PINK PAISLEY CAKE CASES', 'PACK OF 60 DINOSAUR CAKE CASES',
    'LUNCH BAG RED RETROSPOT', 'LUNCH BAG PINK POLKADOT',
    'SET OF 3 CAKE TINS PANTRY DESIGN', 'JUMBO BAG RED RETROSPOT'
]
productos = np.random.choice(productos_base, n_transacciones)

# Generar cantidades (mayor√≠a positivas, algunas negativas para devoluciones)
cantidades = np.random.choice(
    list(range(-3, 0)) + list(range(1, 25)), 
    n_transacciones, 
    p=[0.01, 0.01, 0.01] + [0.97/24]*24  # 3% devoluciones
)

# Generar precios unitarios (con algunos valores problem√°ticos)
precios_base = np.random.uniform(0.5, 50, n_transacciones)
# Algunos productos con precio 0 (problema de calidad de datos)
mask_precio_cero = np.random.random(n_transacciones) < 0.02
precios_base[mask_precio_cero] = 0

# Fechas
fechas = pd.date_range('2023-01-01', periods=n_transacciones, freq='H')

# Clientes (con algunos faltantes)
customer_ids = np.random.choice(range(1000, 1000 + n_clientes), n_transacciones)
mask_cliente_faltante = np.random.random(n_transacciones) < 0.15  # 15% sin cliente
customer_ids = customer_ids.astype(float)
customer_ids[mask_cliente_faltante] = np.nan

# Pa√≠ses
paises = np.random.choice(
    ['United Kingdom', 'Germany', 'France', 'Spain', 'Netherlands', 'Belgium', 'Portugal'],
    n_transacciones,
    p=[0.75, 0.08, 0.06, 0.04, 0.03, 0.02, 0.02]
)

# Crear DataFrame
retail_df = pd.DataFrame({
    'InvoiceNo': invoice_ids,
    'StockCode': [f'SKU{np.random.randint(1000, 9999)}' for _ in range(n_transacciones)],
    'Description': productos,
    'Quantity': cantidades,
    'InvoiceDate': fechas,
    'UnitPrice': precios_base.round(2),
    'CustomerID': customer_ids,
    'Country': paises
})

print("‚úì Dataset sint√©tico de e-commerce creado")
print(f"\nDimensiones: {retail_df.shape}")
print(f"\nPrimeras filas:")
print(retail_df.head(10))


In [None]:
# Exploraci√≥n inicial
print("Informaci√≥n general del dataset:")
print(retail_df.info())

print("\n" + "="*70)
print("Estad√≠sticas descriptivas:")
print(retail_df.describe())

In [None]:
# Identificar problemas de calidad de datos
print("AN√ÅLISIS DE CALIDAD DE DATOS")
print("="*70)

print("\n1. Valores faltantes:")
print(retail_df.isnull().sum())
print(f"\nPorcentaje de CustomerID faltantes: {retail_df['CustomerID'].isnull().sum() / len(retail_df) * 100:.1f}%")

print("\n2. Valores problem√°ticos:")
print(f"  - Cantidades negativas (devoluciones): {(retail_df['Quantity'] < 0).sum()}")
print(f"  - Precios igual a 0: {(retail_df['UnitPrice'] == 0).sum()}")
print(f"  - Productos √∫nicos: {retail_df['Description'].nunique()}")
print(f"  - Clientes √∫nicos: {retail_df['CustomerID'].nunique()}")

print("\n3. Rango de fechas:")
print(f"  - Inicio: {retail_df['InvoiceDate'].min()}")
print(f"  - Fin: {retail_df['InvoiceDate'].max()}")
print(f"  - Duraci√≥n: {(retail_df['InvoiceDate'].max() - retail_df['InvoiceDate'].min()).days} d√≠as")


## 5.2 Limpieza de Datos

Aplicaremos t√©cnicas de limpieza para preparar los datos para an√°lisis.


In [None]:
# Paso 1: Crear columna de ingreso total
retail_df['TotalPrice'] = retail_df['Quantity'] * retail_df['UnitPrice']

# Paso 2: Filtrar registros problem√°ticos
print("Limpieza de datos:")
print(f"Registros originales: {len(retail_df)}")

# Eliminar transacciones con cantidad negativa (devoluciones)
retail_clean = retail_df[retail_df['Quantity'] > 0].copy()
print(f"Despu√©s de eliminar devoluciones: {len(retail_clean)}")

# Eliminar transacciones con precio 0
retail_clean = retail_clean[retail_clean['UnitPrice'] > 0]
print(f"Despu√©s de eliminar precios inv√°lidos: {len(retail_clean)}")

# Para este an√°lisis, eliminaremos registros sin CustomerID
retail_clean = retail_clean[retail_clean['CustomerID'].notna()]
print(f"Despu√©s de eliminar registros sin cliente: {len(retail_clean)}")

# Convertir CustomerID a entero
retail_clean['CustomerID'] = retail_clean['CustomerID'].astype(int)

print(f"\n‚úì Dataset limpio: {retail_clean.shape}")
print(f"P√©rdida de datos: {(1 - len(retail_clean)/len(retail_df))*100:.1f}%")


In [None]:
# Paso 3: Crear features de fecha
retail_clean['Year'] = retail_clean['InvoiceDate'].dt.year
retail_clean['Month'] = retail_clean['InvoiceDate'].dt.month
retail_clean['Day'] = retail_clean['InvoiceDate'].dt.day
retail_clean['Hour'] = retail_clean['InvoiceDate'].dt.hour
retail_clean['DayOfWeek'] = retail_clean['InvoiceDate'].dt.day_name()

print("Features de fecha creadas:")
print(retail_clean[['InvoiceDate', 'Year', 'Month', 'Day', 'Hour', 'DayOfWeek']].head())

# Identificar outliers con IQR
Q1 = retail_clean['TotalPrice'].quantile(0.25)
Q3 = retail_clean['TotalPrice'].quantile(0.75)
IQR = Q3 - Q1
outlier_threshold = Q3 + 1.5 * IQR

outliers = retail_clean[retail_clean['TotalPrice'] > outlier_threshold]
print(f"\nOutliers detectados (>Q3 + 1.5*IQR): {len(outliers)} ({len(outliers)/len(retail_clean)*100:.1f}%)")
print(f"Umbral de outlier: ${outlier_threshold:,.2f}")
print(f"\nTop 5 transacciones m√°s grandes:")
print(retail_clean.nlargest(5, 'TotalPrice')[['Description', 'Quantity', 'UnitPrice', 'TotalPrice']])


## 5.3 An√°lisis Exploratorio de Datos (EDA)

Ahora realizaremos un an√°lisis exploratorio completo para entender el negocio.


In [None]:
# An√°lisis de productos
print("AN√ÅLISIS DE PRODUCTOS")
print("="*70)

# Top 10 productos por ingresos
top_productos_ingresos = retail_clean.groupby('Description')['TotalPrice'].sum().sort_values(ascending=False).head(10)
print("\nTop 10 productos por ingresos totales:")
for i, (producto, ingreso) in enumerate(top_productos_ingresos.items(), 1):
    print(f"  {i}. {producto[:50]}: ${ingreso:,.2f}")

# Top 10 productos por cantidad vendida
top_productos_cantidad = retail_clean.groupby('Description')['Quantity'].sum().sort_values(ascending=False).head(10)
print("\nTop 10 productos por unidades vendidas:")
for i, (producto, cantidad) in enumerate(top_productos_cantidad.items(), 1):
    print(f"  {i}. {producto[:50]}: {cantidad:,.0f} unidades")

# Precio promedio por producto
precio_promedio_productos = retail_clean.groupby('Description')['UnitPrice'].mean().sort_values(ascending=False).head(10)
print("\nTop 10 productos por precio promedio:")
for i, (producto, precio) in enumerate(precio_promedio_productos.items(), 1):
    print(f"  {i}. {producto[:50]}: ${precio:,.2f}")


In [None]:
# An√°lisis temporal
print("AN√ÅLISIS TEMPORAL")
print("="*70)

# Ventas por mes
ventas_mes = retail_clean.groupby('Month')['TotalPrice'].sum()
print("\nVentas por mes:")
for mes, venta in ventas_mes.items():
    print(f"  Mes {mes}: ${venta:,.2f}")

# Ventas por d√≠a de la semana
ventas_dia_semana = retail_clean.groupby('DayOfWeek')['TotalPrice'].sum().sort_values(ascending=False)
print("\nVentas por d√≠a de la semana:")
for dia, venta in ventas_dia_semana.items():
    print(f"  {dia}: ${venta:,.2f}")

# Ventas por hora del d√≠a
ventas_hora = retail_clean.groupby('Hour')['TotalPrice'].sum()
hora_pico = ventas_hora.idxmax()
print(f"\nHora pico de ventas: {hora_pico}:00 con ${ventas_hora.max():,.2f}")

# Transacciones por hora
transacciones_hora = retail_clean.groupby('Hour').size()
print(f"\nDistribuci√≥n de transacciones por hora:")
print(f"  Hora m√°s activa: {transacciones_hora.idxmax()}:00 ({transacciones_hora.max()} transacciones)")
print(f"  Hora menos activa: {transacciones_hora.idxmin()}:00 ({transacciones_hora.min()} transacciones)")


In [None]:
# An√°lisis geogr√°fico
print("AN√ÅLISIS GEOGR√ÅFICO")
print("="*70)

# Ventas por pa√≠s
ventas_pais = retail_clean.groupby('Country').agg({
    'TotalPrice': 'sum',
    'InvoiceNo': 'nunique',
    'CustomerID': 'nunique'
}).sort_values('TotalPrice', ascending=False)

ventas_pais.columns = ['Ingresos_Totales', 'Num_Facturas', 'Num_Clientes']

print("\nVentas por pa√≠s:")
print(ventas_pais)

# Ticket promedio por pa√≠s
ventas_pais['Ticket_Promedio'] = ventas_pais['Ingresos_Totales'] / ventas_pais['Num_Facturas']
print("\nTicket promedio por pa√≠s:")
print(ventas_pais['Ticket_Promedio'].sort_values(ascending=False).apply(lambda x: f"${x:,.2f}"))

# Concentraci√≥n de ventas
print(f"\n% de ventas en UK: {ventas_pais.loc['United Kingdom', 'Ingresos_Totales'] / ventas_pais['Ingresos_Totales'].sum() * 100:.1f}%")


## 5.4 Visualizaciones del An√°lisis

Finalmente, crearemos visualizaciones para comunicar los insights.


In [None]:
# Visualizaci√≥n 1: Serie temporal de ventas
fig, axes = plt.subplots(2, 1, figsize=(14, 10))

# Ventas diarias
ventas_diarias = retail_clean.groupby(retail_clean['InvoiceDate'].dt.date)['TotalPrice'].sum()
axes[0].plot(ventas_diarias.index, ventas_diarias.values, linewidth=2, color='steelblue')
axes[0].set_title('Evoluci√≥n de Ventas Diarias', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Fecha')
axes[0].set_ylabel('Ingresos ($)')
axes[0].grid(True, alpha=0.3)

# Ventas por hora
ventas_hora = retail_clean.groupby('Hour')['TotalPrice'].sum()
axes[1].bar(ventas_hora.index, ventas_hora.values, color='coral')
axes[1].set_title('Distribuci√≥n de Ventas por Hora del D√≠a', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Hora')
axes[1].set_ylabel('Ingresos ($)')
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()


In [None]:
# Visualizaci√≥n 2: Top pa√≠ses y productos
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# Top 10 pa√≠ses
top_paises = ventas_pais.nlargest(10, 'Ingresos_Totales')
axes[0].barh(range(len(top_paises)), top_paises['Ingresos_Totales'], color='#4ECDC4')
axes[0].set_yticks(range(len(top_paises)))
axes[0].set_yticklabels(top_paises.index)
axes[0].set_title('Top 10 Pa√≠ses por Ingresos', fontsize=14, fontweight='bold')
axes[0].set_xlabel('Ingresos ($)')
axes[0].invert_yaxis()

# Top 10 productos
top_10_productos = retail_clean.groupby('Description')['TotalPrice'].sum().nlargest(10)
producto_nombres_cortos = [p[:30] + '...' if len(p) > 30 else p for p in top_10_productos.index]
axes[1].barh(range(len(top_10_productos)), top_10_productos.values, color='#FF6B6B')
axes[1].set_yticks(range(len(top_10_productos)))
axes[1].set_yticklabels(producto_nombres_cortos, fontsize=9)
axes[1].set_title('Top 10 Productos por Ingresos', fontsize=14, fontweight='bold')
axes[1].set_xlabel('Ingresos ($)')
axes[1].invert_yaxis()

plt.tight_layout()
plt.show()


In [None]:
# Resumen final del an√°lisis
print("\n" + "="*70)
print("RESUMEN EJECUTIVO DEL AN√ÅLISIS")
print("="*70)

print(f"\n1. VOLUMEN DE NEGOCIO:")
print(f"   - Transacciones analizadas: {len(retail_clean):,}")
print(f"   - Ingresos totales: ${retail_clean['TotalPrice'].sum():,.2f}")
print(f"   - Ticket promedio: ${retail_clean['TotalPrice'].mean():,.2f}")
print(f"   - Clientes √∫nicos: {retail_clean['CustomerID'].nunique():,}")

print(f"\n2. PRODUCTOS:")
print(f"   - Productos √∫nicos: {retail_clean['Description'].nunique()}")
print(f"   - Producto m√°s vendido: {top_productos_cantidad.index[0]}")
print(f"   - Producto m√°s rentable: {top_productos_ingresos.index[0]}")

print(f"\n3. GEOGRAF√çA:")
print(f"   - Principal mercado: {ventas_pais.index[0]} ({ventas_pais.iloc[0]['Ingresos_Totales'] / ventas_pais['Ingresos_Totales'].sum() * 100:.1f}%)")
print(f"   - Pa√≠ses activos: {len(ventas_pais)}")

print(f"\n4. PATRONES TEMPORALES:")
print(f"   - D√≠a de la semana con m√°s ventas: {ventas_dia_semana.index[0]}")
print(f"   - Hora pico: {hora_pico}:00")
