<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_2_2_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 2.2.1: Fundamentos con Matplotlib (gráficos)

## 1. ¿Por qué Matplotlib?

Matplotlib es **la biblioteca fundamental de visualización en Python**. Creada en 2003 por John D. Hunter, es la base sobre la que se construyen Seaborn, Pandas plotting y muchas otras herramientas. Piensa en ella como el **motor básico**: no es la más bonita ni la más rápida, pero es **universal, flexible y está en todas partes**.

**¿Por qué aprenderla?**
- **Control total:** Personalizas cada píxel de tu gráfico.
- **Compatibilidad:** Se integra con Pandas, NumPy, Jupyter, prácticamente todo.
- **Fundamentos:** Si dominas Matplotlib, entenderás cualquier otra herramienta de visualización.
- **Estándar científico:** Papers, investigación, análisis técnico... todos usan Matplotlib.

> **Clave:** Matplotlib es como aprender a conducir con cambio manual. Luego, cualquier coche automático (Seaborn, Plotly) será fácil.

**Dato curioso:** Matplotlib fue originalmente desarrollada para visualizar señales cerebrales en investigación médica. Hoy visualiza desde galaxias hasta ventas de e-commerce.

---

## 2. Anatomía de un gráfico: Figure y Axes

Antes de graficar, entiende la **estructura**. Un gráfico no es solo líneas y puntos:

```
                    TÍTULO
┌──────────────────────────────────────────┐
│           Leyenda: █ Serie A  █ Serie B  │
│  ┌────────────────────────────────────┐  │
│  │                                ▲   │  │
│E │                                │   │  │
│j │                           Axes │   │  │
│e │                          (área │   │  │
│  │                           gráf)│   │  │
│Y │                                │   │  │
│  │                                │   │  │
│  └────────────────────────────────────┘  │
│                  Eje X                    │
└──────────────────────────────────────────┘
            ETIQUETAS
```

**Componentes clave:**
- **Figure:** El lienzo completo. La ventana donde vive todo.
- **Axes:** El área donde se dibuja el gráfico (ejes X e Y). Puedes tener múltiples Axes en una Figure.
- **Title, Labels, Legend:** Contexto que hace el gráfico comprensible.

```python
import matplotlib.pyplot as plt

# Crear figura y ejes (recomendado: estilo orientado a objetos)
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot([1, 2, 3], [1, 4, 9])
ax.set_title('Mi Primer Gráfico')
ax.set_xlabel('Eje X')
ax.set_ylabel('Eje Y')
plt.show()
```

> **Analogía:** La Figure es el marco de un cuadro; los Axes son el lienzo donde pintas.

**Dos estilos de programación:**
1. **Pyplot (estilo MATLAB):** Rápido para prototipos. `plt.plot()`, `plt.title()`.
2. **Orientado a objetos:** Control total, mejor para producción. `ax.plot()`, `ax.set_title()`. **Este es el recomendado.**

---

## 3. Los 5 tipos de gráficos que debes dominar

| Tipo | Cuándo usarlo | Pregunta que responde | Método |
|------|---------------|----------------------|--------|
| **Línea** | Evolución temporal, tendencias | ¿Cómo cambia en el tiempo? | `ax.plot()` |
| **Barras** | Comparar categorías | ¿Cuál es mayor/menor? | `ax.bar()` |
| **Dispersión** | Relaciones entre variables | ¿Están relacionadas? | `ax.scatter()` |
| **Histograma** | Distribución de datos | ¿Cómo se distribuyen? | `ax.hist()` |
| **Pastel** | Proporciones de un todo | ¿Qué % representa cada parte? | `ax.pie()` |

---

## 4. Gráfico de línea: Visualizar tendencias

**Caso:** Evolución de ventas mensuales de una startup SaaS.

```python
import matplotlib.pyplot as plt

meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun']
ventas = [12, 15, 18, 22, 31, 45]  # En miles de €

fig, ax = plt.subplots(figsize=(10, 6))
ax.plot(meses, ventas, marker='o', linewidth=2.5, color='#2E86AB', markersize=8)
ax.set_title('Crecimiento de Ventas MRR - Q1/Q2 2024', fontsize=16, fontweight='bold', pad=20)
ax.set_xlabel('Mes', fontsize=12)
ax.set_ylabel('MRR (K€)', fontsize=12)
ax.grid(alpha=0.3, linestyle='--')
plt.tight_layout()
plt.show()
```

**Elementos clave:**
- `marker='o'`: Puntos visibles en cada valor.
- `linewidth`: Grosor de línea (2-3 para profesional).
- `color`: Usa códigos hexadecimales (#2E86AB) en lugar de 'blue'.
- `grid()`: Facilita la lectura de valores.

**Impacto:** El equipo detecta aceleración en Mayo y aumenta inversión en marketing.

---

## 5. Gráfico de barras: Comparar categorías

**Caso:** Comparar ventas por producto en un trimestre.

```python
import matplotlib.pyplot as plt
import numpy as np

productos = ['Laptop', 'Tablet', 'Smartphone', 'Smartwatch']
ventas = [230, 180, 420, 95]
colores = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728']

fig, ax = plt.subplots(figsize=(10, 6))
bars = ax.bar(productos, ventas, color=colores, alpha=0.8, edgecolor='black', linewidth=1.2)

# Añadir valores encima de barras
for bar in bars:
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{height}K',
            ha='center', va='bottom', fontweight='bold')

ax.set_title('Ventas por Producto - Q2 2024', fontsize=16, fontweight='bold')
ax.set_ylabel('Unidades Vendidas (miles)', fontsize=12)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.tight_layout()
plt.show()
```

**Insight:** Smartphone domina con 50% de las ventas. Smartwatch necesita una campaña.

---

## 6. Barras agrupadas: Comparaciones múltiples

**Caso:** Comparar ventas regionales entre dos trimestres.

```python
import matplotlib.pyplot as plt
import numpy as np

regiones = ['Norte', 'Sur', 'Este', 'Oeste']
ventas_q1 = [230, 180, 210, 195]
ventas_q2 = [245, 190, 225, 205]

x = np.arange(len(regiones))
width = 0.35

fig, ax = plt.subplots(figsize=(10, 6))
ax.bar(x - width/2, ventas_q1, width, label='Q1 2024', color='#A23B72', alpha=0.8)
ax.bar(x + width/2, ventas_q2, width, label='Q2 2024', color='#F18F01', alpha=0.8)

ax.set_xlabel('Región', fontsize=12)
ax.set_ylabel('Ventas (K€)', fontsize=12)
ax.set_title('Ventas por Región: Q1 vs Q2', fontsize=16, fontweight='bold')
ax.set_xticks(x)
ax.set_xticklabels(regiones)
ax.legend(fontsize=11, loc='upper left')
ax.grid(axis='y', alpha=0.3, linestyle='--')
plt.tight_layout()
plt.show()
```

**Resultado:** Todas las regiones crecen, pero el Sur está estancado. Se decide campaña regional específica.

---

## 7. Histograma: Entender distribuciones

**Caso:** Analizar la distribución de edades de usuarios de una app.

```python
import matplotlib.pyplot as plt
import numpy as np

# Datos simulados: 1000 usuarios
edades = np.random.normal(32, 12, 1000)  # Media 32 años, desv. estándar 12

fig, ax = plt.subplots(figsize=(10, 6))
n, bins, patches = ax.hist(edades, bins=25, color='#2ca02c', alpha=0.7, edgecolor='black')

ax.set_title('Distribución de Edades de Usuarios', fontsize=16, fontweight='bold')
ax.set_xlabel('Edad', fontsize=12)
ax.set_ylabel('Frecuencia', fontsize=12)
ax.axvline(edades.mean(), color='red', linestyle='--', linewidth=2, label=f'Media: {edades.mean():.1f}')
ax.legend()
ax.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()
```

**Insight:** El 68% de usuarios tiene entre 20-44 años. El producto debe enfocarse en ese rango.

> **Tip:** El número de bins importa. Pocos bins = poca información. Muchos bins = ruido. Prueba entre 15-30.

---

## 8. Dispersión: Descubrir relaciones

**Caso:** ¿Más horas de estudio significa mejor nota?

```python
import matplotlib.pyplot as plt
import numpy as np

horas = [2, 5, 7, 9, 11, 13, 15, 18, 20, 22, 25, 28, 30]
notas = [45, 52, 60, 68, 72, 75, 78, 82, 85, 87, 88, 89, 90]

fig, ax = plt.subplots(figsize=(10, 6))
ax.scatter(horas, notas, s=100, alpha=0.6, color='#9467bd', edgecolors='black', linewidth=1)

# Línea de tendencia
z = np.polyfit(horas, notas, 1)
p = np.poly1d(z)
ax.plot(horas, p(horas), "r--", linewidth=2, label='Tendencia')

ax.set_title('Relación: Horas de Estudio vs Calificación', fontsize=16, fontweight='bold')
ax.set_xlabel('Horas de Estudio Semanales', fontsize=12)
ax.set_ylabel('Calificación (%)', fontsize=12)
ax.legend()
ax.grid(alpha=0.3)
plt.tight_layout()
plt.show()
```

**Conclusión:** Hay correlación positiva, pero hay rendimientos decrecientes después de 20 horas.

---

## 9. Subplots: Dashboard completo

**Caso:** Dashboard ejecutivo con 4 métricas clave.

```python
import matplotlib.pyplot as plt
import numpy as np

fig, axes = plt.subplots(2, 2, figsize=(14, 10))
fig.suptitle('Dashboard Ejecutivo - Startup SaaS Q2 2024', fontsize=18, fontweight='bold')

# Gráfico 1: Crecimiento de usuarios
meses = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun']
usuarios = [1000, 2500, 5000, 12000, 25000, 45000]
axes[0, 0].plot(meses, usuarios, 'go-', linewidth=2, markersize=8)
axes[0, 0].set_title('Usuarios Activos Mensuales', fontweight='bold')
axes[0, 0].set_ylabel('Usuarios')
axes[0, 0].grid(alpha=0.3)

# Gráfico 2: Ventas por producto
productos = ['Plan Basic', 'Plan Pro', 'Plan Enterprise']
ventas = [450, 280, 120]
axes[0, 1].bar(productos, ventas, color=['#1f77b4', '#ff7f0e', '#2ca02c'], alpha=0.8)
axes[0, 1].set_title('MRR por Plan', fontweight='bold')
axes[0, 1].set_ylabel('MRR (K€)')

# Gráfico 3: Distribución de churn
churn_rate = np.random.normal(5, 2, 200)  # 5% promedio
axes[1, 0].hist(churn_rate, bins=20, color='#d62728', alpha=0.7, edgecolor='black')
axes[1, 0].set_title('Distribución de Churn Rate', fontweight='bold')
axes[1, 0].set_xlabel('Churn Rate (%)')

# Gráfico 4: NPS vs Uso mensual
uso = np.random.uniform(5, 30, 50)
nps = 40 + 1.5 * uso + np.random.normal(0, 5, 50)
axes[1, 1].scatter(uso, nps, alpha=0.6, s=80, color='#9467bd', edgecolors='black')
axes[1, 1].set_title('NPS vs Uso Mensual', fontweight='bold')
axes[1, 1].set_xlabel('Sesiones/mes')
axes[1, 1].set_ylabel('NPS Score')

plt.tight_layout()
plt.show()
```

> **Tip profesional:** `tight_layout()` ajusta automáticamente espacios para evitar solapamientos.

---

## 10. Integración con Pandas: El combo perfecto

Pandas y Matplotlib trabajan juntos de forma natural.

```python
import pandas as pd
import matplotlib.pyplot as plt

# Crear DataFrame
df = pd.DataFrame({
    'Año': [2019, 2020, 2021, 2022, 2023, 2024],
    'Europa': [100, 115, 135, 160, 195, 230],
    'América': [80, 95, 115, 145, 180, 225],
    'Asia': [60, 85, 130, 200, 280, 380]
})

# Método 1: Plotting directo desde Pandas
df.plot(x='Año', y=['Europa', 'América', 'Asia'],
        kind='line', figsize=(12, 6), marker='o', linewidth=2)
plt.title('Expansión Global - Ventas por Región (2019-2024)', fontsize=16, fontweight='bold')
plt.ylabel('Ventas (millones €)', fontsize=12)
plt.grid(alpha=0.3)
plt.legend(title='Región', fontsize=11)
plt.tight_layout()
plt.show()
```

**Ventaja:** El 90% de tus análisis reales partirán de DataFrames. Domina esta integración.

---

## 11. Personalización profesional: De básico a impresionante

**Antes (básico):**
```python
plt.plot([1, 2, 3], [1, 4, 9])
plt.show()
```

**Después (profesional):**
```python
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot([1, 2, 3], [1, 4, 9],
        linewidth=3,
        color='#2E86AB',
        marker='o',
        markersize=10,
        label='Crecimiento')

ax.set_title('Evolución del KPI Principal', fontsize=18, fontweight='bold', pad=20)
ax.set_xlabel('Trimestre', fontsize=14, fontweight='bold')
ax.set_ylabel('Valor', fontsize=14, fontweight='bold')
ax.legend(fontsize=12, loc='upper left', frameon=True, shadow=True)
ax.grid(True, alpha=0.3, linestyle='--')
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.tight_layout()
plt.show()
```

**Cambios que marcan la diferencia:**
1. **Colores profesionales:** `#2E86AB` en lugar de 'blue'.
2. **Tamaños apropiados:** Título 16-18, ejes 12-14.
3. **Eliminar ruido:** Quitar bordes superior/derecho con `spines`.
4. **Grid sutil:** `alpha=0.3` para no distraer.
5. **Espaciado:** `pad=20` en títulos, `tight_layout()` global.

---

## 12. Errores comunes (y cómo evitarlos)

| Error | Problema | Solución |
|-------|----------|----------|
| **Sin `figsize`** | Gráficos diminutos e ilegibles | `fig, ax = plt.subplots(figsize=(10, 6))` |
| **Colores por defecto** | Aspecto amateur | Paletas hex: `#2E86AB`, `#A23B72` |
| **Títulos vagos** | "Gráfico 1" no dice nada | "Evolución de Ventas Q1 2024" |
| **Sin etiquetas** | Nadie sabe qué es X o Y | Siempre `set_xlabel()`, `set_ylabel()` |
| **Gráficos de pastel** | Difíciles de comparar con >5 categorías | Usa barras horizontales |
| **Demasiada info** | Gráficos sobrecargados | Un mensaje por gráfico |
| **No usar `tight_layout()`** | Elementos cortados o solapados | Añadir antes de `show()` |

> **Regla de oro:** Si tu madre no entiende el gráfico en 5 segundos, simplifícalo.

---

## 13. Guardar gráficos: Exportación profesional

```python
# Crear gráfico
fig, ax = plt.subplots(figsize=(10, 6))
ax.plot([1, 2, 3], [1, 4, 9])
ax.set_title('Mi Análisis')

# Guardar en alta resolución
plt.savefig('analisis_ventas.png',
            dpi=300,                    # Alta calidad
            bbox_inches='tight',        # Sin bordes extra
            facecolor='white',          # Fondo blanco
            edgecolor='none')           # Sin borde exterior

# También en PDF para documentos
plt.savefig('analisis_ventas.pdf', bbox_inches='tight')
```

**Tip:**
- **Presentaciones:** PNG a 300 dpi
- **Papers/Informes:** PDF vectorial
- **Web:** PNG a 150 dpi (más ligero)

---

## 14. Cuándo usar Matplotlib vs otras herramientas

| Situación | Herramienta | Por qué |
|-----------|-------------|---------|
| Control pixel a pixel | ✅ Matplotlib | Máxima flexibilidad |
| Gráficos estadísticos rápidos | Seaborn | Menos código, más bonito |
| Visualizaciones interactivas | Plotly/Bokeh | Hover, zoom, filtros |
| Dashboards empresariales | Tableau/Power BI | No-code, para negocio |
| Publicaciones científicas | ✅ Matplotlib | Estándar académico |
| Exploración rápida de datos | Pandas.plot | Integrado con DataFrames |

---

## 15. Flujo de trabajo recomendado

**Proceso para crear visualizaciones efectivas:**

1. **Define el mensaje:** ¿Qué historia cuenta? (ej. "Las ventas suben en Q2").
2. **Elige el tipo correcto:** Línea (tendencia), barras (comparar), dispersión (relación).
3. **Crea versión básica:** Sin personalización. Solo datos y tipo.
4. **Itera y mejora:** Títulos, colores, leyendas, grid.
5. **Valida:** ¿Se entiende sin contexto adicional?
6. **Exporta:** Alta resolución para uso profesional.

**Checklist antes de compartir:**
- [ ] Título descriptivo y claro
- [ ] Ejes etiquetados con unidades
- [ ] Leyenda (si hay múltiples series)
- [ ] Colores con buen contraste
- [ ] Grid sutil para facilitar lectura
- [ ] Sin elementos innecesarios (bordes, texto extra)

---

## 16. Resumen

- **Matplotlib** es la base de visualización en Python: control total, compatibilidad universal.
- **Estructura:** Figure (lienzo) + Axes (área de gráfico).
- **5 tipos clave:** Línea (tendencias), barras (comparar), dispersión (relaciones), histograma (distribuciones), pastel (proporciones).
- **Estilo orientado a objetos** (`fig, ax = plt.subplots()`) es el recomendado para código limpio.
- **Profesionaliza:** Colores hex, tamaños apropiados, eliminar ruido visual, `tight_layout()`.
- **Integración con Pandas:** El 90% de análisis reales usa DataFrames.

> **Siguiente paso:** Ahora que dominas Matplotlib, Seaborn (próxima lección) será pan comido. Seaborn es Matplotlib con esteroides.

---

## 17. Ejercicio práctico

**Desafío:** Crea un dashboard de 4 gráficos con datos de tu interés:

1. **Línea:** Evolución temporal (ej. temperatura diaria)
2. **Barras:** Comparación categórica (ej. ventas por producto)
3. **Histograma:** Distribución (ej. edades)
4. **Dispersión:** Relación entre variables (ej. horas estudio vs nota)

**Requisitos de calidad:**
- Títulos descriptivos
- Ejes etiquetados
- Colores profesionales (hex)
- Grid sutil
- Exportar a PNG (300 dpi)

---

## 18. Referencias

### Documentación Oficial
- [Matplotlib Documentation](https://matplotlib.org/stable/contents.html)
- [Matplotlib Gallery - Ejemplos por tipo](https://matplotlib.org/stable/gallery/index.html)
- [Matplotlib Cheat Sheet](https://matplotlib.org/cheatsheets/)

### Vídeos Recomendados
- [Matplotlib Tutorial for Beginners (freeCodeCamp)](https://youtu.be/3Xc3CA655Y4)
- [Matplotlib Crash Course](https://youtu.be/UO98lJQ3QGI)
- [Python Matplotlib Tutorial Español](https://youtu.be/mVHcyP9OhE0)

### Lecturas y Recursos
- [Python Graph Gallery - Matplotlib](https://python-graph-gallery.com/matplotlib/)
- [From Data to Viz - Guía de selección de gráficos](https://www.data-to-viz.com/)
- [Real Python - Matplotlib Guide](https://realpython.com/python-matplotlib-guide/)

### Práctica Interactiva
- [Matplotlib Exercises (w3resource)](https://www.w3resource.com/graphics/matplotlib/)
- [DataCamp Matplotlib Course](https://www.datacamp.com/courses/introduction-to-data-visualization-with-matplotlib)

---

**¡Ahora a crear visualizaciones que cuenten historias! 📊🎨**