<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_2_1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lección 2.1.1: Metodología de EDA

## 1. ¿Qué es EDA y por qué es fundamental?

El Análisis Exploratorio de Datos (EDA) es **el arte de escuchar lo que los datos tienen que contarte** antes de sacar conclusiones. Es como ser un detective en la escena del crimen: primero observas, recoges pistas y comprendes el contexto, antes de resolver el caso.

> **Idea clave:** EDA no es confirmar hipótesis, sino descubrir lo inesperado.

**¿Por qué dedicar tiempo a EDA?**
- 🔍 **Evita sorpresas:** Encuentras problemas de calidad antes que arruinen tu análisis
- 🎯 **Guía tu estrategia:** Descubres qué preguntas vale la pena responder
- ⏱️ **Ahorra tiempo:** Identificas el camino más eficiente
- 🛡️ **Genera confianza:** Entiendes realmente con qué trabajas

**Ejemplo real:** Un equipo de marketing gasta 2 semanas en un modelo de segmentación, para descubrir que el 40% de emails estaban mal formateados. **15 minutos de EDA lo hubiera detectado.**

> **Principio EDA:** "Es mejor descubrir un problema en 5 minutos de EDA que después de 5 días de modelado."

---

## 2. Los 4 pilares del EDA efectivo

Todo EDA robusto se construye sobre estos fundamentos:

| Pilar | Pregunta clave | Foco |
|-------|----------------|------|
| 🔍 **Descripción General** | ¿Con qué estoy trabajando? | Volumen, estructura, tipos de datos |
| 🧹 **Calidad y Limpieza** | ¿Puedo confiar en esto? | Nulos, duplicados, errores, outliers |
| 📊 **Distribuciones** | ¿Cómo se comportan? | Patrones, tendencias, agrupaciones |
| 🔗 **Relaciones** | ¿Cómo se conectan? | Correlaciones, asociaciones, interacciones |

> **Importante:** Estos pilares no son secuenciales. EDA es un proceso iterativo donde vuelves atrás según lo que descubres.

---

## 3. Metodología paso a paso: Las 5 fases

### **Fase 1: Reconocimiento del Terreno** (15% del tiempo)

**Objetivo:** Entender el landscape completo de tus datos.

```python
# Primer vistazo esencial
print(f"Dimensiones: {df.shape}")
print(f"Tipos de datos:\n{df.dtypes}")
print(f"Primeras filas:\n{df.head()}")
print(f"Estadísticas básicas:\n{df.describe()}")
```

**Checklist Fase 1:**
- [ ] ¿Cuántas filas y columnas tengo?
- [ ] ¿Qué tipos de datos hay en cada columna?
- [ ] ¿Hay columna temporal o identificadora?
- [ ] ¿Cuál es el contexto de negocio?

---

### **Fase 2: Auditoría de Calidad** (30% del tiempo)

**Objetivo:** Identificar y cuantificar problemas de datos.

```python
# Diagnóstico de calidad
print("Valores faltantes:\n", df.isnull().sum())
print("Duplicados:", df.duplicated().sum())
print("Valores únicos:\n", df.nunique())
```

**Checklist Fase 2:**
- [ ] ¿Qué columnas tienen nulos y en qué %?
- [ ] ¿Hay filas duplicadas?
- [ ] ¿Los formatos son consistentes?
- [ ] ¿Existen valores imposibles?

---

### **Fase 3: Análisis Univariado** (25% del tiempo)

**Objetivo:** Comprender cada variable individualmente.

| Tipo de variable | Técnicas | Visualizaciones |
|------------------|----------|-----------------|
| **Numérica** | Media, mediana, std, percentiles | Histograma, boxplot |
| **Categórica** | Frecuencias, proporciones | Gráfico de barras |
| **Temporal** | Tendencias, estacionalidad | Line plot, series |

---

### **Fase 4: Análisis Multivariado** (20% del tiempo)

**Objetivo:** Descubrir relaciones entre variables.

**Técnicas clave:**
- Matrices de correlación (variables numéricas)
- Tablas cruzadas (categóricas)
- Scatter plots (relaciones numéricas)
- Segmentación (grupos naturales)

---

### **Fase 5: Síntesis y Siguientes Pasos** (10% del tiempo)

**Objetivo:** Consolidar hallazgos y planificar.

**Entregables:**
- ✅ Resumen ejecutivo de hallazgos
- ✅ Lista de problemas a resolver
- ✅ Hipótesis a validar
- ✅ Recomendaciones para feature engineering

---

## 4. Caso práctico: EDA de ventas e-commerce

**Contexto:** Dataset de 50,000 transacciones de un e-commerce con 8 columnas: fecha, producto, categoría, precio, cantidad, cliente, ciudad, rating.

### **Fase 1: Reconocimiento**
```python
# Hallazgos iniciales
print(df.shape)  # (50000, 8)
print(df.dtypes)
# → Entiendo: transacciones de venta con datos de cliente y producto
```

### **Fase 2: Auditoría de Calidad**
```python
# Problemas encontrados
print(df.isnull().sum())
# → 5% de ratings faltantes
# → 120 transacciones con cantidad = 0 (¿devoluciones?)
# → 2 categorías inconsistentes: 'Electrónicos' vs 'Electro'
```

### **Fase 3: Análisis Individual**
```python
# Insights por variable
print(df['precio'].describe())
# → Mayoría $20-$100, outliers >$500

print(df['categoria'].value_counts())
# → Ropa (40%), Electrónicos (30%), Hogar (30%)

print(df['cliente'].nunique())
# → 45% recurrentes, 55% nuevos
```

### **Fase 4: Relaciones**
```python
# Conexiones descubiertas
import seaborn as sns
sns.scatterplot(data=df, x='precio', y='rating')
# → Productos caros tienen mejores ratings

df.groupby(['categoria', 'recurrente']).size()
# → Clientes recurrentes prefieren 'Ropa'

df.groupby(df['fecha'].dt.dayofweek)['cantidad'].sum()
# → Ventas peak los fines de semana
```

### **Fase 5: Conclusiones**
**Hallazgos principales:**
1. Datos mayormente limpios (excepto ratings)
2. Oportunidad de cross-selling electrónicos → ropa
3. Segmentación clara: clientes nuevos vs recurrentes

**Próximos pasos:**
- Limpiar categorías inconsistentes
- Investigar transacciones cantidad = 0
- Análisis de cohortes por fecha de primera compra

---

## 5. Herramientas esenciales para EDA

### **Función mágica: EDA rápido**
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def eda_rapido(df):
    """Función para EDA express"""
    print("=== RESUMEN EJECUTIVO ===")
    print(f"Shape: {df.shape}")
    print(f"Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
    print("\n=== VALORES FALTANTES ===")
    print(df.isnull().sum()[df.isnull().sum() > 0])
    
    print("\n=== TIPOS DE DATOS ===")
    print(df.dtypes.value_counts())
    
    print("\n=== DUPLICADOS ===")
    print(f"Total: {df.duplicated().sum()}")

# Uso: eda_rapido(mi_dataframe)
```

### **Dashboard de visualización rápido**
```python
# Dashboard completo en 4 gráficos
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 1. Histograma de variable numérica
df['precio'].hist(ax=axes[0,0], bins=30, edgecolor='black')
axes[0,0].set_title('Distribución de Precios')

# 2. Countplot de variable categórica
df['categoria'].value_counts().plot(kind='bar', ax=axes[0,1], color='skyblue')
axes[0,1].set_title('Frecuencia por Categoría')

# 3. Boxplot para outliers
df.boxplot(column='precio', by='categoria', ax=axes[1,0])
axes[1,0].set_title('Precios por Categoría')

# 4. Matriz de correlación
sns.heatmap(df.select_dtypes(include=[np.number]).corr(),
            annot=True, fmt='.2f', ax=axes[1,1], cmap='coolwarm')
axes[1,1].set_title('Matriz de Correlación')

plt.tight_layout()
plt.show()
```

---

## 6. Errores comunes y cómo evitarlos

| Error | Consecuencia | Solución |
|-------|--------------|----------|
| **Saltarse el EDA** | Análisis basado en datos sucios | Dedicar mínimo 20% del tiempo a EDA |
| **Solo mirar promedios** | Perder la variabilidad real | Analizar distribuciones completas |
| **Ignorar el contexto** | Interpretaciones incorrectas | Entender el negocio primero |
| **Over-engineering** | Complejidad innecesaria | Mantenerlo simple al inicio |
| **No documentar** | No reproducibilidad | Comentar hallazgos en notebooks |
| **Asumir sin verificar** | Errores silenciosos | Verificar todo (tipos, rangos, formatos) |

> **Regla de oro:** Si no entiendes tus datos, no puedes confiar en tus modelos.

---

## 7. Checklist completo de EDA

### ✅ **Reconocimiento Inicial**
- [ ] Dimensiones del dataset (filas × columnas)
- [ ] Tipos de datos por columna
- [ ] Contexto de negocio documentado
- [ ] Primera inspección visual (`df.head()`)

### ✅ **Calidad de Datos**
- [ ] Valores nulos: identificados, cuantificados, justificados
- [ ] Duplicados: eliminados o entendidos
- [ ] Formatos consistentes (fechas, textos, números)
- [ ] Outliers: identificados y validados con negocio

### ✅ **Análisis Univariado**
- [ ] Distribuciones de variables numéricas (histogramas)
- [ ] Frecuencias de variables categóricas (barras)
- [ ] Estadísticas descriptivas calculadas
- [ ] Patrones temporales explorados (si aplica)

### ✅ **Análisis Multivariado**
- [ ] Correlaciones entre numéricas (heatmap)
- [ ] Relaciones categórico-numéricas (boxplots agrupados)
- [ ] Segmentaciones naturales identificadas
- [ ] Tablas cruzadas para categóricas

### ✅ **Síntesis Final**
- [ ] Hallazgos clave resumidos (3-5 puntos)
- [ ] Problemas de datos priorizados
- [ ] Hipótesis para validar listadas
- [ ] Próximos pasos definidos

---

## 8. EDA en el ciclo de datos

EDA no es un paso aislado, se integra en múltiples momentos:

```
Recolección → [EDA] → Limpieza → [EDA] → Feature Engineering → [EDA] → Modelado
```

**¿Por qué repetir EDA?**
- **Después de recolección:** Entender qué recibiste
- **Después de limpieza:** Verificar que no rompiste nada
- **Después de feature engineering:** Validar nuevas variables

**Ejemplo:** En Netflix, el equipo de recomendación hace EDA en:
1. Al recibir datos de visualización → entender comportamiento
2. Después de limpiar → validar integridad
3. Después de crear features → verificar utilidad

---

## 9. Resumen

**EDA es:**
- ✅ **Detective work:** Observar antes de concluir
- ✅ **Proceso estructurado:** 5 fases con tiempos definidos
- ✅ **Iterativo:** Vuelves según lo que descubres
- ✅ **Inversión:** Cada minuto ahorra horas después

**Los 4 pilares:**
1. **Descripción** → ¿Qué tengo?
2. **Calidad** → ¿Puedo confiar?
3. **Distribuciones** → ¿Cómo se comporta?
4. **Relaciones** → ¿Cómo se conecta?

**Reparto de tiempo recomendado:**
- 15% Reconocimiento
- 30% Auditoría de calidad ← *La más importante*
- 25% Análisis univariado
- 20% Análisis multivariado
- 10% Síntesis

> **Takeaway final:** EDA no es opcional, es la base de cualquier análisis confiable. Transforma datos crudos en comprensión profunda.

---

## 10. Referencias

### Vídeos
- [EDA con Python - Tutorial Completo](https://youtu.be/example1)
- [Data Cleaning Best Practices](https://youtu.be/example2)
- [Common EDA Mistakes to Avoid](https://youtu.be/example3)

### Lecturas
- ["Exploratory Data Analysis" - Tukey (1977)](https://example.com) - El libro fundacional
- [Pandas Documentation - Data Analysis](https://pandas.pydata.org/docs/)
- [Seaborn Gallery](https://seaborn.pydata.org/examples/index.html) - Ejemplos de visualización

### Herramientas
- [Pandas Profiling](https://github.com/pandas-profiling/pandas-profiling) - EDA automatizado
- [Sweetviz](https://github.com/fbdesignpro/sweetviz) - Reportes visuales
- [D-Tale](https://github.com/man-group/dtale) - EDA interactivo