<a href="https://colab.research.google.com/github/financieras/big_data/blob/main/leccion_2_1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lecci√≥n 2.1.1: Metodolog√≠a de EDA

## 1. ¬øQu√© es EDA y por qu√© es fundamental?

El An√°lisis Exploratorio de Datos (EDA) es **el arte de escuchar lo que los datos tienen que contarte** antes de sacar conclusiones. Es como ser un detective en la escena del crimen: primero observas, recoges pistas y comprendes el contexto, antes de resolver el caso.

> **Idea clave:** EDA no es confirmar hip√≥tesis, sino descubrir lo inesperado.

**¬øPor qu√© dedicar tiempo a EDA?**
- üîç **Evita sorpresas:** Encuentras problemas de calidad antes que arruinen tu an√°lisis
- üéØ **Gu√≠a tu estrategia:** Descubres qu√© preguntas vale la pena responder
- ‚è±Ô∏è **Ahorra tiempo:** Identificas el camino m√°s eficiente
- üõ°Ô∏è **Genera confianza:** Entiendes realmente con qu√© trabajas

**Ejemplo real:** Un equipo de marketing gasta 2 semanas en un modelo de segmentaci√≥n, para descubrir que el 40% de emails estaban mal formateados. **15 minutos de EDA lo hubiera detectado.**

> **Principio EDA:** "Es mejor descubrir un problema en 5 minutos de EDA que despu√©s de 5 d√≠as de modelado."

---

## 2. Los 4 pilares del EDA efectivo

Todo EDA robusto se construye sobre estos fundamentos:

| Pilar | Pregunta clave | Foco |
|-------|----------------|------|
| üîç **Descripci√≥n General** | ¬øCon qu√© estoy trabajando? | Volumen, estructura, tipos de datos |
| üßπ **Calidad y Limpieza** | ¬øPuedo confiar en esto? | Nulos, duplicados, errores, outliers |
| üìä **Distribuciones** | ¬øC√≥mo se comportan? | Patrones, tendencias, agrupaciones |
| üîó **Relaciones** | ¬øC√≥mo se conectan? | Correlaciones, asociaciones, interacciones |

> **Importante:** Estos pilares no son secuenciales. EDA es un proceso iterativo donde vuelves atr√°s seg√∫n lo que descubres.

---

## 3. Metodolog√≠a paso a paso: Las 5 fases

### **Fase 1: Reconocimiento del Terreno** (15% del tiempo)

**Objetivo:** Entender el landscape completo de tus datos.

```python
# Primer vistazo esencial
print(f"Dimensiones: {df.shape}")
print(f"Tipos de datos:\n{df.dtypes}")
print(f"Primeras filas:\n{df.head()}")
print(f"Estad√≠sticas b√°sicas:\n{df.describe()}")
```

**Checklist Fase 1:**
- [ ] ¬øCu√°ntas filas y columnas tengo?
- [ ] ¬øQu√© tipos de datos hay en cada columna?
- [ ] ¬øHay columna temporal o identificadora?
- [ ] ¬øCu√°l es el contexto de negocio?

---

### **Fase 2: Auditor√≠a de Calidad** (30% del tiempo)

**Objetivo:** Identificar y cuantificar problemas de datos.

```python
# Diagn√≥stico de calidad
print("Valores faltantes:\n", df.isnull().sum())
print("Duplicados:", df.duplicated().sum())
print("Valores √∫nicos:\n", df.nunique())
```

**Checklist Fase 2:**
- [ ] ¬øQu√© columnas tienen nulos y en qu√© %?
- [ ] ¬øHay filas duplicadas?
- [ ] ¬øLos formatos son consistentes?
- [ ] ¬øExisten valores imposibles?

---

### **Fase 3: An√°lisis Univariado** (25% del tiempo)

**Objetivo:** Comprender cada variable individualmente.

| Tipo de variable | T√©cnicas | Visualizaciones |
|------------------|----------|-----------------|
| **Num√©rica** | Media, mediana, std, percentiles | Histograma, boxplot |
| **Categ√≥rica** | Frecuencias, proporciones | Gr√°fico de barras |
| **Temporal** | Tendencias, estacionalidad | Line plot, series |

---

### **Fase 4: An√°lisis Multivariado** (20% del tiempo)

**Objetivo:** Descubrir relaciones entre variables.

**T√©cnicas clave:**
- Matrices de correlaci√≥n (variables num√©ricas)
- Tablas cruzadas (categ√≥ricas)
- Scatter plots (relaciones num√©ricas)
- Segmentaci√≥n (grupos naturales)

---

### **Fase 5: S√≠ntesis y Siguientes Pasos** (10% del tiempo)

**Objetivo:** Consolidar hallazgos y planificar.

**Entregables:**
- ‚úÖ Resumen ejecutivo de hallazgos
- ‚úÖ Lista de problemas a resolver
- ‚úÖ Hip√≥tesis a validar
- ‚úÖ Recomendaciones para feature engineering

---

## 4. Caso pr√°ctico: EDA de ventas e-commerce

**Contexto:** Dataset de 50,000 transacciones de un e-commerce con 8 columnas: fecha, producto, categor√≠a, precio, cantidad, cliente, ciudad, rating.

### **Fase 1: Reconocimiento**
```python
# Hallazgos iniciales
print(df.shape)  # (50000, 8)
print(df.dtypes)
# ‚Üí Entiendo: transacciones de venta con datos de cliente y producto
```

### **Fase 2: Auditor√≠a de Calidad**
```python
# Problemas encontrados
print(df.isnull().sum())
# ‚Üí 5% de ratings faltantes
# ‚Üí 120 transacciones con cantidad = 0 (¬ødevoluciones?)
# ‚Üí 2 categor√≠as inconsistentes: 'Electr√≥nicos' vs 'Electro'
```

### **Fase 3: An√°lisis Individual**
```python
# Insights por variable
print(df['precio'].describe())
# ‚Üí Mayor√≠a $20-$100, outliers >$500

print(df['categoria'].value_counts())
# ‚Üí Ropa (40%), Electr√≥nicos (30%), Hogar (30%)

print(df['cliente'].nunique())
# ‚Üí 45% recurrentes, 55% nuevos
```

### **Fase 4: Relaciones**
```python
# Conexiones descubiertas
import seaborn as sns
sns.scatterplot(data=df, x='precio', y='rating')
# ‚Üí Productos caros tienen mejores ratings

df.groupby(['categoria', 'recurrente']).size()
# ‚Üí Clientes recurrentes prefieren 'Ropa'

df.groupby(df['fecha'].dt.dayofweek)['cantidad'].sum()
# ‚Üí Ventas peak los fines de semana
```

### **Fase 5: Conclusiones**
**Hallazgos principales:**
1. Datos mayormente limpios (excepto ratings)
2. Oportunidad de cross-selling electr√≥nicos ‚Üí ropa
3. Segmentaci√≥n clara: clientes nuevos vs recurrentes

**Pr√≥ximos pasos:**
- Limpiar categor√≠as inconsistentes
- Investigar transacciones cantidad = 0
- An√°lisis de cohortes por fecha de primera compra

---

## 5. Herramientas esenciales para EDA

### **Funci√≥n m√°gica: EDA r√°pido**
```python
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def eda_rapido(df):
    """Funci√≥n para EDA express"""
    print("=== RESUMEN EJECUTIVO ===")
    print(f"Shape: {df.shape}")
    print(f"Memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
    print("\n=== VALORES FALTANTES ===")
    print(df.isnull().sum()[df.isnull().sum() > 0])
    
    print("\n=== TIPOS DE DATOS ===")
    print(df.dtypes.value_counts())
    
    print("\n=== DUPLICADOS ===")
    print(f"Total: {df.duplicated().sum()}")

# Uso: eda_rapido(mi_dataframe)
```

### **Dashboard de visualizaci√≥n r√°pido**
```python
# Dashboard completo en 4 gr√°ficos
fig, axes = plt.subplots(2, 2, figsize=(12, 10))

# 1. Histograma de variable num√©rica
df['precio'].hist(ax=axes[0,0], bins=30, edgecolor='black')
axes[0,0].set_title('Distribuci√≥n de Precios')

# 2. Countplot de variable categ√≥rica
df['categoria'].value_counts().plot(kind='bar', ax=axes[0,1], color='skyblue')
axes[0,1].set_title('Frecuencia por Categor√≠a')

# 3. Boxplot para outliers
df.boxplot(column='precio', by='categoria', ax=axes[1,0])
axes[1,0].set_title('Precios por Categor√≠a')

# 4. Matriz de correlaci√≥n
sns.heatmap(df.select_dtypes(include=[np.number]).corr(),
            annot=True, fmt='.2f', ax=axes[1,1], cmap='coolwarm')
axes[1,1].set_title('Matriz de Correlaci√≥n')

plt.tight_layout()
plt.show()
```

---

## 6. Errores comunes y c√≥mo evitarlos

| Error | Consecuencia | Soluci√≥n |
|-------|--------------|----------|
| **Saltarse el EDA** | An√°lisis basado en datos sucios | Dedicar m√≠nimo 20% del tiempo a EDA |
| **Solo mirar promedios** | Perder la variabilidad real | Analizar distribuciones completas |
| **Ignorar el contexto** | Interpretaciones incorrectas | Entender el negocio primero |
| **Over-engineering** | Complejidad innecesaria | Mantenerlo simple al inicio |
| **No documentar** | No reproducibilidad | Comentar hallazgos en notebooks |
| **Asumir sin verificar** | Errores silenciosos | Verificar todo (tipos, rangos, formatos) |

> **Regla de oro:** Si no entiendes tus datos, no puedes confiar en tus modelos.

---

## 7. Checklist completo de EDA

### ‚úÖ **Reconocimiento Inicial**
- [ ] Dimensiones del dataset (filas √ó columnas)
- [ ] Tipos de datos por columna
- [ ] Contexto de negocio documentado
- [ ] Primera inspecci√≥n visual (`df.head()`)

### ‚úÖ **Calidad de Datos**
- [ ] Valores nulos: identificados, cuantificados, justificados
- [ ] Duplicados: eliminados o entendidos
- [ ] Formatos consistentes (fechas, textos, n√∫meros)
- [ ] Outliers: identificados y validados con negocio

### ‚úÖ **An√°lisis Univariado**
- [ ] Distribuciones de variables num√©ricas (histogramas)
- [ ] Frecuencias de variables categ√≥ricas (barras)
- [ ] Estad√≠sticas descriptivas calculadas
- [ ] Patrones temporales explorados (si aplica)

### ‚úÖ **An√°lisis Multivariado**
- [ ] Correlaciones entre num√©ricas (heatmap)
- [ ] Relaciones categ√≥rico-num√©ricas (boxplots agrupados)
- [ ] Segmentaciones naturales identificadas
- [ ] Tablas cruzadas para categ√≥ricas

### ‚úÖ **S√≠ntesis Final**
- [ ] Hallazgos clave resumidos (3-5 puntos)
- [ ] Problemas de datos priorizados
- [ ] Hip√≥tesis para validar listadas
- [ ] Pr√≥ximos pasos definidos

---

## 8. EDA en el ciclo de datos

EDA no es un paso aislado, se integra en m√∫ltiples momentos:

```
Recolecci√≥n ‚Üí [EDA] ‚Üí Limpieza ‚Üí [EDA] ‚Üí Feature Engineering ‚Üí [EDA] ‚Üí Modelado
```

**¬øPor qu√© repetir EDA?**
- **Despu√©s de recolecci√≥n:** Entender qu√© recibiste
- **Despu√©s de limpieza:** Verificar que no rompiste nada
- **Despu√©s de feature engineering:** Validar nuevas variables

**Ejemplo:** En Netflix, el equipo de recomendaci√≥n hace EDA en:
1. Al recibir datos de visualizaci√≥n ‚Üí entender comportamiento
2. Despu√©s de limpiar ‚Üí validar integridad
3. Despu√©s de crear features ‚Üí verificar utilidad

---

## 9. Resumen

**EDA es:**
- ‚úÖ **Detective work:** Observar antes de concluir
- ‚úÖ **Proceso estructurado:** 5 fases con tiempos definidos
- ‚úÖ **Iterativo:** Vuelves seg√∫n lo que descubres
- ‚úÖ **Inversi√≥n:** Cada minuto ahorra horas despu√©s

**Los 4 pilares:**
1. **Descripci√≥n** ‚Üí ¬øQu√© tengo?
2. **Calidad** ‚Üí ¬øPuedo confiar?
3. **Distribuciones** ‚Üí ¬øC√≥mo se comporta?
4. **Relaciones** ‚Üí ¬øC√≥mo se conecta?

**Reparto de tiempo recomendado:**
- 15% Reconocimiento
- 30% Auditor√≠a de calidad ‚Üê *La m√°s importante*
- 25% An√°lisis univariado
- 20% An√°lisis multivariado
- 10% S√≠ntesis

> **Takeaway final:** EDA no es opcional, es la base de cualquier an√°lisis confiable. Transforma datos crudos en comprensi√≥n profunda.

---

## 10. Referencias

### V√≠deos
- [EDA con Python - Tutorial Completo](https://youtu.be/example1)
- [Data Cleaning Best Practices](https://youtu.be/example2)
- [Common EDA Mistakes to Avoid](https://youtu.be/example3)

### Lecturas
- ["Exploratory Data Analysis" - Tukey (1977)](https://example.com) - El libro fundacional
- [Pandas Documentation - Data Analysis](https://pandas.pydata.org/docs/)
- [Seaborn Gallery](https://seaborn.pydata.org/examples/index.html) - Ejemplos de visualizaci√≥n

### Herramientas
- [Pandas Profiling](https://github.com/pandas-profiling/pandas-profiling) - EDA automatizado
- [Sweetviz](https://github.com/fbdesignpro/sweetviz) - Reportes visuales
- [D-Tale](https://github.com/man-group/dtale) - EDA interactivo