# Sesión 1 — Del dato crudo al problema analítico

**Objetivo:** Interpretar el dataset como representación de un proceso empresarial, distinguir tipos de análisis y detectar errores antes de modelar.

**Duración:** 2 horas

**Dataset:** Telco Customer Churn (IBM)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

# Cargar dataset (ruta relativa: funciona desde notebooks/ o desde raíz)
data_path = '../data/telco_churn.csv' if os.path.exists('../data/telco_churn.csv') else 'data/telco_churn.csv'
df = pd.read_csv(data_path)
df.head()

---

## Actividad 1 — EDA técnico estructurado (50 min)

**Checklist obligatorio:**

1. **Carga y validación:** `.info()`, `.describe(include="all")`, cardinalidad, tipos incorrectos
2. **Calidad de datos:** % missing, outliers (IQR o z-score), asimetría y curtosis
3. **Univariado/bivariado:** histogramas, boxplots, conteos, correlación Pearson, heatmap
4. **Temporal:** tendencia (si aplica)

**Entregable:** Usar `entregables/plantilla_informe_eda.md`

### 1.1 Carga y validación

In [None]:
# df.info()
# df.describe(include="all")
# df.nunique()  # Cardinalidad
# df.dtypes     # ¿Hay tipos incorrectos? (ej. TotalCharges como object)

### 1.2 Calidad de datos

In [None]:
# % missing por columna
# df.isnull().sum() / len(df) * 100

# Outliers: IQR o z-score > 3
# Asimetría: df.skew()
# Curtosis: df.kurtosis()

### 1.3 Análisis univariado y bivariado

In [None]:
# Histogramas de variables numéricas
# Boxplots
# value_counts() para categóricas
# Correlación Pearson + heatmap (solo numéricas)

### 1.4 Análisis temporal (si aplica)

In [None]:
# Tendencia por tenure o variable temporal disponible

---

## Actividad 2 — Tipología de preguntas analíticas (25 min)

Formular 1 pregunta de cada tipo y asociar la técnica que la responde.

**Entregable:** Tabla en `entregables/plantilla_tabla_kpis.md` o en celda inferior.

| Pregunta | Tipo | Técnica que responde | Justificación breve |
|----------|------|----------------------|--------------------|
| ... | Descriptiva | SQL/BI | ... |
| ... | Diagnóstica | Estadística clásica | ... |
| ... | Predictiva | ML supervisado | ... |
| ... | Prescriptiva | Optimización | ... |

---

## Actividad 3 — KPIs y formalización matemática (25 min)

Proponer 3 KPIs, expresarlos formalmente y clasificarlos.

**Entregable:** Tabla con KPI, Fórmula, Tipo (Lagging/Leading), Modelable, Decisión asociada.

| KPI | Fórmula | Tipo | Modelable | Decisión asociada |
|-----|---------|------|-----------|-------------------|
| ... | ... | Lagging/Leading | Sí/No | ... |

---

## Actividad 4 — Error conceptual intencional (20 min)

**Variable objetivo preliminar (con errores):** "Cliente que canceló en el último mes"

Identificar:
1. Problema de **definición**
2. Problema **temporal**
3. Posible **fuga de datos**

Responder: ¿Qué modelo entrenaría erróneamente y por qué?

**Respuesta:**

- Problema de definición: ...
- Problema temporal: ...
- Fuga de datos: ...
- Modelo erróneo: ...