# Ejercicios: Preparación de Datos y División de Conjuntos

## Ejercicio 1: Exploración Básica de Datos

**Dificultad:** Básica

Tienes un nuevo dataset llamado `cars.csv` con información sobre vehículos (precio, año, kilometraje, tipo_combustible, marca).

**Tareas:**

1. Carga el dataset usando pandas
2. Muestra las primeras 10 filas
3. Obtén información general del dataset (número de instancias, tipos de datos, valores nulos)
4. Calcula estadísticas descriptivas para las variables numéricas
5. Identifica cuántas categorías únicas existen en la columna `marca`
6. Crea histogramas para todas las variables numéricas

**Preguntas reflexivas:**

- ¿Qué variables tienen valores nulos?
- ¿Qué distribución observas en el precio? ¿Es simétrica o sesgada?
- ¿Necesitarías aplicar alguna transformación a los datos?

---

## Ejercicio 2: División Simple de Datos

**Dificultad:** Básica

Dado un dataset con 1,000 instancias:

**Tareas:**

1. Implementa una función `simple_split(data, test_ratio)` que divida aleatoriamente el dataset
2. Usa esta función para crear un conjunto de entrenamiento (80%) y prueba (20%)
3. Ejecuta la función 3 veces sin fijar una semilla aleatoria
4. Ejecuta la función 3 veces con `np.random.seed(42)` antes de cada llamada

**Preguntas:**

- ¿Por qué los resultados varían en el primer caso?
- ¿Qué problema podría surgir si ejecutas tu modelo múltiples veces con divisiones diferentes?
- ¿Cuál es la diferencia entre usar una semilla aleatoria y no usarla?

---

## Ejercicio 3: División Basada en Hash

**Dificultad:** Intermedia

**Contexto:** Imagina que tu dataset de clientes se actualiza semanalmente con nuevos registros.

**Tareas:**

1. Crea un dataset simulado con 500 clientes (usa `customer_id`, `age`, `income`, `purchase_amount`)
2. Implementa una función de división basada en hash usando el `customer_id`
3. Simula agregar 100 nuevos clientes al dataset original
4. Aplica nuevamente la división basada en hash
5. Verifica que los clientes originales permanezcan en el mismo conjunto (entrenamiento o prueba)

**Preguntas:**

- ¿Qué ventaja tiene este método sobre el random splitting?
- ¿Qué sucedería si un cliente fuera eliminado del dataset?
- ¿Cuándo preferirías usar hash-based splitting en lugar de random splitting?

---

## Ejercicio 4: Stratified Sampling

**Dificultad:** Intermedia-Avanzada

**Contexto:** Tienes un dataset de admisiones universitarias con 2,000 estudiantes.

**Tareas:**

1. Crea un dataset simulado con las siguientes columnas:
   - `gpa` (promedio académico: 2.0 a 4.0)
   - `test_score` (puntaje de examen: 400 a 1600)
   - `family_income` (ingreso familiar: $20k a $200k)
   - `admitted` (1 = admitido, 0 = rechazado)

2. Observa que solo el 25% de los estudiantes son admitidos (distribución desbalanceada)
3. Crea un conjunto de prueba usando:
   - Random sampling
   - Stratified sampling (usando `admitted` como variable de estratificación)
4. Compara las proporciones de estudiantes admitidos en ambos conjuntos de prueba
5. Repite el experimento 10 veces y calcula el promedio de la proporción de admitidos

**Preguntas:**

- ¿Cuál método mantiene mejor la proporción original?
- ¿Por qué es importante mantener esta proporción en clases desbalanceadas?
- ¿En qué situaciones el stratified sampling NO sería necesario?

---

## Ejercicio 5: Binning para Stratified Sampling

**Dificultad:** Avanzada

**Contexto:** Tienes un dataset de empleados con salarios continuos ($30k - $200k).

**Tareas:**

1. Crea un dataset con 1,500 empleados y variables: `salary`, `years_experience`, `education_level`, `department`
2. Crea 4 categorías de salario usando `pd.cut()`:
   - Bajo: $30k - $50k
   - Medio-Bajo: $50k - $80k
   - Medio-Alto: $80k - $120k
   - Alto: $120k+
3. Visualiza la distribución de estas categorías con un gráfico de barras
4. Realiza stratified sampling usando estas categorías
5. Verifica que las proporciones se mantengan en train y test
6. Elimina la columna temporal de categorías

**Preguntas:**

- ¿Por qué es necesario crear bins de una variable continua para hacer stratified sampling?
- ¿Cómo decidirías dónde colocar los límites de los bins?
- ¿Qué pasaría si una categoría tiene muy pocas instancias?

---

## Ejercicio 6: Data Snooping Bias

**Dificultad:** Conceptual

**Escenario:** Estás trabajando en un proyecto de predicción de precios de viviendas.

**Situaciones:**
Indica si cada acción llevaría a **data snooping bias** (Sí/No) y justifica:

1. Visualizas la distribución de precios en el conjunto de entrenamiento antes de modelar
2. Calculas la correlación entre variables usando todo el dataset antes de dividirlo
3. Identificas outliers en el conjunto de prueba y decides eliminarlos
4. Normalizas las características usando la media y desviación estándar del conjunto de entrenamiento
5. Seleccionas las mejores características observando su correlación con el target en el test set
6. Ajustas hiperparámetros basándote en el rendimiento del test set
7. Creas nuevas features combinando variables existentes antes de la división train/test
8. Decides eliminar una característica porque tiene muchos nulos en el test set

**Reflexión:**

- ¿Cuál es la regla general para evitar data snooping?
- ¿En qué momento del proyecto deberías ver por primera vez el conjunto de prueba?

---

## Ejercicio 7: Proyecto Integrador

**Dificultad:** Avanzada

**Dataset:** Usa el Titanic dataset o cualquier dataset público de tu elección.

**Tareas completas:**

1. Carga y explora el dataset
2. Documenta tus hallazgos iniciales (valores nulos, distribuciones, valores atípicos)
3. Identifica la variable más importante para estratificar (justifica tu elección)
4. Si es continua, créale bins apropiados
5. Realiza una división stratified con 80% entrenamiento y 20% prueba
6. Verifica la calidad de tu división comparando proporciones
7. Guarda ambos conjuntos en archivos CSV separados
8. Escribe un breve informe (200 palabras) explicando tu proceso y decisiones

---

## Ejercicio 8: Preguntas de Repaso Rápido

1. ¿Qué proporción típica se usa para dividir en train/test? ¿Depende del tamaño del dataset?

2. Menciona 3 métodos para dividir un dataset y una ventaja de cada uno.

3. ¿Verdadero o Falso? "Si mi dataset tiene 1 millón de instancias, no necesito usar stratified sampling porque es suficientemente grande."

4. ¿Qué función de Scikit-Learn usarías para hacer stratified sampling en una sola línea?

5. ¿Por qué el housing dataset usa la mediana de ingresos para estratificar y no la ubicación geográfica?

6. Explica con tus propias palabras qué es el "data snooping bias" y da un ejemplo.

7. ¿Qué harías si tu variable de estratificación tiene 50 categorías diferentes?

8. ¿Cuándo usarías `StratifiedShuffleSplit` en lugar de `train_test_split` con `stratify`?

---

## Bonus: Desafío de Código

Crea una función llamada `smart_split()` que:

- Acepte un DataFrame, test_ratio, y el nombre de una columna para estratificar
- Detecte automáticamente si la columna es categórica o numérica
- Si es numérica, cree bins automáticamente (usa cuartiles)
- Realice stratified sampling
- Devuelva train_set y test_set sin la columna temporal de bins
- Imprima un resumen comparando las proporciones

```python
def smart_split(data, test_ratio=0.2, stratify_col=None, random_state=42):
    # Tu código aquí
    pass

# Ejemplo de uso:
# train, test = smart_split(housing, test_ratio=0.2, stratify_col='median_income')
```

---

## Recursos Adicionales

- Documenta tus soluciones en un notebook Jupyter
- Compara tus resultados con compañeros
- Intenta explicar cada concepto como si se lo enseñaras a alguien más
