# Workshop 2: Pruebas Estadísticas Avanzadas

**Curso:** CD2001B - Diagnóstico para Líneas de Acción  
**Módulo:** 1 - Análisis Estadístico  
**Valor:** 10% de la calificación final  
**Fecha límite:** [Definir según calendario]

---

## 📋 Instrucciones Generales

Este workshop evalúa tu capacidad para:
- Realizar pruebas de Ji-cuadrada para variables categóricas
- Ejecutar ANOVA para comparar múltiples grupos
- Crear y evaluar modelos de regresión lineal simple
- Interpretar resultados estadísticos en contexto educativo

**Dataset:** `student-alcohol-consumption.csv`

**Formato de entrega:**
- Este notebook completado (.ipynb)
- Todas las celdas ejecutadas
- Interpretaciones completas en español

---

## 🎯 Rúbrica de Evaluación

| Criterio | Puntos | Descripción |
|----------|--------|-------------|
| Parte 1: Prueba Ji-Cuadrada | 25 | Tabla contingencia, ejecución, interpretación |
| Parte 2: ANOVA | 35 | Grupos correctos, supuestos, post-hoc, interpretación |
| Parte 3: Regresión Lineal | 40 | Modelo, evaluación, predicciones, interpretación |
| **TOTAL** | **100** | |

---

## 0. Información del Estudiante

**Nombre completo:** [Escribe tu nombre aquí]  
**Matrícula:** [Tu matrícula]  
**Fecha de entrega:** [Fecha]  

---

## 1. Preparación del Entorno

In [None]:
# Importar librerías
import pandas as pd
import numpy as np
from scipy import stats
from scipy.stats import chi2_contingency, f_oneway
import statsmodels.api as sm
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

print("✓ Librerías importadas correctamente")

In [None]:
# Cargar dataset
df = pd.read_csv('../datos/student-alcohol-consumption.csv')

print(f"Dataset cargado: {df.shape[0]} estudiantes, {df.shape[1]} variables")
print(f"\nPrimeras filas:")
df.head()

---

## PARTE 1: Prueba Ji-Cuadrada (χ²) de Independencia (25 puntos)

### Contexto

Queremos investigar si existe una relación entre el **género** de los estudiantes (`sex`) y su **aspiración de continuar con educación superior** (`higher`).

**Variables:**
- `sex`: Género del estudiante (F = Femenino, M = Masculino)
- `higher`: ¿Desea cursar educación superior? (yes, no)

---

### 1.1 Planteamiento de Hipótesis (5 puntos)

**Pregunta 1.1:** Plantea las hipótesis nula y alternativa para esta prueba.

**Tu respuesta:**

- **H₀:** [Escribe la hipótesis nula aquí - ¿Las variables son independientes?]
- **H₁:** [Escribe la hipótesis alternativa aquí]
- **Nivel de significancia (α):** 0.05

---

### 1.2 Tabla de Contingencia (5 puntos)

Crea una tabla de contingencia que muestre la relación entre `sex` y `higher`.

In [None]:
# TU CÓDIGO AQUÍ
# Crear tabla de contingencia

tabla = # COMPLETA (usa pd.crosstab)

print("Tabla de Contingencia: Género vs Aspiración Educación Superior")
print("="*60)
print(tabla)
print(f"\nTotal de estudiantes: {tabla.sum().sum()}")

In [None]:
# Visualizar la tabla con heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues', cbar_kws={'label': 'Frecuencia'})
plt.title('Relación: Género vs Aspiración Educación Superior', fontsize=14, fontweight='bold')
plt.xlabel('Educación Superior', fontsize=12)
plt.ylabel('Género', fontsize=12)
plt.tight_layout()
plt.show()

### 1.3 Ejecución de la Prueba (10 puntos)

Realiza la prueba de Ji-cuadrada.

In [None]:
# TU CÓDIGO AQUÍ
# Ejecutar prueba de Ji-cuadrada

chi2, p_value, dof, expected = # COMPLETA (usa chi2_contingency)

print("="*60)
print("RESULTADOS DE LA PRUEBA JI-CUADRADA")
print("="*60)
print(f"Estadístico χ²: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"Grados de libertad: {dof}")
print(f"Nivel de significancia (α): 0.05")
print("="*60)

# Mostrar frecuencias esperadas
print("\nFrecuencias Esperadas (bajo H₀):")
expected_df = pd.DataFrame(expected, index=tabla.index, columns=tabla.columns)
print(expected_df.round(2))

### 1.4 Interpretación (5 puntos)

**Pregunta 1.4a:** ¿Cuál es tu decisión estadística? ¿Rechazas H₀?

**Tu respuesta:**  
[Escribe tu decisión aquí]

**Pregunta 1.4b:** ¿Qué significa este resultado? ¿El género está relacionado con la aspiración de educación superior en esta muestra?

**Tu respuesta:**  
[Escribe tu interpretación aquí]

---

---

## PARTE 2: ANOVA (Análisis de Varianza) (35 puntos)

### Contexto

Queremos investigar si el **tiempo de estudio semanal** (`studytime`) tiene relación con las **calificaciones finales** (`G3`).

**Variable:**
- `studytime`: Tiempo de estudio semanal
  - 1: < 2 horas
  - 2: 2-5 horas
  - 3: 5-10 horas
  - 4: > 10 horas
- `G3`: Calificación final (0-20)

---

### 2.1 Planteamiento de Hipótesis (5 puntos)

**Pregunta 2.1:** Plantea las hipótesis para el ANOVA.

**Tu respuesta:**

- **H₀:** [Las medias de calificación son iguales entre todos los grupos de tiempo de estudio]
- **H₁:** [Al menos una media es diferente]
- **Nivel de significancia (α):** 0.05

---

### 2.2 Exploración de Grupos (5 puntos)

Calcula estadísticas descriptivas de `G3` para cada nivel de `studytime`.

In [None]:
# TU CÓDIGO AQUÍ
# Estadísticas por grupo

estadisticas = df.groupby('studytime')['G3'].agg([
    ('n', 'count'),
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Std', 'std')
]).round(2)

print("Estadísticas de G3 por Tiempo de Estudio:")
print("="*60)
print(estadisticas)

In [None]:
# Visualización con boxplots
plt.figure(figsize=(10, 6))
df.boxplot(column='G3', by='studytime', patch_artist=True, grid=False)
plt.suptitle('')  # Eliminar título automático
plt.title('Comparación de Calificaciones por Tiempo de Estudio', fontsize=14, fontweight='bold')
plt.xlabel('Tiempo de Estudio Semanal (1:<2h, 2:2-5h, 3:5-10h, 4:>10h)', fontsize=11)
plt.ylabel('Calificación Final (G3)', fontsize=12)
plt.tight_layout()
plt.show()

**Pregunta 2.2:** Observando el boxplot y las estadísticas, ¿qué tendencia preliminar notas?

**Tu respuesta:**  
[Escribe tu observación aquí]

---

### 2.3 Ejecución del ANOVA (10 puntos)

Realiza el análisis de varianza.

In [None]:
# TU CÓDIGO AQUÍ
# Separar grupos

grupo1 = df[df['studytime'] == 1]['G3']
grupo2 = df[df['studytime'] == 2]['G3']
grupo3 = df[df['studytime'] == 3]['G3']
grupo4 = df[df['studytime'] == 4]['G3']

# Ejecutar ANOVA
f_stat, p_value_anova = # COMPLETA (usa stats.f_oneway)

print("="*60)
print("RESULTADOS DEL ANOVA")
print("="*60)
print(f"Estadístico F: {f_stat:.4f}")
print(f"p-value: {p_value_anova:.4f}")
print(f"Nivel de significancia (α): 0.05")
print("="*60)

### 2.4 Prueba Post-Hoc (Tukey) (10 puntos)

Si rechazaste H₀, realiza una prueba post-hoc para identificar qué grupos son diferentes.

In [None]:
# TU CÓDIGO AQUÍ
# Prueba post-hoc de Tukey

from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Ejecutar Tukey HSD
tukey = pairwise_tukeyhsd(endog=df['G3'], groups=df['studytime'], alpha=0.05)

print("Resultados de Prueba Post-Hoc (Tukey HSD):")
print("="*70)
print(tukey)
print("="*70)

### 2.5 Interpretación (5 puntos)

**Pregunta 2.5a:** ¿Qué concluyes del ANOVA? ¿Hay diferencias significativas?

**Tu respuesta:**  
[Escribe tu conclusión aquí]

**Pregunta 2.5b:** Según la prueba de Tukey, ¿qué grupos específicos son significativamente diferentes? ¿Qué implica esto en términos educativos?

**Tu respuesta:**  
[Escribe tu interpretación detallada aquí]

---

---

## PARTE 3: Regresión Lineal Simple (40 puntos)

### Contexto

Queremos crear un modelo que **prediga la calificación final** (`G3`) basándose en el **número de ausencias** (`absences`).

**Variables:**
- Variable independiente (X): `absences` (número de ausencias)
- Variable dependiente (Y): `G3` (calificación final)

---

### 3.1 Análisis Exploratorio (5 puntos)

Crea un scatter plot de ausencias vs calificación.

In [None]:
# TU CÓDIGO AQUÍ
# Scatter plot

plt.figure(figsize=(10, 6))
plt.scatter(df['absences'], df['G3'], alpha=0.5, edgecolors='k')
plt.title('Relación entre Ausencias y Calificación Final', fontsize=14, fontweight='bold')
plt.xlabel('Número de Ausencias', fontsize=12)
plt.ylabel('Calificación Final (G3)', fontsize=12)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

**Pregunta 3.1:** ¿Observas alguna relación visual entre ausencias y calificaciones? ¿Parece ser lineal?

**Tu respuesta:**  
[Escribe tu observación aquí]

---

### 3.2 Correlación de Pearson (5 puntos)

Calcula el coeficiente de correlación entre `absences` y `G3`.

In [None]:
# TU CÓDIGO AQUÍ
# Calcular correlación

correlacion, p_value_corr = # COMPLETA (usa stats.pearsonr)

print("="*60)
print("CORRELACIÓN DE PEARSON")
print("="*60)
print(f"Coeficiente de correlación (r): {correlacion:.4f}")
print(f"p-value: {p_value_corr:.4f}")
print("="*60)

**Pregunta 3.2:** Interpreta el valor de correlación. ¿Es fuerte, moderada o débil? ¿Es positiva o negativa?

**Tu respuesta:**  
[Escribe tu interpretación aquí]

---

### 3.3 Creación del Modelo de Regresión (10 puntos)

Ajusta un modelo de regresión lineal simple.

In [None]:
# TU CÓDIGO AQUÍ
# Preparar datos

X = df['absences']
y = df['G3']

# Añadir constante (intercepto)
X_const = sm.add_constant(X)

# Ajustar modelo
modelo = # COMPLETA (usa sm.OLS y .fit())

# Mostrar resumen
print(modelo.summary())

### 3.4 Extracción de Parámetros (5 puntos)

Extrae e interpreta los coeficientes del modelo.

In [None]:
# TU CÓDIGO AQUÍ
# Extraer coeficientes

intercepto = modelo.params['const']
pendiente = modelo.params['absences']
r_cuadrado = modelo.rsquared

print("="*60)
print("PARÁMETROS DEL MODELO")
print("="*60)
print(f"Intercepto (β₀): {intercepto:.4f}")
print(f"Pendiente (β₁): {pendiente:.4f}")
print(f"R² (R-cuadrado): {r_cuadrado:.4f}")
print("="*60)
print(f"\nEcuación del modelo:")
print(f"G3 = {intercepto:.2f} + ({pendiente:.4f}) × absences")
print("="*60)

**Pregunta 3.4:** Interpreta los coeficientes:

- **Intercepto:** ¿Qué representa en este contexto?
- **Pendiente:** ¿Qué significa que sea positiva o negativa? ¿En cuánto cambia la calificación por cada ausencia adicional?
- **R²:** ¿Qué porcentaje de la variabilidad en calificaciones explica el modelo?

**Tu respuesta:**  
[Escribe tus interpretaciones aquí]

---

### 3.5 Visualización del Modelo (5 puntos)

Grafica los datos con la línea de regresión ajustada.

In [None]:
# TU CÓDIGO AQUÍ
# Gráfico con línea de regresión

plt.figure(figsize=(10, 6))
plt.scatter(df['absences'], df['G3'], alpha=0.5, edgecolors='k', label='Datos observados')

# Línea de regresión
x_line = np.linspace(df['absences'].min(), df['absences'].max(), 100)
y_line = intercepto + pendiente * x_line
plt.plot(x_line, y_line, 'r-', linewidth=2, label=f'Regresión: G3 = {intercepto:.2f} + {pendiente:.4f}×absences')

plt.title('Modelo de Regresión Lineal: Ausencias vs Calificación', fontsize=14, fontweight='bold')
plt.xlabel('Número de Ausencias', fontsize=12)
plt.ylabel('Calificación Final (G3)', fontsize=12)
plt.legend()
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

### 3.6 Predicciones (10 puntos)

Usa el modelo para hacer predicciones.

In [None]:
# TU CÓDIGO AQUÍ
# Hacer predicciones para diferentes números de ausencias

ausencias_prediccion = [0, 5, 10, 20]

print("="*60)
print("PREDICCIONES DEL MODELO")
print("="*60)

for ausencias in ausencias_prediccion:
    # Predecir calificación
    calificacion_pred = # COMPLETA (usa la ecuación del modelo)
    print(f"Con {ausencias} ausencias → Calificación predicha: {calificacion_pred:.2f}")

print("="*60)

**Pregunta 3.6:** ¿Son razonables estas predicciones? ¿Hay algún valor que parezca poco realista? ¿Por qué?

**Tu respuesta:**  
[Escribe tu análisis aquí]

---

---

## PARTE 4: Reflexión Integradora (BONUS - 10 puntos)

**Pregunta BONUS:** 

Basándote en los tres análisis realizados (Ji-cuadrada, ANOVA, Regresión):

1. ¿Qué factores parecen estar más relacionados con el rendimiento académico?
2. Si fueras director de una escuela, ¿qué políticas implementarías basándote en estos resultados?
3. ¿Qué limitaciones tienen estos análisis? ¿Qué otros datos necesitarías?

**Tu respuesta (mínimo 150 palabras):**  
[Escribe tu reflexión integradora aquí]

---

---

## ✅ Checklist Antes de Entregar

Antes de enviar tu workshop, verifica:

- [ ] Todas las celdas están ejecutadas con resultados visibles
- [ ] Completaste TODOS los espacios "TU CÓDIGO AQUÍ"
- [ ] Respondiste TODAS las preguntas de interpretación
- [ ] Tus gráficos son claros y tienen títulos/etiquetas
- [ ] Verificaste que las pruebas estadísticas dan resultados coherentes
- [ ] Interpretaste los p-values correctamente
- [ ] Revisaste ortografía y redacción
- [ ] El notebook se ejecuta sin errores de principio a fin
- [ ] Incluiste tu nombre y matrícula al inicio

**Formato de nombre de archivo:**  
`Workshop2_NombreApellido_Matricula.ipynb`

---

**¡Excelente trabajo completando el Módulo 1!** 🎓📊🎉

---