# Workshop 2: Pruebas Estad√≠sticas Avanzadas

**Curso:** CD2001B - Diagn√≥stico para L√≠neas de Acci√≥n  
**M√≥dulo:** 1 - An√°lisis Estad√≠stico  
**Valor:** 10% de la calificaci√≥n final  
**Fecha l√≠mite:** [Definir seg√∫n calendario]

---

## üìã Instrucciones Generales

Este workshop eval√∫a tu capacidad para:
- Realizar pruebas de Ji-cuadrada para variables categ√≥ricas
- Ejecutar ANOVA para comparar m√∫ltiples grupos
- Crear y evaluar modelos de regresi√≥n lineal simple
- Interpretar resultados estad√≠sticos en contexto educativo

**Dataset:** `student-alcohol-consumption.csv`

**Formato de entrega:**
- Este notebook completado (.ipynb)
- Todas las celdas ejecutadas
- Interpretaciones completas en espa√±ol

---

## üéØ R√∫brica de Evaluaci√≥n

| Criterio | Puntos | Descripci√≥n |
|----------|--------|-------------|
| Parte 1: Prueba Ji-Cuadrada | 25 | Tabla contingencia, ejecuci√≥n, interpretaci√≥n |
| Parte 2: ANOVA | 35 | Grupos correctos, supuestos, post-hoc, interpretaci√≥n |
| Parte 3: Regresi√≥n Lineal | 40 | Modelo, evaluaci√≥n, predicciones, interpretaci√≥n |
| **TOTAL** | **100** | |

---

## 0. Informaci√≥n del Estudiante

**Nombre completo:** [Escribe tu nombre aqu√≠]  
**Matr√≠cula:** [Tu matr√≠cula]  
**Fecha de entrega:** [Fecha]  

---

## 1. Preparaci√≥n del Entorno

In [None]:
# Importar librer√≠as
import pandas as pd
import numpy as np
from scipy import stats
from scipy.stats import chi2_contingency, f_oneway
import statsmodels.api as sm
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

print("‚úì Librer√≠as importadas correctamente")

In [None]:
# Cargar dataset
df = pd.read_csv('../datos/student-alcohol-consumption.csv')

print(f"Dataset cargado: {df.shape[0]} estudiantes, {df.shape[1]} variables")
print(f"\nPrimeras filas:")
df.head()

---

## PARTE 1: Prueba Ji-Cuadrada (œá¬≤) de Independencia (25 puntos)

### Contexto

Queremos investigar si existe una relaci√≥n entre el **g√©nero** de los estudiantes (`sex`) y su **aspiraci√≥n de continuar con educaci√≥n superior** (`higher`).

**Variables:**
- `sex`: G√©nero del estudiante (F = Femenino, M = Masculino)
- `higher`: ¬øDesea cursar educaci√≥n superior? (yes, no)

---

### 1.1 Planteamiento de Hip√≥tesis (5 puntos)

**Pregunta 1.1:** Plantea las hip√≥tesis nula y alternativa para esta prueba.

**Tu respuesta:**

- **H‚ÇÄ:** [Escribe la hip√≥tesis nula aqu√≠ - ¬øLas variables son independientes?]
- **H‚ÇÅ:** [Escribe la hip√≥tesis alternativa aqu√≠]
- **Nivel de significancia (Œ±):** 0.05

---

### 1.2 Tabla de Contingencia (5 puntos)

Crea una tabla de contingencia que muestre la relaci√≥n entre `sex` y `higher`.

In [None]:
# TU C√ìDIGO AQU√ç
# Crear tabla de contingencia

tabla = # COMPLETA (usa pd.crosstab)

print("Tabla de Contingencia: G√©nero vs Aspiraci√≥n Educaci√≥n Superior")
print("="*60)
print(tabla)
print(f"\nTotal de estudiantes: {tabla.sum().sum()}")

In [None]:
# Visualizar la tabla con heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(tabla, annot=True, fmt='d', cmap='Blues', cbar_kws={'label': 'Frecuencia'})
plt.title('Relaci√≥n: G√©nero vs Aspiraci√≥n Educaci√≥n Superior', fontsize=14, fontweight='bold')
plt.xlabel('Educaci√≥n Superior', fontsize=12)
plt.ylabel('G√©nero', fontsize=12)
plt.tight_layout()
plt.show()

### 1.3 Ejecuci√≥n de la Prueba (10 puntos)

Realiza la prueba de Ji-cuadrada.

In [None]:
# TU C√ìDIGO AQU√ç
# Ejecutar prueba de Ji-cuadrada

chi2, p_value, dof, expected = # COMPLETA (usa chi2_contingency)

print("="*60)
print("RESULTADOS DE LA PRUEBA JI-CUADRADA")
print("="*60)
print(f"Estad√≠stico œá¬≤: {chi2:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"Grados de libertad: {dof}")
print(f"Nivel de significancia (Œ±): 0.05")
print("="*60)

# Mostrar frecuencias esperadas
print("\nFrecuencias Esperadas (bajo H‚ÇÄ):")
expected_df = pd.DataFrame(expected, index=tabla.index, columns=tabla.columns)
print(expected_df.round(2))

### 1.4 Interpretaci√≥n (5 puntos)

**Pregunta 1.4a:** ¬øCu√°l es tu decisi√≥n estad√≠stica? ¬øRechazas H‚ÇÄ?

**Tu respuesta:**  
[Escribe tu decisi√≥n aqu√≠]

**Pregunta 1.4b:** ¬øQu√© significa este resultado? ¬øEl g√©nero est√° relacionado con la aspiraci√≥n de educaci√≥n superior en esta muestra?

**Tu respuesta:**  
[Escribe tu interpretaci√≥n aqu√≠]

---

---

## PARTE 2: ANOVA (An√°lisis de Varianza) (35 puntos)

### Contexto

Queremos investigar si el **tiempo de estudio semanal** (`studytime`) tiene relaci√≥n con las **calificaciones finales** (`G3`).

**Variable:**
- `studytime`: Tiempo de estudio semanal
  - 1: < 2 horas
  - 2: 2-5 horas
  - 3: 5-10 horas
  - 4: > 10 horas
- `G3`: Calificaci√≥n final (0-20)

---

### 2.1 Planteamiento de Hip√≥tesis (5 puntos)

**Pregunta 2.1:** Plantea las hip√≥tesis para el ANOVA.

**Tu respuesta:**

- **H‚ÇÄ:** [Las medias de calificaci√≥n son iguales entre todos los grupos de tiempo de estudio]
- **H‚ÇÅ:** [Al menos una media es diferente]
- **Nivel de significancia (Œ±):** 0.05

---

### 2.2 Exploraci√≥n de Grupos (5 puntos)

Calcula estad√≠sticas descriptivas de `G3` para cada nivel de `studytime`.

In [None]:
# TU C√ìDIGO AQU√ç
# Estad√≠sticas por grupo

estadisticas = df.groupby('studytime')['G3'].agg([
    ('n', 'count'),
    ('Media', 'mean'),
    ('Mediana', 'median'),
    ('Desv.Std', 'std')
]).round(2)

print("Estad√≠sticas de G3 por Tiempo de Estudio:")
print("="*60)
print(estadisticas)

In [None]:
# Visualizaci√≥n con boxplots
plt.figure(figsize=(10, 6))
df.boxplot(column='G3', by='studytime', patch_artist=True, grid=False)
plt.suptitle('')  # Eliminar t√≠tulo autom√°tico
plt.title('Comparaci√≥n de Calificaciones por Tiempo de Estudio', fontsize=14, fontweight='bold')
plt.xlabel('Tiempo de Estudio Semanal (1:<2h, 2:2-5h, 3:5-10h, 4:>10h)', fontsize=11)
plt.ylabel('Calificaci√≥n Final (G3)', fontsize=12)
plt.tight_layout()
plt.show()

**Pregunta 2.2:** Observando el boxplot y las estad√≠sticas, ¬øqu√© tendencia preliminar notas?

**Tu respuesta:**  
[Escribe tu observaci√≥n aqu√≠]

---

### 2.3 Ejecuci√≥n del ANOVA (10 puntos)

Realiza el an√°lisis de varianza.

In [None]:
# TU C√ìDIGO AQU√ç
# Separar grupos

grupo1 = df[df['studytime'] == 1]['G3']
grupo2 = df[df['studytime'] == 2]['G3']
grupo3 = df[df['studytime'] == 3]['G3']
grupo4 = df[df['studytime'] == 4]['G3']

# Ejecutar ANOVA
f_stat, p_value_anova = # COMPLETA (usa stats.f_oneway)

print("="*60)
print("RESULTADOS DEL ANOVA")
print("="*60)
print(f"Estad√≠stico F: {f_stat:.4f}")
print(f"p-value: {p_value_anova:.4f}")
print(f"Nivel de significancia (Œ±): 0.05")
print("="*60)

### 2.4 Prueba Post-Hoc (Tukey) (10 puntos)

Si rechazaste H‚ÇÄ, realiza una prueba post-hoc para identificar qu√© grupos son diferentes.

In [None]:
# TU C√ìDIGO AQU√ç
# Prueba post-hoc de Tukey

from statsmodels.stats.multicomp import pairwise_tukeyhsd

# Ejecutar Tukey HSD
tukey = pairwise_tukeyhsd(endog=df['G3'], groups=df['studytime'], alpha=0.05)

print("Resultados de Prueba Post-Hoc (Tukey HSD):")
print("="*70)
print(tukey)
print("="*70)

### 2.5 Interpretaci√≥n (5 puntos)

**Pregunta 2.5a:** ¬øQu√© concluyes del ANOVA? ¬øHay diferencias significativas?

**Tu respuesta:**  
[Escribe tu conclusi√≥n aqu√≠]

**Pregunta 2.5b:** Seg√∫n la prueba de Tukey, ¬øqu√© grupos espec√≠ficos son significativamente diferentes? ¬øQu√© implica esto en t√©rminos educativos?

**Tu respuesta:**  
[Escribe tu interpretaci√≥n detallada aqu√≠]

---

---

## PARTE 3: Regresi√≥n Lineal Simple (40 puntos)

### Contexto

Queremos crear un modelo que **prediga la calificaci√≥n final** (`G3`) bas√°ndose en el **n√∫mero de ausencias** (`absences`).

**Variables:**
- Variable independiente (X): `absences` (n√∫mero de ausencias)
- Variable dependiente (Y): `G3` (calificaci√≥n final)

---

### 3.1 An√°lisis Exploratorio (5 puntos)

Crea un scatter plot de ausencias vs calificaci√≥n.

In [None]:
# TU C√ìDIGO AQU√ç
# Scatter plot

plt.figure(figsize=(10, 6))
plt.scatter(df['absences'], df['G3'], alpha=0.5, edgecolors='k')
plt.title('Relaci√≥n entre Ausencias y Calificaci√≥n Final', fontsize=14, fontweight='bold')
plt.xlabel('N√∫mero de Ausencias', fontsize=12)
plt.ylabel('Calificaci√≥n Final (G3)', fontsize=12)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

**Pregunta 3.1:** ¬øObservas alguna relaci√≥n visual entre ausencias y calificaciones? ¬øParece ser lineal?

**Tu respuesta:**  
[Escribe tu observaci√≥n aqu√≠]

---

### 3.2 Correlaci√≥n de Pearson (5 puntos)

Calcula el coeficiente de correlaci√≥n entre `absences` y `G3`.

In [None]:
# TU C√ìDIGO AQU√ç
# Calcular correlaci√≥n

correlacion, p_value_corr = # COMPLETA (usa stats.pearsonr)

print("="*60)
print("CORRELACI√ìN DE PEARSON")
print("="*60)
print(f"Coeficiente de correlaci√≥n (r): {correlacion:.4f}")
print(f"p-value: {p_value_corr:.4f}")
print("="*60)

**Pregunta 3.2:** Interpreta el valor de correlaci√≥n. ¬øEs fuerte, moderada o d√©bil? ¬øEs positiva o negativa?

**Tu respuesta:**  
[Escribe tu interpretaci√≥n aqu√≠]

---

### 3.3 Creaci√≥n del Modelo de Regresi√≥n (10 puntos)

Ajusta un modelo de regresi√≥n lineal simple.

In [None]:
# TU C√ìDIGO AQU√ç
# Preparar datos

X = df['absences']
y = df['G3']

# A√±adir constante (intercepto)
X_const = sm.add_constant(X)

# Ajustar modelo
modelo = # COMPLETA (usa sm.OLS y .fit())

# Mostrar resumen
print(modelo.summary())

### 3.4 Extracci√≥n de Par√°metros (5 puntos)

Extrae e interpreta los coeficientes del modelo.

In [None]:
# TU C√ìDIGO AQU√ç
# Extraer coeficientes

intercepto = modelo.params['const']
pendiente = modelo.params['absences']
r_cuadrado = modelo.rsquared

print("="*60)
print("PAR√ÅMETROS DEL MODELO")
print("="*60)
print(f"Intercepto (Œ≤‚ÇÄ): {intercepto:.4f}")
print(f"Pendiente (Œ≤‚ÇÅ): {pendiente:.4f}")
print(f"R¬≤ (R-cuadrado): {r_cuadrado:.4f}")
print("="*60)
print(f"\nEcuaci√≥n del modelo:")
print(f"G3 = {intercepto:.2f} + ({pendiente:.4f}) √ó absences")
print("="*60)

**Pregunta 3.4:** Interpreta los coeficientes:

- **Intercepto:** ¬øQu√© representa en este contexto?
- **Pendiente:** ¬øQu√© significa que sea positiva o negativa? ¬øEn cu√°nto cambia la calificaci√≥n por cada ausencia adicional?
- **R¬≤:** ¬øQu√© porcentaje de la variabilidad en calificaciones explica el modelo?

**Tu respuesta:**  
[Escribe tus interpretaciones aqu√≠]

---

### 3.5 Visualizaci√≥n del Modelo (5 puntos)

Grafica los datos con la l√≠nea de regresi√≥n ajustada.

In [None]:
# TU C√ìDIGO AQU√ç
# Gr√°fico con l√≠nea de regresi√≥n

plt.figure(figsize=(10, 6))
plt.scatter(df['absences'], df['G3'], alpha=0.5, edgecolors='k', label='Datos observados')

# L√≠nea de regresi√≥n
x_line = np.linspace(df['absences'].min(), df['absences'].max(), 100)
y_line = intercepto + pendiente * x_line
plt.plot(x_line, y_line, 'r-', linewidth=2, label=f'Regresi√≥n: G3 = {intercepto:.2f} + {pendiente:.4f}√óabsences')

plt.title('Modelo de Regresi√≥n Lineal: Ausencias vs Calificaci√≥n', fontsize=14, fontweight='bold')
plt.xlabel('N√∫mero de Ausencias', fontsize=12)
plt.ylabel('Calificaci√≥n Final (G3)', fontsize=12)
plt.legend()
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

### 3.6 Predicciones (10 puntos)

Usa el modelo para hacer predicciones.

In [None]:
# TU C√ìDIGO AQU√ç
# Hacer predicciones para diferentes n√∫meros de ausencias

ausencias_prediccion = [0, 5, 10, 20]

print("="*60)
print("PREDICCIONES DEL MODELO")
print("="*60)

for ausencias in ausencias_prediccion:
    # Predecir calificaci√≥n
    calificacion_pred = # COMPLETA (usa la ecuaci√≥n del modelo)
    print(f"Con {ausencias} ausencias ‚Üí Calificaci√≥n predicha: {calificacion_pred:.2f}")

print("="*60)

**Pregunta 3.6:** ¬øSon razonables estas predicciones? ¬øHay alg√∫n valor que parezca poco realista? ¬øPor qu√©?

**Tu respuesta:**  
[Escribe tu an√°lisis aqu√≠]

---

---

## PARTE 4: Reflexi√≥n Integradora (BONUS - 10 puntos)

**Pregunta BONUS:** 

Bas√°ndote en los tres an√°lisis realizados (Ji-cuadrada, ANOVA, Regresi√≥n):

1. ¬øQu√© factores parecen estar m√°s relacionados con el rendimiento acad√©mico?
2. Si fueras director de una escuela, ¬øqu√© pol√≠ticas implementar√≠as bas√°ndote en estos resultados?
3. ¬øQu√© limitaciones tienen estos an√°lisis? ¬øQu√© otros datos necesitar√≠as?

**Tu respuesta (m√≠nimo 150 palabras):**  
[Escribe tu reflexi√≥n integradora aqu√≠]

---

---

## ‚úÖ Checklist Antes de Entregar

Antes de enviar tu workshop, verifica:

- [ ] Todas las celdas est√°n ejecutadas con resultados visibles
- [ ] Completaste TODOS los espacios "TU C√ìDIGO AQU√ç"
- [ ] Respondiste TODAS las preguntas de interpretaci√≥n
- [ ] Tus gr√°ficos son claros y tienen t√≠tulos/etiquetas
- [ ] Verificaste que las pruebas estad√≠sticas dan resultados coherentes
- [ ] Interpretaste los p-values correctamente
- [ ] Revisaste ortograf√≠a y redacci√≥n
- [ ] El notebook se ejecuta sin errores de principio a fin
- [ ] Incluiste tu nombre y matr√≠cula al inicio

**Formato de nombre de archivo:**  
`Workshop2_NombreApellido_Matricula.ipynb`

---

**¬°Excelente trabajo completando el M√≥dulo 1!** üéìüìäüéâ

---