# Workshop 1: Análisis Estadístico Básico

**Curso:** CD2001B - Diagnóstico para Líneas de Acción  
**Módulo:** 1 - Análisis Estadístico  
**Valor:** 10% de la calificación final  
**Fecha límite:** [Definir según calendario]

---

## 📋 Instrucciones Generales

Este workshop evalúa tu capacidad para:
- Realizar análisis descriptivo de datos
- Calcular e interpretar medidas de tendencia central y dispersión
- Ejecutar pruebas de hipótesis para una y dos muestras
- Interpretar resultados en contexto

**Dataset:** `student-alcohol-consumption.csv` (Consumo de alcohol en estudiantes portugueses)

**Formato de entrega:**
- Este notebook completado (.ipynb)
- Todas las celdas ejecutadas con resultados visibles
- Interpretaciones en español completas

---

## 🎯 Rúbrica de Evaluación

| Criterio | Puntos | Descripción |
|----------|--------|-------------|
| Parte 1: Análisis Descriptivo | 40 | Cálculos correctos, visualizaciones apropiadas, interpretaciones |
| Parte 2: Prueba t (1 muestra) | 30 | Hipótesis, ejecución correcta, interpretación de p-value |
| Parte 3: Prueba t (2 muestras) | 30 | Grupos correctos, prueba apropiada, conclusión en contexto |
| **TOTAL** | **100** | |

---

## 0. Información del Estudiante

**Nombre completo:** [Escribe tu nombre aquí]  
**Matrícula:** [Tu matrícula]  
**Fecha de entrega:** [Fecha]  

---

## 1. Preparación del Entorno

Importa las librerías necesarias y carga el dataset.

In [None]:
# Importar librerías
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
%matplotlib inline

print("✓ Librerías importadas correctamente")

In [None]:
# Cargar dataset
# NOTA: Ajusta la ruta si tu archivo está en otra ubicación
df = pd.read_csv('../datos/student-alcohol-consumption.csv')

print(f"Dataset cargado: {df.shape[0]} estudiantes, {df.shape[1]} variables")
df.head()

---

## PARTE 1: Análisis Descriptivo (40 puntos)

### Contexto

El dataset contiene información sobre estudiantes portugueses de educación secundaria. Entre otras variables, incluye:
- `age`: Edad del estudiante (años)
- `G3`: Calificación final (escala 0-20)
- `studytime`: Tiempo de estudio semanal (1: <2h, 2: 2-5h, 3: 5-10h, 4: >10h)
- `absences`: Número de ausencias
- `Dalc`: Consumo de alcohol diario (1: muy bajo, 5: muy alto)
- `Walc`: Consumo de alcohol fin de semana (1: muy bajo, 5: muy alto)

---

### 1.1 Exploración Inicial (5 puntos)

Muestra la información básica del dataset y verifica si hay valores faltantes.

In [None]:
# Información del dataset
df.info()

In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
print(df.isnull().sum())

**Pregunta 1.1:** ¿Hay valores faltantes en el dataset? Si los hay, ¿qué harías con ellos?

**Tu respuesta:**  
[Escribe tu respuesta aquí]

---

### 1.2 Medidas de Tendencia Central - Variable `age` (10 puntos)

Calcula la media, mediana y moda de la edad de los estudiantes.

In [None]:
# TU CÓDIGO AQUÍ
# Calcula media, mediana y moda de 'age'

media_edad = # COMPLETA
mediana_edad = # COMPLETA
moda_edad = # COMPLETA

print(f"Media de edad: {media_edad:.2f} años")
print(f"Mediana de edad: {mediana_edad} años")
print(f"Moda de edad: {moda_edad} años")

**Pregunta 1.2:** ¿Qué te dicen estas tres medidas sobre la distribución de edades? ¿Son similares o diferentes? ¿Qué implica eso?

**Tu respuesta:**  
[Escribe tu interpretación aquí]

---

### 1.3 Medidas de Dispersión - Variable `G3` (15 puntos)

Para la calificación final (`G3`), calcula:
- Desviación estándar
- Varianza
- Rango (máximo - mínimo)
- Rango intercuartílico (IQR)

In [None]:
# TU CÓDIGO AQUÍ
# Calcula desviación estándar, varianza, rango e IQR de 'G3'

desv_std_g3 = # COMPLETA
varianza_g3 = # COMPLETA

minimo_g3 = # COMPLETA
maximo_g3 = # COMPLETA
rango_g3 = # COMPLETA

Q1_g3 = # COMPLETA (cuartil 25%)
Q3_g3 = # COMPLETA (cuartil 75%)
IQR_g3 = # COMPLETA

print(f"Desviación estándar: {desv_std_g3:.2f}")
print(f"Varianza: {varianza_g3:.2f}")
print(f"Rango: {rango_g3}")
print(f"IQR: {IQR_g3}")

**Pregunta 1.3:** ¿Las calificaciones tienen mucha o poca variabilidad? Justifica tu respuesta usando las medidas calculadas.

**Tu respuesta:**  
[Escribe tu interpretación aquí]

---

### 1.4 Visualizaciones (10 puntos)

Crea:
1. Un histograma de la variable `age`
2. Un boxplot de la variable `G3`

In [None]:
# TU CÓDIGO AQUÍ
# Histograma de edad

plt.figure(figsize=(10, 5))
# COMPLETA EL CÓDIGO DEL HISTOGRAMA

plt.title('Distribución de Edad de Estudiantes', fontsize=14, fontweight='bold')
plt.xlabel('Edad (años)', fontsize=12)
plt.ylabel('Frecuencia', fontsize=12)
plt.grid(alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# TU CÓDIGO AQUÍ
# Boxplot de calificación final

plt.figure(figsize=(8, 6))
# COMPLETA EL CÓDIGO DEL BOXPLOT

plt.title('Distribución de Calificaciones Finales', fontsize=14, fontweight='bold')
plt.ylabel('Calificación (0-20)', fontsize=12)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

**Pregunta 1.4:** Basándote en el boxplot de `G3`, ¿detectas outliers? ¿Qué podrían representar esos valores atípicos en el contexto educativo?

**Tu respuesta:**  
[Escribe tu interpretación aquí]

---

---

## PARTE 2: Prueba t para Una Muestra (30 puntos)

### Contexto

El sistema educativo portugués usa una escala de 0-20, donde 10 es la calificación mínima aprobatoria. Queremos saber si el promedio de calificaciones de estos estudiantes es significativamente diferente de 12 (un nivel considerado "satisfactorio").

---

### 2.1 Planteamiento de Hipótesis (10 puntos)

**Pregunta 2.1:** Plantea las hipótesis nula (H₀) y alternativa (H₁) para esta prueba.

**Tu respuesta:**

- **H₀:** [Escribe la hipótesis nula aquí]
- **H₁:** [Escribe la hipótesis alternativa aquí]
- **Nivel de significancia (α):** [Usualmente 0.05]

---

### 2.2 Ejecución de la Prueba (10 puntos)

Realiza una prueba t para una muestra comparando la media de `G3` contra el valor 12.

In [None]:
# TU CÓDIGO AQUÍ
# Prueba t para una muestra
# Compara la media de G3 contra 12

# Valor de comparación
valor_comparacion = 12

# Ejecutar prueba t
t_stat, p_value = # COMPLETA (usa stats.ttest_1samp)

print("="*50)
print("RESULTADOS DE LA PRUEBA T (1 MUESTRA)")
print("="*50)
print(f"Estadístico t: {t_stat:.4f}")
print(f"p-value: {p_value:.4f}")
print(f"Nivel de significancia (α): 0.05")
print("="*50)

### 2.3 Interpretación (10 puntos)

**Pregunta 2.3a:** ¿Cuál es tu decisión? ¿Rechazas o no rechazas H₀? Justifica usando el p-value.

**Tu respuesta:**  
[Escribe tu decisión y justificación aquí]

**Pregunta 2.3b:** ¿Qué significa este resultado en el contexto educativo? (Interpreta en lenguaje no técnico)

**Tu respuesta:**  
[Escribe tu interpretación en contexto aquí]

---

---

## PARTE 3: Prueba t para Dos Muestras Independientes (30 puntos)

### Contexto

Queremos investigar si existe una diferencia significativa en las calificaciones finales (`G3`) entre estudiantes que consumen alcohol de forma regular vs. estudiantes que no consumen o consumen muy poco.

**Criterio de clasificación:**
- **Bajo consumo:** `Walc` <= 2 (consumo de fin de semana bajo/muy bajo)
- **Alto consumo:** `Walc` >= 4 (consumo de fin de semana alto/muy alto)

---

### 3.1 Preparación de Datos (5 puntos)

Crea dos grupos: estudiantes con bajo consumo y estudiantes con alto consumo de alcohol.

In [None]:
# TU CÓDIGO AQUÍ
# Crear los dos grupos

grupo_bajo_consumo = # COMPLETA (filtra estudiantes con Walc <= 2)
grupo_alto_consumo = # COMPLETA (filtra estudiantes con Walc >= 4)

print(f"Estudiantes con BAJO consumo de alcohol: {len(grupo_bajo_consumo)}")
print(f"Estudiantes con ALTO consumo de alcohol: {len(grupo_alto_consumo)}")

# Extraer calificaciones de cada grupo
g3_bajo = # COMPLETA
g3_alto = # COMPLETA

print(f"\nMedia G3 (bajo consumo): {g3_bajo.mean():.2f}")
print(f"Media G3 (alto consumo): {g3_alto.mean():.2f}")

### 3.2 Planteamiento de Hipótesis (5 puntos)

**Pregunta 3.2:** Plantea las hipótesis para esta prueba de dos muestras.

**Tu respuesta:**

- **H₀:** [Escribe la hipótesis nula aquí]
- **H₁:** [Escribe la hipótesis alternativa aquí]
- **Nivel de significancia (α):** 0.05

---

### 3.3 Ejecución de la Prueba (10 puntos)

Realiza una prueba t para dos muestras independientes.

In [None]:
# TU CÓDIGO AQUÍ
# Prueba t para dos muestras independientes

t_stat_2, p_value_2 = # COMPLETA (usa stats.ttest_ind)

print("="*60)
print("RESULTADOS DE LA PRUEBA T (2 MUESTRAS INDEPENDIENTES)")
print("="*60)
print(f"Estadístico t: {t_stat_2:.4f}")
print(f"p-value: {p_value_2:.4f}")
print(f"Nivel de significancia (α): 0.05")
print("="*60)

### 3.4 Visualización Comparativa (5 puntos)

Crea un boxplot comparativo de las calificaciones de ambos grupos.

In [None]:
# TU CÓDIGO AQUÍ
# Boxplot comparativo

plt.figure(figsize=(10, 6))

# Crear DataFrame para facilitar el boxplot
# COMPLETA EL CÓDIGO

plt.title('Comparación de Calificaciones: Bajo vs Alto Consumo de Alcohol', 
          fontsize=14, fontweight='bold')
plt.ylabel('Calificación Final (G3)', fontsize=12)
plt.xlabel('Nivel de Consumo', fontsize=12)
plt.grid(alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

### 3.5 Interpretación Final (5 puntos)

**Pregunta 3.5a:** ¿Cuál es tu decisión estadística? ¿Rechazas o no rechazas H₀?

**Tu respuesta:**  
[Escribe tu decisión aquí]

**Pregunta 3.5b:** ¿Qué implica este resultado? ¿El consumo de alcohol está asociado con diferencias en el rendimiento académico? Discute las limitaciones de esta conclusión.

**Tu respuesta:**  
[Escribe tu interpretación completa aquí, considerando:
- ¿Qué encontraste?
- ¿Qué podría explicarlo?
- ¿Correlación implica causación?
- ¿Qué otras variables podrían estar influyendo?]

---

---

## PARTE 4: Reflexión Final (BONUS - 10 puntos)

**Pregunta BONUS:** Imagina que eres un director de escuela y recibes este análisis. ¿Qué acciones tomarías basándote en estos resultados? ¿Qué análisis adicionales solicitarías antes de implementar políticas?

**Tu respuesta:**  
[Escribe tu reflexión aquí - mínimo 100 palabras]

---

---

## ✅ Checklist Antes de Entregar

Antes de enviar tu workshop, verifica:

- [ ] Todas las celdas de código están ejecutadas y muestran resultados
- [ ] Completaste TODAS las secciones marcadas con "TU CÓDIGO AQUÍ"
- [ ] Respondiste TODAS las preguntas de interpretación
- [ ] Tus gráficos tienen títulos y etiquetas claras
- [ ] Tus interpretaciones están en español y en lenguaje claro
- [ ] Revisaste ortografía y redacción
- [ ] El notebook se ejecuta de principio a fin sin errores

**Formato de nombre de archivo:**  
`Workshop1_NombreApellido_Matricula.ipynb`

---

**¡Éxito en tu workshop!** 🎓📊

---