# Clase Práctica de Data Science - Análisis de Estrés en Estudiantes
#### Profesor: Mg. Joaquín Menedez  y Mg. Nicolás Bruno

## Consigna
En la clase de hoy van a realizar un **análisis completo de un set de datos sobre estilo de vida de estudiantes** para entender qué factores se relacionan con el estrés académico.

Van a tener 3 horas para trabajar en este *practical lab* mientras nosotros respondemos sus dudas. El objetivo es que pongan en práctica todos los conceptos que vieron en los videos teóricos.

## Dataset: Student Lifestyle & Stress

EL dataset lo sacamos de kaggle:
https://www.kaggle.com/datasets/steve1215rogg/student-lifestyle-dataset/data

El dataset que vamos a analizar contiene información de 1000 estudiantes universitarios y incluye variables muy relevantes para la psicología:

- **Study_Hours_Per_Day**: Horas de estudio por día
- **Sleep_Hours_Per_Day**: Horas de sueño por día  
- **Physical_Activity_Hours_Per_Day**: Horas de actividad física por día
- **Social_Hours_Per_Day**: Horas de socialización por día
- **Extracurricular_Hours_Per_Day**: Horas de actividades extracurriculares por día
- **GPA**: Promedio académico
- **Stress_Level**: Nivel de estrés (Low, Moderate, High)

## Objetivos de la clase
1. Cargar y explorar el dataset
2. Realizar análisis descriptivo completo
3. Crear visualizaciones informativas
4. Analizar correlaciones entre variables
5. Comparar grupos según nivel de estrés
6. Aplicar pruebas estadísticas básicas
7. Construir un modelo predictivo simple

## Resolución
Este notebook los va a ir guiando paso a paso. Encontrarán celdas de texto que explican qué hacer y celdas con código incompleto (**...**) que ustedes deberán completar.

**¡Recuerden preguntar cualquier duda que tengan!**


---


## 1. Importar librerías necesarias

Primero vamos a importar todas las librerías que vamos a necesitar para nuestro análisis.


In [None]:
# Librerías para manejo de datos
import pandas as pd
import numpy as np

# Librerías para visualización
import matplotlib.pyplot as plt
import seaborn as sns

# Librerías para estadística
import scipy.stats as stats
from statsmodels.formula.api import ols
import statsmodels.api as sm

# Para descargar el dataset
!pip install kagglehub #para instalar kagglehub y poder descargar el dataset.
import kagglehub

# Configuración para que los gráficos se vean bien
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)


## 2. Cargar el dataset

Vamos a descargar el dataset directamente desde Kaggle usando kagglehub. Esto nos permite trabajar en Google Colab sin tener que subir archivos manualmente.


In [None]:
# Descargar el dataset desde Kaggle
path = kagglehub.dataset_download("steve1215rogg/student-lifestyle-dataset")
print("Path to dataset files:", path)


<div class="alert alert-success">
    <b>Ejercicio 1</b>:
     <ul>
    <li>Cargar el archivo CSV en un DataFrame de pandas</li>
    <li>Asignar el DataFrame a la variable 'df'</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar pd.read_csv() para leer el archivo</i></li>
    <li><i>El archivo se llama 'student_lifestyle_dataset.csv'</i></li>
    <li><i>Usar path + '/student_lifestyle_dataset.csv' como ruta completa</i></li>
    </ul>
</div>


In [None]:
# Cargar el dataset
df = pd.read_csv(...)


## 3. Exploración inicial de los datos

Ahora vamos a explorar nuestro dataset para entender qué información tenemos disponible.


<div class="alert alert-success">
    <b>Ejercicio 2</b>:
     <ul>
    <li>Mostrar las primeras 5 filas del dataset</li>
    <li>Mostrar información general del dataset (tipos de datos, valores nulos, etc.)</li>
    <li>Mostrar las dimensiones del dataset (filas y columnas)</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .head() para ver las primeras filas</i></li>
    <li><i>Usar .info() para información general</i></li>
    <li><i>Usar .shape para dimensiones</i></li>
    </ul>
</div>


In [None]:
# Mostrar las primeras filas
print("Primeras 5 filas del dataset:")
...


In [None]:
# Información general del dataset
print("Información general del dataset:")
...


In [None]:
# Dimensiones del dataset
print("El dataset tiene", ..., "filas y", ..., "columnas")


### 3.1 Verificar valores faltantes

Es importante siempre verificar si nuestro dataset tiene valores faltantes (NaN o null).


In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
...


## 4. Análisis Descriptivo

Ahora vamos a calcular estadísticas descriptivas para entender mejor nuestros datos.


<div class="alert alert-success">
    <b>Ejercicio 3</b>:
     <ul>
    <li>Calcular estadísticas descriptivas para todas las variables numéricas</li>
    <li>Contar cuántos estudiantes hay en cada nivel de estrés</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .describe() para estadísticas descriptivas</i></li>
    <li><i>Usar .value_counts() para contar categorías</i></li>
    </ul>
</div>


In [None]:
# Estadísticas descriptivas de variables numéricas
print("Estadísticas descriptivas:")
...


In [None]:
# Distribución de los niveles de estrés
print("Distribución de niveles de estrés:")
...


### 4.1 Análisis por grupos de estrés

Vamos a ver cómo se comportan las diferentes variables según el nivel de estrés.


<div class="alert alert-success">
    <b>Ejercicio 4</b>:
     <ul>
    <li>Calcular el promedio de todas las variables numéricas agrupadas por nivel de estrés</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .groupby() con 'Stress_Level'</i></li>
    <li><i>Usar .mean() para calcular promedios</i></li>
    <li><i>Usar .round(2) para redondear a 2 decimales</i></li>
    </ul>
</div>


In [None]:
# Promedios por nivel de estrés
print("Promedios por nivel de estrés:")
...


## 5. Visualización de datos

Las visualizaciones nos ayudan a entender mejor los patrones en nuestros datos. Vamos a crear varios gráficos para explorar las relaciones entre variables.


### 5.1 Distribución del nivel de estrés


In [None]:
# Gráfico de barras para nivel de estrés
plt.figure(figsize=(8, 6))
stress_counts = ...
plt.bar(stress_counts.index, stress_counts.values)
plt.title('Distribución de Niveles de Estrés')
plt.xlabel('Nivel de Estrés')
plt.ylabel('Cantidad de Estudiantes')
plt.show()


### 5.2 Boxplots por nivel de estrés

Los boxplots nos permiten comparar la distribución de variables continuas entre diferentes grupos.


<div class="alert alert-success">
    <b>Ejercicio 5</b>:
     <ul>
    <li>Crear boxplots que muestren la distribución de 'Study_Hours_Per_Day' para cada nivel de estrés</li>
    <li>Crear boxplots que muestren la distribución de 'Sleep_Hours_Per_Day' para cada nivel de estrés</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.boxplot() con x='Stress_Level' y y=variable de interés</i></li>
    <li><i>Usar plt.subplots() para crear 2 gráficos lado a lado</i></li>
    </ul>
</div>


In [None]:
# Boxplots comparando grupos de estrés
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Boxplot para horas de estudio
sns.boxplot(data=df, x='...', y='...', ax=axes[0])
axes[0].set_title('...')

# Boxplot para horas de sueño
sns.boxplot(data=df, x='...', y='...', ax=axes[1])
axes[1].set_title('...')

plt.tight_layout()
plt.show()


## 6. Análisis de Correlaciones

Vamos a explorar cómo se relacionan las diferentes variables entre sí.


<div class="alert alert-success">
    <b>Ejercicio 6</b>:
     <ul>
    <li>Calcular la matriz de correlación para todas las variables numéricas</li>
    <li>Crear un heatmap de la matriz de correlación</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .corr() para calcular correlaciones</i></li>
    <li><i>Usar sns.heatmap() para crear el mapa de calor</i></li>
    <li><i>Usar annot=True para mostrar los valores en el heatmap</i></li>
    </ul>
</div>


In [None]:
# Seleccionar solo variables numéricas (excluir Student_ID y Stress_Level)
numeric_vars = ['Study_Hours_Per_Day', 'Extracurricular_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
                'Social_Hours_Per_Day', 'Physical_Activity_Hours_Per_Day', 'GPA']

# Calcular matriz de correlación
correlation_matrix = ...

# Crear heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(..., annot=..., cmap='...', center=0, square=True)
plt.title('Matriz de Correlación entre Variables')
plt.show()


## 7. Comparación estadística entre grupos

Vamos a realizar pruebas estadísticas para determinar si hay diferencias significativas entre estudiantes con diferentes niveles de estrés.


<div class="alert alert-success">
    <b>Ejercicio 7</b>:
     <ul>
    <li>Crear dos grupos: estudiantes con estrés 'High' y estudiantes con estrés 'Low'</li>
    <li>Extraer las horas de estudio para cada grupo</li>
    <li>Realizar una prueba t de Student para comparar los grupos</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar df[df['Stress_Level'] == 'High'] para filtrar</i></li>
    <li><i>Usar stats.ttest_ind() para la prueba t</i></li>
    </ul>
</div>


In [None]:
# Separar grupos por nivel de estrés
high_stress = df[df['Stress_Level'] == '...']['Study_Hours_Per_Day']
low_stress = df[df['Stress_Level'] == '...']['Study_Hours_Per_Day']

print("Estudiantes con estrés alto:", len(high_stress))
print("Estudiantes con estrés bajo:", len(low_stress))
print("Promedio horas de estudio - Estrés alto:", round(high_stress.mean(), 2))
print("Promedio horas de estudio - Estrés bajo:", round(low_stress.mean(), 2))


In [None]:
# Realizar prueba t de Student
t_stat, p_value = ...

print("Prueba t de Student:")
print("Estadístico t:", round(t_stat, 4))
print("Valor p:", round(p_value, 4))

if p_value < 0.05:
    print("\n¡Hay una diferencia estadísticamente significativa! (p < 0.05)")
else:
    print("\nNo hay diferencia estadísticamente significativa (p >= 0.05)")


## 8. Análisis de Regresión Básico

Vamos a crear un modelo simple para entender qué factores predicen mejor el GPA.


<div class="alert alert-success">
    <b>Ejercicio 8</b>:
     <ul>
    <li>Crear un gráfico de dispersión entre Study_Hours_Per_Day y GPA</li>
    <li>Agregar una línea de tendencia al gráfico</li>
    <li>Calcular el coeficiente de correlación entre estas variables</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.regplot() para gráfico con línea de tendencia</i></li>
    <li><i>Usar .corr() para calcular correlación</i></li>
    </ul>
</div>


In [None]:
# Gráfico de dispersión con línea de tendencia
plt.figure(figsize=(10, 6))
sns.regplot(data=df, x='...', y='...', scatter_kws={'alpha':0.6})
plt.title('...')
plt.xlabel('...')
plt.ylabel('...')

# Calcular correlación
correlation = df['Study_Hours_Per_Day'].corr(df['...'])
plt.text(0.05, 0.95, f'Correlación: {correlation:.3f}', transform=plt.gca().transAxes, 
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.show()


## 8. Análisis de Regresión Básico

Vamos a crear un modelo simple para entender qué factores predicen mejor el GPA.


<div class="alert alert-success">
    <b>Ejercicio 8</b>:
     <ul>
    <li>Crear un gráfico de dispersión entre Study_Hours_Per_Day y GPA</li>
    <li>Agregar una línea de tendencia al gráfico</li>
    <li>Calcular el coeficiente de correlación entre estas variables</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.regplot() para gráfico con línea de tendencia</i></li>
    <li><i>Usar .corr() para calcular correlación</i></li>
    </ul>
</div>


In [None]:
# Gráfico de dispersión con línea de tendencia
plt.figure(figsize=(10, 6))
sns.regplot(data=df, x='...', y='...', scatter_kws={'alpha':0.6})
plt.title('...')
plt.xlabel('...')
plt.ylabel('...')

# Calcular correlación
correlation = df['Study_Hours_Per_Day'].corr(df['...'])
plt.text(0.05, 0.95, f'Correlación: {correlation:.3f}', transform=plt.gca().transAxes, 
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.show()


## 9. Modelo Predictivo: ¿Qué factores predicen mejor el estrés?

Ahora vamos a crear un modelo de regresión para predecir el nivel de estrés basándonos en las variables de estilo de vida. Esto nos permitirá identificar cuáles son los factores más importantes para predecir el estrés en estudiantes.

### 9.1 Preparar los datos para el modelo

Primero necesitamos convertir la variable categórica 'Stress_Level' en una variable numérica para poder usarla en la regresión.

<div class="alert alert-success">
    <b>Ejercicio 9</b>:
     <ul>
    <li>Crear una nueva variable numérica llamada 'Stress_Score'</li>
    <li>Asignar valores: Low=1, Moderate=2, High=3</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .map() para convertir categorías a números</i></li>
    <li><i>Crear un diccionario: {'Low': 1, 'Moderate': 2, 'High': 3}</i></li>
    </ul>
</div>


In [None]:
# Crear variable numérica para el nivel de estrés
stress_mapping = {'Low': 1, 'Moderate': 2, 'High': 3}
df['Stress_Score'] = df['Stress_Level'].map(...)

# Verificar la conversión
print("Conversión de Stress_Level a Stress_Score:")
print(df[['Stress_Level', 'Stress_Score']].head(10))


### 9.2 Modelo de Regresión Múltiple

Ahora vamos a crear un modelo que use todas las variables de estilo de vida para predecir el nivel de estrés.

<div class="alert alert-success">
    <b>Ejercicio 10</b>:
     <ul>
    <li>Crear un modelo de regresión múltiple usando todas las variables de estilo de vida como predictores</li>
    <li>La variable dependiente será 'Stress_Score'</li>
    <li>Interpretar qué variables son los mejores predictores</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar ols() de statsmodels</i></li>
    <li><i>La fórmula debe incluir todas las variables: "Stress_Score ~ Study_Hours_Per_Day + Sleep_Hours_Per_Day + Physical_Activity_Hours_Per_Day + Social_Hours_Per_Day + Extracurricular_Hours_Per_Day + GPA"</i></li>
    <li><i>Observar los valores p y coeficientes para identificar predictores significativos</i></li>
    </ul>
</div>


In [None]:
# Crear modelo de regresión múltiple para predecir estrés
formula = ...
stress_model = ols(..., data=df).fit()

# Mostrar resumen del modelo
print("=== MODELO PREDICTIVO DE ESTRÉS ===")
print(stress_model.summary())


# 10. ¿Qué errores cometimos? 

Analizar que errores cometimos al correr la regresión de recién. Está bien lo que hicimos?

<div class="alert alert-success">
    <b>Ejercicio 11 - Reflexión sobre regresión A</b>:
     <ul>
    <li>Es correcto el modelo que utilizamos? No? Por qué? Cuál deberiamos usar?</li>
    </ul>
</div>


In [None]:
from statsmodels.miscmodels.ordinal_model import OrderedModel

# Preparar datos
X = df[['Study_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
        'Physical_Activity_Hours_Per_Day', 'Social_Hours_Per_Day', 
        'Extracurricular_Hours_Per_Day', 'GPA']]

# CORRECCIÓN: Convertir categorías a números
# OrderedModel necesita valores numéricos enteros consecutivos empezando en 0
stress_mapping = {'Low': 0, 'Moderate': 1, 'High': 2}
y = df['Stress_Level'].map(stress_mapping)

# Modelo ordinal
model = OrderedModel(y, X, distr='logit', hasconst=False)
result = model.fit(method='bfgs')

print("=== REGRESIÓN ORDINAL (STATSMODELS) ===")
print(result.summary())

Optimization terminated successfully.
         Current function value: 0.471995
         Iterations: 26
         Function evaluations: 27
         Gradient evaluations: 27
=== REGRESIÓN ORDINAL (STATSMODELS) ===
                             OrderedModel Results                             
Dep. Variable:           Stress_Level   Log-Likelihood:                -943.99
Model:                   OrderedModel   AIC:                             1904.
Method:            Maximum Likelihood   BIC:                             1949.
Date:                Sat, 02 Aug 2025                                         
Time:                        13:18:59                                         
No. Observations:                2000                                         
Df Residuals:                    1992                                         
Df Model:                           6                                         
                                      coef    std err          z      P>|z|  

<div class="alert alert-success">
    <b>Ejercicio 11 - Reflexión sobre regresión B</b>:
     <ul>
    <li>Y la multicolinealidad?</li>
    </ul>
</div>


In [None]:
# SOLUCIÓN RÁPIDA: Eliminar variables con alta correlación
# Vemos que Study_Hours y GPA tienen correlación 0.73 (muy alta)
# Physical activity esta relativamente correlacionada con todas
# Eliminamos GPA y physicail activity

X_simple = df[['Study_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
              'Extracurricular_Hours_Per_Day']]  # Solo 3 variables clave

# Modelo ordinal sin multicolinealidad
model_simple = OrderedModel(y, X_simple, distr='logit', hasconst=False)
result_simple = model_simple.fit(method='bfgs')

print("=== MODELO SIN MULTICOLINEALIDAD ===")
print(result_simple.summary())

Optimization terminated successfully.
         Current function value: 0.472125
         Iterations: 27
         Function evaluations: 29
         Gradient evaluations: 29
=== MODELO SIN MULTICOLINEALIDAD ===
                             OrderedModel Results                             
Dep. Variable:           Stress_Level   Log-Likelihood:                -944.25
Model:                   OrderedModel   AIC:                             1899.
Method:            Maximum Likelihood   BIC:                             1927.
Date:                Sat, 02 Aug 2025                                         
Time:                        13:20:07                                         
No. Observations:                2000                                         
Df Residuals:                    1995                                         
Df Model:                           3                                         
                                    coef    std err          z      P>|z|      [

## 11. Reflexión Final

<div class="alert alert-success">
    <b>Ejercicio 12 - Reflexión</b>:
     <ul>
    <li>Basándose en los análisis realizados, escriba 3 conclusiones principales sobre la relación entre estilo de vida y estrés en estudiantes</li>
    <li>¿Qué variables son los mejores predictores de estrés según el modelo de regresión?</li>
    <li>¿Qué recomendaciones darían a estudiantes con alto estrés basándose en los resultados del modelo?</li>
    </ul>
</div>


### Escriba sus conclusiones aquí:

**1. Conclusión 1:**
[Su respuesta]

**2. Conclusión 2:**
[Su respuesta]

**3. Conclusión 3:**
[Su respuesta]

**Mejores predictores de estrés según el modelo:**
[Su respuesta]

**Recomendaciones para estudiantes con alto estrés (basadas en el modelo):**
[Su respuesta]


---

## ¡Felicitaciones! 🎉

Han completado su primer análisis completo de data science. Durante esta clase práctica han:

✅ Cargado y explorado un dataset real  
✅ Realizado análisis descriptivo completo  
✅ Creado visualizaciones informativas  
✅ Analizado correlaciones entre variables  
✅ Aplicado pruebas estadísticas  
✅ Construido modelos predictivos con regresión múltiple  
✅ Identificado los principales predictores de estrés  
✅ Extraído conclusiones basadas en evidencia  

Estos son los fundamentos que necesitan para cualquier proyecto de data science en psicología y neurociencias.

**¡Sigan practicando y explorando!** 🧠📊
