# Clase Pr√°ctica de Data Science - An√°lisis de Estr√©s en Estudiantes
#### Profesor: Mg. Joaqu√≠n Menedez  y Mg. Nicol√°s Bruno

## Consigna
En la clase de hoy van a realizar un **an√°lisis completo de un set de datos sobre estilo de vida de estudiantes** para entender qu√© factores se relacionan con el estr√©s acad√©mico.

Van a tener 3 horas para trabajar en este *practical lab* mientras nosotros respondemos sus dudas. El objetivo es que pongan en pr√°ctica todos los conceptos que vieron en los videos te√≥ricos.

## Dataset: Student Lifestyle & Stress

EL dataset lo sacamos de kaggle:
https://www.kaggle.com/datasets/steve1215rogg/student-lifestyle-dataset/data

El dataset que vamos a analizar contiene informaci√≥n de 1000 estudiantes universitarios y incluye variables muy relevantes para la psicolog√≠a:

- **Study_Hours_Per_Day**: Horas de estudio por d√≠a
- **Sleep_Hours_Per_Day**: Horas de sue√±o por d√≠a  
- **Physical_Activity_Hours_Per_Day**: Horas de actividad f√≠sica por d√≠a
- **Social_Hours_Per_Day**: Horas de socializaci√≥n por d√≠a
- **Extracurricular_Hours_Per_Day**: Horas de actividades extracurriculares por d√≠a
- **GPA**: Promedio acad√©mico
- **Stress_Level**: Nivel de estr√©s (Low, Moderate, High)

## Objetivos de la clase
1. Cargar y explorar el dataset
2. Realizar an√°lisis descriptivo completo
3. Crear visualizaciones informativas
4. Analizar correlaciones entre variables
5. Comparar grupos seg√∫n nivel de estr√©s
6. Aplicar pruebas estad√≠sticas b√°sicas
7. Construir un modelo predictivo simple

## Resoluci√≥n
Este notebook los va a ir guiando paso a paso. Encontrar√°n celdas de texto que explican qu√© hacer y celdas con c√≥digo incompleto (**...**) que ustedes deber√°n completar.

**¬°Recuerden preguntar cualquier duda que tengan!**


---


## 1. Importar librer√≠as necesarias

Primero vamos a importar todas las librer√≠as que vamos a necesitar para nuestro an√°lisis.


In [None]:
# Librer√≠as para manejo de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns

# Librer√≠as para estad√≠stica
import scipy.stats as stats
from statsmodels.formula.api import ols
import statsmodels.api as sm

# Para descargar el dataset
!pip install kagglehub #para instalar kagglehub y poder descargar el dataset.
import kagglehub

# Configuraci√≥n para que los gr√°ficos se vean bien
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)


## 2. Cargar el dataset

Vamos a descargar el dataset directamente desde Kaggle usando kagglehub. Esto nos permite trabajar en Google Colab sin tener que subir archivos manualmente.


In [None]:
# Descargar el dataset desde Kaggle
path = kagglehub.dataset_download("steve1215rogg/student-lifestyle-dataset")
print("Path to dataset files:", path)


<div class="alert alert-success">
    <b>Ejercicio 1</b>:
     <ul>
    <li>Cargar el archivo CSV en un DataFrame de pandas</li>
    <li>Asignar el DataFrame a la variable 'df'</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar pd.read_csv() para leer el archivo</i></li>
    <li><i>El archivo se llama 'student_lifestyle_dataset.csv'</i></li>
    <li><i>Usar path + '/student_lifestyle_dataset.csv' como ruta completa</i></li>
    </ul>
</div>


In [None]:
# Cargar el dataset
df = pd.read_csv(...)


## 3. Exploraci√≥n inicial de los datos

Ahora vamos a explorar nuestro dataset para entender qu√© informaci√≥n tenemos disponible.


<div class="alert alert-success">
    <b>Ejercicio 2</b>:
     <ul>
    <li>Mostrar las primeras 5 filas del dataset</li>
    <li>Mostrar informaci√≥n general del dataset (tipos de datos, valores nulos, etc.)</li>
    <li>Mostrar las dimensiones del dataset (filas y columnas)</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .head() para ver las primeras filas</i></li>
    <li><i>Usar .info() para informaci√≥n general</i></li>
    <li><i>Usar .shape para dimensiones</i></li>
    </ul>
</div>


In [None]:
# Mostrar las primeras filas
print("Primeras 5 filas del dataset:")
...


In [None]:
# Informaci√≥n general del dataset
print("Informaci√≥n general del dataset:")
...


In [None]:
# Dimensiones del dataset
print("El dataset tiene", ..., "filas y", ..., "columnas")


### 3.1 Verificar valores faltantes

Es importante siempre verificar si nuestro dataset tiene valores faltantes (NaN o null).


In [None]:
# Verificar valores faltantes
print("Valores faltantes por columna:")
...


## 4. An√°lisis Descriptivo

Ahora vamos a calcular estad√≠sticas descriptivas para entender mejor nuestros datos.


<div class="alert alert-success">
    <b>Ejercicio 3</b>:
     <ul>
    <li>Calcular estad√≠sticas descriptivas para todas las variables num√©ricas</li>
    <li>Contar cu√°ntos estudiantes hay en cada nivel de estr√©s</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .describe() para estad√≠sticas descriptivas</i></li>
    <li><i>Usar .value_counts() para contar categor√≠as</i></li>
    </ul>
</div>


In [None]:
# Estad√≠sticas descriptivas de variables num√©ricas
print("Estad√≠sticas descriptivas:")
...


In [None]:
# Distribuci√≥n de los niveles de estr√©s
print("Distribuci√≥n de niveles de estr√©s:")
...


### 4.1 An√°lisis por grupos de estr√©s

Vamos a ver c√≥mo se comportan las diferentes variables seg√∫n el nivel de estr√©s.


<div class="alert alert-success">
    <b>Ejercicio 4</b>:
     <ul>
    <li>Calcular el promedio de todas las variables num√©ricas agrupadas por nivel de estr√©s</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .groupby() con 'Stress_Level'</i></li>
    <li><i>Usar .mean() para calcular promedios</i></li>
    <li><i>Usar .round(2) para redondear a 2 decimales</i></li>
    </ul>
</div>


In [None]:
# Promedios por nivel de estr√©s
print("Promedios por nivel de estr√©s:")
...


## 5. Visualizaci√≥n de datos

Las visualizaciones nos ayudan a entender mejor los patrones en nuestros datos. Vamos a crear varios gr√°ficos para explorar las relaciones entre variables.


### 5.1 Distribuci√≥n del nivel de estr√©s


In [None]:
# Gr√°fico de barras para nivel de estr√©s
plt.figure(figsize=(8, 6))
stress_counts = ...
plt.bar(stress_counts.index, stress_counts.values)
plt.title('Distribuci√≥n de Niveles de Estr√©s')
plt.xlabel('Nivel de Estr√©s')
plt.ylabel('Cantidad de Estudiantes')
plt.show()


### 5.2 Boxplots por nivel de estr√©s

Los boxplots nos permiten comparar la distribuci√≥n de variables continuas entre diferentes grupos.


<div class="alert alert-success">
    <b>Ejercicio 5</b>:
     <ul>
    <li>Crear boxplots que muestren la distribuci√≥n de 'Study_Hours_Per_Day' para cada nivel de estr√©s</li>
    <li>Crear boxplots que muestren la distribuci√≥n de 'Sleep_Hours_Per_Day' para cada nivel de estr√©s</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.boxplot() con x='Stress_Level' y y=variable de inter√©s</i></li>
    <li><i>Usar plt.subplots() para crear 2 gr√°ficos lado a lado</i></li>
    </ul>
</div>


In [None]:
# Boxplots comparando grupos de estr√©s
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Boxplot para horas de estudio
sns.boxplot(data=df, x='...', y='...', ax=axes[0])
axes[0].set_title('...')

# Boxplot para horas de sue√±o
sns.boxplot(data=df, x='...', y='...', ax=axes[1])
axes[1].set_title('...')

plt.tight_layout()
plt.show()


## 6. An√°lisis de Correlaciones

Vamos a explorar c√≥mo se relacionan las diferentes variables entre s√≠.


<div class="alert alert-success">
    <b>Ejercicio 6</b>:
     <ul>
    <li>Calcular la matriz de correlaci√≥n para todas las variables num√©ricas</li>
    <li>Crear un heatmap de la matriz de correlaci√≥n</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .corr() para calcular correlaciones</i></li>
    <li><i>Usar sns.heatmap() para crear el mapa de calor</i></li>
    <li><i>Usar annot=True para mostrar los valores en el heatmap</i></li>
    </ul>
</div>


In [None]:
# Seleccionar solo variables num√©ricas (excluir Student_ID y Stress_Level)
numeric_vars = ['Study_Hours_Per_Day', 'Extracurricular_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
                'Social_Hours_Per_Day', 'Physical_Activity_Hours_Per_Day', 'GPA']

# Calcular matriz de correlaci√≥n
correlation_matrix = ...

# Crear heatmap
plt.figure(figsize=(10, 8))
sns.heatmap(..., annot=..., cmap='...', center=0, square=True)
plt.title('Matriz de Correlaci√≥n entre Variables')
plt.show()


## 7. Comparaci√≥n estad√≠stica entre grupos

Vamos a realizar pruebas estad√≠sticas para determinar si hay diferencias significativas entre estudiantes con diferentes niveles de estr√©s.


<div class="alert alert-success">
    <b>Ejercicio 7</b>:
     <ul>
    <li>Crear dos grupos: estudiantes con estr√©s 'High' y estudiantes con estr√©s 'Low'</li>
    <li>Extraer las horas de estudio para cada grupo</li>
    <li>Realizar una prueba t de Student para comparar los grupos</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar df[df['Stress_Level'] == 'High'] para filtrar</i></li>
    <li><i>Usar stats.ttest_ind() para la prueba t</i></li>
    </ul>
</div>


In [None]:
# Separar grupos por nivel de estr√©s
high_stress = df[df['Stress_Level'] == '...']['Study_Hours_Per_Day']
low_stress = df[df['Stress_Level'] == '...']['Study_Hours_Per_Day']

print("Estudiantes con estr√©s alto:", len(high_stress))
print("Estudiantes con estr√©s bajo:", len(low_stress))
print("Promedio horas de estudio - Estr√©s alto:", round(high_stress.mean(), 2))
print("Promedio horas de estudio - Estr√©s bajo:", round(low_stress.mean(), 2))


In [None]:
# Realizar prueba t de Student
t_stat, p_value = ...

print("Prueba t de Student:")
print("Estad√≠stico t:", round(t_stat, 4))
print("Valor p:", round(p_value, 4))

if p_value < 0.05:
    print("\n¬°Hay una diferencia estad√≠sticamente significativa! (p < 0.05)")
else:
    print("\nNo hay diferencia estad√≠sticamente significativa (p >= 0.05)")


## 8. An√°lisis de Regresi√≥n B√°sico

Vamos a crear un modelo simple para entender qu√© factores predicen mejor el GPA.


<div class="alert alert-success">
    <b>Ejercicio 8</b>:
     <ul>
    <li>Crear un gr√°fico de dispersi√≥n entre Study_Hours_Per_Day y GPA</li>
    <li>Agregar una l√≠nea de tendencia al gr√°fico</li>
    <li>Calcular el coeficiente de correlaci√≥n entre estas variables</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.regplot() para gr√°fico con l√≠nea de tendencia</i></li>
    <li><i>Usar .corr() para calcular correlaci√≥n</i></li>
    </ul>
</div>


In [None]:
# Gr√°fico de dispersi√≥n con l√≠nea de tendencia
plt.figure(figsize=(10, 6))
sns.regplot(data=df, x='...', y='...', scatter_kws={'alpha':0.6})
plt.title('...')
plt.xlabel('...')
plt.ylabel('...')

# Calcular correlaci√≥n
correlation = df['Study_Hours_Per_Day'].corr(df['...'])
plt.text(0.05, 0.95, f'Correlaci√≥n: {correlation:.3f}', transform=plt.gca().transAxes, 
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.show()


## 8. An√°lisis de Regresi√≥n B√°sico

Vamos a crear un modelo simple para entender qu√© factores predicen mejor el GPA.


<div class="alert alert-success">
    <b>Ejercicio 8</b>:
     <ul>
    <li>Crear un gr√°fico de dispersi√≥n entre Study_Hours_Per_Day y GPA</li>
    <li>Agregar una l√≠nea de tendencia al gr√°fico</li>
    <li>Calcular el coeficiente de correlaci√≥n entre estas variables</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar sns.regplot() para gr√°fico con l√≠nea de tendencia</i></li>
    <li><i>Usar .corr() para calcular correlaci√≥n</i></li>
    </ul>
</div>


In [None]:
# Gr√°fico de dispersi√≥n con l√≠nea de tendencia
plt.figure(figsize=(10, 6))
sns.regplot(data=df, x='...', y='...', scatter_kws={'alpha':0.6})
plt.title('...')
plt.xlabel('...')
plt.ylabel('...')

# Calcular correlaci√≥n
correlation = df['Study_Hours_Per_Day'].corr(df['...'])
plt.text(0.05, 0.95, f'Correlaci√≥n: {correlation:.3f}', transform=plt.gca().transAxes, 
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.show()


## 9. Modelo Predictivo: ¬øQu√© factores predicen mejor el estr√©s?

Ahora vamos a crear un modelo de regresi√≥n para predecir el nivel de estr√©s bas√°ndonos en las variables de estilo de vida. Esto nos permitir√° identificar cu√°les son los factores m√°s importantes para predecir el estr√©s en estudiantes.

### 9.1 Preparar los datos para el modelo

Primero necesitamos convertir la variable categ√≥rica 'Stress_Level' en una variable num√©rica para poder usarla en la regresi√≥n.

<div class="alert alert-success">
    <b>Ejercicio 9</b>:
     <ul>
    <li>Crear una nueva variable num√©rica llamada 'Stress_Score'</li>
    <li>Asignar valores: Low=1, Moderate=2, High=3</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar .map() para convertir categor√≠as a n√∫meros</i></li>
    <li><i>Crear un diccionario: {'Low': 1, 'Moderate': 2, 'High': 3}</i></li>
    </ul>
</div>


In [None]:
# Crear variable num√©rica para el nivel de estr√©s
stress_mapping = {'Low': 1, 'Moderate': 2, 'High': 3}
df['Stress_Score'] = df['Stress_Level'].map(...)

# Verificar la conversi√≥n
print("Conversi√≥n de Stress_Level a Stress_Score:")
print(df[['Stress_Level', 'Stress_Score']].head(10))


### 9.2 Modelo de Regresi√≥n M√∫ltiple

Ahora vamos a crear un modelo que use todas las variables de estilo de vida para predecir el nivel de estr√©s.

<div class="alert alert-success">
    <b>Ejercicio 10</b>:
     <ul>
    <li>Crear un modelo de regresi√≥n m√∫ltiple usando todas las variables de estilo de vida como predictores</li>
    <li>La variable dependiente ser√° 'Stress_Score'</li>
    <li>Interpretar qu√© variables son los mejores predictores</li>
    </ul>
    <br>
    <i>Tips</i>:
    <ul>
    <li><i>Usar ols() de statsmodels</i></li>
    <li><i>La f√≥rmula debe incluir todas las variables: "Stress_Score ~ Study_Hours_Per_Day + Sleep_Hours_Per_Day + Physical_Activity_Hours_Per_Day + Social_Hours_Per_Day + Extracurricular_Hours_Per_Day + GPA"</i></li>
    <li><i>Observar los valores p y coeficientes para identificar predictores significativos</i></li>
    </ul>
</div>


In [None]:
# Crear modelo de regresi√≥n m√∫ltiple para predecir estr√©s
formula = ...
stress_model = ols(..., data=df).fit()

# Mostrar resumen del modelo
print("=== MODELO PREDICTIVO DE ESTR√âS ===")
print(stress_model.summary())


# 10. ¬øQu√© errores cometimos? 

Analizar que errores cometimos al correr la regresi√≥n de reci√©n. Est√° bien lo que hicimos?

<div class="alert alert-success">
    <b>Ejercicio 11 - Reflexi√≥n sobre regresi√≥n A</b>:
     <ul>
    <li>Es correcto el modelo que utilizamos? No? Por qu√©? Cu√°l deberiamos usar?</li>
    </ul>
</div>


In [None]:
from statsmodels.miscmodels.ordinal_model import OrderedModel

# Preparar datos
X = df[['Study_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
        'Physical_Activity_Hours_Per_Day', 'Social_Hours_Per_Day', 
        'Extracurricular_Hours_Per_Day', 'GPA']]

# CORRECCI√ìN: Convertir categor√≠as a n√∫meros
# OrderedModel necesita valores num√©ricos enteros consecutivos empezando en 0
stress_mapping = {'Low': 0, 'Moderate': 1, 'High': 2}
y = df['Stress_Level'].map(stress_mapping)

# Modelo ordinal
model = OrderedModel(y, X, distr='logit', hasconst=False)
result = model.fit(method='bfgs')

print("=== REGRESI√ìN ORDINAL (STATSMODELS) ===")
print(result.summary())

Optimization terminated successfully.
         Current function value: 0.471995
         Iterations: 26
         Function evaluations: 27
         Gradient evaluations: 27
=== REGRESI√ìN ORDINAL (STATSMODELS) ===
                             OrderedModel Results                             
Dep. Variable:           Stress_Level   Log-Likelihood:                -943.99
Model:                   OrderedModel   AIC:                             1904.
Method:            Maximum Likelihood   BIC:                             1949.
Date:                Sat, 02 Aug 2025                                         
Time:                        13:18:59                                         
No. Observations:                2000                                         
Df Residuals:                    1992                                         
Df Model:                           6                                         
                                      coef    std err          z      P>|z| 

<div class="alert alert-success">
    <b>Ejercicio 11 - Reflexi√≥n sobre regresi√≥n B</b>:
     <ul>
    <li>Y la multicolinealidad?</li>
    </ul>
</div>


In [None]:
# SOLUCI√ìN R√ÅPIDA: Eliminar variables con alta correlaci√≥n
# Vemos que Study_Hours y GPA tienen correlaci√≥n 0.73 (muy alta)
# Physical activity esta relativamente correlacionada con todas
# Eliminamos GPA y physicail activity

X_simple = df[['Study_Hours_Per_Day', 'Sleep_Hours_Per_Day', 
              'Extracurricular_Hours_Per_Day']]  # Solo 3 variables clave

# Modelo ordinal sin multicolinealidad
model_simple = OrderedModel(y, X_simple, distr='logit', hasconst=False)
result_simple = model_simple.fit(method='bfgs')

print("=== MODELO SIN MULTICOLINEALIDAD ===")
print(result_simple.summary())

Optimization terminated successfully.
         Current function value: 0.472125
         Iterations: 27
         Function evaluations: 29
         Gradient evaluations: 29
=== MODELO SIN MULTICOLINEALIDAD ===
                             OrderedModel Results                             
Dep. Variable:           Stress_Level   Log-Likelihood:                -944.25
Model:                   OrderedModel   AIC:                             1899.
Method:            Maximum Likelihood   BIC:                             1927.
Date:                Sat, 02 Aug 2025                                         
Time:                        13:20:07                                         
No. Observations:                2000                                         
Df Residuals:                    1995                                         
Df Model:                           3                                         
                                    coef    std err          z      P>|z|      [

## 11. Reflexi√≥n Final

<div class="alert alert-success">
    <b>Ejercicio 12 - Reflexi√≥n</b>:
     <ul>
    <li>Bas√°ndose en los an√°lisis realizados, escriba 3 conclusiones principales sobre la relaci√≥n entre estilo de vida y estr√©s en estudiantes</li>
    <li>¬øQu√© variables son los mejores predictores de estr√©s seg√∫n el modelo de regresi√≥n?</li>
    <li>¬øQu√© recomendaciones dar√≠an a estudiantes con alto estr√©s bas√°ndose en los resultados del modelo?</li>
    </ul>
</div>


### Escriba sus conclusiones aqu√≠:

**1. Conclusi√≥n 1:**
[Su respuesta]

**2. Conclusi√≥n 2:**
[Su respuesta]

**3. Conclusi√≥n 3:**
[Su respuesta]

**Mejores predictores de estr√©s seg√∫n el modelo:**
[Su respuesta]

**Recomendaciones para estudiantes con alto estr√©s (basadas en el modelo):**
[Su respuesta]


---

## ¬°Felicitaciones! üéâ

Han completado su primer an√°lisis completo de data science. Durante esta clase pr√°ctica han:

‚úÖ Cargado y explorado un dataset real  
‚úÖ Realizado an√°lisis descriptivo completo  
‚úÖ Creado visualizaciones informativas  
‚úÖ Analizado correlaciones entre variables  
‚úÖ Aplicado pruebas estad√≠sticas  
‚úÖ Construido modelos predictivos con regresi√≥n m√∫ltiple  
‚úÖ Identificado los principales predictores de estr√©s  
‚úÖ Extra√≠do conclusiones basadas en evidencia  

Estos son los fundamentos que necesitan para cualquier proyecto de data science en psicolog√≠a y neurociencias.

**¬°Sigan practicando y explorando!** üß†üìä
