# 📘 Predicción de notas según hábitos estudiantiles 📘


## Introducción

Este proyecto analiza cómo los hábitos diarios de los estudiantes (como horas de estudio, uso de redes sociales, sueño, etc.) afectan su rendimiento académico. Utilizaremos un modelo de Machine Learning para predecir la nota del examen final en función de estos hábitos.


In [5]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("jayaantanaath/student-habits-vs-academic-performance")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/student-habits-vs-academic-performance


## Carga de datos

In [6]:
import pandas as pd

# Carga el archivo CSV
df = pd.read_csv("/kaggle/input/student-habits-vs-academic-performance/student_habits_performance.csv")

# Ver columnas
print(df.columns.tolist())

# Muestra las primeras filas
df.head()


['student_id', 'age', 'gender', 'study_hours_per_day', 'social_media_hours', 'netflix_hours', 'part_time_job', 'attendance_percentage', 'sleep_hours', 'diet_quality', 'exercise_frequency', 'parental_education_level', 'internet_quality', 'mental_health_rating', 'extracurricular_participation', 'exam_score']


Unnamed: 0,student_id,age,gender,study_hours_per_day,social_media_hours,netflix_hours,part_time_job,attendance_percentage,sleep_hours,diet_quality,exercise_frequency,parental_education_level,internet_quality,mental_health_rating,extracurricular_participation,exam_score
0,S1000,23,Female,0.0,1.2,1.1,No,85.0,8.0,Fair,6,Master,Average,8,Yes,56.2
1,S1001,20,Female,6.9,2.8,2.3,No,97.3,4.6,Good,6,High School,Average,8,No,100.0
2,S1002,21,Male,1.4,3.1,1.3,No,94.8,8.0,Poor,1,High School,Poor,1,No,34.3
3,S1003,23,Female,1.0,3.9,1.0,No,71.0,9.2,Poor,4,Master,Good,1,Yes,26.8
4,S1004,19,Female,5.0,4.4,0.5,No,90.9,4.9,Fair,3,Master,Good,1,No,66.4


## Preprocesamiento


In [9]:
import pandas as pd

# Cargar CSV
df = pd.read_csv("/kaggle/input/student-habits-vs-academic-performance/student_habits_performance.csv")

# Codificación de variables categóricas
df['gender'] = df['gender'].map({'Male': 0, 'Female': 1, 'Other': 2})
df['diet_quality'] = df['diet_quality'].map({'Poor': 0, 'Fair': 1, 'Good': 2})
df['parental_education_level'] = df['parental_education_level'].map({'High School': 0, 'Bachelor': 1, 'Other': 2})
df['internet_quality'] = df['internet_quality'].map({'Poor': 0, 'Average': 1, 'Good': 2})

# Mapear booleanos
df['part_time_job'] = df['part_time_job'].map({'Yes': 1, 'No': 0})
df['extracurricular_participation'] = df['extracurricular_participation'].map({'Yes': 1, 'No': 0})

# Columnas a usar
features = [
    'age', 'gender', 'study_hours_per_day', 'social_media_hours', 'netflix_hours',
    'part_time_job', 'attendance_percentage', 'sleep_hours', 'diet_quality',
    'exercise_frequency', 'parental_education_level', 'internet_quality',
    'mental_health_rating', 'extracurricular_participation'
]

X = df[features]
y = df['exam_score']

## Entrenamiento del modelo

In [10]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)



## Predicción interactiva con input del usuario

In [11]:
def pedir_habitos():
    print("Introduce tus hábitos para predecir tu nota:")
    datos = {}
    datos['age'] = float(input("Edad: "))
    datos['gender'] = int(input("Género (0: Male, 1: Female, 2: Other): "))
    datos['study_hours_per_day'] = float(input("Horas de estudio por día: "))
    datos['social_media_hours'] = float(input("Horas en redes sociales por día: "))
    datos['netflix_hours'] = float(input("Horas viendo Netflix por día: "))
    datos['part_time_job'] = int(input("¿Tienes trabajo medio tiempo? (0: No, 1: Sí): "))
    datos['attendance_percentage'] = float(input("Porcentaje de asistencia (%): "))
    datos['sleep_hours'] = float(input("Horas de sueño por día: "))
    datos['diet_quality'] = int(input("Calidad de dieta (0: Poor, 1: Fair, 2: Good): "))
    datos['exercise_frequency'] = float(input("Frecuencia de ejercicio (veces/semana): "))
    datos['parental_education_level'] = int(input("Educación de padres (0: High School, 1: Bachelor, 2: Other): "))
    datos['internet_quality'] = int(input("Calidad de internet (0: Poor, 1: Average, 2: Good): "))
    datos['mental_health_rating'] = float(input("Salud mental (1 a 10): "))
    datos['extracurricular_participation'] = int(input("¿Participas en extracurriculares? (0: No, 1: Sí): "))
    return pd.DataFrame([datos])

# Pide hábitos al usuario y predice la nota
entrada_usuario = pedir_habitos()
prediccion = model.predict(entrada_usuario)[0]
print(f"\n🎓 Tu nota estimada en el examen sería: {prediccion:.2f}/100")


Introduce tus hábitos para predecir tu nota:
Edad: 23
Género (0: Male, 1: Female, 2: Other): 0
Horas de estudio por día: 4
Horas en redes sociales por día: 2
Horas viendo Netflix por día: 1
¿Tienes trabajo medio tiempo? (0: No, 1: Sí): 0
Porcentaje de asistencia (%): 0
Horas de sueño por día: 8
Calidad de dieta (0: Poor, 1: Fair, 2: Good): 2
Frecuencia de ejercicio (veces/semana): 9
Educación de padres (0: High School, 1: Bachelor, 2: Other): 0
Calidad de internet (0: Poor, 1: Average, 2: Good): 2
Salud mental (1 a 10): 7
¿Participas en extracurriculares? (0: No, 1: Sí): 1

🎓 Tu nota estimada en el examen sería: 84.83/100


## Conclusión

El modelo muestra una capacidad razonable para predecir el desempeño académico basándose en hábitos diarios. Se podrían explorar otros algoritmos o incluir más datos (como notas anteriores) para mejorar la precisión.

## Posibles mejoras:
- Normalización de variables
- Optimización de hiperparámetros
- Visualización de correlaciones
