# Random Forest - Ejercicio - Desempeño de Estudiantes

**Contexto**  
Este conjunto de datos contiene el desempeño de estudiantes, de acuerdo diversos factores.

**Contenido**  
El conjunto de datos proviene de kaggle: [Student Performance](https://www.kaggle.com/datasets/nikhil7280/student-performance-multiple-linear-regression).  
Contiene 10,000 renglones, con las siguientes columnas:

| Variable                         | Definición                                       | Valor           |
| -------------------------------- | ------------------------------------------------ | --------------- |
| Hours Studied                    | Número total de horas dedicadas al estudio       | Numérico entero |
| Previous Scores                  | Calificaciones obtenidas en pruebas anteriores   | Numérico entero |
| Extracurricular Activities       | Participación en actividades extracurriculares   | Yes / No        |
| Sleep Hours                      | Horas de sueño por día                           | Numérico entero |
| Sample Question Papers Practiced | Exámenes muestra de práctica                     | Numérico entero |
| Performance Index                | Desempeño del estudiante **(variable objetivo)** | Entre 10 y 100  |

**Planteamiento del problema**  
Se busca encontrar que factores tienen mayor influencia en el desempeño de los estudiantes.

In [1]:
# Importar librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn import metrics

## Cargar Datos

In [2]:
# Importar los datos
df = pd.read_csv('Student_Performance.csv')
df.head()

Unnamed: 0,Hours Studied,Previous Scores,Extracurricular Activities,Sleep Hours,Sample Question Papers Practiced,Performance Index
0,7,99,Yes,9,1,91.0
1,4,82,No,4,2,65.0
2,8,51,Yes,7,2,45.0
3,5,52,Yes,5,2,36.0
4,7,75,No,8,5,66.0


In [3]:
# Renombrar columnas
df.columns = ['horas_estudio', 'calificacion_anterior', 'actividades_extra', 'horas_sueño', 'preguntas_practica', 'desempeño']
df.head()

Unnamed: 0,horas_estudio,calificacion_anterior,actividades_extra,horas_sueño,preguntas_practica,desempeño
0,7,99,Yes,9,1,91.0
1,4,82,No,4,2,65.0
2,8,51,Yes,7,2,45.0
3,5,52,Yes,5,2,36.0
4,7,75,No,8,5,66.0


## One-hot encoding

In [4]:
actividad = pd.get_dummies(df['actividades_extra'], drop_first=True)
actividad.columns = ['actividades_extra']
actividad.head()

Unnamed: 0,actividades_extra
0,1
1,0
2,1
3,1
4,0


In [5]:
df.drop(['actividades_extra'], axis=1, inplace=True)
df = pd.concat([df, actividad], axis=1)
df = df[['horas_estudio', 'calificacion_anterior', 'actividades_extra', 'horas_sueño', 'preguntas_practica', 'desempeño']]
df.head()

Unnamed: 0,horas_estudio,calificacion_anterior,actividades_extra,horas_sueño,preguntas_practica,desempeño
0,7,99,1,9,1,91.0
1,4,82,0,4,2,65.0
2,8,51,1,7,2,45.0
3,5,52,1,5,2,36.0
4,7,75,0,8,5,66.0


## Modelado

In [6]:
# Variables independientes
X = df[['horas_estudio', 'calificacion_anterior', 'actividades_extra', 'horas_sueño', 'preguntas_practica']]
X.head()

Unnamed: 0,horas_estudio,calificacion_anterior,actividades_extra,horas_sueño,preguntas_practica
0,7,99,1,9,1
1,4,82,0,4,2
2,8,51,1,7,2
3,5,52,1,5,2
4,7,75,0,8,5


In [7]:
# Variable dependiente
y = df['desempeño']
y.head()

0    91.0
1    65.0
2    45.0
3    36.0
4    66.0
Name: desempeño, dtype: float64

In [8]:
print('X:', len(X), 'y:', len(y))

X: 10000 y: 10000


In [9]:
# Conjunto de entrenamiento y pruebas
## Escribe tu código aqui

In [10]:
print('X_train:', len(X_train), 'y_train:', len(y_train))
print('X_test:',  len(X_test),  'y_test:',  len(y_test))

X_train: 7000 y_train: 7000
X_test: 3000 y_test: 3000


In [None]:
# Entrenamiento
## Escribe tu código aqui

In [None]:
# Predicciones
## Escribe tu código aqui

array([49.26666667, 53.95      , 78.36616667, ..., 64.64      ,
       38.075     , 90.11128571])

## Evaluación

In [None]:
## Escribe tu código aqui

MAE: 1.8369102322029822
MSE: 5.3451742727064495
RMSE: 2.3119632939790478
R2: 0.9851886460113026
