# Desafío 2: Rendimiento escolar

## Preliminares

### Problema

El problema consiste en el desarrollo de un modelo predictivo de **regresión** para predecir, en base a atributos sociodemográficos y conductuales de alumnos, las notas de los alumnos.

A continuación se presenta el modelo a estimar:

$$Y={{\beta }_{0} + \sum_{i=1} {\beta }_{i} \cdot {X_{i}}}$$

Donde $X_{i}$ corresponden a los atributos sociodemográficos y conductuales, mientras que $Y$ es el vector objetivo a estimar (notas)

### Métricas de desempeño

Como este es un problema de regresión, se utilizarán las siguientes dos métricas:

- **Promedio del Error Cuadrático (Mean Squared Error)**: Representa la expectativa del error cuadrático. Es un indicador de calidad con valores no negativos, donde menores valores indican mejores niveles de ajuste.
- **R-cuadrado**: Representa la capacidad explicativa de nuestro conjunto de atributos en la variabilidad de nuestro vector objetivo.

### Descripción de la base de datos

- school : Escuela del estudiante. (binaria: 'GP' - Gabriel Pereira o 'MS' - Mousinho da Silveira)
- sex : Sexo del estudiante. (binaria: 'F' - Mujer o 'M' - Hombre)
- age : Edad del estudiante. (numérica: de 15 a 22)
- address : Ubicación de la casa del estudiante. (binaria: 'U' - urbana o 'R' - rural)
- famsize : Tamaño de la familia. (binaria: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)
- Pstatus : Estado cohabitacional de los padres. (binaria: 'T' - cohabitando juntos o 'A' - viviendo separados)
- Medu : Nivel educacional de la madre. (numérica: 0 - ninguno, 1 - educación básica (4to), 2 - de 5to a 9, 3 - educación media, o 4 - educación superior).
- Fedu : Nivel educacional del padre. (numérica: 0 - ninguno, 1 - educación básica (4to), 2 - de 5to a 9, 3 - educación media, o 4 - educación superior).
- Mjob : Ocupación de la madre. (nominal: 'teacher' profesora, 'health' relacionada a salud, 'services' (e.g. administración pública o policía), 'at_home' en casa u 'other' otra).
- Fjob : Ocupación del padre (nominal: 'teacher' profesor, 'health' relacionado a salud, 'services' (e.g. administración pública o policía), 'at_home' en casa u 'other' otra).
- reason : Razón para escoger la escuela (nominal: 'home' cercano a casa, 'reputation' reputación de la escuela, 'course' preferencia de cursos u 'other' otra)
- guardian : Apoderado del estudiante (nominal: 'mother' madre, 'father' padre u 'other' otro)
- traveltime : Tiempo de viaje entre hogar y colegio. (numeric: 1 - <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hora, or 4 - >1 hora).
- studytime : Horas semanales dedicadas al estudio. (numérica: 1 - <2 horas, 2 - 2 a 5 horas, 3- 5 a 10 horas, o 4 - >10 horas)
- failures : Número de clases reprobadas. (numérica: n si 1<=n<3, de lo contrario 4)
- schoolsup : Apoyo educacional del colegio. (binaria: si o no)
- famsup : Apoyo educacional familiar. (binaria: si o no)
- paid : Clases particulares pagadas (matemáticas o portugués) (binaria: si o no)
- activities : Actividades extracurriculares. (binaria: si o no)
- nursery : Asistió a guardería infantil. (binaria: si o no)
- higher : Desea proseguir estudios superiores (binaria: si o no)
- internet : Acceso a internet desde el hogar (binaria: si o no)
- romantic : Relación romántica (binaria: si o no)
- famrel : Calidad de las relaciones familiares. (numérica: de 1 - muy malas a 5 - excelentes)
- freetime : Tiempo libre fuera del colegio (numérica: de 1 - muy poco a 5 - mucho)
- goout : Salidas con amigos (numérica: de 1 - muy pocas a 5 - muchas)
- Dalc : Consumo de alcohol en día de semana (numérica: de 1 - muy bajo a 5 - muy alto)
- Walc : Consumo de alcohol en fines de semana (numérica: de 1 - muy bajo a 5 - muy alto)
- health : Estado de salud actual (numérica: from 1 - muy malo to 5 - muy bueno)
- absences : Cantidad de ausencias escolares (numérica: de 0 a 93)
- G1 : Notas durante el primer semestre (numérica: de 0 a 20). Este es uno de sus vectores objetivos para el modelo descriptivo.
- G2 : Notas durante el segundo semestre (numérica: de 0 a 20). Este es uno de sus vectores objetivos para el modelo descriptivo.
- G3 : Promedio final (numérica: de 0 a 20). Este es uno de sus vectores objetivos para el modelo descriptivo y el vector a predecir en el modelo predictivo.

## Aspectos computacionales

### Librerías a utilizar

- `pandas`: manipulación y análisis de datos.
- `numpy`: biblioteca de funciones matemáticas de alto nivel para operar con vectores o matrices.
- `scipy.stats`: contiene una gran cantidad de distribuciones de probabilidad y de funciones estadísticas.
- `matplotlib.pyplot`: nos permite mostrar gráficos.
- `seaborn`: librería especializada para gráficos estadísticos.
- `sklearn`: herramientas para análisis de datos y minería de datos. En particular se utilizará:
    - `linear_model`: módulo para trabajar con regresión donde el valor target es una combinación lineal de los features. Utilizaremos en este caso `LogisticRegression`.
    - `metrics`: módulo para obtener métricas de nuestros modelos (`mean_squared_error`, `r2_score`).
    - `model_selection`: de aquí se utilizará `train_test_split` para dividir nuestro datos en un set de entrenamiento y en un set de validación.
    - `preprocessing`: funciones para transformar datos en una representación más adecuada para los estimadores.
- `statsmodel`: provee clases y funciones para la estimación de distintos modelos estadísticos, así como para la realización de pruebas estadísticas y la exploración de datos estadísticos.
- `missingno`: librería para la visualización de datos perdidos.
- `factor_analyzer`: librería para el análisis factorial.
- `warnings`: será utilizada para evitar avisos de deprecación.

In [1]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LogisticRegression 
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, r2_score
import statsmodels.api as sm
import statsmodels.formula.api as smf
import factor_analyzer as factor
import missingno as msngo
import warnings

warnings.filterwarnings('ignore')

### Proceso de preprocesamiento y recodificación de datos

El proceso de preprocesamiento y recodificación de los datos consistirá en lo siguiente:

1. Análisis de cada columna (tipos de datos).
2. Resolución de anomalías.
3. Recodificación de las variables binarias como 0 y 1. Se asignará 1 a aquellas categorías minoritarias.
4. Recodificación de las variables nominales con más de 2 categorías.

### Funciones

- `describe_columns(df)`, función que dado un `DataFrame` `df` reporta las medidas descriptivas de cada columna. Para columnas con valores numéricos, utilizará `describe`, mientras para las columnas con atributos discretos utilizará `value_counts`.
- `plot_columns_behaviour(df)`, función que dado un `DataFrame` `df`, grafica histogramas para los atributos contínuos y gráficos de barra los discretos.

In [2]:
original_df = pd.read_csv('students.csv', sep='|')
original_df.head(5)

Unnamed: 0.1,Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,0,GP,F,nulidade,U,GT3,A,4,4,at_home,...,4,3,"""4""",1,1,"""3""",6,5,6,6
1,1,GP,F,"""17""",U,GT3,T,1,1,at_home,...,5,3,"""3""",1,1,"""3""",4,5,5,6
2,2,GP,F,"""15""",U,LE3,T,1,1,at_home,...,4,3,"""2""",2,3,"""3""",10,zero,8,10
3,3,GP,F,"""15""",U,GT3,T,4,2,health,...,3,2,"""2""",1,1,"""5""",2,15,14,15
4,4,GP,F,sem validade,U,GT3,T,3,3,other,...,4,3,"""2""",1,2,"""5""",4,6,10,10


In [3]:
# 1. Análisis de cada columna
original_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 34 columns):
Unnamed: 0    395 non-null int64
school        395 non-null object
sex           395 non-null object
age           395 non-null object
address       395 non-null object
famsize       395 non-null object
Pstatus       395 non-null object
Medu          395 non-null object
Fedu          395 non-null object
Mjob          395 non-null object
Fjob          395 non-null object
reason        395 non-null object
guardian      395 non-null object
traveltime    395 non-null object
studytime     395 non-null object
failures      395 non-null object
schoolsup     395 non-null object
famsup        395 non-null object
paid          395 non-null object
activities    395 non-null object
nursery       395 non-null object
higher        395 non-null object
internet      395 non-null object
romantic      395 non-null object
famrel        395 non-null object
freetime      395 non-null object
goout       

In [4]:
# 2. Resolución de anomalías

# 2.1) Eliminar unnamed column
df1 = original_df.drop(columns=['Unnamed: 0'])

df1.head(3)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,nulidade,U,GT3,A,4,4,at_home,teacher,...,4,3,"""4""",1,1,"""3""",6,5,6,6
1,GP,F,"""17""",U,GT3,T,1,1,at_home,other,...,5,3,"""3""",1,1,"""3""",4,5,5,6
2,GP,F,"""15""",U,LE3,T,1,1,at_home,other,...,4,3,"""2""",2,3,"""3""",10,zero,8,10


In [5]:
# 2.2) Para cada columna, reemplazar los casos perdidos
df2 = df1.copy()

for col_name in df2:
    missing = df2[col_name].isin(['nulidade', 'zero', 'sem validade'])
    missing_count = sum(missing)
    if missing_count > 0:
        df2.loc[missing, col_name] = None

df2.head(3)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,,U,GT3,A,4,4,at_home,teacher,...,4,3,"""4""",1,1,"""3""",6,5.0,6,6
1,GP,F,"""17""",U,GT3,T,1,1,at_home,other,...,5,3,"""3""",1,1,"""3""",4,5.0,5,6
2,GP,F,"""15""",U,LE3,T,1,1,at_home,other,...,4,3,"""2""",2,3,"""3""",10,,8,10


In [6]:
# Analizaremos todas las columnas que son string para continuar con la revisión:

for col_name in df1:
    if df2[col_name].dtype == np.object:
        print(df2[col_name].value_counts(), '\n')

GP    345
MS     45
Name: school, dtype: int64 

F    206
M    186
Name: sex, dtype: int64 

"16"    101
"17"     98
"15"     82
"18"     81
"19"     24
"20"      3
"22"      1
"21"      1
Name: age, dtype: int64 

U    305
R     88
Name: address, dtype: int64 

GT3    278
LE3    113
Name: famsize, dtype: int64 

T    349
A     40
Name: Pstatus, dtype: int64 

4    129
2    103
3     98
1     59
0      3
Name: Medu, dtype: int64 

2    112
3    100
4     95
1     81
0      2
Name: Fedu, dtype: int64 

other       138
services    102
at_home      59
teacher      57
health       33
Name: Mjob, dtype: int64 

other       217
services    111
teacher      29
at_home      20
health       18
Name: Fjob, dtype: int64 

course        144
home          108
reputation    103
other          36
Name: reason, dtype: int64 

mother    270
father     89
other      32
Name: guardian, dtype: int64 

1    254
2    107
3     23
4      8
Name: traveltime, dtype: int64 

2    194
1    104
3     65
4     27


In [7]:
# 2.3) Columnas que son número pero que están como string
df3 = df2.copy()

for col_name in ['age', 'goout', 'health']:
    safe_column = df3[col_name].notnull()
    df3.loc[safe_column, col_name] = df3[safe_column][col_name].apply(lambda n: int(n.replace('"', '')))
    
df3.head(3)

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5.0,6,6
1,GP,F,17.0,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5.0,5,6
2,GP,F,15.0,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,,8,10


In [8]:
# 3) Recodificación variables binarias como 0 y 1, 1 para las minoritarias

def binarize(df, minority, majority, col):
    copy = df.copy()

    counts = df[col].value_counts()
    if counts[minority] > counts[majority]:
        old_majority = minority
        minority = majority
        majority = old_majority

    new_column = col + '_' + minority
    copy[new_column] = None
    copy.loc[df[col] == minority, new_column] = 1
    copy.loc[df[col] == majority, new_column] = 0

    return copy

binaries = [
    'schoolsup', 'famsup', 'paid',
    'activities', 'nursery', 'higher', 'internet', 'romantic',
    'school', 'sex', 'address', 'famsize', 'Pstatus',
]

df4 = df3.copy()

for col_name in binaries:
    counts = df4[col_name].value_counts()
    df4 = binarize(df4, counts.index[0], counts.index[1], col=col_name)

df4 = df4.drop(columns=binaries)
df4.head(5)

Unnamed: 0,age,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,...,activities_no,nursery_no,higher_no,internet_no,romantic_yes,school_MS,sex_M,address_R,famsize_LE3,Pstatus_A
0,,4,4,at_home,teacher,course,mother,2,2,0,...,1,0,0,1,0,0,0,0,0,1
1,17.0,1,1,at_home,other,course,father,1,2,0,...,1,1,0,0,0,0,0,0,0,0
2,15.0,1,1,at_home,other,other,mother,1,2,3,...,1,0,0,0,0,0,0,0,1,0
3,15.0,4,2,health,services,home,mother,1,3,0,...,0,0,0,0,1,0,0,0,0,0
4,,3,3,other,other,home,father,1,2,0,...,1,0,0,1,0,0,0,0,0,0


In [9]:
# 4) Variables nominales

df = df4.copy()

nominal_columns = ['Mjob', 'Fjob', 'reason', 'guardian']

# Primero generamos 1 columna por cada valor del atributo nominal
# Cada columna tendra "yes" y "no", lo cual será útil para luego binarizar con la función binarize

new_columns = []

for col_name, col in df[nominal_columns].iteritems():
    counts = col.value_counts()
    values = list(counts.index)
    
    for value in values:
        new_column = "{}_{}".format(col_name, value)
        df[new_column] = None
        df.loc[col == value, new_column] = 'yes'
        df.loc[col.isin(list(filter(lambda x: x != value, values))), new_column] = 'no'
        new_columns.append(new_column)

for col_name in new_columns:
    counts = df[col_name].value_counts()
    df = binarize(df, counts.index[0], counts.index[1], col=col_name)

df = df.drop(columns=new_columns)
df = df.drop(columns=nominal_columns)

df.head(5)

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,...,Fjob_teacher_yes,Fjob_at_home_yes,Fjob_health_yes,reason_course_yes,reason_home_yes,reason_reputation_yes,reason_other_yes,guardian_mother_no,guardian_father_yes,guardian_other_yes
0,,4,4,2,2,0,4,3,4,1,...,1,0,0,1,0,0,0,0,0,0
1,17.0,1,1,1,2,0,5,3,3,1,...,0,0,0,1,0,0,0,1,1,0
2,15.0,1,1,1,2,3,4,3,2,2,...,0,0,0,0,0,0,1,0,0,0
3,15.0,4,2,1,3,0,3,2,2,1,...,0,0,0,0,1,0,0,0,0,0
4,,3,3,1,2,0,4,3,2,1,...,0,0,0,0,1,0,0,1,1,0
