# <div style="text-align: center"> Rendimiento escolar </div>
#### <div style="text-align: right">Por: Sergio Medrano Flores</div>

## Sección 1 - Preliminares (Hito 1)

#### 1.1 Descripción del problema

Este problema de <b>regresión</b> consiste en implementar un modelo, para una escuela Portuguesa, para identificar alumnos con un bajo rendimiento acádemico, medido al final de un año escolar. Esto en base a registros sociodemográficos y conductuales de los estudiantes.
Este problema se abordará en los siguientes puntos:
- Preliminares: Describir el problema, objetivos y explicar la implementación de la solución considerando los criterios de optimización y métricas de desempeño.
- Aspectos computacionales: Describir las librerias, módulos y funciones a utilizar.
- Descripción: Analizar de manera descriptiva considerando las variables del DataFrame Considerando medidas univariadas/frecuencias, datos perdidos y gráficos sobre las variables a analizar. Además, definir la estrategia de preprocesamiento.
- Modelación descriptiva: Definir los principales determinantes del objeto de estudio. En base a esto se podrá construir y depurar el modelo predictivo.
- Modelación predictiva: Implementar solución analítica que aumente el desempeño del modelo. Con un mínimo de 3 modelos predictivos, donde cada uno debe tener una reseña del motivo por el cual se diseñó y reportar sus principales métricas.

#### 1.2 Objetivo

El objetivo planteado consiste en generar y entrenar un modelo para identificar aquellos estudiantes con un bajo desempeño académico, medido en el promedio final anual. Pare esto se utiliza una base de datos con registros sociodemográficos y conductuales de los alumnos de dos escuelas. Adicionalmente, se sugiere inspeccionar una batería de preguntas asociadas a aspectos ambientales del alumno y ver si se pueden abstraer en categorías latentes.

#### 1.3 Descripción de la base de datos

Para responder esta pregunta deben utilizar el archivo students.csv
Las variables que componen la base se detallan a continuación:
- school: Escuela del estudiante. (binaria: 'GP'- Gabriel Pereira o 'MS'- Mousinho da Silveira).
- sex: Sexo del estudiante. (binaria: 'F' - Mujer o 'M' - Hombre).
- age: Edad del estudiante. (numérica: de 15 a 22).
- address: Ubicación de la casa del estudiante. (binaria: 'U' - urbana o 'R' - rural).
- famsize: Tamaño de la familia. (binaria: 'LE3'- less or equal to 3 or 'GT3'- greater than 3).
- Pstatus: Estado cohabitacional de los padres. (binaria: 'T'- cohabitando juntos o 'A'viviendo separados).
- Medu: Nivel educacional de la madre. (numérica: 0- ninguno, 1- educación básica (4to), 2 - de 5to a 9, 3 - educación media,  o 4 - educación superior).
- Fedu: Nivel educacional del padre. (numérica: 0- ninguno, 1- educación básica (4to), 2 - de 5to a 9, 3 - educación media,  o 4 - educación superior).
- Mjob: Ocupación de la madre. (nominal: 'teacher' profesora, 'health' relacionada a salud, 'services' (e.g. administración pública o policía), 'at_home' en casa u 'other' otra).
- job:: Ocupación del padre (nominal: 'teacher' profesor, 'health' relacionado a salud, 'services' (e.g. administración pública o policía), 'at_home' en casa u 'other' otra).
- reason: Razón para escoger la escuela (nominal: 'home' cercano a casa, 'reputation' reputación de la escuela, 'course' preferencia de cursos u 'other' otra).
- guardian: Apoderado del estudiante (nominal: 'mother' madre, 'father' padre u 'other' otro).
- traveltime: Tiempo de viaje entre hogar y colegio. Se debe codificar como:
    - 1 si es menos de 15 min.
    - 2 si es de 15 a 30 min.
    - 3 si es de 30 min a 1 hora.
    - 4 si es más de 1 hora.
- studytime: Horas semanales dedicadas al estudio. Se debe codificar como:
    - 1 si es menos de 2 horas.
    - 2 si es de 2 a 5 horas.
    - 3 si es de 5 a 10 horas.
    - 4 si es más de 10 horas.
- failures: Número de clases reprobadas. (numérica: n si 1<=n<3, de lo contrario 4).
- schoolsup: Apoyo educacional del colegio. (binaria: si o no).
- famsup: Apoyo educacional familiar. (binaria: si o no).
- paid: Clases particulares pagadas (matemáticas o portugués) (binaria: sí o no).
- activities: Actividades extracurriculares. (binaria: si o no).
- nursery: Asistió a guardería infantil. (binaria: si o no).
- higher: Desea proseguir estudios superiores (binaria: si o no).
- internet: Acceso a internet desde el hogar (binaria: si o no).
- romantic: Relación romántica (binaria: si o no).
- famrel: Calidad de las relaciones familiares. (numérica: de 1- muy malas a 5excelentes).
- freetime: Tiempo libre fuera del colegio (numérica: de 1 - muy poco a 5 - mucho).
- goout: Salidas con amigos (numérica: de 1 - muy pocas a 5 - muchas).
- Dalc: Consumo de alcohol en día de semana (numérica: de 1- muy bajo a 5- muy alto).
- Walc: Consumo de alcohol en fines de semana (numérica: de 1- muybajo a 5-muy alto).
- health: Estado de salud actual (numérica: from 1 - muy malo to 5 - muy bueno).
- absences: Cantidad de ausencias escolares (numérica: de 0 a 93).
- G1: Notas durante el primer semestre (numérica: de 0 a 20). <b>Este es uno de sus vectores objetivos para el modelo descriptivo</b>.
- G2: Notas durante el segundo semestre (numérica: de 0 a 20). <b>Este es uno de sus vectores objetivos para el modelo descriptivo</b>.
- G3: Promedio final (numérica: de 0 a 20). <b>Este es uno de sus vectores objetivos para el modelo descriptivo y el vector a predecir en el modelo predictivo</b>.

#### 1.4 Aspectos adicionales a considerar
- La base de datos presenta una serie de anomalías. En la escuela no tienen buenas prácticas sobre cómo ingresar datos, por lo que existen datos perdidos que están registrados bajo tres categorías: nulidade, sem validade, zero. De manera adicional, hay 3 variables numéricas que se registraron como strings, cuya interpretación en pandas devuelve una estructura de datos genérica. Finalmente, la base está con un encoding distinto al normal y los delimitadores son distintos.
- Para simplificar el análisis y su posterior inclusión en un modelo predictivo, se sugiere recodificar las variables binarias como 0 y 1. Se recomienda seguir el criterio de asignarle 1 a aquellas categorías minoritarias.
- El procedimiento también debe aplicarse para aquellas variables nominales con más de 2 categorías siguiendo la misma lógica.
- En la parte de modelación descriptiva, se deben generar modelos utilizando todos los predictores por cada una de las notas registradas en G1, G2 y G3.
- Para la parte de modelación predictiva, se debe generar un modelo para predecir las notas en G3.

#### 1.5 Implementación de la solución

Para llevar a cabo la resolución de este problema se implementerá el siguiente plan de trabajo:
- Importar librerías y funciones a utilizar.
- Importar y analizar la base de datos.
- Pre procesar los datos a través de la eliminación de datos perdidos y recodificación de variables acorde a lo requerido.
- Inspeccionar gráficamente las variables mediante el vector objetivo, variables independientes y los datos perdidos de las variables recodificadas.
- Reprocesar datos.
- Aplicar modelos de regresión logística, utilizando la estadistica clásica y machine learning.
- Aplicar métricas para evaluar cada modelo obtenido para luego compararlos.
- Concluir cual es el mejor modelo a utilizar en base a lo obtenido en el punto anterior.

#### 1.4 Criterios de optimización y métricas de desempeño

Ya que nos encontramos frente a un problema de <b>regresión</b>, se utilizan criterios de optimización en base a las métricas de desempeño obtenidas.

Criterios de optimización:
- Quitar regresores que no cumplan una correlación definida al momento de optimizar el modelo

Métricas de desempeño:
- Promedio Error cuadratico.
- R cuadrado.

## Sección 2 - Aspectos computacionales (Hito 1)

#### 2.1 Librerías y módulos

Para realizar este trabajo es necesaria la utilización de los siguientes módulos y librerias:

In [2]:
#Librerias necesarias para el preprocesamiento y procesamiento de la data
import pandas as pd
import numpy as np

#Librerias para generar gráficos
import seaborn as sns
import matplotlib.pyplot as plt

#Librerias para modelamiento estadístico y obtención de métricas
import scipy.stats as stats
import statsmodels.api as sm
import statsmodels.formula.api as smf

#Librerias para el uso de modelos en Machine Learning
from sklearn import linear_model
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

#Librerias para obtener metricas con Machine Learning
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import roc_curve
from sklearn.metrics import roc_auc_score
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_score

#Libreria para omitir avisos de advertencias
import warnings
warnings.filterwarnings("ignore")

#### 2.2 Funciones a utilizar

Se utilizarán funciones creadas por nosotros, son las siguientes:
- <b>contador_vacios()</b>: retorna el total de registros vacíos (NaN) en la variable ingresada como parámetro (o total en su defecto)
- <b>graficar_variables()</b>: grafica la variable ingresada como parámetro en función a su tipo de dato

In [3]:
# Se importan funciones propias
import funciones_propias

ModuleNotFoundError: No module named 'funciones_propias'