
# Programa Ingenia+ Data Science

Recordemos que un proyecto de data science tiene varias etapas:

1. Recolección de Datos
2. Exploración y Procesamiento de los datos
3. Modelado
4. Puesta en Producción

En clases anteriores, trabajamos con el dataset `StudentPerformace`. Pudimos observar el tipo de datos que teniamos y le hiciemos algunas transformaciones.

Llego la hora de utilizar los conceptos de aprendizaje supervisado para hacer predicciones sobre alguna variable en el dataset.

Para poder ajustar modelos de Machine Learning, la herramienta más sencilla y más utilizada es `scikit-learn`. Esta librería es muy utilizada ya que contiene funciones desarrolladas para la mayoría de los modelos de machine learning. Además `Scikit-learn` tienen una amplia y muy buena [documentación](https://scikit-learn.org/stable/).

<font size=5> 🚀 👩🏽‍💻 Machine Learning: Aprendizaje Supervisado 📣</font>

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.cm as cm

In [2]:
import os

In [3]:
os.getcwd()

'c:\\Users\\Jorgelina\\OneDrive\\Desktop\\datascience\\notebooks'

Primero, vamos a leer los datos limpios y procesados.

In [6]:
# Leemos nuevamente los datos de los estudiantes
students = pd.read_csv('StudentsPerformance.csv')

In [7]:
students.head()

Unnamed: 0.1,Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,0,female,group B,bachelor's degree,standard,none,7.2,72,74
1,1,female,group C,some college,standard,completed,6.9,90,88
2,2,female,group B,master's degree,standard,none,9.0,95,93
3,3,male,group A,associate's degree,free/reduced,none,4.7,57,44
4,4,male,group C,some college,standard,none,7.6,78,75


Antes que nada, chequeemos nuevamente que eliminamos todos los valores faltantes.

In [8]:
students.isnull().sum()

Unnamed: 0                     0
gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
math score                     0
reading score                  0
writing score                  0
dtype: int64

Ahora tenemos que decidir que variable o variables vamos a predecir. Esto quiere decir que tenemos que elegir cual va a ser la variable que al predecirla conteste la pregunta que nos hicimos de los datos.

Lo que queremos saber es:

1. ¿Qué puntaje final obtendra un estudiante?
2. Dado un estudiante, ¿aprobara o no el examen?

**_¿Qué tipo de problemas estamos tratando de resolver?_**

Para contestar estas preguntas vamos a obtener dos nuevas variables:

1. El puntaje final: Lo obtendremos promediando los tres puntajes (matematica, lectura y escritura)
2. Aprobado: Una etiqueta que me permita saber si cada estudiante del dataset aprobo el examen (puntaje final >= 60) o no lo aprobo (puntaje final < 60).

In [None]:
students['puntaje_final'] = (students['math score'] + students['reading score'] + students['writing score']) / 3

## 📈 Regresión

Comenzaremos contestando la pregunta 1. Este problema es un problema de regresión (_¿Por qué?_)

### Seleccion de target (y) y variables (X)

Lo primero que haremos, es seleccionar las variables o features que deseemos usar como variable independientes (aquellas que van a explicar mi predicción) y la variable a predecir.

Usaremos todas las variables menos aquellas que fueron usadas para calcular el puntaje final. Debemos también asegurarnos de no incluir las variables a predecir. Como variable a predecir usaremos el puntaje final.

In [None]:
# Elimino aquellas variables que no quiero incluir en el modelo y las guardo en x.
x = students.drop(['math score', 'reading score', 'writing score', 'english score', 'puntaje_final'],
                  axis=1)

In [None]:
x.head()

Unnamed: 0,race/ethnicity,lunch,test preparation course,female,male,associate's degree,bachelor's degree,high school,master's degree,some college,some high school
0,2,1,1,1,0,0.0,0.0,0.0,0.0,1.0,0.0
1,1,1,0,1,0,0.0,0.0,0.0,1.0,0.0,0.0
2,0,0,0,0,1,1.0,0.0,0.0,0.0,0.0,0.0
3,2,1,0,0,1,0.0,0.0,0.0,0.0,1.0,0.0
4,1,1,0,1,0,1.0,0.0,0.0,0.0,0.0,0.0


In [None]:
lista_atributos = x.columns

In [None]:
# Ahora selecciono las etiquetas y las guardo en y.
y = students['puntaje_final']

In [None]:
x, y = np.array(x), np.array(y)

In [None]:
x

array([[2., 1., 1., ..., 0., 1., 0.],
       [1., 1., 0., ..., 1., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [2., 0., 1., ..., 0., 0., 0.],
       [3., 1., 1., ..., 0., 1., 0.],
       [3., 0., 0., ..., 0., 1., 0.]])

In [None]:
y[:10]

array([78.11267606, 91.30516432, 42.11737089, 73.0657277 , 73.38497653,
       90.03286385, 32.49765258, 60.09859155, 40.89201878, 48.94835681])

### Separando Train / Test

Ahora tenemos que separar el dataset en conjuntos de entrenamiento (X_train, y_train) y de testeo (X_test, y_test) usando la función train_test_split de scikit-learn.

¿Por qué separamos el dataset? Porque es necesario entrenar el modelo con un set de datos. El modelo no puede ver los datos de evaluación cuando se esta entrenando!

La forma en que se dividen los datos normalmente es 80% entrenamiento -20% evaluación)

In [None]:
# Importamos la librearia para separar el dataset.
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,
                                                    random_state=42)

In [None]:
x.shape

(962, 11)

In [None]:
X_train.shape

(769, 11)

In [None]:
X_test.shape

(193, 11)

### Random Forest

Recordemos que Random Forest es un algoritmo de ensamble. Hay dos tecnicas para esto: Bagging y Boosting.

El objetivo de bagging es entrenar distintos modelos, donde cada uno vea distintas porciones del set de entrenamiento. Random Forest, además de aplicar Bagging, también selecciona features al azar, de esa manera descorrelaciona aún más los distintos modelos de árbol creados.

In [None]:
from sklearn.ensemble import RandomForestRegressor

In [None]:
from sklearn.metrics import mean_absolute_error

In [None]:
# Inicializo el modelo
regresor = RandomForestRegressor(criterion='mae', random_state=42)

In [None]:
# Entreno el modelo
regresor.fit(X_train, y_train);

In [None]:
regresor.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'mae',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}

Ahora evaluaremos el modelo (Profundizaremos este concepto más adelante). Primero, hacemos predicciones para el set de evaluación y luego lo comparamos con los valores reales.

In [None]:
# Predigo los valores para el set de testeo
y_pred = regresor.predict(X_test)

In [None]:
# Calculo el error medio absoluto
mean_absolute_error(y_test, y_pred)

12.607930501836577

### Support Vector Machine

Recordemos que el SVM es un algortimo que establece un hiperplano que separa los puntos maximizando el margen. A su vez, una de sus ventajas es la aplicación de Kernels que me permite ajustar mejor el modelo.


In [None]:
from sklearn.svm import SVR

In [None]:
# Inicializo el modelo
regresor_svr = SVR(C=1.0, epsilon=0.2)

In [None]:
# Entreno el modelo
regresor_svr.fit(X_train, y_train);

In [None]:
regresor_svr.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'criterion': 'mae',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': 42,
 'verbose': 0,
 'warm_start': False}

Ahora evaluaremos el modelo (Profundizaremos este concepto más adelante). Primero, hacemos predicciones para el set de evaluación y luego lo comparamos con los valores reales.

In [None]:
# Predigo los valores para el set de testeo
y_pred_svr = regresor_svr.predict(X_test)

In [None]:
# Calculo el error medio absoluto
mean_absolute_error(y_test, y_pred_svr)

12.607930501836577