**Universidad de Los Andes - Facultad de Economía** <br>
**Machine Learning para Business Intelligence** <br>
**_Paula Rodríguez, Juan S. Moreno, Mateo Dulce_**
# Clase 3: Modelos de Regresión

En esta clase se cubriran los modelos estándar de regresión:

- Mínimos cuadrados ordinarios (Regresión Lineal)
- Regresión polinomial
- Regresión Logística
- Linear Discriminant Analysis
- Regularización L1 y L2
- Árboles de regresión

Además, para evaluar el desempeño de los modelos implementados, se estudiarán las métricas de evaluación:
- R-cuadrado
- MSE
- MAPE

<img src="https://raw.githubusercontent.com/RodrigoLaraMolina/DPATTSrc/master/ML2.png" alt="ML" style="width: 500px;" align="center" frameborder="200"/>

_(Imagen tomada de [Medium - Different types of Machine learning and their types.](https://medium.com/deep-math-machine-learning-ai/different-types-of-machine-learning-and-their-types-34760b9128a2))_


## 0. Introducción a Scikit-Learn

Existen varias librerias de Python que proveen implementaciones solidas de multiples algoritmos de aprendizaje de máquinas. Una de las más conocidas es [Scikit-Learn](http://scikit-learn.org). Scikit-Learn se caracteriza por ser una API limpia, uniforme y optimizada, y por tener una documentación en línea muy útil y completa.Una ventaja de esta uniformidad es que una vez que comprende el uso básico y la sintaxis de Scikit-Learn para un tipo de modelo, cambiar a un nuevo modelo o algoritmo es muy sencillo.

### Uso básico de la API

Por lo general, los pasos a seguir para utilizar los modelos implementados en Scikit-Learn son:

1. Seleccionar una clase de modelo importando la clase de estimador apropiada de Scikit-Learn.
2. Seleccionar los hiper parámetros del modelo al instanciar la clase anterior con estos valores.
3. Organizar los datos en una matriz de variables y un vector objetivo.
4. Ajustar el modelo a los datos llamando al método `` fit () `` de la instancia del modelo.
5. Evaluar el modelo en nuevos datos.

## 1. Mínimos Cuadrados Ordinarios
### Regresión lineal univariada

Los modelos de regresión lineal son un buen punto de partida para las tareas de regresión. Dichos modelos son populares porque pueden ajustarse muy rápidamente y son muy interpretables.

Comenzaremos con la regresión lineal más familiar, un ajuste en línea recta a los datos.
Un ajuste en línea recta es un modelo de la forma
$$
y = ax + b
$$
donde $a$ es la *pendiente*, y $b$ is el *intercepto*.

Considere los siguientes datos, que están dispersos alrededor de un modelo lineal con una pendiente de 2 y una intersección de -5:

In [None]:
# importar paquetes estandar
%matplotlib inline



### Generar datos sintéticos

In [None]:
# para tener replicabilidad


# generamos puntos distribuidos de manera uniforme entre 0 y 10


# generamos los valores de y usando un modelo lineal con pendiente 2
# e intercepto -5 mas un ruido alatorio


# construit un grafico de puntos


### Encontrar el mejor ajuste (usando Numpy)

Escribiendo el modelo de forma matricial tenemos: $Y = X^T \beta$.

Queremos encontrar $\hat \beta$ que minimice el costo $(Y-\hat Y)^2$ donde $\hat Y = X^T \hat \beta$. <br>
Esto es $\hat \beta = (X^TX)^{-1}X^TY$

In [None]:
# resolvamos el problema utilziando el paquete numpy


In [None]:
# creamos la matriz que contiene una columna de 1's y la variable x


# np.matrix toma cada entrada como una fila.
# trasponemos para tener observaciones x variables


In [None]:
# estimación de beta

print("Pendiente del modelo: {}".format())
print("Intercepto del modelo: {}".format())

### Encontrar el mejor ajuste utilizando Scikit-Learn

In [None]:
#importar LinearRegression de Scikit-Learn


# crear un modelo lineal con intercepto


# ajustar el modelo a los datos


# graficar la funcion lineal estimada


# build plot


In [None]:
print("Pendiente del modelo:    ", )
print("Intercepto del modelo:", )

## Métricas de desempeño

- $MSE = mean((Y-\hat Y)^2)$ 
<br>
<br>
- $MAPE = mean(\mid Y-\hat Y \mid)$ 
<br>
<br>
- $R^2 = \dfrac{\sigma^{2}_{XY}}{\sigma^{2}_{X}\sigma^{2}_{Y}}$ donde $\sigma^{2}_{XY}$ es la covarianza de $X,Y$, $\sigma^{2}_{X}$ la varianza de $X$ y $\sigma^{2}_{Y}$ la varianza de $Y$. 

In [None]:
# realizar la predicción dentro de muestra


In [None]:
# error cuadrático medio en el entrenamiento


In [None]:
# error cuadrático medio en el entrenamiento


In [None]:
# error cuadrático medio en el entrenamiento


Existen otros paquetes que contienen implementaciones de este mismo modelo. Por ejemplo pueden pribar con: <br>
``statsmodels.formula.api.ols``

### Regresión Lineal Múltiple

El estimador ``LinearRegression`` también puede estimar modelos multivariables de la forma
$$
y = a_0 + a_1 x_1 + a_2 x_2 + \cdots
$$
donde hay multiples valores para $x$.
Geométricamente, esto es ajustar un plano a puntos en tres dimenciones o un hiper plano para dimensiones mayores.

In [None]:
# creamos datos con 5 variables distribuidas uniformemente entre 0 y 10
# creamos la variable dependiente y como un modelo lineal de x


## 2. Regresión polinomial

Una manera de adaptar la regresión lineal a una relación no lineal entre las variabels es transformar los datos de acuerda a *funciones base*.
La idea es tomar el modelo lineal multivariable:
$$
y = a_0 + a_1 x_1 + a_2 x_2 + a_3 x_3 + \cdots
$$
y construir $x_1, x_2, x_3,$ del input unidimensional $x$.
Tenemos entonces $x_n = f_n(x)$, donde $f_n()$ es una función que transforma nuestros datos.

Por ejemplo, si $f_n(x) = x^n$, nuestro modelo se convierte en una regresión polinomial:
$$
y = a_0 + a_1 x + a_2 x^2 + a_3 x^3 + \cdots
$$
Note que este modelo sigue siendo un *modelo lineal*. La linearidad se refiere al hecho de que los coeficientes $a_n$ son lineales entre ellos. Lo que hemos hecho es tomar la variable unidimensional $x$ y proyectarla en dimensiones mayores para que así el ajuste lineal pueda ajustar relaciones más complejas entre $x$ y $y$.

In [None]:
# función de scikit learn que crea tranforma los datos

# crear datos


La manera más 'limpia' de realizar *feature engineering* en los modelos de ML es utilizando un pipeline. Creamos ahora un modelo polinomial de grado 7 usando ``make_pipeline`` y ``LinearRegression`` de Scikit Learn.

In [None]:
# definimos el modelo polinomial de grado 7


In [None]:
#replicabilidad
# creacion de x aleatorio entre 0 y 10
# creacion de y como respuesta no lineal de x

#ajuste del modelo polinomial
#prediccion de y


### Selección de grado con validación

Para esta y la siguiente sección estudiaremos el **Conjunto de datos de vivienda de Boston** que consiste en el precio de las casas en varios lugares de Boston. Junto con el precio, el conjunto de datos también proporciona información como la tasa de criminalidad (CRIM), áreas de negocios no minoristas en la ciudad (INDUS), la edad de las personas que poseen la casa (EDAD) y hay muchos otros atributos

In [None]:
#5.2.1. Boston house prices dataset

# display an Inline Frame
from IPython.display import IFrame 
IFrame('https://scikit-learn.org/stable/datasets/index.html#boston-dataset',
       width=750, height=500)

In [None]:
#load the Boston data set in it's original format (dictionary)
from sklearn.datasets import load_boston
raw_data = load_boston()

# Create a Pandas Data Frame with the Boston data
boston = pd.DataFrame(raw_data.data)
boston.columns = raw_data.feature_names
boston['PRICE'] = raw_data.target
display(boston.head(10))

In [None]:
# definimos una función para el pipeline de la regresion polinomial


In [None]:
# obtenemos datos univariados del dataset de boston


In [None]:
# importar paquetes para graficar
%matplotlib inline
import seaborn; seaborn.set()  # plot formatting

#definir x test

#graficar para varios grados


In [None]:
# cargar validation_curve


#graficar
fig = plt.figure(figsize=(8,5))
plt.plot(degree, np.median(train_score, 1), color='blue', label='training score')
plt.plot(degree, np.median(val_score, 1), color='red', label='validation score')
plt.legend(loc='best')
plt.ylim(0, 1)
plt.xlabel('degree')
plt.ylabel('score');

#### Validación con GridSearchCV

<img src="img/fold-CV.png" width="500">

In [None]:
#cargar GridSearchCV

#definir grilla de parametros

# realizar grid search


In [None]:
# ajustamos el GridSearchCV a los datos


In [None]:
# mirar cuales son los mejores parametros


In [None]:
#graficar el mejor modelo


## 3. Regularización Ridge y Lasso

La regresión de Ridge y Lasso son técnicas generalmente utilizadas para crear modelos que generealicen bien al tener una gran cantidad de variables. Aquí "grande" puede significar cualquiera de dos cosas:

- Lo suficientemente grande como para mejorar la tendencia de un modelo a sobreajustar
- Lo suficientemente grande como para causar desafíos computacionales

Modelos de Regularización:

1. **Ridge:** Realiza la regularización L2, es decir, agrega una penalización equivalente al cuadrado de la magnitud de los coeficientes
2. **Lasso:** Realiza la regularización L1, es decir, agrega una penalización equivalente al valor absoluto de la magnitud de los coeficientes



In [None]:
# crear datos


# graficar


In [None]:
# separar en train y test

In [None]:
# crear pipeline y ajustar modelo a los datos



# graficar el modelo ajustado


In [None]:
# calcular MSE
mse_train = 
mse_test = 
print("El MSE en entrenamiento del modelo Rodge es: {0:.3f}".format(mse_train))
print("El MSE en prueba del modelo Rodge es: {0:.3f}".format(mse_test))

### Rregresión Ridge

In [None]:
# importar Ridge

# definir modelo y ajustar a los datos


In [None]:
# graficar el modelo realizado


In [None]:
#calcular MSE

mse_train = 
mse_test = 
print("El MSE en entrenamiento del modelo Ridge es: {0:.3f}".format(mse_train))
print("El MSE en prueba del modelo Ridge es: {0:.3f}".format(mse_test))

### Regresión Lasso

In [None]:
# cargar Lasso

# definir y ajustar modelo Lasso

In [None]:
# graficar el modelo realizado


In [None]:
# calcular MSE

mse_train = 
mse_test = 
print("El MSE en entrenamiento del modelo Lasso es: {0:.3f}".format(mse_train))
print("El MSE en prueba del modelo Lasso es: {0:.3f}".format(mse_test))

## 4. Linear Discriminant Analysis

El _Linear Discriminant Analysis (LDA)_ es una técnica supervisada de reducción de dimensionalidad. El objetivo es proyectar un conjunto de datos en un espacio de dimensiones inferiores con buena capacidad de separación de clases para evitar el sobreajuste y también reducir los costos computacionales.

<img src="img/lda1.png" width="250" class="center"><img src="img/lda2.png" width="250" class="center"><img src="img/lda3.png" width="250" class="center"><img src="img/lda4.png" width="250" class="center">

In [None]:
#importo datos
 #importar LDA de scikit learn

In [None]:
# cargar datos y separar X y Y


In [None]:
# ajustar modelo LDA

#graficar datos con LD1 y LD2
plt.xlabel('LD1')
plt.ylabel('LD2')
plt.scatter(
    X_lda[:,0],
    X_lda[:,1],
    c=pd.factorize(y)[0] + 1,
    alpha=0.7,
    edgecolors='b'
)
plt.show()

## 5. Árboles de regresión

Cubriremos los siguientes temas:
- Selección de hiper-parámetros.
- Interpretación de los árboles.
- Importancia de variables.
- Tipos de ensambles: simulatáneos y secuenciales.
- Regularización de árboles.
- Evaluación de los modelos.

Estudiaremos los siguientes tres modelos:
- Árboles de regresión
- Random Forest (Bosques aleatorios)
- Gradient Boosting Machine

### Árboles de regresión

Los árboles de decisión son formas extremadamente intuitivas para clasificar o etiquetar objetos: simplemente hace una serie de preguntas diseñadas para concentrarse en la regresión o clasificación.
Por ejemplo, si desea construir un árbol de decisión para clasificar una casa, puede construir el que se muestra aquí:

<img src="https://raw.githubusercontent.com/RodrigoLaraMolina/DPATTSrc/master/decision-tree-house.png" alt="decision_tree" style="width: 700px;" align="center" frameborder="200"/>

<img src="img/regression_trees.png" width="800" class="center">

In [None]:
# import tree from Scikit-Learn


In [None]:
# Separamos las variables independientes y dependiente

# importar función para separar dataset en entrenamiento y prueba


# Separamos dataset con test del 30% de las observaciones


In [None]:
# definimos el arbol de decisión


# ajustar el modelo a los datos


#### Visualización del árbol

In [None]:
# error de entranamiento y prueba
pred_train = 
pred_test= 
mse_train = 
mse_test = 
print("El mse de entrenamiento es: {0:.3f}".format(mse_train))
print("El mse de prueba es: {0:.3f}".format(mse_test))

__HAY OVERFITTING!!!__

#### Regularización de árboles (_podar el árbol_)

In [None]:
# definir grilla de parametros

#realizar grid search cv


In [None]:
# guardar mejor modelo


In [None]:
# error de entranamiento y prueba
pred_train = 
pred_test= 
mse_train = 
mse_test = 
print("El mse de entrenamiento para el mejor árbol es: {0:.3f}".format(mse_train))
print("El mse de prueba para el mejor árbol es: {0:.3f}".format(mse_test))

#### Variables más importantes

In [None]:
# Creamos un dataframe con las importancias


### Random Forest y Gradient Boosting

In [None]:
# Importo la función para estimar RandomForest
# Importo la función para estimar el boosting

In [None]:
# Defino el RandomForest


# ajusto el modelos


In [None]:
# Defino el GBM

# ajusto el modelos


In [None]:
# error de entranamiento y prueba
pred_train_rf = 
pred_test_rf= 

pred_train_gbm = 
pred_test_gbm= 


print("El mse de entrenamiento para el RF es: {0:.3f}".format(mean_squared_error(Y_train,pred_train_rf)))
print("El mse de prueba para el RF es: {0:.3f}".format(mean_squared_error(Y_test,pred_test_rf)))
print(" ")
print("El mse de entrenamiento para el GBM es: {0:.3f}".format(mean_squared_error(Y_train,pred_train_gbm)))
print("El mse de prueba para el GBM es: {0:.3f}".format(mean_squared_error(Y_test,pred_test_gbm)))


_**Ejercicio para la casa:** Utilice ``GridSearchCV`` para seleccionar los parámetros que mejor ajusten los modelos de Random Forest y Gradient Boosting._

### Resumen Rápido: Qué hemos hecho hasta ahora?
_Imagen tomada de [Dataconomy: INFOGRAPHIC: A BEGINNER’S GUIDE TO MACHINE LEARNING ALGORITHMS](https://dataconomy.com/2017/03/beginners-guide-machine-learning/)_

<img src="img/resumen.png" width="800">

