<a href="https://colab.research.google.com/github/al34n1x/DataScience/blob/master/8.Machine_Learning/08_linear_and_polinomic_regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Machine-Learning:-Regresión" data-toc-modified-id="Machine-Learning:-Regresión-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Machine Learning: Regresión</a></span><ul class="toc-item"><li><span><a href="#Regresión-lineal-simple" data-toc-modified-id="Regresión-lineal-simple-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Regresión lineal simple</a></span><ul class="toc-item"><li><span><a href="#Scikit-learn" data-toc-modified-id="Scikit-learn-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>Scikit-learn</a></span></li></ul></li><li><span><a href="#Regresión-lineal-múltiple" data-toc-modified-id="Regresión-lineal-múltiple-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Regresión lineal múltiple</a></span></li><li><span><a href="#Regresión-polinomica" data-toc-modified-id="Regresión-polinomica-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Regresión polinomica</a></span></li></ul></li><li><span><a href="#Ejercicios" data-toc-modified-id="Ejercicios-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Ejercicios</a></span><ul class="toc-item"><li><span><a href="#Ejercicio-1" data-toc-modified-id="Ejercicio-1-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Ejercicio 1</a></span></li><li><span><a href="#Ejercicio-2" data-toc-modified-id="Ejercicio-2-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Ejercicio 2</a></span></li></ul></li></ul></div>



# Machine Learning: Regresión



**¿Qué es regresión?**


Es un proceso que permite la estimación de las relaciones funcionales entre variables. En el campo de aprendizaje automático es ampliamente utilizado para la predicción del valor de una variable dependiente, a partir de una o más variables explicativas. El modelo de regresión puede ser lineal o no lineal.


**¿Qué preguntas se pueden responder mediante regresiones?**

- ¿Cómo varían el volumen de ventas cuando subimos los precios?
- ¿Afecta el nombre de un producto a su contratación?
- ¿Cuántos clientes contratarán hoy un plan de pensiones?


**¿Cuándo usar regresión lineal?**

- Cuando queremos predecir el valor de una variable a partir de otras.
- Si queremos explicar o entender la relación entre dos o más atributos.



---

## Regresión lineal simple

Los problemas de regresión tienen una estructura común: una variable respuesta ($y$) que puede ser expresada como combinación de una o más variables independientes ($x_i$), llamadas covariables o predictores. El algoritmo de regresión intenta construir un modelo que exprese la variable respuesta en función de las covariables, como:

$$y = a_1x_1 + a_2x_2 + \ldots + a_nx_n$$

donde $a_i$ son los parámetros del modelo, llamados coeficientes. El modelo se ajusta mediante Mínimos Cuadrados Ordinarios (OLS en inglés), donde los coeficientes son elegidos para minimizar el cuadrado de la distancia (vertical) entre los valores predichos y los reales.

La regresión lineal simple considera una sola variable independiente, es decir:

$$y = ax$$
*Ejemplo*. Para entender las funcionalidades de Python para regresión vamos a construir un modelo sencillo de regresión a partir de datos sintéticos usando varias librerías científicas de Python.  

Para ello vamos a generar 300 valores aleatorios de una distribución Gaussiana, los multiplicamos por unos coeficientes que les den una forma aproximadamente lineal.

In [None]:
%matplotlib inline 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns



Números decimales muestreados de una distribución Normal estándar

In [None]:
datas = np.random.randn(300, 2)  
weights = np.array([[0.6, .4], [.4, 0.6]])
datas = np.dot(datas, weights)

x = datas[:,0]
y = datas[:,1]

In [None]:
plt.plot(x, y, "ro", c='orange', alpha=0.3) 

In [None]:
type(x)



### Scikit-learn

Scikit-learn posee una interfaz orientada a objetos basada en el concepto de un *Estimador*

El método <code>Estimator.fit</code> establece el estado del estimador de acuerdo a los datos de entrenamiento. Usualmente estos datos están representdos por un `numpy.array` bidimensional $x$ con dimensiones <code>(n_muestras, n_predictores)</code> que contiene la matriz de características, y un `numpy.array` unidimensional que contiene los valores de la variable de respuesta $y$.

In [None]:
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [None]:
help(LinearRegression)

In [None]:
x.shape

In [None]:
x = x.reshape(-1,1)

In [None]:
#regr = LinearRegression(fit_intercept=True)
regr = LinearRegression() #por defecto es true
regr.fit(x, y)
y_hat = regr.predict(x)

print('Coefficients: ', regr.intercept_, regr.coef_)
print('Average error: ', mean_absolute_error(y, y_hat))

plt.scatter(x, y, c='orange', marker='o', alpha=0.5)
plt.plot(x, y_hat, alpha=0.5)



El método ``Estimator.predict`` permite hacer predicciones. En el caso de regresión, este método devuelve los valores predichos por el modelo.

Existe también un objeto `Estimator` especial llamado `Transformer` que permite realizar transformaciones sobre los datos. En el caso de regresión, una transformación adecuada es la de normalizar los predictores, tal que tengan media cero y desviación típica 1 con ``sklearn.preprocessing.StandardScaler``



---

## Regresión lineal múltiple

Para ajustar modelo de regresión múltiple podemos usar la misma librería sklearn, solo que ahora  x no será un vector columna, sino que contendrá varias columnas.

En este ejemplo usaremos un dataset que contiene diez variables con el estado basal de cada paciente y una variable cuantitativa que mide la progresión de su enfermedad un año después.

In [None]:
%matplotlib inline 
import pandas as pd
import numpy as np

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
from sklearn import datasets

In [None]:
data = datasets.load_diabetes()



Let's explore the dataset

In [None]:
print(data.DESCR)

In [None]:
diabetes_cols = ['Age', 'Sex', 'Body mass index', 'Average blood pressure',
                 'S1', 'S2', 'S3', 'S4', 'S5', 'S6']      # S1-S6 are 6 blood-serum measurements on each patient

In [None]:
diabetes_df = pd.DataFrame(data.data, columns=diabetes_cols)
diabetes_df.head()

In [None]:
sns.pairplot(diabetes_df)

In [None]:
X = data.data
y = data.target

In [None]:
regr = LinearRegression(fit_intercept=True)
regr.fit(X,y)
y_hat = regr.predict(X)

print ('Coefficients: ',  regr.intercept_, regr.coef_)
print ('Average error: ', mean_absolute_error(y,y_hat))



En Python es algo laborioso mostrar gráficas para evaluar visualmente la calidad de una regresión. 
Existe un buen tutorial de como hacerlo en el siguiente enlace:
https://medium.com/@emredjan/emulating-r-regression-plots-in-python-43741952c034

Nosotros vamos a mostrar un plot mostrando las diferencias entre el valor observado y el predicho:



Primero pasamos las *y* a DataFrame para poder generar gráficas de manera sencilla

In [None]:
ys = pd.DataFrame({'y': y, 'y_hat': y_hat, 'err': y - y_hat, '|err|': np.abs(y - y_hat)})
ys = ys[['y', 'y_hat', 'err', '|err|']]   # rearanging columns
ys.head()

In [None]:
sns.jointplot(ys['y'], ys['y_hat'], kind='reg', height=10,
              marginal_kws=dict(bins=20, rug=True))




Ahora vamos a generar un gráfico con los residuales

In [None]:
ys.plot(kind='scatter', x='y', y='err', figsize=(16,8), alpha=0.4, title='Residual Plot')
plt.plot([ys['y'].min(), ys['y'].max()], [0, 0], linewidth=2, alpha=0.5, ls='--', c='gray')



---

## Regresión polinomica

Pongamos un ejemplo. Tenemos una serie de datos que sabemos siguen una función no lineal. Le vamos aplicar varias regresiones para comprobar el ajuste.

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score

In [None]:
import pandas as pd



load the Boston housing dataset - median house values in the Boston area

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/al34n1x/DataScience/master/data/Boston.csv',index_col=0)

df.head()



Vamos a mostrar un gráfico comparando las variables `lstat` (% lower status of the population) con `medv` (median value)

In [None]:
plt.figure(figsize=(6 * 1.618, 6))
plt.scatter(df.lstat, df.medv, s=10, alpha=0.3)
plt.xlabel('lstat')
plt.ylabel('medv')



Otra manera de hacerlo es mediante la función `jointplot` de *Seaborn*

In [None]:
sns.jointplot(df.lstat, df.medv, height=10, joint_kws={'s':10, 'alpha':0.3})

In [None]:
X = df.lstat
X = X[:, np.newaxis]
print(X.shape)

y = df.medv
print(y.shape)



Vamos a ajustar el dataset con un polinomio de orden 1.

In [None]:
plt.figure(figsize=(6 * 1.618, 6))
plt.scatter(df.lstat, df.medv, s=10, alpha=0.3)
plt.xlabel('lstat')
plt.ylabel('medv')

pr1 = LinearRegression()
lin = PolynomialFeatures(degree=1)

X_fit1 = np.arange(X.min(), X.max(), 1)[:, np.newaxis]
X1 = lin.fit_transform(X)

pr1.fit(X1, y)

y_fit1 = pr1.predict(lin.fit_transform(X_fit1))
y_pred1 = pr1.predict(X1)

plt.plot(X_fit1, y_fit1, '--', c='orange')

print('Coefficients: ', pr1.coef_)
print('Intercept: ', pr1.intercept_)
print('Model R^2: ', r2_score(y, y_pred1))



Ahora probaremos con un polinomio de orden 2

In [None]:
plt.figure(figsize=(6 * 1.618, 6))
plt.scatter(df.lstat, df.medv, s=10, alpha=0.3)
plt.xlabel('lstat')
plt.ylabel('medv')

pr2 = LinearRegression()
quad = PolynomialFeatures(degree=2)

X_fit2 = np.arange(X.min(), X.max(), 1)[:, np.newaxis]
X2 = quad.fit_transform(X)

pr2.fit(X2, y)

y_fit2 = pr2.predict(quad.fit_transform(X_fit2))
y_pred2 = pr2.predict(X2)

plt.plot(X_fit2, y_fit2, '--', c='orange')

print('Coefficients: ', pr2.coef_)
print('Intercept: ', pr2.intercept_)
print('Model R^2: ', r2_score(y, y_pred2))



Y, finalmente, probaremos con un polinomio de orden 3.

In [None]:
plt.figure(figsize=(6 * 1.618, 6))
plt.scatter(df.lstat, df.medv, s=10, alpha=0.3)
plt.xlabel('lstat')
plt.ylabel('medv')

pr3 = LinearRegression()
cub = PolynomialFeatures(degree=3)

X_fit3 = np.arange(X.min(), X.max(), 1)[:, np.newaxis]
X3 = cub.fit_transform(X)

pr3.fit(X3, y)

y_fit3 = pr3.predict(cub.fit_transform(X_fit3))
y_pred3 = pr3.predict(X3)

plt.plot(X_fit3, y_fit3, '--', c='orange')

print('Coefficient: ', pr3.coef_)
print('Intercept: ', pr3.intercept_)
print('Model R^2: ', r2_score(y, y_pred3))



# Ejercicios 



## Ejercicio 1

Dado un conjunto de descriptores de una canción, el objetivo es predecir el año de producción de la canción. Básicamente se trata de un problema de regresión, ya que se debe predecir un número en el rango de 1922 y 2011.

Source:https://archive.ics.uci.edu/ml/machine-learning-databases/00203/YearPredictionMSD.txt.zip

** Descripción del dataset**

90 atributos:

- 12 = timbre average
- 78 = timbre covariance 


**Instrucciones**:

Importe los datos de data/millionsong.txt

In [None]:
# Respuesta aqui



Obtenemos el target, que es la primera columna del dataset

In [None]:
# Respuesta aqui



Obtenemos el dataset con otros atributos

In [None]:
# Respuesta aqui




Aquí dividimos el dataset en train y test, para entrenar y validar nuestro modelo respectivamente.

In [None]:
# Respuesta aqui




Vemos que las distribuciones de las predicciones se han centrado en 1980.



Visualizamos el train y el test

In [None]:
# Respuesta aqui




Ajuste un modelo de regresión para predecir el año de una canción.

In [None]:
# Respuesta aqui






Muestre las métricas y gráficas que considere necesarias para poder argumentar si el modelo está funcionando bien.

In [None]:
# Respuesta aqui



Visualize los resultados de las predicciones

In [None]:
# Respuesta aqui



Vemos que las distribuciones de las predicciones se han centrado en 1980.



Vamos a unir los valores de test y las predicciones en un DataFrame para poder hacer gráficos

In [None]:
# Respuesta aqui




Para comenzar vamos a mostrar una comparación entre las predicciones y los valores reales

In [None]:
# Respuesta aqui




Vamos a mostrar un plot con los residuos

In [None]:
# Respuesta aqui




Y ahora vamos a mostrar el Error absoluto en años para cada año del conjunto de test.

In [None]:
# Respuesta aqui




---

## Ejercicio 2

EL dataset de diabetes consiste en 10 variables fisológicas (edad, sexo, peso, presión arterial, y seis pruebas sanguíneas) de 442 pacientes, y la indicación del progreso de la enfermedad después de un año.



Ajuste y compare los modelos de regresión obtenidos al considerar el primer atributo (edad) y todos los atributos del dataset.

*Source*: http://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf

In [None]:
from sklearn import datasets
diabetes = datasets.load_diabetes()

X, y = diabetes.data, diabetes.target

In [None]:
diabetes_cols = ['Age', 'Sex', 'Body mass index', 'Average blood pressure',
                 'S1', 'S2', 'S3', 'S4', 'S5', 'S6']      # S1-S6 are 6 blood-serum measurements on each patient



Explore el dataset

In [None]:
# Respuesta aqui




Visualize la relación entre las variables

In [None]:
# Respuesta aqui



Construya un modelo de regresion

In [None]:
# Respuesta aqui



Analiza los residuos de la regresion. Visualizelos así como las desviaciones de la predicción



Vamos a mostrar unas gráficas para entender donde falla la regresión.

Primero pasamos las *y* a DataFrame para poder generar gráficas de manera sencilla.

In [None]:
# Respuesta aqui



Vemos que los errores son mayores en valores bajos y altos de y. Una solución a este problema sería aplicar un modelo no lineal.