# Regresión lineal múltiple con scikitlearn

<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

Aquí se muestra un ejemplo de como usar Python para ajustar un modelo de regresión lineal múltiple. 

In [1]:
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn.model_selection import train_test_split

## Los datos

Los datos a usar en esta aplicación provienen del libro [An Introduction to Statistical Learning](http://www-bcf.usc.edu/~gareth/ISL/), la variable dependiente es `sales` de un negocio que invirtió dinero en publicidad en tres medios `TV`, `radio` y `newspaper`.

El objetivo del ejercicio es ajustar el siguiente modelo de regresión

\begin{equation} \label{eq1}
\begin{split}
sales &\sim N(\mu_i, \sigma^2) \\
\mu_i &= \beta_0 + \beta_1 TV + \beta_2 radio + \beta_3 newspaper
\end{split}
\end{equation}

Para leer los datos usaremos la función `read_csv` de pandas.

In [2]:
datos = pd.read_csv('http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv', index_col=0)

Para mostrar la parte inicial de los datos usamos `head()`

In [3]:
datos.head()

Unnamed: 0,TV,radio,newspaper,sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


Para conocer la dimensión de la base de datos usamos

In [4]:
datos.shape

(200, 4)

Antes de ajustar el modelo vamos a dividir el conjunto de datos en `train` y `test` usando una combinación 80%-20%. Para hacer eso usamos el siguiente código.

In [5]:
X = datos[['TV', 'radio', 'newspaper']]
Y = datos.sales
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=4)

Para ver las dimensiones de los objetos usamos lo siguiente.

In [6]:
print(x_train.shape)
print(y_train.shape)
print(x_test.shape)
print(y_test.shape)

(160, 3)
(160,)
(40, 3)
(40,)


Inicializamos el modelo así

In [7]:
reg = linear_model.LinearRegression()

Para ajustar el modelo usamos el método `fit`.

In [8]:
reg.fit(x_train, y_train)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None,
         normalize=False)

El objeto `reg` tiene los atributos `coef_` e `intercept_`

In [9]:
print(reg.coef_)       # Para obtener los betas
print(reg.intercept_)  # Para obtener beta0

[0.04635126 0.17768722 0.00031168]
3.0578927887742555


Usando la información anterior se puede escribir el modelo ajustado así:

\begin{equation} \label{eq1}
\begin{split}
sales &\sim N(\hat{\mu}_i, \sigma^2) \\
\hat{\mu_i} &= 3.058 + 0.0464 TV + 0.1777 radio + 0.0003 newspaper \\
\hat{\sigma} &= falta
\end{split}
\end{equation}

Para poner a prueba el modelo ajustado vamos a predecir los valores de ventas usando la información `x_test` que luego vamos a comparar con `y_test`.

In [10]:
sales_hat = reg.predict(x_test)
sales_hat[0:4]  # Para ver los primeros 5 valores de sales_hat

array([17.2752476 , 16.74844593, 21.97674588, 24.59448907])

In [11]:
y_test[0:4]  # Para ver los primeros 5 valores de y_train

12     17.4
100    17.2
129    24.7
176    27.0
Name: sales, dtype: float64

Para ver calcular el coeficiente de correlación lineal entre $y$ e $\hat{y}$ se hace lo siguiente.

In [12]:
np.corrcoef(sales_hat, y_test)

array([[1.        , 0.95439599],
       [0.95439599, 1.        ]])

Para calcular el Mean Square Error entre $y$ e $\hat{y}$ se hace lo siguiente.

In [13]:
np.mean((sales_hat - y_test)**2)

2.2171510725419004

In [14]:
reg.score(x_train, y_train)

0.8911672911176578

Para usar la [métricas asociadas a regresión](https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics) se debe usar el módulo `sklearn.metrics`.

In [15]:
from sklearn.metrics import r2_score, mean_squared_error

In [16]:
print(r2_score(sales_hat, y_test))
print(mean_squared_error(sales_hat, y_test))

0.8888330040089477
2.2171510725419
