# <u>Métodos Supervisados para Regresión - Introducción</u>

## Introducción
El modelo de regresión lineal es el primer modelo que vamos a usar en este entrenamiento. Este modelo puede ser usado para diferentes enfoques, sin embargo si lo hacemos con la teorica estadistica clásica encontramos que es una gran herramienta debido a su interpretabilidad y capacidad de hacer inferencia estadística.

## Objetivos
*   Entender el enfoque clásico de la regresión lineal
*   Hacer pruebas de hipotesis para significancia individual de paramtros
*   Usar la regresión lineal como herramienta para evaluar la significancia de una variable de interés 

Primero importamos algunas librerías para nuestro trabajo:

## Importación de librerías

In [None]:
import pandas as pd
import numpy as np
#import sklearn

import seaborn as sns
sns.set()

import matplotlib.pyplot as plt

## Lectura de archivos

Para este ejemplo usaremos las ventas anuales de cafeterias en Canadá con el fin de predecir las ventas de cada una en función de sus características.

In [None]:
df_ventas = pd.read_csv('data/VentasCaf.csv')

In [None]:
df_ventas = df_ventas.drop("Unnamed: 0",axis=1)

In [None]:
df_ventas.head()

In [None]:
df_ventas.shape

In [None]:
df_ventas.info()

In [None]:
df_ventas.corr()

In [None]:
sns.pairplot(df_ventas)
plt.show()

In [None]:
target = 'ventas'

### División en train y test

La función `train_test_split` nos permite dividir la data de forma aleatoria en conjuntos de entrenamiento y prueba para poder entrenar nuestro modelo

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
df_train, df_test = train_test_split(df_ventas, test_size = 0.20, random_state = 12345)

In [None]:
df_train.shape

In [None]:
df_test.shape

In [None]:
df_train.head()

In [None]:
df_test.head()

In [None]:
X_train = df_train.drop(target, axis = 1)
y_train = df_train[target]

In [None]:
X_test = df_test.drop(target, axis = 1)
y_test = df_test[target]

In [None]:
X_train.shape, y_train.shape

In [None]:
X_test.shape, y_test.shape

## 1. Regresión lineal simple

Elegimos una variable que tenga una relación aparentemente lineal con el target

In [None]:
sns.scatterplot(data = df_train, x = "num_productos", y = target)
plt.show()

In [None]:
df_train[['num_productos', target]].corr()

### Estimación del modelo de regresión
Ahora queremos validar si podemos crear un modelo que permita predecir las ventas de cada cafetería a partir de sus caracteristicas. Para el modelo lineal simple tenemos:

$$
ventas = \beta_0 + \beta_1    *  num\_productos
$$


Importamos el modelo utilizando la librería `scikit-learn`

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lr = LinearRegression()  # definimos el modelo

In [None]:
lr.fit(df_train[['num_productos']], y_train.values)   # el ajuste de la recta de regresión

In [None]:
lr.coef_

In [None]:
lr.intercept_

In [None]:
sns.regplot(x='num_productos', y='ventas', data=df_train)
plt.show()

### Evaluación de regresión con MSE y RMSE

In [None]:
from sklearn.metrics import mean_squared_error, r2_score

obtenemos las predicciones del modelo para poder evaluarlas respecto a el target original

In [None]:
y_train_pred = lr.predict(X_train[['num_productos']])
y_test_pred = lr.predict(X_test[['num_productos']])

In [None]:
print('MSE train:', mean_squared_error(y_train, y_train_pred))
print('MSE test:', mean_squared_error(y_test, y_test_pred))

In [None]:
print('RMSE train:', mean_squared_error(y_train, y_train_pred) ** 0.5)
print('RMSE test:', mean_squared_error(y_test, y_test_pred) ** 0.5)

In [None]:
print('R2 train:', r2_score(y_train, y_train_pred))
print('R2 test:', r2_score(y_test, y_test_pred))

## 2. Regresión Múltiple

Utilizamos todas las variables para la predicción:

$$
ventas = \beta_0 + \beta_1 * area + \beta_2 *   publicidad\_ext + \beta_3    *  num\_productos + \beta_4 *  delivery 
$$


In [None]:
X_train.head()

In [None]:
y_train.head()

In [None]:
lr_multiple = LinearRegression()

In [None]:
lr_multiple.fit(X_train, y_train)

In [None]:
y_train_pred = lr_multiple.predict(X_train)
y_test_pred = lr_multiple.predict(X_test)

In [None]:
print('RMSE train:', mean_squared_error(y_train, y_train_pred) ** 0.5)
print('RMSE test:', mean_squared_error(y_test, y_test_pred) ** 0.5)

In [None]:
print('R2 train:', r2_score(y_train, y_train_pred))
print('R2 test:', r2_score(y_test, y_test_pred))

betas de la regresión

In [None]:
betas = pd.DataFrame({'features': X_train.columns, 'beta': lr_multiple.coef_})
betas