# Regresión lineal
***

* La predicción que genere el modelo de regresión lineal es **interpretable**, ya que los pesos del modelo indican cómo contribuye cada variable en la predicción.
* Al aumentar el valor de una variable continua en una unidad cambia la salida según el peso asociado a esa variable
* En variables categóricas → se transforman en múltiples variables (*One Hot Encoding*) → variables binarias → la variable que esté “activada” (valor 1) es la que contribuye (con el peso) a la predicción) 
* Intercepto: representa el valor medio de la predicción del modelo cuando todas las variables independientes tienen valor  es cero (poco frecuente en problemas reales)

Más sobre regresión lineal [acá](https://github.com/rpezoa/ML_Aplicado/blob/master/clases/01_Introduccion_Regresion_Lineal.ipynb)


## Bibliotecas

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import statsmodels.api as sm

## Ejemplo 1
(didáctico)
***

## Datos

In [None]:
# Blood Pressure data
x = [22, 41, 52, 23, 41, 54, 24, 46, 56, 27, 47, 57, 28, 48, 58,  9, 
     49, 59, 30, 49, 63, 32, 50, 67, 33, 51, 71, 35, 51, 77, 40, 51, 81]
y = [131, 139, 128, 128, 171, 105, 116, 137, 145, 106, 111, 141, 114, 
     115, 153, 123, 133, 157, 117, 128, 155, 122, 183,
     176,  99, 130, 172, 121, 133, 178, 147, 144, 217] 
x = np.asarray(x, np.float32) 
y = np.asarray(y, np.float32) 

## Generación del modelo lineal y predicción
***
Se usa el método LinearRegression de sklearn

In [None]:
model = LinearRegression()
res = model.fit(x.reshape((len(x),1)), y)
predictions = model.predict(x.reshape((len(x),1)))


## Gráfico

In [None]:
plt.figure()
sns.set_style('darkgrid')
sns.set(font_scale=1.2)
sns.lineplot(x=x, y = predictions, label="$y=$ "+ str(round(res.coef_[0],2)) 
             +" $x$ + "+str(round(res.intercept_,2)))
plt.legend()
plt.xlabel("$x$ (Edad)")
plt.ylabel("$y$ (Presión arterial) ")
sns.scatterplot( x=x, y=y)
plt.show()

print("intercepto = ",res.intercept_,"pendiente = ", res.coef_[0],)

En este modelo simple de regressión líneal: $y = \beta_1 x + \beta_0$ es fácil interpretar como la variable númerica $x$ correspondiente a la edad, afecta en la salida del modelo.

El peso $\beta_1 = 1.11 $ que pondera el valor de $x$

$y = 1.11 x + 87.67$ 

En este caso el peso $\beta_1 = 1.11 $ indica la contribución de la variable $x$ (edad del paciente) en la predicción de la presión arterial.

## Ejemplo 2:
***

* **Usando statsmodel, predecir el ancho del pétalo a partir de el largo del pétalo para la espcecie "Iris-versicolor"**

## Biblioteca

In [None]:
import statsmodels.formula.api as smf

## Descarga de datos y pre-procesamiento
***
* Iris Dataset


In [None]:
csv_url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'
iris = pd.read_csv(csv_url, header = None)

In [None]:
col_names = ['Sepal_Length','Sepal_Width','Petal_Length','Petal_Width','Species']
iris =  pd.read_csv(csv_url, names = col_names)

In [None]:
iris

In [None]:
iris['Species'].value_counts()

Seleccionamos solo la clase "Iris-versicolor"

In [None]:
versicolor = iris[iris["Species"] == "Iris-versicolor"]

versicolor.head()

### Ejercicio 1

<div class="alert-success">

<ol>
    <li>Generar un scatter plot de la variable independiente versus la variable dependiente</li>
    <li>Usar el método "ordinary least square (oml) de stastmodel para generar la regresión lineal"</li>
    <li>Mostrar parámetros del modelo y estadísticos (tabla resumen) </li>
    <li>Agregar al scatter plot la curva de ajuste lineal </li>
</ol>
</div>

<div class="alert-success">
1. Generar un scatter plot de la variable independiente versus la variable dependiente.
</div>

<div class="alert-success">
2. Usar el metodo "ordinary least square (oml) de stastmodel para generar la regresión lineal"
</div>

<div class="alert-success">
3. Mostrar parámetros del modelo y estadísticos (tabla resumen) 
</div>

<div class="alert-success">
4. Agregar al scatter plot la curva de ajuste lineal
</div>

### Ejercicio 2


<div class="alert-success">
    Ahora considerar todas las variables independientes disponibles para generar la regresión lineal
    <ol>
        <li>Usar el método "ordinary least square (oml) de stastmodel para generar la regresión lineal"</li>
        <li>Mostrar parámetros del modelo y estadísticos (tabla resumen) </li>
        <li>Generar gráficos usando plot_regress_exog </li>
</ol>
</div>

<div class="alert-success">
1. Usar el método "ordinary least square (oml) de stastmodel para generar la regresión lineal
</div>    

<div class="alert-success">
2. Mostrar parámetros del modelo y estadísticos (tabla resumen) 
</div>

<div class="alert-success">
3. Generar gráficos usando plot_regress_exog
</div>