# REGRESION LINEAL

La regresion lineal es un modelo estadistico que examina la relacion lineal que hay entre dos (regresion lineal simple) o mas (regresion lineal multiple) variables, una variable dependiente y una(s) variable independiente.

### Regresion Lineal Simple

La relacion entre las variables X e Y se representa mediante la siguiente ecuacion.

![image.png](attachment:image.png)




**Y** es la variable que queremos predecir o estimar, **X** es la variable que vamos a conocer para estimar esa variable Y.
**bo** y **b1** van a ser valores fijos que van a determinar la funcion.

##### Supongamos el siguiente caso

Tenemos los siguientes datos de las alturas de madres y sus hijas respectivamente

![image.png](attachment:image.png)

Ahora, dada una altura de la madre de 63, cuanto medira la hija?

Aqui es cuando entra la **regresion lineal simple**, lo primero que hay que hacer es encontrar esa ecuacion `Y= b0 + b1*X` que nos describa la relacion entre dichas variables.

Y asi obtener la recta de la regresion lineal simple

![image.png](attachment:image.png)

**Y como se encuentra esta recta?**

Lo que en realidad se encuentra son los coeficientes b0 y b1, y eso se realiza mediante metodos matematicos como el `gradiente descendente` que lo que buscan es minimizar nuestra `cost function` o funcion de costo.

La idea reside en encontrar esos valores b0 y b1 de manera que nuestra prediccion este lo mas cerca posible del valor real conocido.

Basicamente lo que se trata es de encontrar la recta con la mejor representacion de los datos, es decir, con el menor **'error'** posible.

##### Error

Mejor llamado **Residual** nos va a indicar cual es la diferencia que hay entre cada valor predicho por la recta y el valor real para ese punto en particular.

![image.png](attachment:image.png)



Entonces de aca surge la idea del **MSE** (Mean Squared Error) que es el **Error Cuadratico Medio**  y esta dado por la siguiente ecuacion.

![image.png](attachment:image.png)

Entonces podemos tomar esta ecuacion del MSE como si fuese nuestra `funcion de costo`, y se utilizan metodos como el `gradiente descendente` para minimizarla y asi obtener los valores `b0` y `b1` optimos para ese conjunto de datos.

PD: Existen otras maneras de plantear la funcion de costo como MAE y R2, a los fines de simplificar solo vimos una de ellas (la mas utilizada)

###### Respondiendo la pregunta

Dada una altura de la madre de 63, cuanto medira la hija?

![image.png](attachment:image.png)

En base a nuestra recta de prediccion, podemos decir que la hija tendra una altura de entre 63 y 64

# Intro a scikit-learn

Scikit-learn es una de las librerias mas utilizadas en ciencia de datos, posee una gran cantidad de modelos de Machine Learning y tecnicas de procesamiento de datos.

[sklearn](https://scikit-learn.org/stable/index.html)

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

### Los datos

Dataset sobre diabetes con medidas en 442 pacientes.

Descripcion de las columnas

    age = edad

    sex = sexo

    bmi = indice de masa corporal

    bp = presion sanguinea promedio

    s1 = celulas T

    s2 = ldl, lipoproteinas de baja densidad

    s3 = hdl, lipoproteinas de alta densidad

    s4 = tsh, hormona estimulante de tiroides

    s5 = ltg, lamotrigina

    s6 = glu, nivel de glucosa en sangre
    
    Y = progresion de la enfermedad despues de un año de las mediciones

In [None]:
data = pd.read_csv('https://www4.stat.ncsu.edu/~boos/var.select/diabetes.tab.txt',sep='\t')

## El modelo regresion lineal simple

Vamos a ver como podemos hacer el modelo de regresion lineal simple con sklearn

Supongamos que nuestras variables van a ser BP (presion sanguinea promedio) e Y

In [None]:
# primero importamos el modelo a entrenar


In [None]:
# luego creamos el objeto correspondiente a ese modelo


In [None]:
# ahora entrenamos el modelo con las dos variables de interes


In [None]:
# veamos que parametros se obtuvieron


In [None]:
# Ahora vamos a hacer las predicciones, para ello hay que pasarle la misma columna con la que entrene el modelo


##### Grafiquemos 

In [None]:
fig,axes = plt.subplots()

# Crear el ploteo
axes.scatter(data[['BP']], data[['Y']],  color='black')
axes.plot(data[['BP']], Y_pred, color='red', linewidth=3)
axes.set_xlabel('BP')
axes.set_ylabel('Y')
axes.set_title('Recta de regresion')


In [None]:
# con seaborn

## La evaluacion

Perfecto, ya hicimos las predicciones, pero podemos confiar en ellas?

Aqui es cando hablamos de evaluar nuestro modelo, vamos a tomar como parametro de evaluacion la metrica del error deniminada **RMSE**

![image.png](attachment:image.png)

Que como vemos es solo la raiz cuadrada del MSE

In [None]:
# importamos la funciones para el calculo de RMSE


In [None]:
data.drop('Y_pred',axis=1, inplace=True)

## El modelo regresion lineal multiple

Ahora podemos extender el concepto de regresion a varias variables, lo que nos deja con la siguiente formula

![image.png](attachment:image.png)

Entonces llevemos esto a la practica

In [None]:
# entreno el modelo


In [None]:
# hago las predicciones


## La evaluacion

In [None]:
data["y_pred"] = Y_pred

In [None]:
data.head()

## Esto es entrenar un modelo de ML

Es muy sencillo, el inconveniente es conseguir un buen modelo, y eso da a depender de muchas cosas, principalmente de los datos que usemos para entrenar.

    `garbage in, garbage out`