# Scikit 1
- - -

## Regresión Lineal

- - -

In [None]:
import pandas as pd
import seaborn as sns

In [None]:
boston = pd.read_csv("https://raw.githubusercontent.com/4data-lab/datasets/master/boston.csv")

In [None]:
boston.head()

In [None]:
#nos saltamos la primera línea del dataset
boston = pd.read_csv("https://raw.githubusercontent.com/4data-lab/datasets/master/boston.csv", skiprows=1)

In [None]:
boston.head()

- - -
*Contenido del dataset*:

CRIM - Tasa de criminalidad per cápita por ciudad  
ZN: Proporción de tierra residencial zonificada para lotes de más de 25000 pies cuadrados  
INDUS - Proporción de acres de negocios no minoristas por ciudad  
CHAS - Variable dummy del río Charles (1 si el trecho delimita el río; 0 de lo contrario)  
NOX - Concentración de óxidos nítricos (partes por 10 millones)  
RM - Número promedio de habitaciones por vivienda  
AGE: Proporción de unidades ocupadas por el propietario construidas antes de 1940  
DIS - Distancias ponderadas a cinco centros de empleo de Boston  
RAD - Índice de accesibilidad a autopistas radiales  
TAX: Tasa de impuesto a la propiedad de valor total por $ 10000  
PTRATIO - Proporción alumno-profesor por ciudad  
BLACK - "1000 (Bk - 0.63) ^ 2" donde Bk es la proporción de afroamericanos por ciudad  
LSTAT - \% Estado inferior de la población  

MEDV: Valor medio de las viviendas ocupadas por sus propietarios en $ 1000
- - -

<img src=https://i.ibb.co/kQBYbYQ/08.jpg width="550">

- - -

In [None]:
boston = boston.rename(columns={"MEDV":"PRICE"})

In [None]:
boston["PRICE"] = boston["PRICE"] * 1000

In [None]:
boston.head(1)

In [None]:
boston.columns

In [None]:
boston.shape

- - -
## Preparar los datos para el modelo

In [None]:
#Separamos en X (features) e y (target)
X = boston[["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT"]]

In [None]:
y = boston["PRICE"]

In [None]:
X.head()

In [None]:
y.head()

- - -
A continuación, separaremos nuestros datos para tener un conjunto de entrenamiento y uno de prueba

<img src=https://i.ibb.co/JzRSbqx/09.png width="400">

- - -

## Realizamos train test split

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.80, random_state=5)

Alternativamente podemos definir el tamaño del split de las siguientes maneras:
```
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=5)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.80, test_size=0.20, random_state=5)

```

In [None]:
X_train.head()

In [None]:
y_train.head()

In [None]:
X_test.head()

In [None]:
y_test.head()

- - -

## Entrenamos el modelo

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
lr = LinearRegression()

In [None]:
lr.fit(X_train, y_train)

- - -

In [None]:
lr.intercept_

In [None]:
lr.coef_

In [None]:
pd.DataFrame(data=lr.coef_, index=X.columns, columns=["COEFICIENTES"])

También podríamos haber escrito nuestra linea de la siguiente manera sin necesidad de indicar data= e index=

In [None]:
#pd.DataFrame(lr.coef_, X.columns, ["COEFICIENTES"])

- - -
El incremento de una unidad de RM (Número promedio de habitaciones por vivienda)

Sin verse alteradas las restantes variables.

Incrementa el valor de la vivienda en **3413** Dolares aproximadamente
- - -
Otro ejemplo es que por cada unidad de NOX (Concentración de óxidos nítricos)

Sin verse alteradas las restantes variables.

Desciende el valor de la vivienda en **15957** Dolares aproximadamente.
- - -

A continuación usaremos el método *predict* al que le pasaremos los datos que tenemos separados para hacer nuestro test.  
El método *predict* usará el modelo entrenado de Regresión Lineal para realizar predicciones del target. 

In [None]:
y_pred = lr.predict(X_test)

In [None]:
print("Valores de la predicción:")
list(y_pred)[0:15]

In [None]:
print("Valores del target:")
list(y_test)[0:15]

- - -
    Para tener una idea aproximada del éxito de nuestro modelo 
    podemos realizar un scatterplot con los valores de la predicción y los del target.

In [None]:
import matplotlib.pyplot as plt

In [None]:
import seaborn as sns

In [None]:
plt.figure(figsize=(10,5))
sns.scatterplot(x=y_test, y=y_pred)

    Lo que esperamos ver es una concentración de puntos sobre la diagonal de nuestro plot con una tendecia ascendente.

- - -

## Evaluamos el modelo

- - -

Para evaluar el modelo usaremos el método score que determinara lo bien que se ajusta la línea de regresión a los datos.  

Cuanto más cerca sea su valor a 1 mejor lo hace.

Para ello le pasaremos como primer valor los datos de test con los cuales probar el modelo y, luego, el target que deberíamos obtener.
- - -

In [None]:
lr.score(X_test, y_test)

Si los valores de la predicción fuesen identicos a los del target el resultado del score sería 1. A modo de ejemplo de prueba, si le pasamos los datos de nuestra predicción como si fueran los valores del target podríamos ver este comportamiento.

<img src=https://i.ibb.co/XLHftzg/07.jpg width="475">

La diferencia entre el valor predicho y el valor real se le denomina residuo.

En un modelo de regresión siempre es necesario minimizar la diferencia entre el valor predicho y el valor real.

De esta forma el valor de R2 muestra qué tan buena es la línea del modelo de regresión lineal.

- - -
0,00 ---> No existe correlación lineal alguna entre las variables  
0,10 ---> Correlación positiva débil  
0,50 ---> Correlación positiva media  
0,75 ---> Correlación positiva considerable  
0,90 ---> Correlación positiva muy fuerte  
1,00 ---> Correlación positiva perfecta
- - -

Más información:

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

https://en.wikipedia.org/wiki/Coefficient_of_determination

In [None]:
import numpy as np
from sklearn.metrics import mean_squared_error, r2_score
rmse_Lreg = np.sqrt(mean_squared_error(y_test, y_pred))
print('RMSE value is = {}'.format(rmse_Lreg))
#Método alternativo para calcular la r2_score
r2_Lreg = r2_score(y_test, y_pred)
print('R-squared value is {}'.format(r2_Lreg))

- - -

#Problemas éticos con el dataset

In [None]:
#¿Hay que usar siempre todos los datos que tenemos disponibles?
plt.figure(figsize=(10,10))
corr = boston.corr()
sns.heatmap(data=corr, square=True , annot=True, cbar=True,linewidth=2);

In [None]:
X = boston[["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "LSTAT"]]
y = boston["PRICE"]
print(X.shape)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.80, random_state=5)
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)
rmse_Lreg = np.sqrt(mean_squared_error(y_test, y_pred))
print('RMSE value is = {}'.format(rmse_Lreg))
#Método alternativo para calcular la r2_score
r2_Lreg = r2_score(y_test, y_pred)
print('R-squared value is {}'.format(r2_Lreg))

#ANTES: RMSE value is = 4568.292042303144
#AHORA: R-squared value is 0.733449214745315
