## Polynomial Regression on Boston Housing Dataset


**En este notebook hacemos un estudio comparativo de la precisión de la Regresión Lineal y la Regresión Polinómica en el Conjunto de Datos de Viviendas de Boston**

Estos datos eran originalmente una parte de UCI Machine Learning Repository y se ha eliminado ahora. Estos datos también se incluyen en la biblioteca scikit-learn. 
Hay 506 muestras y 13 variables de características en este conjunto de datos. El objetivo es predecir el valor de los precios de la vivienda utilizando las características dadas.

A continuación se describen todas las características:

  **CRIM**: Índice de delincuencia per cápita por ciudad

  **ZN**: Proporción de suelo residencial con parcelas de más de 25.000 pies cuadrados.

  **INDUS**: Proporción de acres comerciales no minoristas por ciudad

  **CHAS**: Charles River dummy variable (= 1 si el tramo linda con el río; 0 en caso contrario)

  **NOX**: Concentración de óxido nítrico (partes por 10 millones)

  **RM**: Número medio de habitaciones por vivienda

  **EDAD**: Proporción de unidades ocupadas por sus propietarios construidas antes de 1940

  **DIS**: Distancias ponderadas a cinco centros de empleo de Boston

  **RAD**: Índice de accesibilidad a autopistas radiales

  **TAX**: Tipo del impuesto sobre bienes inmuebles por cada 10.000 dólares

  **B**: 1000(Bk - 0,63)², donde Bk es la proporción de [personas de ascendencia afroamericana] por ciudad

  **LSTAT**: Porcentaje del estatus más bajo de la población

  **MEDV**: Valor medio de las viviendas ocupadas por sus propietarios en miles de dólares
  
  
  



# Ejercicios

**Importe las librerías necesarias**

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

**Cargar el conjunto de datos de viviendas de Boston desde scikit-learn**

In [None]:
from sklearn.datasets import load_boston

boston_dataset = load_boston()

In [None]:
boston_dataset.keys()

In [None]:
print(boston_dataset['DESCR'])

**Cargar los datos en pandas dataframe**

**El target no está en los datos. Cree una nueva columna de valores target y añádala al dataframe en una columna llamada MEDV**.

**Preprocesamiento de datos**

Comprobar si faltan valores en todas las columnas

**Visualización de datos**

Visualiza la distribución del target. 

**Matriz de correlaciones**

Analizar la matriz de correlaciones. Pinta un heatmap

* Del diagrama de correlación: cuáles son las columnas más correlacionadas con **MEDV**.
* Hay dos características muy correlacionadas. Identifícalas y elimina una de ellas para evitar la multicolinealidad.

##  Haz 2 gráficos de dispersión para ver la relación entre **MEDV** y **LSTAT** y **RM**

**Preparar los datos para el entrenamiento**  
Crear un dataframe X que incluya las columnas **LSTAT** y **RM**.  
Y debe ser una serie pandas que incluya los valores objetivo **'MEDV'**.

**Divide los datos en conjuntos de entrenamiento y de prueba**.

Divide el conjunto de datos de entrenamiento y prueba en 80% : 20%. Asigna a random_state cualquier valor. Esto asegura la consistencia. Imprime los dimensiones de los objetos resultantes

# Regresión lineal

Construir un modelo de regresión lineal con sklearn LinearRegression.
Vamos a utilizar el error cuadrático medio y la puntuación R2 para evaluar nuestro modelo, así que asegúrese de hacer las importaciones necesarias.

Importar las funciones necesarias y entrenar un modelo LinearRegression

**Evaluar el rendimiento del modelo en los conjuntos de entrenamiento y prueba**

Puedes usar este código 

```python
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error

print('MAE train', mean_absolute_error(y_train, lin_reg.predict(X_train)))
print('MAPE train', mean_absolute_percentage_error(y_train, lin_reg.predict(X_train)))
print('MSE train', mean_squared_error(y_train, lin_reg.predict(X_train)))
print('RMSE train', np.sqrt(mean_squared_error(y_train, lin_reg.predict(X_train))))
print('R2 score train', r2_score(y_train, lin_reg.predict(X_train)))

```

**Veamos el rendimiento del modelo visualmente. Visualiza y_test frente a y_pred**.

Trazando y_test vs y_pred. Idealmente debería haber sido una línea recta

# Regresión polinómica

Podemos ver que **LSTAT** no varía exactamente de forma lineal. Apliquemos la Regresión Polinómica con **grado 2** y probemos. 

Para generar los grados de orden superior, utilizamos la clase PolyniomialFeatures de la librería sklearn. 

**¿Mejoró el modelo utilizando el modelo polinómico?** 

**Prueba con un polinomio de grado 3 y grado 4**

**Visualiza el polinomio de grado 3 en una gráfica**