<a href="https://colab.research.google.com/github/JCaballerot/Machine_learning_program/blob/main/Supervised_models/Linear_regression/Lab_Boston_Housing_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<h1 align=center><font size = 5>Boston Housing</font></h1>

---

## Introducción


En este laboratorio, aprenderá a usar python para construir un modelo de regresión.


<h3>Objetivo de este Notebook<h3>    
<h5> 1. Como construir e interpretar un modelo de regresión.</h5>
<h5> 2. Descargar y limpiar un Dataset </h5>
<h5> 3. Realizar los pasos necesarios previos a la etapa de modelamiento </h5>
<h5> 4. Entrenar y Testear modelo </h5>     

## Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Importar Librerías</a>  
2. <a href="#item32">Descargar y limpiar el Dataset</a>  
3. <a href="#item33">Pre-selección de variables</a> 
4. <a href="#item33">Preparación de datos</a> 
5. <a href="#item33">Construir un modelo de regresión lineal</a>  
6. <a href="#item34">Entrenar y Testear el modelo</a>  

</font>
</div>

## Descargar y limpiar Dataset


Primero, importemos algunos módulos comunes, asegurémonos de que MatplotLib tenga una configuración adecuada para el tamaño de nuestros gráficos. También verificamos que Python 3.5 o posterior esté instalado (aunque Python 2.x puede funcionar, está obsoleto), así como Scikit-Learn ≥0.20.

In [1]:
# Scikit-Learn 
import sklearn

# Imports comunes
import pandas as pd
import numpy as np
import os

# Configuración de tamaño de gráficos matplotlib
%matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# Cargar seaborn 
import seaborn as sns
sns.set(style="whitegrid", color_codes = True)
sns.set(rc={'figure.figsize':(10,6)})

# Ignore las advertencias poco útiles
import warnings
warnings.filterwarnings(action="ignore", message="^internal gelsd")

<b>Valores de la vivienda en los suburbios de Boston</b>

<h5>La variable <b>medv</b> es la variable objetivo.</h5>

<b>Descripción de datos</b>

El data frame de Boston tiene 506 filas y 14 columnas.

<b>Este data frame contiene las siguientes columnas:</b>

---

* <b>crim : </b> Tasa de criminalidad per cápita por ciudad.

* <b>zn : </b> Proporción de terreno residencial dividido en zonas para lotes de más de 25,000 pies cuadrados.

* <b>indus : </b> Proporción de acres comerciales no minoristas por ciudad.

* <b>chas : </b> Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario).

* <b>nox : </b>Concentración de óxidos de nitrógeno (partes por 10 millones).

* <b>rm : </b>Número medio de habitaciones por vivienda.

* <b>años : </b> Proporción de unidades ocupadas por sus propietarios construidas antes de 1940.

* <b>dis : </b>Media ponderada de las distancias a cinco centros de empleo de Boston.

* <b>rad : </b>Indice de accesibilidad a carreteras radiales.

* <b>impuesto : </b>Tasa de impuesto a la propiedad de valor total por \$ 10,000.

* <b>ptratio : </b>Proporción alumno-profesor por ciudad.

* <b>black : </b> 1000 (Bk - 0.63) ^ 2 donde Bk es la proporción de negros por ciudad.

* <b>lstat : </b>Estatus más bajo de la población (porcentaje).

* <b>medv : </b>Valor medio de las viviendas ocupadas por sus propietarios en \$ 1000.

---

<strong>Puede consultar este [link](https://kaggle.com/c/boston-housing) para leer más sobre la fuente de datos boston housing.</strong>

<strong>Puede descargar la data en este [link](https://www.kaggle.com/datasets/altavish/boston-housing-dataset)</strong>


## Leyendo y Explorando data

In [16]:
#cargamos la data

pddf = pd.read_csv('HousingData 2.csv')

In [None]:
pddf.head()

In [None]:
pddf.shape

In [None]:
# Vamos a describir la información
pddf.describe().transpose()


In [None]:
# Gráfico de distribución 
import seaborn as sns
sns.displot(pddf.NOX, kind="kde", fill=True)

In [None]:
#Boxplot
sns.set_theme(style="whitegrid")
ax = sns.boxplot(data=pddf.NOX, orient="v")
ax = sns.swarmplot(data=pddf.NOX, color=".25")


In [None]:
sns.displot(pddf.MEDV, kind="kde", fill=True)

In [None]:
sns.set_theme(style="whitegrid")
ax = sns.boxplot(data=pddf.MEDV, orient="v")
ax = sns.swarmplot(data=pddf.MEDV, color=".25")

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
pddf.hist(bins=50, figsize=(20,15))
plt.show()

## Selección de muestras

In [None]:
pddf.head()

In [24]:
# Shuffle the data
from sklearn.utils import shuffle
pddf = shuffle(pddf, random_state = 123)


In [None]:
# Elección de variables
features = list(set(pddf.columns.tolist()) - set(['MEDV']))
features


In [76]:
# Definiendo data
X = pddf[features]
y = pddf.MEDV


In [77]:
# Muestreo

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    train_size = 0.7, 
                                                    random_state = 123)


In [None]:
print(X.shape)
print(X_train.shape)
print(X_test.shape)


In [None]:
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = (10,6)

plt.scatter(X_train.NOX, y_train)
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)

In [None]:
plt.scatter(X_train.NOX, y_train, alpha = 0.5)
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.show()

In [None]:
# Matriz de scatterplots
from pandas.plotting import scatter_matrix
scatter_matrix(X_train, figsize=(30, 20))


## Pre-selección de variables

In [78]:
# Dando formato a nuestra tabla resumen

pdResume = X_train.describe().transpose()
pdResume.reset_index(inplace = True)
pdResume.rename(columns = {'index' : 'feature',
                           '25%' : 'Q1',
                           '50%' : 'median',
                           '75%' : 'Q3'}, inplace = True)


In [79]:
pdResume[['missing_rate']] = 1 - pdResume[['count']]/X_train.shape[0]
pdResume.sort_values(by = 'missing_rate', ascending = False, inplace = True)


In [108]:
# Calculando las correlaciones de todas las variables con el target

temp = X_train.copy()
temp['target'] = y_train

correlations = []
for col in features:
  correlations.append(temp[[col, 'target']].corr().iloc[0][1])


In [112]:
pd.DataFrame({'features' : features,
              'corr_MEDV' : correlations}).sort_values(by = 'corr_MEDV', ascending = False)


Unnamed: 0,features,corr_MEDV
6,RM,0.763989
9,ZN,0.373788
0,B,0.320781
2,DIS,0.261302
1,CHAS,0.163915
12,AGE,-0.397317
8,CRIM,-0.411684
7,NOX,-0.431853
4,RAD,-0.447186
3,INDUS,-0.512475


In [81]:
X_train.corr()

Unnamed: 0,B,CHAS,DIS,INDUS,RAD,TAX,RM,NOX,CRIM,ZN,PTRATIO,LSTAT,AGE
B,1.0,0.053099,0.260822,-0.329201,-0.415609,-0.418384,0.103654,-0.367191,-0.356568,0.151702,-0.172132,-0.362649,-0.249902
CHAS,0.053099,1.0,-0.074271,0.03616,-0.051367,-0.084635,0.097471,0.046939,-0.070936,-0.021569,-0.140622,-0.023123,0.065457
DIS,0.260822,-0.074271,1.0,-0.683186,-0.459574,-0.496149,0.201934,-0.767061,-0.35705,0.635262,-0.193537,-0.495655,-0.746353
INDUS,-0.329201,0.03616,-0.683186,1.0,0.589795,0.709395,-0.391341,0.756209,0.388246,-0.521346,0.375618,0.595585,0.628738
RAD,-0.415609,-0.051367,-0.459574,0.589795,1.0,0.915424,-0.232941,0.598581,0.611013,-0.292986,0.470816,0.482407,0.423966
TAX,-0.418384,-0.084635,-0.496149,0.709395,0.915424,1.0,-0.310378,0.657181,0.572931,-0.291606,0.461043,0.535433,0.46455
RM,0.103654,0.097471,0.201934,-0.391341,-0.232941,-0.310378,1.0,-0.300891,-0.203718,0.329174,-0.384552,-0.6464,-0.257014
NOX,-0.367191,0.046939,-0.767061,0.756209,0.598581,0.657181,-0.300891,1.0,0.404013,-0.487448,0.149073,0.582571,0.713841
CRIM,-0.356568,-0.070936,-0.35705,0.388246,0.611013,0.572931,-0.203718,0.404013,1.0,-0.178657,0.276978,0.442098,0.339131
ZN,0.151702,-0.021569,0.635262,-0.521346,-0.292986,-0.291606,0.329174,-0.487448,-0.178657,1.0,-0.406099,-0.406697,-0.553154
