<a href="https://colab.research.google.com/github/JCaballerot/Machine_learning_program/blob/main/Supervised_models/Linear_regression/Lab_Boston_Housing_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


<img src="https://storage.googleapis.com/kaggle-datasets-images/1379/2485/a52db2794593657403a4235bfc4147aa/dataset-cover.jpg
" width="1000" height="300" >


<h1 align=center><font size = 5>Boston Housing</font></h1>

---

## Introducción


En este laboratorio, aprenderá a usar python para construir un modelo de regresión.


<h3>Objetivo de este Notebook<h3>    
<h5> 1. Como construir e interpretar un modelo de regresión.</h5>
<h5> 2. Descargar y limpiar un Dataset </h5>
<h5> 3. Realizar los pasos necesarios previos a la etapa de modelamiento </h5>
<h5> 4. Entrenar y Testear modelo </h5>     

### Tabla de Contenidos

<div class="alert alert-block alert-info" style="margin-top: 20px">

<font size = 3>
    
1. <a href="#item31">Leer y explorar la data</a>  
2. <a href="#item32">Selección de muestras</a>  
3. <a href="#item33">Pre-selección de variables</a>
4. <a href="#item33">Preparación de datos</a>
5. <a href="#item33">Construir un modelo de regresión lineal</a>  
6. <a href="#item34">Testear el modelo</a>  

</font>
</div>

## Importar Librerías


Primero, importemos algunos módulos comunes.

In [52]:
# Imports comunes
import pandas as pd
import numpy as np

# Configuración de tamaño de gráficos matplotlib
import matplotlib.pyplot as plt

# Cargar seaborn
import seaborn as sns

# Configurar el estilo de Seaborn
sns.set(style="whitegrid")

# os proporciona funciones para interactuar con el sistema operativo y realizar operaciones relacionadas con archivos y directorios.
import os


## Problema Bostong Housing

<b>Valores de la vivienda en los suburbios de Boston</b>

<h5>La variable <b>medv</b> es la variable objetivo.</h5>

<b>Descripción de datos</b>

El data frame de Boston tiene 506 filas y 14 columnas.



<b>Este data frame contiene las siguientes columnas:</b>

---

* <b>crim : </b> Tasa de criminalidad per cápita por ciudad.

* <b>zn : </b> Proporción de terreno residencial dividido en zonas para lotes de más de 25,000 pies cuadrados.

* <b>indus : </b> Proporción de acres comerciales no minoristas por ciudad.

* <b>chas : </b> Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario).

* <b>nox : </b>Concentración de óxidos de nitrógeno (partes por 10 millones).

* <b>rm : </b>Número medio de habitaciones por vivienda.

* <b>años : </b> Proporción de unidades ocupadas por sus propietarios construidas antes de 1940.

* <b>dis : </b>Media ponderada de las distancias a cinco centros de empleo de Boston.

* <b>rad : </b>Indice de accesibilidad a carreteras radiales.

* <b>impuesto : </b>Tasa de impuesto a la propiedad de valor total por \$ 10,000.

* <b>ptratio : </b>Proporción alumno-profesor por ciudad.

* <b>black : </b> 1000 (Bk - 0.63) ^ 2 donde Bk es la proporción de negros por ciudad.

* <b>lstat : </b>Estatus más bajo de la población (porcentaje).

* <b>medv : </b>Valor medio de las viviendas ocupadas por sus propietarios en \$ 1000.

---



<strong>Puede consultar este [link](https://kaggle.com/c/boston-housing) para leer más sobre la fuente de datos boston housing.</strong>

<strong>Puede descargar la data en este [link](https://www.kaggle.com/datasets/altavish/boston-housing-dataset)</strong>


## 1. Leyendo y Explorando data

Creando carpeta para archivos del proyecto

In [57]:
# Creando carpetas
nombre_carpeta = 'linear_regression'
os.makedirs(nombre_carpeta)
os.makedirs(nombre_carpeta + '/data')
os.makedirs(nombre_carpeta + '/plots')
os.makedirs(nombre_carpeta + '/results')

Lectura de datos

In [59]:
#cargamos la data
pddf = pd.read_csv('linear_regression/data/HousingData 2.csv')

In [None]:
# Validar la data de forma general
pddf.head()

In [None]:
# Contar los datos
pddf.shape

Identificar los principales atributos

In [43]:
# Variable objetivo
target = 'MEDV'

In [45]:
# Identificar las variables numéricas utilizando el atributo dtypes
variables_numericas = pddf.select_dtypes(include=['number']).columns.tolist()
variables_numericas.remove(target)

In [None]:
# Identificar las variables categóricas utilizando el atributo dtypes
variables_categoricas = pddf.select_dtypes(include=['object']).columns.tolist()
variables_categoricas

In [None]:
# Guardando variables en una tabla
dataResume = pd.DataFrame({'feature' : variables_numericas, 'type' : 'numeric'})
dataResume = dataResume.append(pd.DataFrame({'feature' : [target], 'type' : 'target'}))
dataResume.to_csv('linear_regression/results/dataResume.csv', index = 0)

Exploración de los datos

In [None]:
plt.figure(figsize=(4, 6))  # Tamaño del gráfico (ancho x alto en pulgadas)

# Gráfico de distribución
sns.displot(pddf['MEDV'], height=4, aspect=1.5, kde=True)
plt.title("Distribución del Precio de los inmuebles", fontsize=12)  # Título del gráfico
plt.xlabel("Precio", fontsize=10)  # Nombre del eje x
plt.ylabel("Frecuencia", fontsize=10)  # Nombre del eje y

plt.savefig("dist_MEDV.png")  # Guarda el gráfico como un archivo PNG
plt.show()

Graficamos todas las variables

In [None]:
plt.figure(figsize=(4, 6))  # Tamaño del gráfico (ancho x alto en pulgadas)

for col in variables_numericas:
  # Gráfico de distribución
  sns.displot(pddf[col], height=4, aspect=1.5, kde=True)
  plt.title("Distribución de " + col, fontsize=12)  # Título del gráfico
  plt.xlabel(col, fontsize=10)  # Nombre del eje x
  plt.ylabel("Frecuencia", fontsize=10)  # Nombre del eje y
  plt.savefig("linear_regression/plots/dist_" + col + ".png")  # Guarda el gráfico como un archivo PNG
  plt.close()

## 2. Selección de muestras

El conjunto de datos en machine learning se divide típicamente en dos partes: el conjunto de entrenamiento (train) y el conjunto de prueba (test). Estas divisiones se utilizan para entrenar y evaluar los modelos.

**Train**: El conjunto de entrenamiento se utiliza para entrenar el modelo de aprendizaje automático. Es aquí donde el modelo "aprende" los patrones y relaciones en los datos para poder hacer predicciones o clasificaciones.

**Test**: El conjunto de prueba se utiliza para evaluar el rendimiento del modelo en datos no vistos durante el entrenamiento. Es una medida objetiva de la capacidad del modelo para generalizar y realizar predicciones precisas en nuevos datos.

In [77]:
# Muestreo
#La función train_test_split de scikit-learn se utiliza para dividir un conjunto de datos en subconjuntos de train y test.
from sklearn.model_selection import train_test_split

train, test = train_test_split(pddf, # Base de datos
                               train_size = 0.7, # Especificar el tamaño de train/test
                               random_state = 123) # Semilla aleatoria


In [None]:
print(f"Tamaño del total de datos: {len(pddf)}")
print(f"Tamaño de train: {len(train)}")
print(f"Tamaño de test: {len(test)}")

Análisis exploratorio de relación de datos

In [None]:
# Crear scatterplot
plt.figure(figsize=(6, 4))
sns.regplot(x = train.NOX, y = train.MEDV, scatter_kws={"alpha": 0.5})

# Personalizar el título y los nombres de los ejes
plt.title(f"Scatterplot NOX vs Precio del inmueble")
plt.xlabel("Variable NOX")
plt.ylabel("Precio del inmueble")

# Mostrar el gráfico
plt.show()

In [96]:
plt.figure(figsize=(4, 6))  # Tamaño del gráfico (ancho x alto en pulgadas)

for col in variables_numericas:
  # Gráfico de distribución
  sns.regplot(x = train[col], y = train[target], scatter_kws={"alpha": 0.5})

  # Personalizar el título y los nombres de los ejes
  plt.title(f"Scatterplot {col} vs Precio del inmueble")
  plt.xlabel(f"Variable {col}")
  plt.ylabel("Precio del inmueble")

  plt.savefig("linear_regression/plots/scatter_" + col + ".png")  # Guarda el gráfico como un archivo PNG
  plt.close()

## 3. Pre-selección de variables

In [97]:
# Dando formato a nuestra tabla resumen

pdResume = train.describe().transpose()
pdResume.reset_index(inplace = True)
pdResume.rename(columns = {'index' : 'feature',
                           '25%' : 'Q1',
                           '50%' : 'median',
                           '75%' : 'Q3'}, inplace = True)

In [98]:
pdResume[['missing_rate']] = 1 - pdResume[['count']]/train.shape[0]
pdResume.sort_values(by = 'missing_rate', ascending = False, inplace = True)


In [99]:
# Calculando las correlaciones de todas las variables con el target
correlations = train.corr()[['MEDV']]
correlations.reset_index(inplace = True)
correlations.rename(columns = {'index' : 'feature',
                               'MEDV' : 'corr'}, inplace = True)


In [None]:
# Cruzando correlaciones con la tabla de resumen original
univariate = pd.merge(pdResume, correlations, on = 'feature')
univariate.head()

In [None]:
# Creamos la columna correlacion absoluta
univariate['abs_corr'] = univariate['corr'].apply(lambda x: abs(x))
univariate.sort_values(by = 'abs_corr', ascending = False, inplace=True)
univariate.head()

In [103]:
# Guardando resultados
univariate.to_csv('linear_regression/results/univariate_assesment.csv', index = 0)

Puedes hacer pre-selección de variables quedándote con las variables conmás correlación con el target y con menos missing rate

In [None]:
preselection = univariate.loc[(univariate.abs_corr >= 0.2) & (univariate.missing_rate <= 0.8)]
print(f"{len(preselection)} variables de {len(univariate)} pasan el proceso de pre-selección")

In [None]:
preselection

## 4. Preparación de datos

### 4.1. Tratamiento de outliers

El tratamiento de outliers, también conocido como manejo de valores atípicos, es un proceso en el análisis de datos que se refiere a cómo se deben abordar los puntos de datos que se encuentran fuera del rango típico o esperado. Los outliers son observaciones que se desvían significativamente del patrón general de los demás datos.

#### Rango Intercuantílico

El tratamiento de outliers utilizando el rango intercuartílico (IQR, por sus siglas en inglés) es una técnica común para identificar y manejar valores atípicos en un conjunto de datos. El rango intercuartílico es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1) de los datos.

<img src="https://miro.medium.com/max/1400/1*2c21SkzJMf3frPXPAR_gZA.png" width="500"
     height="300" >

In [None]:
#Leyendo tabla resumen
univariate_II = pd.read_csv('linear_regression/results/univariate_assesment.csv')
univariate_II.head()

In [None]:
# Calculando los intervalos RIC

univariate_II['ric']     = univariate_II['Q3'] - univariate_II['Q1']
univariate_II['min_ric'] = univariate_II['Q1'] - 1.5*univariate_II['ric']
univariate_II['max_ric'] = univariate_II['Q3'] + 1.5*univariate_II['ric']

univariate_II.head()

In [None]:
# Tratamiento de outliers por RIC

for col in preselection.feature.tolist():
  desc = univariate_II.loc[univariate_II.feature == col]

  lower_limit = desc.min_ric.values[0]
  upper_limit = desc.max_ric.values[0]

  train[col + '_tric'] = train[col].apply(lambda x: lower_limit if x <= lower_limit else
                                                    upper_limit if x >= upper_limit else
                                                    x)
  test[col + '_tric']  = test[col].apply(lambda x: lower_limit if x <= lower_limit else
                                                    upper_limit if x >= upper_limit else
                                                    x)
train.head()

Revisemos los resultados

In [None]:
# Crear figura y subplots
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

ax1 = axes[0]
sns.boxplot(data=train[['MEDV']], orient="h", ax=ax1)
ax1.set_title('Variable Original')

ax2 = axes[1]
sns.boxplot(data=train[['MEDV_tric']], orient="h", ax=ax2)
ax2.set_title('Variable Tratada')
# Ajustar espaciado entre subplots
plt.tight_layout()

# Mostrar los gráficos
plt.show()


### 4.2. Tratamiento de Missings

Imputación de valores: En lugar de eliminar los valores faltantes, se pueden reemplazar por valores estimados o imputados. Esto implica reemplazar los valores faltantes con medidas de tendencia central, como la media o la mediana, o utilizar métodos más avanzados como la regresión o el algoritmo K-NN para estimar los valores faltantes basándose en otros atributos del conjunto de datos.

In [None]:
# Tratamiento de missings

actual_features = [x + '_tric' for x in preselection.feature.tolist()]

# Tratamiento en train
train[[x + '_imp' for x in preselection.feature.tolist()]] = train.fillna(train[actual_features].median())

# Tratamiento en test
test[[x + '_imp' for x in preselection.feature.tolist()]] = test.fillna(train[actual_features].median())


In [None]:
train[[x + '_imp' for x in all_features if '_tric' in x]].head(30)

### 4.3. Reescalamiento de datos

Es un proceso en el análisis de datos que consiste en transformar las variables para que tengan una escala común o un rango específico. El objetivo principal del reescalamiento de datos es colocar todas las variables en una misma escala numérica, lo cual puede facilitar la comparación y el análisis de las variables.

Z-Score Scaling: También conocido como estandarización, transforma los datos para que tengan una media de 0 y una desviación estándar de 1. La fórmula para la estandarización es:

x_std = (x - mean(x)) / std(x)

In [None]:
# estandarizando las variables para mantener todas en una misma escala
train[[x + '_std' for x in features_in]] = (train[features_in] - train[features_in].mean())/train[features_in].std()


## 5. Modelo de regresión Lineal

### Regresión lineal por MCO

In [None]:
# Utilizamos el target con tratamiento de outliers, debido a que no es necesario estandarizar ni hacer tratamiento de missings en este (solo aplica para el target)
[x for x in train.columns.tolist() if 'MEDV' in x]


In [None]:
import statsmodels.api as sm

# Fit and summarize OLS model
mod = sm.OLS(train.MEDV_tric,
             sm.add_constant(train[[x + '_std' for x in features_in]]))
res = mod.fit()


In [None]:
print(res.summary())

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'INDUS_tric_imp_std',
                                              'TAX_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'AGE_tric_imp_std',
                                              'RAD_tric_imp_std',
                                              'CRIM_tric_imp_std',
                                              'ZN_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'TAX_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'AGE_tric_imp_std',
                                              'RAD_tric_imp_std',
                                              'CRIM_tric_imp_std',
                                              'ZN_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'TAX_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'AGE_tric_imp_std',
                                              'RAD_tric_imp_std',
                                              'ZN_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'TAX_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'RAD_tric_imp_std',
                                              'ZN_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'TAX_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'RAD_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())


* <b>crim : </b> Tasa de criminalidad per cápita por ciudad.

* <b>zn : </b> Proporción de terreno residencial dividido en zonas para lotes de más de 25,000 pies cuadrados.

* <b>indus : </b> Proporción de acres comerciales no minoristas por ciudad.

* <b>chas : </b> Variable ficticia de Charles River (= 1 si el tramo limita con el río; 0 en caso contrario).

* <b>nox : </b>Concentración de óxidos de nitrógeno (partes por 10 millones).

* <b>rm : </b>Número medio de habitaciones por vivienda.

* <b>años : </b> Proporción de unidades ocupadas por sus propietarios construidas antes de 1940.

* <b>dis : </b>Media ponderada de las distancias a cinco centros de empleo de Boston.

* <b>rad : </b>Indice de accesibilidad a carreteras radiales.

* <b>impuesto : </b>Tasa de impuesto a la propiedad de valor total por \$ 10,000.

* <b>ptratio : </b>Proporción alumno-profesor por ciudad.

* <b>black : </b> 1000 (Bk - 0.63) ^ 2 donde Bk es la proporción de negros por ciudad.

* <b>lstat : </b>Estatus más bajo de la población (porcentaje).

* <b>medv : </b>Valor medio de las viviendas ocupadas por sus propietarios en \$ 1000.

---


In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'NOX_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

In [None]:
train[['LSTAT_tric_imp_std',
       'RM_tric_imp_std',
       'PTRATIO_tric_imp_std',
       'NOX_tric_imp_std',
       'DIS_tric_imp_std']].corr()

In [None]:
# Nos quedaremos con variables con correlación menor al 60%


In [None]:
train[['LSTAT_tric_imp_std',
       'RM_tric_imp_std',
       'PTRATIO_tric_imp_std',
       'DIS_tric_imp_std']].corr()

In [None]:
univariate_II

In [None]:
mod = sm.OLS(train.MEDV_tric, sm.add_constant(train[['LSTAT_tric_imp_std',
                                              'RM_tric_imp_std',
                                              'PTRATIO_tric_imp_std',
                                              'DIS_tric_imp_std']]))
res = mod.fit()
print(res.summary())

## 6. Métricas de desempeño

In [None]:
train['MEDV_pred'] = (22.0443 - 4.0729*train.LSTAT_tric_imp_std
                              + 2.4565*train.RM_tric_imp_std
                              - 1.6619*train.PTRATIO_tric_imp_std
                              - 0.4832*train.DIS_tric_imp_std)


In [None]:
train[['MEDV_tric', 'MEDV_pred']].head()

In [None]:
from sklearn.metrics import *

In [None]:
r2_score(train.MEDV_tric, train.MEDV_pred)

In [None]:
mean_absolute_percentage_error(train.MEDV_tric, train.MEDV_pred)

In [None]:
plt.scatter(train.MEDV_tric, train.MEDV_pred, alpha = 0.5)

In [None]:
plt.scatter(train.AGE_tric**3, train.MEDV_tric, alpha = 0.5)

In [None]:
temp = train[['MEDV_tric', 'AGE_tric']].dropna()



In [None]:

for i in [1, 2, 3, 4, 5]:
  temp = train[['MEDV_tric', 'AGE_tric']].copy().dropna()
  temp['AGE_tric'] = temp['AGE_tric']**i
  print(f"grado {i} R : {temp.corr()[:1].AGE_tric.values[0]**2}")


---

# Gracias por completar este laboratorio!

---

