<a href="https://colab.research.google.com/github/JavaGenbu/Machine-Learning-JoseValero/blob/main/M02-Aprendizaje_supervisado/M2U2-Optimizaci%C3%B3n_por_descenso_de_gradiente/M2U2-8-Dataset_inmobiliario_real.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regresión lineal: Ejemplo sobre dataset inmobiliario real
M2U2 - Ejercicio 8

## ¿Qué vamos a hacer?
- Entrenar un modelo de ML de regresión lineal multivariable sobre un dataset inmobiliario real

Recuerda seguir las instrucciones para las entregas de prácticas indicadas en [Instrucciones entregas](https://github.com/Tokio-School/Machine-Learning/blob/main/Instrucciones%20entregas.md).

## Dataset de precios inmobiliarios de Boston

Este dataset es un dataset pequeño, de sólo 506 ejemplos y 13 características, pero es un dataset real que podemos utilizar para comprobar nuestra implementación de entrenamiento de modelos y comenzar a resolver ejercicios con datos reales.

Puedes encontrar el dataset y ejemplos de cómo descargarlo aquí: [Boston house prices dataset](https://scikit-learn.org/stable/datasets/toy_dataset.html#boston-house-prices-dataset)

Comprueba el dataset. Tal vez tengas que hacer alguna pequeña modificación sobre los datos o tu implementación para resolverlo según el método que hemos venido utilizando.

In [None]:
¡Claro! Para cargar el conjunto de datos y explorarlo, necesitamos importar algunas bibliotecas. Utilizaremos las bibliotecas NumPy, Pandas y Scikit-learn. Luego, podemos cargar el conjunto de datos y examinarlo.

python

# Importar bibliotecas
import numpy as np
import pandas as pd
from sklearn.datasets import load_boston

# Cargar conjunto de datos
boston_dataset = load_boston()

# Convertir el conjunto de datos en un dataframe de Pandas
boston_df = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)

# Agregar la columna del precio de las viviendas
boston_df['MEDV'] = boston_dataset.target

# Explorar el conjunto de datos
print(boston_df.head())
print(boston_df.info())
print(boston_df.describe())

# Explorar algunos ejemplos
print(boston_df.sample(5))

# Importar biblioteca de visualización
import seaborn as sns

# Visualizar variables objetivo y características significativas
sns.boxplot(x='MEDV', y='RM', data=boston_df)
sns.boxplot(x='MEDV', y='LSTAT', data=boston_df)
sns.boxplot(x='MEDV', y='PTRATIO', data=boston_df)

## Entrenar el modelo, comprobar su proceso de entrenamiento y evaluar su resultado final

Para este ejercicio no vas a tener instrucciones concretas, una guía o una plantilla de celdas de código, sino que queremos darte la libertad y la posibildad de enfrentarte a tu primer problema real, desde 0.

Los objetivos de este ejercicio son, de nuevo:
1. Descargarte el dataset para entrenar el modelo
1. Entrenar un modelo de regresión lineal multivariable sobre dicho dataset, que tratará de predecir las valoraciones inmobiliarias en Boston
1. Comprobar el proceso de entrenamiento del modelo
1. Evaluar el modelo comprobando su peso final y la gráfica de sus residuos

Para ello, fíjate en los pasos que has seguido en ejercicios anteriores y copia aquí las celdas y código que necesites para poder resolverlo.

¡Ánimo!

In [None]:
# Importar bibliotecas
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X = boston_df.drop('MEDV', axis=1)
y = boston_df['MEDV']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear un modelo de regresión lineal
model = LinearRegression()

# Ajustar el modelo a los datos de entrenamiento
model.fit(X_train, y_train)

# Evaluar el modelo en el conjunto de prueba
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)

In [None]:
import matplotlib.pyplot as plt

# Predicciones sobre el conjunto de entrenamiento
train_pred = model.predict(X_train)

# Predicciones sobre el conjunto de prueba
test_pred = model.predict(X_test)

# Visualizar las predicciones sobre el conjunto de entrenamiento
plt.scatter(y_train, train_pred)
plt.plot([0, 50], [0, 50], '--k')
plt.xlabel('Valores reales')
plt.ylabel('Predicciones')
plt.title('Predicciones sobre el conjunto de entrenamiento')
plt.show()

# Visualizar las predicciones sobre el conjunto de prueba
plt.scatter(y_test, test_pred)
plt.plot([0, 50], [0, 50], '--k')
plt.xlabel('Valores reales')
plt.ylabel('Predicciones')
plt.title('Predicciones sobre el conjunto de prueba')
plt.show()

In [None]:
import numpy as np

# Comprobar los pesos finales de cada variable
coefficients = pd.DataFrame()
coefficients['variable'] = X_train.columns
coefficients['weight'] = model.coef_
coefficients.sort_values(by='weight', ascending=False, inplace=True)
print(coefficients)

# Visualizar la gráfica de residuos
residuals = y_test - test_pred
plt.scatter(test_pred, residuals)
plt.xlabel('Predicciones')
plt.ylabel('Residuos')
plt.title('Gráfica de residuos')
plt.show()

*BONUS:* Échale un vistazo a la fuente del dataset, que encontrarás en Scikit-learn, *¿de dónde viene? ¿Qué artículos, trabajos y tutoriales lo referencian?*