# **Universidad ICESI**

*Milton Orlando Sarria*

----

## **Laboratorio: Análisis y Modelado del Precio de Viviendas**  

En este laboratorio, exploraremos un conjunto de datos de bienes raíces para analizar los factores que influyen en el precio por unidad de área de las viviendas. A través de diferentes técnicas de análisis y modelado, los estudiantes practicarán:  

- **Análisis de correlación** para identificar relaciones entre variables.  
- **Visualización de datos** para interpretar tendencias y patrones.  
- **Regresión lineal múltiple** para modelar la relación entre el precio de la vivienda y múltiples variables explicativas.  
- **Regresión polinomial** para capturar relaciones no lineales.  
- **Comparación de modelos** utilizando métricas de evaluación para determinar cuál se ajusta mejor a los datos.  

Al finalizar, los estudiantes podrán interpretar los coeficientes de los modelos, evaluar su rendimiento y justificar qué enfoque es más adecuado para predecir los precios de las viviendas.

---
 
## **Descripción de las Variables:**

1. **transaction date  (X1)**: Indica el momento en que se realizó la compra o venta de la propiedad. Se expresa en valores numéricos que representan el año y el mes.  
2. **house age (X2)**: Representa la edad del inmueble en años desde su construcción hasta el momento de la transacción.  
3. **distance to the nearest MRT station (X3)**: Mide la cercanía de la propiedad al sistema de transporte masivo más próximo, expresada en metros.  
4. **number of convenience stores (X4)**: Cuenta cuántas tiendas de abarrotes hay en los alrededores de la propiedad.  
5. **latitude (X5) y longitude  (X6)**: Coordenadas geográficas que indican la ubicación exacta de la propiedad en el mapa.  
6. **house price of unit area (Y)**: Es la *variable objetivo*, que representa el valor de la propiedad por unidad de superficie, generalmente expresado en una moneda específica por metro cuadrado.  

---



## **Preguntas Conceptuales para los Estudiantes:**

1. **Relación Lineal Inicial:**  
   - ¿Qué variable crees que tiene la relación más fuerte con la variable objetivo? ¿Por qué?  
   - Si analizas la antigüedad de la casa y el precio, ¿esperas una relación positiva o negativa? Explica tu razonamiento.  


R\: 


2. **Impacto de la Ubicación:**  
   - ¿Cómo influye la distancia a la estación de MRT en el precio de la propiedad?  
   - Basado en la latitud y la longitud, ¿se pueden identificar zonas con precios más altos?  



R\:

3. **Abarrotes:**  
   - ¿Crees que un mayor número de tiendas de abarrotes cerca de la propiedad incrementa su valor? ¿Por qué podría ocurrir lo contrario?  



R\:

4. **Modelos de Regresión:**  
   - ¿Una regresión lineal simple es suficiente para modelar la relación entre las variables independientes y el precio de la vivienda, o crees que una regresión polinomial podría mejorar el ajuste?  
   - ¿Cómo podríamos evaluar si nuestro modelo está funcionando bien? ¿Qué métricas usarías?  



R\:

5. **Interpretación de Resultados:**  
   - Si el coeficiente de la variable **X3 (distancia al MRT)** en un modelo de regresión es negativo, ¿qué significa esto en términos económicos?  
   - Si al agregar variables al modelo el error cuadrático medio (MSE) disminuye, ¿qué conclusión podrías sacar sobre la calidad del modelo?  


In [None]:
R\:

-----
## Parte práctica

Importar librerias:


In [9]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn import metrics
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm
from sklearn.preprocessing import PolynomialFeatures


In [5]:
#cargar dataset
df= pd.read_csv('ruta a los datos/RealEstate.csv')
df.head(3)

Unnamed: 0,No,X1 transaction date,X2 house age,X3 distance to the nearest MRT station,X4 number of convenience stores,X5 latitude,X6 longitude,Y house price of unit area
0,1,2012.917,32.0,84.87882,10,24.98298,121.54024,37.9
1,2,2012.917,19.5,306.5947,9,24.98034,121.53951,42.2
2,3,2013.583,13.3,561.9845,5,24.98746,121.54391,47.3


**Verificar número de variables, de registros, tipos de datos y matríz de correlación**

**Realiza un pairplot con seaborn y verifica las relaciones que puedan existir entre la variable objetivo y las predictoras**

**Definir las variables de tu dataset:** **X,y**

**Separar tu conjunto de entrenamiento y tu conjunto de prueba**: usa 20% para pruebas

In [None]:
#train_test_split



📈 **Entrenar y evaluar un modelo de regresión lineal múltiple**

In [None]:
## utiliza las siguientes metricas para reportar el desempeño de tu modelo
MAE_simple = metrics.mean_absolute_error(y_test,y_pred)
MSE_simple = metrics.mean_squared_error(y_test,y_pred)
RMSE_simple = np.sqrt(MSE_simple)

📈 **Entrenar y evaluar un modelo de regresión polinomial**

Consulta en la documentación de sklearn el uso de la función `PolynomialFeatures()`. 

A continuación te damos un ejemplo de su uso. 

Evalua su utilidad para el problema abordado.

In [13]:
x= np.random.randn(10,2)
polynomial_converter=PolynomialFeatures(degree=2, include_bias=False)
polynomial_converter.fit(x)

poly_features=polynomial_converter.transform(x)
print(x)
print(poly_features[0],poly_features.shape)


[[ 0.43872683 -0.78392328]
 [-0.24687591  1.15726566]
 [-0.75214988  0.82930796]
 [ 1.01970975 -0.62875358]
 [ 0.68631034 -1.50986983]
 [-0.61684177  0.42381623]
 [ 0.81062924 -1.55590462]
 [ 1.4037995   1.32327306]
 [-0.25176242  0.94161589]
 [-0.10324255 -0.41493442]]
[ 0.43872683 -0.78392328  0.19248123 -0.34392817  0.61453571] (10, 5)


Ajustar tu conjunto de entrenamiento y tu conjunto de prueba para que contengan carácteristicas polinomiales. Entrenar y evaluar tu modelo empleando las mismas metrícas empleadas anteriormente.

In [None]:


## utiliza las siguientes metricas para reportar el desempeño de tu modelo
MAE_Poly = metrics.mean_absolute_error(y_test,y_poly_pred)
MSE_Poly = metrics.mean_squared_error(y_test,y_poly_pred)
RMSE_Poly = np.sqrt(MSE_simple)

**Evalua diferentes grados del polinomio, y compara la evolución del MSE para diferentes grados**

Debes comparar el MSE para el conjunto de entrenamiento y para el conjunto de prueba. Que pasa cuando aumentas mucho el grado del polinomio?

**Prepara un reporte usando una tabla comparativa para todas las metrícas empleadas y los modelos a comparar**

In [20]:
results=pd.DataFrame(
    {'Poly Metrics': [MAE_Poly, MSE_Poly, RMSE_Poly], 
     'Simple Metrics':[MAE_simple, MSE_simple,RMSE_simple]}, 
    index=['MAE', 'MSE', 'RMSE'])

results

Unnamed: 0,Poly Metrics,Simple Metrics
MAE,valor,valor
MSE,valor,valor
RMSE,valor,valor


**Conclusiones**

Que aprendiste hoy??

R\:


