# Proyecto de Análisis de Datos de Propiedades en Melbourne

In [None]:
# @title
from IPython.display import display, HTML

display(HTML('''
<div style="font-family: 'Segoe UI', sans-serif;">

  <!-- Portada -->
  <div style="
    background: linear-gradient(270deg, #6a11cb, #2575fc);
    background-size: 400% 400%;
    animation: gradientBG 10s ease infinite;
    padding: 60px 30px;
    border-radius: 20px;
    text-align: center;
    color: white;
    box-shadow: 0 0 20px rgba(0,0,0,0.4);
  ">
    <h1 style="font-size: 2.8em; margin-bottom: 15px;">
      <span style="display:inline-block; padding: 0 0.8em;">🏠📈</span>
      <span class="pulse">Análisis del Mercado Inmobiliario</span>
      <span style="display:inline-block; padding: 0 0.8em;">💰📊</span>
    </h1>
    <h2 style="margin: 10px 0 5px;">Melbourne, Australia</h2>
    <p style="margin-top: 5px; font-size: 1.1em;"></p>
    <p style="margin-top: 5px; font-size: 1.1em;"></p>
    <h3 style="margin: 0; font-weight: normal;">Proyecto Final – Data Science II</h3>
    <p style="margin-top: 5px; font-size: 1.1em;">Comisión 71895 – Coderhouse</p>
    <p style="margin-top: 5px; font-size: 1.1em;"></p>
    <p style="margin-top: 5px; font-size: 1.1em;"></p>
    <p style="margin-top: 10px; font-size: 1.3em;">👨‍💻 Melo Juan Manuel</p>
  </div>

</div>

<style>
@keyframes gradientBG {
  0% {background-position: 0% 50%;}
  50% {background-position: 100% 50%;}
  100% {background-position: 0% 50%;}
}
@keyframes pulseAnim {
  0% { transform: scale(1); }
  50% { transform: scale(1.15); }
  100% { transform: scale(1); }
}
.pulse {
  animation: pulseAnim 2s infinite;
  display: inline-block;
}
</style>
'''))


In [None]:
# @title
from IPython.display import display, HTML

display(HTML('''
<div style="
  background: rgba(255, 255, 255, 0.03);
  margin-top: 30px;
  padding: 30px;
  border-radius: 15px;
  border: 2px solid #00ffe7;
  box-shadow: 0 0 25px #00ffe766;
  color: white;
  font-family: 'Segoe UI', sans-serif;
">
  <h2 style="text-align:center;">🎯 Objetivos del Proyecto</h2>
  <ul style="list-style: none; font-size: 1.1em; padding-left: 0;">
    <li>✅ Detectar outliers y valores nulos para mejorar la precisión del modelo.</li>
    <li>✅ Explorar cómo influyen las características de las propiedades en el precio.</li>
    <li>✅ Comunicar los hallazgos mediante visualizaciones efectivas.</li>
    <li>✅ Implementar modelos de regresión y comparar su desempeño.</li>
  </ul>
</div>
'''))


## 🧠 Abstracto: Motivación y Audiencia

📍 **Motivación**:  
El mercado inmobiliario de Melbourne 🏙️ es diverso y complejo. Este análisis se centra en explorar cómo factores como el número de habitaciones 🛏️, el método de venta 💼 y la ubicación 📌 influyen en el precio de las propiedades 💰.  
El objetivo es detectar patrones y tendencias 📈 que puedan apoyar la toma de decisiones en la industria inmobiliaria, facilitando estrategias de inversión 🧠💼 o venta.

👥 **Audiencia**:
- 🧑‍💼 Agentes inmobiliarios y analistas del sector  
- 🏗️ Inversionistas y desarrolladores interesados en el mercado  
- 📣 Equipos de marketing que buscan segmentar y entender el comportamiento de los compradores

---

## ❓ Preguntas / Hipótesis a Responder

1. 🛏️ ¿Cómo influye el número de habitaciones (`Rooms`) en el precio de la propiedad?  
2. 💳 ¿Existe alguna diferencia en los precios según el método de venta (`Method`)?  
3. 📍 ¿Qué relación hay entre la distancia al centro (`Distance`) y el precio?  
4. 🏘️ ¿Varían los precios significativamente según el tipo de propiedad (`Type`) y la región (`Regionname`)?  
5. 📐 ¿Cuáles son las características (`Landsize`, `BuildingArea`, `Bedroom2`, `Bathroom`, `Car`) que se correlacionan fuertemente con el precio?

---

## 🗂️ Notas sobre Variables Específicas

- **`Rooms`**: 🛏️ Número de habitaciones  
- **`Price`**: 💵 Precio en dólares  
- **`Method`**: 💼 Método de venta  
  - `S`: Propiedad vendida  
  - `SP`: Vendida antes de la subasta  
  - `PI`: Pasó sin vender  
  - `PN`: Vendida antes sin divulgar el precio  
  - `SN`: Vendida sin divulgar precio  
  - `NB`: Sin oferta  
  - `VB`: Oferta del vendedor  
  - `W`: Retirada antes de la subasta  
  - `SA`: Vendida después de la subasta  
  - `SS`: Vendida después sin divulgar precio  
  - `N/A`: Precio o puja no disponible

- **`Type`**: 🏘️ Tipo de propiedad  
  - `h`: Casa, cabaña, villa, adosado, terraza 🏠  
  - `u`: Unidad, dúplex 🏢  
  - `t`: Townhouse 🏡  

- **`SellerG`**: 🏢 Agencia inmobiliaria  
- **`Date`**: 📅 Fecha de venta  
- **`Distance`**: 📍 Distancia al centro de la ciudad (CBD)  
- **`Regionname`**: 🗺️ Región (Oeste, Norte, etc.)  
- **`Propertycount`**: 🔢 Cantidad de propiedades en el suburbio  
- **`Bedroom2`**: 🛏️ Dormitorios (de fuente secundaria)  
- **`Bathroom`**: 🚿 Cantidad de baños  
- **`Car`**: 🚗 Espacios de estacionamiento  
- **`Landsize`**: 🌳 Tamaño del terreno  
- **`BuildingArea`**: 📐 Tamaño de la construcción  
- **`CouncilArea`**: 🏛️ Consejo de gobierno de la zona



## Importación y Descarga de Datos
A continuación, se muestra el código para importar el CSV

In [None]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('melb_data.csv')

# Mostrar las primeras filas para observar la estructura de los datos
df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


## Limpieza y Transformación de Datos

In [None]:
# Información del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  float64
 10  Bedroom2       13580 non-null  float64
 11  Bathroom       13580 non-null  float64
 12  Car            13518 non-null  float64
 13  Landsize       13580 non-null  float64
 14  BuildingArea   7130 non-null   float64
 15  YearBuilt      8205 non-null   float64
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

In [None]:
# Estadísticas descriptivas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Rooms,13580.0,2.937997,0.955748,1.0,2.0,3.0,3.0,10.0
Price,13580.0,1075684.0,639310.724296,85000.0,650000.0,903000.0,1330000.0,9000000.0
Distance,13580.0,10.13778,5.868725,0.0,6.1,9.2,13.0,48.1
Postcode,13580.0,3105.302,90.676964,3000.0,3044.0,3084.0,3148.0,3977.0
Bedroom2,13580.0,2.914728,0.965921,0.0,2.0,3.0,3.0,20.0
Bathroom,13580.0,1.534242,0.691712,0.0,1.0,1.0,2.0,8.0
Car,13518.0,1.610075,0.962634,0.0,1.0,2.0,2.0,10.0
Landsize,13580.0,558.4161,3990.669241,0.0,177.0,440.0,651.0,433014.0
BuildingArea,7130.0,151.9676,541.014538,0.0,93.0,126.0,174.0,44515.0
YearBuilt,8205.0,1964.684,37.273762,1196.0,1940.0,1970.0,1999.0,2018.0


In [None]:
# Contar valores nulos por columna
print("valores nulos por columna")
print(df.isnull().sum())

print("")
print("--------------------------")
print("")

#Calcula el porcentaje de nulos en cada columna
porcentaje_nulos = df.isnull().mean() * 100
print("porcentaje de nulos en cada columna")
print(porcentaje_nulos)

valores nulos por columna
Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

--------------------------

porcentaje de nulos en cada columna
Suburb            0.000000
Address           0.000000
Rooms             0.000000
Type              0.000000
Price             0.000000
Method            0.000000
SellerG           0.000000
Date              0.000000
Distance          0.000000
Postcode          0.000000
Bedroom2          0.000000
Bathroom          0.000000
Car               0.456554
Landsize          0.000000
BuildingArea     47.496318
YearBuilt        39.580265
Co

## 🧹 Eliminación de Outliers (conservando valores nulos)

Antes de imputar los valores faltantes, se eliminaron outliers para evitar que distorsionen estadísticas clave como la mediana, la desviación estándar o los modelos de imputación.

Se utilizó el **método del IQR (rango intercuartílico)** para identificar valores atípicos en las siguientes variables:

- **`Price`**: se eliminaron valores fuera del rango esperado (máx previo: 9 millones).
- **`Landsize`**: había terrenos de más de 400.000 m²; se filtraron para dejar rangos más realistas.
- **`BuildingArea`**: valores como 44.000 m² inflaban la distribución. Se acotó a un rango razonable.
- **`YearBuilt`**: se eliminaron registros con años superiores a 2025, pero se conservaron los `NaN`.

✅ **Importante**: los valores nulos fueron **conservados** durante este proceso para ser imputados luego, manteniendo la estructura del dataset y evitando pérdida de información útil.


In [None]:
import numpy as np

# -------------------------------
# Función para eliminar outliers sin borrar valores nulos
# -------------------------------
def eliminar_outliers_iqr(df, columna):
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Conservar nulos y solo eliminar valores fuera del rango
    return df[(df[columna].isnull()) | ((df[columna] >= limite_inferior) & (df[columna] <= limite_superior))]

# -------------------------------
# Aplicar sobre las variables clave
# -------------------------------
df = eliminar_outliers_iqr(df, 'Price')
df = eliminar_outliers_iqr(df, 'Landsize')
df = eliminar_outliers_iqr(df, 'BuildingArea')

# Año de construcción: eliminar futuros pero conservar nulos
df = df[(df['YearBuilt'].isnull()) | (df['YearBuilt'] <= 2025)]

print(f"Número de registros después de eliminar outliers (sin eliminar nulos): {df.shape[0]}")


Número de registros después de eliminar outliers (sin eliminar nulos): 12361


## 🧼 Imputación de Valores Faltantes


Luego de eliminar los outliers, se imputaron los valores nulos para no perder registros útiles y mejorar la calidad del dataset. Se aplicaron estrategias diferentes según el tipo de variable:

| Columna        | Estrategia       | Justificación |
|----------------|------------------|---------------|
| `Car`          | Mediana          | Bajo porcentaje de nulos. La mediana es una estrategia robusta y simple. |
| `CouncilArea`  | Moda             | Variable categórica. Se completó con el valor más frecuente. |
| `BuildingArea` | Regresión lineal | Presenta alta correlación con `Price` (r = 0.52). El modelo de regresión generó imputaciones más realistas y mejor distribuidas que la mediana. |
| `YearBuilt`    | Regresión lineal | También correlaciona bien con `Price` (r = -0.35). La regresión permite conservar registros sin introducir distorsiones. |

📊 Estas imputaciones fueron aplicadas **después de eliminar outliers**, lo cual mejoró la calidad estadística de los datos y permitió al modelo aprender de patrones más representativos.


In [None]:
from sklearn.linear_model import LinearRegression

# 1. Car — Imputar con la mediana
df['Car'] = df['Car'].fillna(df['Car'].median())

# 2. CouncilArea — Imputar con la moda
df['CouncilArea'] = df['CouncilArea'].fillna(df['CouncilArea'].mode()[0])

# 3. BuildingArea — Imputar con regresión lineal
features_model = ['Rooms', 'Bedroom2', 'Bathroom', 'Landsize', 'Distance', 'Car']

df_ba = df[df['BuildingArea'].notnull()]
X_ba = df_ba[features_model]
y_ba = df_ba['BuildingArea']

model_ba = LinearRegression().fit(X_ba, y_ba)

mask_ba = df['BuildingArea'].isnull()
if mask_ba.sum() > 0:
    df.loc[mask_ba, 'BuildingArea'] = model_ba.predict(df.loc[mask_ba, features_model])

# 4. YearBuilt — Imputar con regresión lineal
features_model = ['Rooms', 'Bedroom2', 'Bathroom', 'Landsize', 'Distance', 'Car']

df_yb = df[df['YearBuilt'].notnull()]
X_yb = df_yb[features_model]
y_yb = df_yb['YearBuilt']

model_yb = LinearRegression().fit(X_yb, y_yb)

mask_yb = df['YearBuilt'].isnull()
if mask_yb.sum() > 0:
    df.loc[mask_yb, 'YearBuilt'] = model_yb.predict(df.loc[mask_yb, features_model])



In [None]:
df['YearBuilt'] = df['YearBuilt'].round().astype('Int64')

# Análisis Exploratorio de Datos (EDA)

In [None]:
import plotly.express as px
import plotly.graph_objects as go

### 🏡 Distribución de Precios de Propiedades

El histograma muestra la distribución de precios de las propiedades en Melbourne. La mayoría de los inmuebles tienen un valor entre **650.000 y 1.300.000**, con un sesgo a la derecha indicando una menor frecuencia de propiedades de alto valor.

👉 Este tipo de distribución es común en variables económicas y puede justificar el uso de transformaciones logarítmicas en modelos de regresión para estabilizar la varianza.


In [None]:
# @title
fig = px.histogram(
    df,
    x='Price',
    nbins=50,
    title='Distribución de Precios de Propiedades',
    labels={'Price': 'Precio'},
    color_discrete_sequence=['#636EFA']
)

fig.update_layout(bargap=0.1)
fig.show()


### 📦 Boxplot de Precios de Propiedades

El boxplot permite visualizar la mediana, la dispersión y los posibles valores atípicos de la variable `Price`. Se observa que, aunque se eliminaron los valores extremos más severos, aún persiste una ligera asimetría hacia precios elevados.

✅ Este gráfico es útil para validar visualmente si la eliminación de outliers con IQR fue efectiva.


In [None]:
# @title
fig = px.box(
    df,
    y='Price',
    title='Boxplot del Precio de Propiedades',
    labels={'Price': 'Precio'},
    points='all',  # muestra todos los puntos (outliers incluidos)
    color_discrete_sequence=['#EF553B']
)

fig.update_traces(jitter=0.3, marker_opacity=0.4)
fig.show()


### 🛏️ Distribución de Cantidad de Habitaciones

Este histograma muestra cuántas habitaciones tienen las propiedades del dataset. Se observa que la mayoría cuenta con **2 a 4 habitaciones**, siendo 3 el valor más frecuente.

🔎 Esta variable es una de las que presenta mayor correlación con el precio, por lo tanto, es importante analizar su distribución y comportamiento en el modelado.

In [None]:
# @title
fig = px.histogram(
    df,
    x='Rooms',
    nbins=10,
    title='Distribución de la Cantidad de Habitaciones',
    labels={'Rooms': 'Cantidad de Habitaciones'},
    color_discrete_sequence=['#00CC96']
)

fig.update_layout(bargap=0.2)
fig.show()


### 🚿 Distribución de Cantidad de Baños

El histograma muestra cómo se distribuye la cantidad de baños por propiedad. La mayoría cuenta con **1 o 2 baños**, siendo poco frecuentes aquellas con más de 3.

Este análisis ayuda a comprender las características estándar de las viviendas en el dataset.


In [None]:
# @title
fig = px.histogram(
    df,
    x='Bathroom',
    nbins=10,
    title='Distribución de Cantidad de Baños',
    labels={'Bathroom': 'Cantidad de Baños'},
    color_discrete_sequence=['#FFA15A']
)

fig.update_layout(bargap=0.2)
fig.show()


### 🚗 Distribución de Cantidad de Cocheras

Este histograma representa la cantidad de cocheras disponibles en las propiedades. La mayoría cuenta con **1 o 2 espacios de estacionamiento**, lo cual es común en áreas suburbanas.

Esta variable, aunque de menor correlación con el precio, puede influir en ciertos segmentos del mercado.


In [None]:
# @title
# Ordenar los valores únicos de menor a mayor
valores_unicos = sorted(df['Car'].dropna().unique())

fig = px.histogram(
    df,
    x='Car',
    title='Distribución de Cantidad de Cocheras',
    labels={'Car': 'Cantidad de Cocheras'},
    color_discrete_sequence=['#19D3F3'],
    category_orders={"Car": valores_unicos}
)

fig.update_layout(bargap=0.2, xaxis_type='category')
fig.show()



### 📐 Distribución del Área Construida (`BuildingArea`)

Este histograma muestra la distribución del tamaño construido de las propiedades, medido en metros cuadrados. Se observa una concentración entre **100 y 200 m²**, lo que refleja el estándar habitual de las viviendas en Melbourne.

🔍 Gracias a la imputación con regresión lineal y la eliminación previa de outliers, la distribución resultante es realista y sin picos artificiales, lo que la convierte en una variable muy valiosa para el modelado.


In [None]:
# @title
fig = px.histogram(
    df,
    x='BuildingArea',
    nbins=60,
    title='Distribución del Tamaño Construido (BuildingArea)',
    labels={'BuildingArea': 'Área Construida (m²)'},
    color_discrete_sequence=['#AB63FA']
)

fig.update_layout(bargap=0.1)
fig.show()


### 📐 Distribución del Tamaño del Terreno

El histograma de `Landsize` muestra una distribución fuertemente sesgada hacia la derecha, con muchos terrenos pequeños y pocos extremadamente grandes.

🔍 Este tipo de comportamiento es común en variables relacionadas con superficie y ayuda a decidir si se requieren transformaciones para el modelado.


In [None]:
# @title
fig = px.histogram(
    df,
    x='Landsize',
    nbins=60,
    title='Distribución del Tamaño del Terreno (Landsize)',
    labels={'Landsize': 'Tamaño del Terreno (m²)'},
    color_discrete_sequence=['#00CC96']
)

fig.update_layout(bargap=0.1)
fig.show()


### 🌍 Cantidad de Propiedades por Región

Este gráfico de barras muestra cuántas propiedades hay en cada región de Melbourne (`Regionname`). Se observa una concentración importante en ciertas zonas como **Southern Metropolitan** y **Northern Metropolitan**.

📊 Esta información ayuda a entender la distribución geográfica del dataset y aporta contexto para futuras segmentaciones o visualizaciones basadas en ubicación.


In [None]:
# @title
fig = px.histogram(
    df,
    x='Regionname',
    title='Cantidad de Propiedades por Región',
    labels={'Regionname': 'Región'},
    color_discrete_sequence=['#00CC96']
)

fig.update_layout(bargap=0.2, xaxis_tickangle=-45)
fig.show()


### 🗺️ Distribución de Precios por Región

El boxplot compara los precios de las propiedades según su región (`Regionname`). Se pueden notar diferencias claras entre zonas: algunas presentan precios significativamente más altos, lo que refleja posibles factores socioeconómicos, ubicación o demanda.

📍 Este análisis geográfico es clave para segmentar el mercado y entender cómo varía el valor según la zona.


In [None]:
# @title
fig = px.box(
    df,
    x='Regionname',
    y='Price',
    title='Distribución de Precios por Región',
    labels={'Regionname': 'Región', 'Price': 'Precio'},
    color='Regionname',
    color_discrete_sequence=px.colors.qualitative.Safe
)

fig.update_layout(xaxis_tickangle=-45)
fig.show()


### 🏘️ Cantidad de Propiedades por Tipo

Este gráfico de barras muestra la cantidad de propiedades de cada tipo (`Type`) en el dataset. Se observa que predominan las **casas**, seguidas por **unidades/dúplex** y **townhouses**.

📊 Este análisis es útil para comprender la composición del conjunto de datos y evaluar el peso relativo de cada categoría en el modelado.



In [None]:
# @title
# Crear una copia con etiquetas descriptivas
df_tipo = df.copy()
df_tipo['Type'] = df_tipo['Type'].map({
    'h': 'House',
    'u': 'Unit/Duplex',
    't': 'Townhouse'
})

fig = px.histogram(
    df_tipo,
    x='Type',
    title='Cantidad de Propiedades por Tipo',
    labels={'Type': 'Tipo de Propiedad'},
    color_discrete_sequence=['#FFA15A']
)

fig.update_layout(bargap=0.2)
fig.show()


### 💰 Distribución de Precios por Tipo de Propiedad

Este boxplot muestra cómo varían los precios según el tipo de propiedad (`Type`). Se observa que las **casas (`House`)** tienen un rango de precios más alto y más disperso en comparación con las **unidades/dúplex (`Unit/Duplex`)** y los **townhouses**.

📊 Esta variable tiene impacto en la predicción del precio y resulta útil para segmentar el mercado inmobiliario.


In [None]:
# @title
df_type = df.copy()
df_type['Type'] = df_type['Type'].map({
    'h': 'House',
    'u': 'Unit/Duplex',
    't': 'Townhouse'
})

fig = px.box(
    df_type,
    x='Type',
    y='Price',
    title='Distribución de Precios por Tipo de Propiedad',
    labels={'Type': 'Tipo de Propiedad', 'Price': 'Precio'},
    color='Type',
    points='outliers',
    color_discrete_sequence=px.colors.qualitative.Pastel
)

fig.update_layout(xaxis_title='Tipo de Propiedad', yaxis_title='Precio ($)')
fig.show()


### 📈 Relación entre Cantidad de Habitaciones y Precio

Este scatterplot permite observar cómo varía el precio según la cantidad de habitaciones. En general, se aprecia una **tendencia ascendente**: a mayor cantidad de ambientes, mayor es el precio de la propiedad.

📊 Si bien hay cierta dispersión, la línea de regresión indica una relación positiva moderada, lo que convierte a `Rooms` en una variable predictiva relevante.


In [None]:
# @title
fig = px.scatter(
    df,
    x='Rooms',
    y='Price',
    title='Relación entre Cantidad de Habitaciones y Precio',
    labels={'Rooms': 'Cantidad de Habitaciones', 'Price': 'Precio'},
    color_discrete_sequence=['#EF553B'],
    opacity=0.6,
    trendline='ols'
)

fig.update_traces(marker=dict(size=6))
fig.show()


### 🧭 Relación entre Precio y Distancia al Centro

Este scatterplot analiza la relación entre la distancia al centro de Melbourne (`Distance`) y el precio de las propiedades. Se observa una leve tendencia negativa: en promedio, las propiedades ubicadas **más lejos del centro tienden a ser más económicas**.

📉 Aunque hay bastante dispersión, la línea de regresión sugiere una relación inversa moderada. Esta variable puede complementar otras geográficas como `Regionname`.


In [None]:
# @title
fig = px.scatter(
    df,
    x='Distance',
    y='Price',
    title='Relación entre Precio y Distancia al Centro',
    labels={'Distance': 'Distancia al CBD (km)', 'Price': 'Precio'},
    trendline='ols',
    opacity=0.5,
    color_discrete_sequence=['#636EFA']
)

fig.update_traces(marker=dict(size=6))
fig.show()


### 🧼 Relación entre Precio y Año de Construcción

Este scatterplot permite analizar cómo influye el año de construcción (`YearBuilt`) en el precio de las propiedades. Se observa una **tendencia ligeramente ascendente**, lo que indica que las propiedades más nuevas tienden a tener un mayor valor.

📈 Aunque hay dispersión, la línea de tendencia sugiere que el año de construcción aporta información útil al modelo, especialmente en combinación con otras variables estructurales.


In [None]:
# @title
df_filtrado = df[(df['YearBuilt'] >= 1850) & (df['YearBuilt'] <= 2025)]
fig = px.scatter(
    df_filtrado,
    x='YearBuilt',
    y='Price',
    title='Relación entre Año de Construcción y Precio (1850–2025)',
    labels={'YearBuilt': 'Año de Construcción', 'Price': 'Precio'},
    trendline='ols',
    opacity=0.5,
    color_discrete_sequence=['#00CC96']
)

fig.update_traces(marker=dict(size=6))
fig.show()

### 📍 Mapa Geolocalizado de Propiedades


In [None]:
import folium
import numpy as np
import pandas as pd

# Muestra de propiedades (ajustá el número si querés más)
df_sample = df[['Lattitude', 'Longtitude', 'Price']].dropna().sample(1000, random_state=42)

# Crear el mapa centrado en Melbourne
m = folium.Map(location=[-37.8136, 144.9631], zoom_start=11, tiles='cartodbdark_matter')

# Definir paleta de colores y bins para los precios
colores = ['#1a9641', '#a6d96a', '#ffffbf', '#fdae61', '#d7191c']
bins = np.quantile(df_sample['Price'], [0, 0.25, 0.5, 0.75, 0.9, 1])

def get_color(price):
    for i in range(len(bins) - 1):
        if bins[i] <= price < bins[i + 1]:
            return colores[i]
    return colores[-1]

# Agregar cada propiedad como punto individual
for _, row in df_sample.iterrows():
    folium.CircleMarker(
        location=[row['Lattitude'], row['Longtitude']],
        radius=4,
        color=get_color(row['Price']),
        fill=True,
        fill_opacity=0.7,
        tooltip=f"Precio: ${int(row['Price']):,}"
    ).add_to(m)

# Mostrar el mapa en Colab
m


Este gráfico muestra la ubicación de cada propiedad en el mapa de Melbourne, utilizando coordenadas de latitud y longitud. El color representa el precio de la propiedad.

📌 Se observa que las propiedades **más caras** tienden a concentrarse en zonas específicas, mayormente hacia el centro y en áreas metropolitanas del este y sur.

🗺️ Esta visualización es útil para entender el componente espacial del precio y detectar agrupamientos o patrones geográficos.

## 📈 Relaciones entre variables

### 🔗 Mapa de Calor de Correlaciones


In [None]:
# Matriz de correlación redondeada
corr_matrix = df.corr(numeric_only=True).round(2)

fig = go.Figure(data=go.Heatmap(
    z=corr_matrix.values,
    x=corr_matrix.columns,
    y=corr_matrix.columns,
    text=corr_matrix.values,
    texttemplate="%{text}",
    colorscale='RdBu',
    zmin=-1,
    zmax=1,
    colorbar=dict(title='Correlación')
))

fig.update_layout(title='Mapa de Calor de Correlaciones (con valores)')
fig.show()


El siguiente mapa de calor muestra la correlación entre todas las variables numéricas del dataset.

Principales insights:

- `Rooms` y `Bedroom2`: presentan una **correlación altísima (0.94)** → probable multicolinealidad.
- `BuildingArea` tiene fuerte correlación con `Price` (**r = 0.52**) y con `Rooms` (**r = 0.80**).
- `Bathroom` también se asocia moderadamente con `Price` (**r = 0.36**) y otras variables estructurales.
- `YearBuilt` y `Latitude` tienen correlaciones negativas con el precio (**r ≈ -0.35 a -0.40**).
- `Distance` muestra relación inversa leve (**r = -0.18**) con el precio, como se esperaba.

### 📊 Correlaciones más fuertes con el Precio


In [None]:
import plotly.express as px

# Correlaciones con Price (ya imputado)
corr_price = corr_matrix['Price'].drop('Price').sort_values(key=abs, ascending=False).round(2)

# Convertir a DataFrame para graficar
corr_price_df = corr_price.reset_index()
corr_price_df.columns = ['Variable', 'Correlación con Price']

fig = px.bar(corr_price_df, x='Variable', y='Correlación con Price',
             title='Correlaciones más fuertes con Price',
             text_auto='.2f', color='Correlación con Price',
             color_continuous_scale='RdBu', range_color=[-1,1])
fig.update_layout(yaxis_title='Correlación', xaxis_title='Variable', coloraxis_showscale=False)
fig.show()

Este gráfico de barras muestra las variables numéricas con mayor correlación con el precio de las propiedades (`Price`).

Se destacan las siguientes:

- `BuildingArea`: **r = 0.52** → Es la variable más fuertemente relacionada con el precio. A mayor área construida, mayor valor.
- `Rooms`, `Bedroom2` y `Bathroom`: correlaciones entre **0.36 y 0.47**, todas con relación positiva, lo que refuerza la idea de que las características estructurales básicas influyen en el valor.
- `YearBuilt`: correlación negativa **(r = -0.35)**, lo que indica que las propiedades más nuevas tienden a ser más caras.
- `Landsize`, `Longitude` y `Car`: presentan correlaciones moderadas positivas (**0.19 a 0.30**).

🔍 Este análisis guía la selección de variables para el modelado, destacando cuáles aportan más valor predictivo en relación al precio.

## 🧠 Insights del Análisis Exploratorio de Datos

### 🏡 Precio de las Propiedades

- **Tipo de Propiedad**: Las *casas* (`House`) son las más caras en promedio, seguidas por *townhouses* y luego *unidades/dúplex* (`Unit/Duplex`), que son las más accesibles.
- **Habitaciones (`Rooms`)**: Existe una relación positiva clara con el precio: a mayor cantidad de ambientes, mayor valor, aunque con dispersión creciente a partir de 5 habitaciones.
- **Área Construida (`BuildingArea`)**: Es la variable más correlacionada con el precio (**r = 0.52**). Las imputaciones con regresión mejoraron notablemente su distribución, sin generar acumulaciones artificiales.
- **Tamaño del Terreno (`Landsize`)**: La relación con el precio es más débil y dispersa. Muchos terrenos grandes no necesariamente implican precios más altos.
- **Antigüedad (`YearBuilt`)**: Hay una correlación negativa moderada (**r = -0.35**): las propiedades más nuevas suelen ser más costosas, aunque hay excepciones con construcciones antiguas de alto valor.
- **Región (`Regionname`)**: Zonas como *Southern Metropolitan* y *Eastern Metropolitan* concentran propiedades con precios elevados. Esto se confirmó también con el mapa geolocalizado.
- **Distancia al Centro (`Distance`)**: Se observa una ligera tendencia negativa: las propiedades más cercanas al centro tienden a ser más caras, aunque con mucha variabilidad.

### 🗺️ Análisis Geográfico

- El **mapa interactivo** reveló clusters de precios altos en áreas específicas. Algunas propiedades destacan por sus valores extremos dentro de regiones generalmente accesibles.
- La variable `CouncilArea` no fue modelada en profundidad, pero se detectaron zonas consistentemente caras (como *Boroondara* y *Stonnington*).

### 📈 Correlaciones entre Variables

- Las variables más correlacionadas con el precio son:
  - `BuildingArea`
  - `Rooms`
  - `Bedroom2`
  - `Bathroom`
  - `YearBuilt`
  - `Landsize`
  - `Car`

- Se detectó **multicolinealidad moderada** entre `Rooms`, `Bedroom2`, `BuildingArea` y `Bathroom`, lo cual es lógico dada su relación funcional.


# 🤖 Modelado Predictivo: Comparación de Algoritmos de Regresión



En esta sección se entrenan y comparan diferentes modelos de regresión utilizando las variables más correlacionadas con el precio.

📋 Variables seleccionadas como predictores:
- `BuildingArea`
- `Rooms`
- `Bathroom`
- `YearBuilt`
- `Landsize`
- `Car`
- `Distance`

🧪 Modelos evaluados:
- 📐 Regresión Lineal (con escalado previo)
- 🌲 Random Forest
- 🚀 Gradient Boosting
- ⚡ XGBoost

Cada modelo se entrena sobre un 80% del dataset y se evalúa sobre el 20% restante usando las siguientes métricas:
- 📏 **RMSE** (Root Mean Squared Error)
- 📉 **MAE** (Mean Absolute Error)
- 📈 **R²** (Coeficiente de Determinación)

In [None]:
from sklearn.ensemble import GradientBoostingRegressor, RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from xgboost import XGBRegressor
import numpy as np
import pandas as pd

# 1. Selección de variables y limpieza
features = ['BuildingArea', 'Rooms', 'Bathroom', 'YearBuilt', 'Landsize', 'Car', 'Distance']
target = 'Price'
df_modelo = df[features + [target]].dropna()

X = df_modelo[features]
y = df_modelo[target]

# 2. División en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 3. Definir modelos
modelos = {
    "Regresión Lineal (scaled)": Pipeline([
        ("scaler", StandardScaler()),
        ("modelo", LinearRegression())
    ]),
    "Random Forest": RandomForestRegressor(n_estimators=100, random_state=42),
    "Gradient Boosting": GradientBoostingRegressor(n_estimators=100, random_state=42),
    "XGBoost": XGBRegressor(n_estimators=100, random_state=42, verbosity=0)
}

# 4. Entrenamiento y evaluación
resultados = []

for nombre, modelo in modelos.items():
    modelo.fit(X_train, y_train)
    pred = modelo.predict(X_test)

    resultados.append({
        "Modelo": nombre,
        "RMSE": mean_squared_error(y_test, pred) ** 0.5,
        "MAE": mean_absolute_error(y_test, pred),
        "R²": r2_score(y_test, pred)
    })

df_resultados = pd.DataFrame(resultados).sort_values(by="R²", ascending=False).round(3)
df_resultados


Unnamed: 0,Modelo,RMSE,MAE,R²
3,XGBoost,257292.563,188651.27,0.671
1,Random Forest,277560.909,202327.22,0.617
2,Gradient Boosting,277812.864,208849.905,0.616
0,Regresión Lineal (scaled),322961.576,251151.145,0.481


## 📊 Comparación de Modelos de Regresión

Se entrenaron cuatro modelos diferentes para predecir el precio de propiedades en Melbourne, utilizando variables estructurales como superficie, habitaciones, baños, año de construcción y otros.

A continuación, se presentan los resultados comparativos según tres métricas clave:

| Modelo                  |          Metricas         |
|-------------------------|---------------------------|
| XGBoost                 | ✅ **Mejor desempeño general**, con un R² = 0.671, indicando que explica el 67% de la variabilidad en los precios. También presenta el menor RMSE y MAE.
| Random Forest           | Muy competitivo, con buen equilibrio entre precisión y robustez. R² = 0.617
| Gradient Boosting       | Similar al Random Forest, aunque con un MAE levemente más alto. R² = 0.616
| Regresión Lineal (scaled) | Modelo base más simple. Su R² = 0.481 indica que no capta muchas de las no linealidades presentes en los datos.

### 🧠 Conclusión:
- 🔝 **XGBoost** fue el modelo con mejor desempeño general, logrando una buena combinación de precisión y robustez.
- 📈 Modelos de árbol (RF, GB, XGB) superan ampliamente a la regresión lineal, lo que confirma la presencia de relaciones no lineales entre las variables predictoras y el precio.

➡️ En base a estos resultados, se recomienda utilizar **XGBoost como modelo final**, o bien Random Forest si se prioriza mayor interpretabilidad y velocidad.


### 🎯 Comparación Visual de Predicciones vs Valores Reales

En este gráfico se visualiza cómo se ajustan las predicciones de cada modelo al valor real (`Price`).  
Un modelo ideal tendría todos los puntos alineados sobre la diagonal (`y_pred = y_true`).

Este tipo de visualización ayuda a detectar:
- Subestimaciones o sobreestimaciones sistemáticas
- Diferencias en dispersión entre modelos
- Casos extremos que escapan al patrón


In [None]:
from plotly.subplots import make_subplots
import plotly.graph_objects as go

# Lista de modelos a graficar (en orden)
model_names = list(modelos.keys())  # ['Regresión Lineal (scaled)', 'Random Forest', 'Gradient Boosting', 'XGBoost']

# Crear figura 2x2
fig = make_subplots(rows=2, cols=2, subplot_titles=model_names)

# Agregar cada gráfico
for i, nombre in enumerate(model_names):
    row = i // 2 + 1
    col = i % 2 + 1

    modelo = modelos[nombre]
    y_pred = modelo.predict(X_test)

    fig.add_trace(
        go.Scatter(
            x=y_test,
            y=y_pred,
            mode='markers',
            marker=dict(opacity=0.5),
            name=nombre,
            showlegend=False
        ),
        row=row,
        col=col
    )

    # Línea ideal
    min_val = min(y_test.min(), y_pred.min())
    max_val = max(y_test.max(), y_pred.max())

    fig.add_shape(
        type="line",
        x0=min_val, y0=min_val,
        x1=max_val, y1=max_val,
        line=dict(color="black", dash="dash"),
        row=row, col=col
    )

# Layout final
fig.update_layout(
    height=900,
    width=1100,
    title_text="📊 Predicciones vs Valores Reales – Modelos Finales",
    showlegend=False
)

fig.show()

## 🧪 Optimización de XGBoost con GridSearchCV



Para mejorar el rendimiento del modelo XGBoost, se realizó una búsqueda de hiperparámetros mediante `GridSearchCV`. Esta técnica evalúa distintas combinaciones de parámetros usando validación cruzada para seleccionar la configuración que genera mejores predicciones.

El objetivo es encontrar automáticamente el modelo más preciso posible dentro del espacio definido de parámetros como:
- Cantidad de árboles (`n_estimators`)
- Profundidad máxima (`max_depth`)
- Tasa de aprendizaje (`learning_rate`)
- Porcentaje de muestras por árbol (`subsample`)

Una vez encontrado el mejor modelo (`best_model`), lo utilizamos para generar predicciones más precisas, las cuales luego se reutilizarán en el bloque interactivo con widgets para explorar resultados.

In [None]:
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.preprocessing import StandardScaler
import numpy as np


# Escalar los datos si aún no lo hiciste
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Definir el modelo base
xgb = XGBRegressor(objective='reg:squarederror', random_state=42)

# Definir la grilla de hiperparámetros
param_grid = {
    'n_estimators': [100, 200],
    'max_depth': [3, 5, 7],
    'learning_rate': [0.01, 0.1],
    'subsample': [0.8, 1.0]
}

# Crear el GridSearchCV
grid_search = GridSearchCV(
    estimator=xgb,
    param_grid=param_grid,
    scoring='neg_root_mean_squared_error',  # o 'r2', 'neg_mean_absolute_error'
    cv=5,
    verbose=1,
    n_jobs=-1
)

# Ejecutar búsqueda
grid_search.fit(X_train_scaled, y_train)

# Mejor estimador y métricas
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

print("Mejores hiperparámetros:", grid_search.best_params_)
print("RMSE:", np.sqrt(mean_squared_error(y_test, y_pred)))
print("MAE:", mean_absolute_error(y_test, y_pred))
print("R²:", r2_score(y_test, y_pred))


Fitting 5 folds for each of 24 candidates, totalling 120 fits
Mejores hiperparámetros: {'learning_rate': 0.1, 'max_depth': 5, 'n_estimators': 200, 'subsample': 0.8}
RMSE: 252207.76158274862
MAE: 186137.5193338051
R²: 0.683716036315923


## 🎯 Comparación antes y después de la optimización

Luego de aplicar `GridSearchCV` para ajustar los hiperparámetros del modelo **XGBoost**, se obtuvieron mejoras significativas en las métricas de rendimiento:

| Métrica | Antes (XGBoost por defecto) | Después (XGBoost optimizado) | Mejora |
|--------|-----------------------------|-------------------------------|--------|
| **RMSE** | 257,293 | 252,208 | 🔻 ~5,085 |
| **MAE**  | 188,651 | 186,138 | 🔻 ~2,513 |
| **R²**   | 0.671   | 0.684   | 🔺 +0.013 |

### 📌 Interpretación

- El **RMSE** bajó más de 5.000 pesos, lo que significa que el modelo ahora comete errores ligeramente más pequeños al estimar los precios.
- El **MAE** también se redujo, confirmando una mejora en la precisión media de las predicciones.
- El **R²** aumentó, lo que implica que el modelo ahora explica una mayor proporción de la variabilidad del precio (pasó de 67,1% a 68,4%).

Estas mejoras, si bien no drásticas, son importantes en contextos reales donde una diferencia de miles de pesos puede impactar en decisiones de compra, inversión o estrategias de pricing en el mercado inmobiliario.


## 🧮 Predicción Interactiva de Precio

Utilizá los controles deslizantes para ingresar las características de una propiedad y obtener una predicción instantánea del precio estimado.

Este formulario utiliza el modelo **XGBoost**, entrenado con los datos del mercado inmobiliario de Melbourne.

🔧 Variables disponibles:
- Área construida en m² (`BuildingArea`)
- Cantidad de habitaciones (`Rooms`)
- Cantidad de baños (`Bathroom`)
- Año de construcción (`YearBuilt`)
- Tamaño del terreno en m² (`Landsize`)
- Cocheras disponibles (`Car`)
- Distancia al centro de la ciudad (`Distance`)

Presioná el botón verde para obtener la predicción estimada. 💰


In [None]:
import ipywidgets as widgets
from IPython.display import display

# Widgets
building_area = widgets.IntSlider(min=0, max=1000, step=10, value=150, description='Área construida')
rooms = widgets.IntSlider(min=1, max=10, step=1, value=3, description='Rooms')
bathroom = widgets.IntSlider(min=1, max=5, step=1, value=2, description='Baños')
year_built = widgets.IntSlider(min=1850, max=2025, step=1, value=2000, description='Año')
landsize = widgets.IntSlider(min=0, max=2000, step=10, value=500, description='Terreno')
car = widgets.IntSlider(min=0, max=5, step=1, value=1, description='Cochera')
distance = widgets.FloatSlider(min=0.0, max=50.0, step=0.1, value=10.0, description='Distancia')

# Botón de predicción
predict_button = widgets.Button(description='Predecir Precio 🧮', button_style='success')

# Output
output = widgets.Output()

# Función al hacer click
def on_predict_clicked(b):
    with output:
        output.clear_output()
        valores = [[
            building_area.value,
            rooms.value,
            bathroom.value,
            year_built.value,
            landsize.value,
            car.value,
            distance.value
        ]]
        pred = best_model.predict(valores)[0]
        print(f"💰 Predicción estimada: ${int(pred):,}")
        print("\n📌 Usando modelo XGBoost optimizado con GridSearchCV.")

predict_button.on_click(on_predict_clicked)

# Mostrar widgets
display(building_area, rooms, bathroom, year_built, landsize, car, distance, predict_button, output)


IntSlider(value=150, description='Área construida', max=1000, step=10)

IntSlider(value=3, description='Rooms', max=10, min=1)

IntSlider(value=2, description='Baños', max=5, min=1)

IntSlider(value=2000, description='Año', max=2025, min=1850)

IntSlider(value=500, description='Terreno', max=2000, step=10)

IntSlider(value=1, description='Cochera', max=5)

FloatSlider(value=10.0, description='Distancia', max=50.0)

Button(button_style='success', description='Predecir Precio 🧮', style=ButtonStyle())

Output()

## 💸 Análisis Económico: Ganancias y Riesgos del Modelo Predictivo

El uso de este modelo de regresión permite estimar el precio de propiedades en base a características clave con una precisión considerable (R² = 0.684 en su versión optimizada con XGBoost).

### ✅ Beneficios económicos potenciales:
- 🔍 Mejor tasación inicial: permite definir precios más cercanos al valor de mercado, reduciendo tiempos de venta y evitando sobreprecio o subvaloración.  
- 💰 Ahorro en comisiones mal calculadas: un error promedio de MAE ≈ \$186,137 puede significar hasta \$9,300 perdidos en comisiones (5%) por cada operación mal estimada.  
- 📊 Decisiones de inversión más informadas: inversores pueden identificar oportunidades de compra cuando el valor predicho es mayor que el valor de publicación.  
- 📦 Escalabilidad: el modelo puede aplicarse a cientos de propiedades automáticamente, lo que reduce el costo de análisis manual por tasador (\$10,000–\$15,000 por propiedad).  

### ⚠️ Costos de las predicciones erróneas:
- ❌ Sobreestimación del precio: propiedades que no se venden y acumulan costos de mantenimiento, impuestos o pérdida de oportunidades.  
- ❌ Subestimación: ventas por debajo del valor de mercado, pérdidas directas para vendedores e inversionistas.  

### 💸 Error promedio estimado:
- RMSE ≈ \$252,208 implica que el precio real puede desviarse notablemente en ciertos casos extremos.  
- Una diferencia del 10–15% en propiedades de \$2M puede representar pérdidas de \$200,000 a \$300,000.  

### 🧠 Conclusión:
Aunque el modelo no es perfecto, su uso permite reducir significativamente la incertidumbre en la valuación, automatizar decisiones y detectar inconsistencias en precios publicados. Su impacto económico positivo justifica su implementación como herramienta de soporte para tasadores, agentes inmobiliarios e inversionistas.

