# Proyecto de Análisis de Datos de Propiedades en Melbourne

## Abstracto: Motivación y Audiencia

Motivación: El mercado inmobiliario de Melbourne es diverso y complejo. Este análisis se centra en explorar cómo factores como el número de habitaciones, método de venta y ubicación influyen en el precio de las propiedades. La idea es detectar patrones y tendencias que puedan apoyar la toma de decisiones en la industria inmobiliaria, facilitando estrategias de inversión o venta.


Audiencia:

*   Agentes inmobiliarios y analistas del sector.
*   Inversionistas y desarrolladores interesados en el mercado de propiedades.
*   Equipos de marketing que busquen segmentar y entender el comportamiento de los compradores.





## Preguntas/Hipótesis a Responder


1.   ¿Cómo influye el número de habitaciones (Rooms) en el precio de la propiedad?
2.   ¿Existe alguna diferencia en los precios según el método de venta (Method)?
3.   ¿Qué relación hay entre la distancia del CBD (Distance) y el precio?
4.   ¿Varían los precios significativamente según el tipo de propiedad (Type) y la región (Regionname)?
5.   ¿Cuáles son las características (Landsize, BuildingArea, Bedroom2, Bathroom, Car) que se correlacionan fuertemente con el precio?

## Notas sobre Variables Específicas

Rooms: Número de habitaciones

Price: Precio en dólares

Method:

*   S - propiedad vendida
*   SP - propiedad vendida antes de la subasta
*   PI - propiedad pasó sin vender
*   PN - vendida antes pero sin divulgar el precio
*   SN - vendida sin divulgar el precio
*   NB - sin oferta
*   VB - oferta del vendedor
*   W - retirada antes de la subasta
*   SA - vendida después de la subasta
*   SS - vendida después de la subasta sin divulgar el precio
*   N/A - precio o puja más alta no disponible

Type:

*   h - casa, cabaña, villa, adosado, terraza
*   u - unidad, dúplex
*   t - townhouse

SellerG: Agencia inmobiliaria

Date: Fecha de venta

Distance: Distancia desde el centro de la ciudad (CBD)

Regionname: Región general (Oeste, Noroeste, Norte, Noreste, etc.)

Propertycount: Número de propiedades existentes en el suburbio

Bedroom2: Número de dormitorios extraído de otra fuente

Bathroom: Número de baños

Car: Número de plazas de estacionamiento

Landsize: Tamaño del terreno

BuildingArea: Tamaño de la construcción

CouncilArea: Consejo de gobierno de la zona

## Importación y Descarga de Datos
A continuación, se muestra el código para importar el CSV

In [None]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv('melb_data.csv')

# Mostrar las primeras filas para observar la estructura de los datos
df.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


## Limpieza y Transformación de Datos
a) Revisión general y manejo de valores nulos

In [None]:
# Información del DataFrame
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13580 entries, 0 to 13579
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Suburb         13580 non-null  object 
 1   Address        13580 non-null  object 
 2   Rooms          13580 non-null  int64  
 3   Type           13580 non-null  object 
 4   Price          13580 non-null  float64
 5   Method         13580 non-null  object 
 6   SellerG        13580 non-null  object 
 7   Date           13580 non-null  object 
 8   Distance       13580 non-null  float64
 9   Postcode       13580 non-null  float64
 10  Bedroom2       13580 non-null  float64
 11  Bathroom       13580 non-null  float64
 12  Car            13518 non-null  float64
 13  Landsize       13580 non-null  float64
 14  BuildingArea   7130 non-null   float64
 15  YearBuilt      8205 non-null   float64
 16  CouncilArea    12211 non-null  object 
 17  Lattitude      13580 non-null  float64
 18  Longti

In [None]:
# Estadísticas descriptivas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Rooms,13580.0,2.937997,0.955748,1.0,2.0,3.0,3.0,10.0
Price,13580.0,1075684.0,639310.724296,85000.0,650000.0,903000.0,1330000.0,9000000.0
Distance,13580.0,10.13778,5.868725,0.0,6.1,9.2,13.0,48.1
Postcode,13580.0,3105.302,90.676964,3000.0,3044.0,3084.0,3148.0,3977.0
Bedroom2,13580.0,2.914728,0.965921,0.0,2.0,3.0,3.0,20.0
Bathroom,13580.0,1.534242,0.691712,0.0,1.0,1.0,2.0,8.0
Car,13518.0,1.610075,0.962634,0.0,1.0,2.0,2.0,10.0
Landsize,13580.0,558.4161,3990.669241,0.0,177.0,440.0,651.0,433014.0
BuildingArea,7130.0,151.9676,541.014538,0.0,93.0,126.0,174.0,44515.0
YearBuilt,8205.0,1964.684,37.273762,1196.0,1940.0,1970.0,1999.0,2018.0


In [None]:
# Contar valores nulos por columna
print("valores nulos por columna")
print(df.isnull().sum())

print("")
print("--------------------------")
print("")

#Calcula el porcentaje de nulos en cada columna
porcentaje_nulos = df.isnull().mean() * 100
print("porcentaje de nulos en cada columna")
print(porcentaje_nulos)

valores nulos por columna
Suburb              0
Address             0
Rooms               0
Type                0
Price               0
Method              0
SellerG             0
Date                0
Distance            0
Postcode            0
Bedroom2            0
Bathroom            0
Car                62
Landsize            0
BuildingArea     6450
YearBuilt        5375
CouncilArea      1369
Lattitude           0
Longtitude          0
Regionname          0
Propertycount       0
dtype: int64

--------------------------

porcentaje de nulos en cada columna
Suburb            0.000000
Address           0.000000
Rooms             0.000000
Type              0.000000
Price             0.000000
Method            0.000000
SellerG           0.000000
Date              0.000000
Distance          0.000000
Postcode          0.000000
Bedroom2          0.000000
Bathroom          0.000000
Car               0.456554
Landsize          0.000000
BuildingArea     47.496318
YearBuilt        39.580265
Co

Imputación

Car (62 nulos):
El porcentaje de nulos es bajo, podría imputar con la moda o el valor que tenga sentido en el contexto.





In [None]:
# Imputar con la moda
df['Car'] = df['Car'].fillna(moda_car)

# La moda de 'Car' es: 2.0

CouncilArea (1369 nulos): Imputar con una categoría "Desconocido".

In [None]:
# Imputar con categoría "Desconocido".
df['CouncilArea'] = df['CouncilArea'].fillna('Desconocido')

BuildingArea (6450 nulos) y YearBuilt (5375 nulos): Crear Variables Indicadoras para los Nulos y Luego Imputar

In [None]:
# Calcular la mediana para BuildingArea y YearBuilt
median_building_area = df['BuildingArea'].median()
median_year_built = df['YearBuilt'].median()

# Crear variables indicadoras para saber si había nulos
df['BuildingArea_missing'] = df['BuildingArea'].isnull().astype(int)
df['YearBuilt_missing'] = df['YearBuilt'].isnull().astype(int)

# Imputar los valores nulos con la mediana
df['BuildingArea'] = df['BuildingArea'].fillna(median_building_area)
df['YearBuilt'] = df['YearBuilt'].fillna(median_year_built)

# Análisis Exploratorio de Datos (EDA)

In [None]:
import plotly.express as px
import plotly.graph_objects as go

## 🏠 Precio de las propiedades

### ¿Qué tipo de propiedad es más cara en promedio?

In [180]:
# Crear una copia con etiquetas descriptivas
df_tipo = df.copy()
df_tipo['Type'] = df_tipo['Type'].map({
    'h': 'House',
    'u': 'Unit/Duplex',
    't': 'Townhouse'
})

fig = px.box(df_tipo, x='Type', y='Price',
             title='Distribución de Precios por Tipo de Propiedad',
             points='outliers')
fig.update_layout(xaxis_title='Tipo de propiedad', yaxis_title='Precio ($)')
fig.show()

In [179]:
# Mapear los tipos a nombres más claros
df_tipo = df.copy()
df_tipo['Type'] = df_tipo['Type'].map({
    'h': 'House',
    'u': 'Unit/Duplex',
    't': 'Townhouse'
})

# Agrupar y graficar
precio_medio_tipo = df_tipo.groupby('Type', as_index=False)['Price'].mean()

fig = px.bar(precio_medio_tipo, x='Type', y='Price',
             title='Precio Promedio por Tipo de Propiedad',
             text_auto='.2s', color='Type')
fig.update_layout(showlegend=False, yaxis_title='Precio promedio ($)', xaxis_title='Tipo de propiedad')
fig.show()

### ¿Cómo varía el precio según la cantidad de habitaciones (Rooms)?

In [178]:
fig = px.box(df, x='Rooms', y='Price',
             title='Distribución de Precio según Cantidad de Habitaciones (Rooms)',
             points='outliers',  # muestra los valores extremos
             category_orders={"Rooms": sorted(df['Rooms'].unique())})
fig.update_layout(xaxis_title='Cantidad de habitaciones', yaxis_title='Precio ($)')
fig.show()

In [177]:
# Agrupar por cantidad de habitaciones y calcular el precio promedio
precio_promedio_rooms = df.groupby('Rooms', as_index=False)['Price'].mean()

fig = px.bar(precio_promedio_rooms, x='Rooms', y='Price',
             title='Precio Promedio según Cantidad de Habitaciones',
             text_auto='.2s', color='Rooms')
fig.update_layout(xaxis_title='Cantidad de habitaciones', yaxis_title='Precio promedio ($)', showlegend=False)
fig.show()

### ¿Las propiedades más nuevas son más caras? (YearBuilt)

In [None]:
fig = px.scatter(df, x='YearBuilt', y='Price',
                 title='Relación entre Año de Construcción y Precio',
                 trendline='ols', hover_data=['Suburb', 'Rooms'])
fig.update_layout(xaxis_title='Año de Construcción', yaxis_title='Precio', showlegend=False)
fig.show()

### Relación entre BuildingArea y Price (solo datos originales)

In [174]:
df_original = df[df['BuildingArea_missing'] == 0]

fig = px.scatter(df_original, x='BuildingArea', y='Price',
                  title='Relación entre BuildingArea y Price (sin datos imputados)',
                  trendline='ols', hover_data=['Rooms', 'Suburb'])
fig.show()

### ¿Diferencias de precio entre CouncilArea?

In [176]:
# Crear una copia para no modificar el original
df_ca = df.copy()

# Contar registros por CouncilArea y crear etiquetas combinadas
conteos = df_ca['CouncilArea'].value_counts()
df_ca['CouncilArea_count'] = df_ca['CouncilArea'] + ' (' + df_ca['CouncilArea'].map(conteos).astype(str) + ')'

# Ordenar etiquetas por media de precio (opcional)
order = df_ca.groupby('CouncilArea_count')['Price'].mean().sort_values(ascending=False).index

# Boxplot
fig = px.box(df_ca, x='CouncilArea_count', y='Price',
             title='Distribución de Precio por CouncilArea (con cantidad de registros)',
             points='outliers', category_orders={'CouncilArea_count': order})
fig.update_layout(xaxis_title='CouncilArea (cantidad de registros)', yaxis_title='Precio ($)')
fig.show()


### ¿Las propiedades cercanas al centro son más caras? (Distance)

In [175]:
fig = px.scatter(df, x='Distance', y='Price',
                 title='Relación entre Distancia al Centro y Precio',
                 trendline='ols', hover_data=['Suburb', 'Rooms'])
fig.show()


## 📈 Relaciones entre variables

### ¿Qué variables numéricas están más correlacionadas con el precio?

In [181]:
# Matriz de correlación redondeada
corr_matrix = df.corr(numeric_only=True).round(2)

fig = go.Figure(data=go.Heatmap(
    z=corr_matrix.values,
    x=corr_matrix.columns,
    y=corr_matrix.columns,
    text=corr_matrix.values,
    texttemplate="%{text}",
    colorscale='RdBu',
    zmin=-1,
    zmax=1,
    colorbar=dict(title='Correlación')
))

fig.update_layout(title='Mapa de Calor de Correlaciones (con valores)')
fig.show()

In [182]:
import plotly.express as px

# Correlaciones con Price (ya imputado)
corr_price = corr_matrix['Price'].drop('Price').sort_values(key=abs, ascending=False).round(2)

# Convertir a DataFrame para graficar
corr_price_df = corr_price.reset_index()
corr_price_df.columns = ['Variable', 'Correlación con Price']

fig = px.bar(corr_price_df, x='Variable', y='Correlación con Price',
             title='Correlaciones más fuertes con Price',
             text_auto='.2f', color='Correlación con Price',
             color_continuous_scale='RdBu', range_color=[-1,1])
fig.update_layout(yaxis_title='Correlación', xaxis_title='Variable', coloraxis_showscale=False)
fig.show()

## 🕳️ Datos faltantes

### Matriz de Correlación (Solo datos originales, sin imputaciones)

In [184]:
# Filtrar filas que originalmente no tenían nulos
df_filtrado = df[(df['BuildingArea_missing'] == 0) & (df['YearBuilt_missing'] == 0)].copy()

# Calcular la matriz de correlaciones
corr_matrix_original = df_filtrado.corr(numeric_only=True).round(2)

# Mapa de calor interactivo con valores en celdas
fig = go.Figure(data=go.Heatmap(
    z=corr_matrix_original.values,
    x=corr_matrix_original.columns,
    y=corr_matrix_original.columns,
    text=corr_matrix_original.values,
    texttemplate="%{text}",
    colorscale='RdBu',
    zmin=-1,
    zmax=1,
    colorbar=dict(title='Correlación')
))

fig.update_layout(title='Matriz de Correlación (Solo datos originales, sin imputaciones)')
fig.show()

In [185]:
# Calcular correlaciones con Price en el subconjunto original
corr_price_original = corr_matrix_original['Price'].drop('Price').sort_values(key=abs, ascending=False).round(2)

# Convertir a DataFrame
corr_price_df_original = corr_price_original.reset_index()
corr_price_df_original.columns = ['Variable', 'Correlación con Price']

# Gráfico de barras
fig = px.bar(corr_price_df_original, x='Variable', y='Correlación con Price',
             title='Correlaciones más fuertes con Price (solo datos originales)',
             text_auto='.2f', color='Correlación con Price',
             color_continuous_scale='RdBu', range_color=[-1,1])
fig.update_layout(yaxis_title='Correlación', xaxis_title='Variable', coloraxis_showscale=False)
fig.show()

### ¿Las propiedades con datos faltantes en BuildingArea tienen diferencia de precio?

In [186]:
fig = px.box(df, x='BuildingArea_missing', y='Price',
             title='Precio según presencia de datos faltantes en BuildingArea',
             labels={'BuildingArea_missing': 'Faltante en BuildingArea'})
fig.update_layout(xaxis=dict(tickvals=[0, 1], ticktext=['No', 'Sí']),
                  xaxis_title='¿Faltaba BuildingArea?', yaxis_title='Precio ($)')
fig.show()

### ¿Las propiedades con datos faltantes en YearBuilt tienen diferencia de precio?

In [187]:
fig = px.box(df, x='YearBuilt_missing', y='Price',
             title='Precio según presencia de datos faltantes en YearBuilt',
             labels={'YearBuilt_missing': 'Faltante en YearBuilt'})
fig.update_layout(xaxis=dict(tickvals=[0, 1], ticktext=['No', 'Sí']),
                  xaxis_title='¿Faltaba YearBuilt?', yaxis_title='Precio ($)')
fig.show()

# 🧠 Insights del Análisis Exploratorio de Datos

## 🏠 Precio de las propiedades



1.   Tipo de propiedad: Las "House" tienen el precio promedio más alto, seguidas por "Townhouse", y por último las "Unit/Duplex", que son las más económicas.
2.   Habitaciones: A mayor cantidad de Rooms, mayor tiende a ser el precio, aunque a partir de 5 habitaciones se observan outliers más extremos y mayor dispersión.
3.   Área construida (BuildingArea) y precio: Hay una correlación positiva, aunque no muy fuerte. Propiedades más grandes suelen costar más, pero con mucha variabilidad. (Esta correlacion se vuelve mucho mas fuerte si se usan los datos sin imputar)
4.   Tamaño del terreno (Landsize): Tiene una relación más débil con el precio. Hay muchos outliers (terrenos grandes pero no necesariamente caros).
5.   Antigüedad (YearBuilt): No hay una tendencia clara de que las propiedades más nuevas sean más caras; algunas construcciones antiguas también son costosas.
6.   CouncilArea: Hay diferencias significativas de precio según la zona. Algunas zonas como Boroondara o Stonnington tienen precios consistentemente más altos.
7.   Distancia al centro (Distance): Existe una leve tendencia a que las propiedades más cercanas al centro (menor Distance) sean más caras, aunque con excepciones.
8.   Outliers geográficos: Algunas zonas presentan propiedades con precios extremadamente altos respecto al promedio de su zona.









## 📈 Relaciones entre variables

*   Las variables más correlacionadas con el precio son:
  1. Habitaciones
  2. Area construida
  3. Baños
  4. Dormitorios
  5. Año de construccion
  6. Cocheras

*   Hay multicolinealidad leve entre Rooms, BuildingArea, Bathroom y Car, lo cual es esperable por su relación funcional.









## 🕳️ Datos faltantes

Las propiedades que tenían datos faltantes en BuildingArea o YearBuilt muestran una ligera tendencia a ser más baratas, lo cual podría estar relacionado con falta de información de propiedades menos premium o registros más antiguos.