# Análisis Inmobiliario

1. Introducción
2. Exploración del Dataset
3. Limpieza de datos
4. Análisis Exploratorio de Datos (EDA)
5. Correlaciones 
6. Conclusiones

# 1 Introducción:
# Insights del Mercado de Vivienda de Melbourne en 2017: Inmersión en los datos inmobiliarios

![Insights Inmobiliarios](casas.jpg)

Varios colegas de mi universidad han emigrado hacia Australia, en donde han encontrado oportunidades para desarrollarse como profesionales,  algunos de ellos me han contado de su interés por vivir una temporada larga allí, por lo que me entró la curiosidad. ¿Cuánto puede costar una casa en dicho país? Así que decidí escoger este data set por lo mismo, aunque es del año 2017, recopila información sobre propiedades vendidas, cada fila representa el historial o trazabilidad de una propiedad que fue vendida y cada columna nos da el detalle de dicha propiedad, precio, ubicación entre otros. 

La información proviene de un dataset público que enocntré en Kaggle [https://www.kaggle.com/dansbecker/melbourne-housing-snapshot](https://www.kaggle.com/dansbecker/melbourne-housing-snapshot) La información fue recopilada y organizada a partir de anuncios extraidos del sitio web:[https://www.domain.com.au/](https://www.domain.com.au/).

Respecto a las variables que se encuentran en el archivo te muestro lo que significa cada columna de estos datos:

* **Rooms:** El número de cuartos que tiene el lugar, que nos ayuda a entender el tamaño de la propiedad.
* **Price:** El precio en dólares australianos al que se vendió, decisivo en el análisis del costo de las propiedades en ese momento.
* **Method:** Una abreviatura de cómo se vendió (por ejemplo, 'S' si fue una venta normal, 'SP' si se vendió antes de la subasta). Esto nos da una idea de las estrategias de venta.
* **Type:** Si era una casa ('h'), un apartamento ('u'), etc. Conocer el tipo nos permite comparar diferentes opciones de vivienda.
* **SellerG:** El nombre del agente o la agencia que vendió la propiedad.
* **Date:** El día en que se cerró la venta.
* **Distance:** Qué tan lejos está del centro de Melbourne. Esta distancia puede influir en el precio y la conveniencia de la ubicación.
* **Regionname:** La zona de Melbourne donde está la propiedad (por ejemplo, el oeste, el norte), que nos ayuda a analizar el mercado por áreas.
* **Propertycount:** Cuántas propiedades hay en ese mismo barrio.
* **Bedroom2:** El número de habitaciones según otra fuente de datos que encontré.
* **Bathroom:** Cuántos baños tiene.
* **Car:** Cuántos puestos para estacionar carros hay.
* **Landsize:** El tamaño del terreno en metros cuadrados.
* **BuildingArea:** Cuántos metros cuadrados construidos tiene la propiedad.
* **CouncilArea:** El municipio al que pertenece.


# 2. Exploración del dataset

In [None]:
# Importamos la librería pandas para visualizar en modo de tabla en este notebook nuestros datos

import pandas as pd

# ruta: Creamos una variable para almacenar la ubicación del archivo CSV, que nos ayuda acortar el codigo.

data_ruta = "Data/melb_data.csv"

# Leemos el archivo CSV utilizando la función read_csv de pandas y lo cargamos en un DataFrame llamado: data.
data = pd.read_csv(data_ruta)

# Utilizamos el método head(5) para mostrar las primeras 5 filas del DataFrame 'data', lo que nos da
# una vista rápida del contenido del dataset.
data.head(5)

# 3. Limpieza de datos

### Detección de Valores Faltantes: Buscando los "huecos" en la información

Así como para cher es fundamental que un oufit no esté incompleto, debemos revisar nuestro DataSet, ¿Tiene valores faltantes?

Asi que debemos ir a nuestro Dtaframe 'data' y revisar si hay información que falta, esto es muy importante porque si hay una columna con falta de información la confiabilidad de nuestros análisis podría disminuir drásticamente.

Dado de esto podemos usar la función de pandas **'.isnull()'** ¿Para que sirve? Este método que crea una nueva tabla del mismo tamaño, pero reemplaza los datos originales por True y False.

True:Cuando hay un valor faltante y se observa como Nan (not a number).
False: Cuando hay información.

Así que gracias a este método podemos tener una data con verdaderos y falsos lo que nos ayuda a identificar facilemte los "huecos" en nuestra información.

Extraido de [documentación oficial de pandas](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isnull.html).

In [None]:
#Aplicamos este método y visualizamos los primeros 5 resultados

is_null_result = data.isnull()
print(is_null_result.head(5))

### Detección de Valores no Faltantes: Buscando los "huecos" en la información con .notnul()


Tenemos también otro método, pero en este caso devuelve valor que **no son nulos** es denominado **.notnull()** 


False:Cuando hay un valor faltante y se observa como Nan (not a number).
True: Cuando hay información.

En resumen .notnull es el inverso de .isnull
Extraído de: [documentación oficial de pandas para `.notnull()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.notnull.html) 


In [None]:
#Utilizamos este método para visualizar los primeros resultados

is_notnull_result = data.notnull()
print(is_notnull_result.head(5))

### Conteo de los "huecos" por cada columna de la tabla

Ahora debemos averiguar que partes de nuestra información están incompletas para tomar una decisións al respecto, recordando el método de **.isnull()** cada "Verdadero" (que marcaba un hueco) es como un 1 y cada "Falso" (donde sí había información) es como un 0.

Si sumamos todos esos 1s y 0s por cada columna de nuestra tabla de "Verdadero" y "Falso" (la que obtuvimos con **.isnull()** el resultado será **el número total de "Verdaderos"**, lo que es igual a la cantidad de valores faltantes en esa columna.

Entonces para contar cuántos valores nulos hay en cada columna de nuestro data set debemos sumar los resultados de ".isnull()" por cada columna de la siguiente manera: 



In [None]:
cant_nulls = is_null_result.sum()
print(cant_nulls)

### Conteo de Elementos No Nulos por Columna

Para ver cuántos elementos no nulos tenemos en cada columna de nuestro DataFrame (`data`), podemos utilizar el método `.count()`. Este método itera a través de cada columna y devuelve el número de valores que no son considerados nulos (`NaN`).

El código para realizar este conteo es el siguiente:



In [None]:
def not_null_column_count(data):
    result = data.count()
    return(result)

resultado = not_null_column_count(data)
print(resultado)

### Eliminación de Valores Faltantes ("Drop")

Al tener identificados los valores faltantes de nuestro Dataframe debemos darles una solución, tenemos diferentes caminos, uno de ellos es la eliminación que consiste en borrar filas columnas en donde estén estos valores faltantes.

Éste es un método sencillo de aplicar pero podemos tener perdida de información valiosa y posibles sesgos si hay una relación con otras variables. 

Implentaría éste método cuando pueda observar que la ausencia de los datos en un conjunto de datos es aleatoria, en este caso considero que debo eliminar los datos en donde los valores faltantes sean de mas del 40%; Sin embargo detallo a continuación las formas de usar pandas para realizar esta operación usando **dropna()**

    
#### Opciones de Eliminación con **dropna()** en pandas

* **Eliminar columnas con *algún* valor faltante:**
    ```python
    data_sin_nulos_columnas = data.dropna(axis=1)
    ```

* **Eliminar filas con *todos* los valores faltantes:**
    ```python
    data_sin_filas_todo_nulo = data.dropna(how='all')
    ```

* **Eliminar columnas con *todos* los valores faltantes:**
    ```python
    data_sin_columnas_todo_nulo = data.dropna(axis=1, how='all')
    ```

* **Eliminar filas con menos de un umbral de valores no nulos:** (Ejemplo: eliminar filas con menos de 3 valores no nulos)
    ```python
    data_sin_filas_pocos_validos = data.dropna(thresh=3)
    ```

* **Eliminar columnas con menos de un umbral de valores no nulos:** (Ejemplo: eliminar columnas con menos de 5 valores no nulos)
    ```python
    data_sin_columnas_pocos_validos = data.dropna(axis=1, thresh=5)
    ```

Documentación de pandas: [https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)

In [None]:
### Descartando Columnas con "Demasiados" Huecos (Umbral del 40%)

#En lugar de borrar sin pensar cualquier columna con un solo dato faltante, queremos ser un poco más inteligentes. 
#La idea ahora es **eliminar solo aquellas columnas que estén "demasiado vacías"**.

#Para esto, vamos a usar un **límite**, o como lo llamamos aquí, un **"umbral"**. 
#En este caso, nuestro umbral es del 40% (o 0.4). Esto significa que **si una columna tiene el 40% o más 
#de sus datos como "huecos" (nulos), entonces decidiremos que esa columna no nos aporta mucha información útil y la vamos a eliminar.**

#Así, conservaremos las columnas que, aunque tengan algunos datos faltantes, todavía tienen una buena cantidad de información completa.

#Para hacer esto, vamos a crear una función llamada `drop_columns_umbral`. Esta función va a recibir dos cosas:

#* `data`: Que es nuestra tabla de datos (el DataFrame).
#* `umbral`: Que es ese límite que definimos (en este caso, 0.4).

#La función deberá revisar cada columna de nuestra tabla `data` y ver qué tan "llena" está. Si una columna está "vacía" en un 40% o más de sus filas, la función la eliminará y nos devolverá una tabla `limpia` con solo las columnas que sí tienen suficiente información.


def drop_columns_umbral(data, umbral):
    # Aquí vamos a escribir el código para revisar cada columna
    # y eliminar las que tengan un porcentaje de nulos mayor o igual al 'umbral'.
    result = None
    return(result)

umbral = 0.4
# 'data' es la tabla de datos que ya cargamos.
resultado = drop_columns_umbral(data, umbral)
print(resultado)


In [None]:
def drop_columns_umbral(data, umbral=0.4, verbose=True):
    # 1. Calculamos el porcentaje de valores nulos por columna
    percent_null = data.isnull().mean()
    
    # 2. Columnas que sí cumplen con el umbral (es decir, que tienen menos nulos del permitido)
    columnas_conservadas = percent_null[percent_null < umbral].index
    
    # 3. Columnas que vamos a eliminar
    columnas_eliminadas = percent_null[percent_null >= umbral].index
    
    # 4. Mostrar las columnas eliminadas si verbose está en True
    if verbose:
        print(f"Columnas eliminadas (más del {umbral*100}% nulos):")
        print(columnas_eliminadas.tolist())

    # 5. Crear dos DataFrames: uno limpio y otro solo con las columnas eliminadas
    data_limpia = data[columnas_conservadas].copy()
    data_columnas_eliminadas = data[columnas_eliminadas].copy()

    return data_limpia, data_columnas_eliminadas


In [None]:
data_limpia, columnas_eliminadas = drop_columns_umbral(data, umbral=0.4, verbose=True)

# Si más adelante quieres visualizarlas:
columnas_eliminadas.head()


### Llenando los "Huecos": Imputación de Valores Faltantes

Es común tener información faltante en un conjunto de datos, por lo que debemos decidir que hacer con esa información si no se elimina se deben llenar con infromación esto se denomina imputación, hay diferentes formas de hacerlo cómo:


**1. Rellenado Simple:**

Se basa en estimar el valor faltante con la información que ya tenemos en la columna o fila.

**2. Rellenado Múltiple:**

Se basa en poner varios posibles valares en el lugar del dato faltante, se debe analizar y combinar los resultados para tener una idea mas clara de la incertumbre de estos datos faltantes.

**3. Rellenar con el Promedio (Media):**

Una forma de llenar este hueco cuando los valores son súmericos es hallar la media que es el promedio de datos de esa columna, es algo bastante sencillo, PERO si tenemos outliers puede ser un gran problema ya que los datos pueden variar enormemente. 


**4. Rellenar con un Dato Existente (Hot Deck):**

Es seleccionar un valor al azar de otra parte de la columna, puede ser antes o después del "hueco" o uno con condiciones similares. 

**5. Rellenar usando Regresiones:**

Esta ténica se basa en usar otras columnas de la tabla para intentar predecir el valor faltante, se debe construir un modelo para adivinar el dato.

**Cómo pandas nos ayuda a rellenar los huecos:**

La librería pandas de Python tiene herramientas muy útiles para la imputación, la principal es: **fillna()** y se puede usar de diferentes formas:

* Usar un valor fijo: Podemos decidir llenar todos los huecos con un número específico (como 0) o un texto.

* Usar el valor anterior o siguiente: Ideal para datos que cambian con el tiempo (series de tiempo). Podemos copiar el último valor válido hacia adelante **ffill** o el siguiente valor válido hacia atrás **bfill** para llenar los huecos.

* Usar estadísticas: Podemos usar la media **mean()**, la moda **mode()** o la mediana **median()** de la columna para rellenar los valores faltantes. Por ejemplo: **data.fillna(data.mean())**

En nuestros datos, vimos que las columnas con datos faltantes son 'Car', 'BuildingArea', 'YearBuilt' y 'CouncilArea'. 

Ahora vamos a intentar rellenar esos huecos usando algunas de estas ideas. Pero antes, vamos a echar un vistazo a los valores que ya tienen esas columnas para entender mejor qué método de relleno podría ser el más adecuado. Para esto, usaremos herramientas que ya aprendimos para ver cómo se distribuyen los datos.

Después de esto, usaremos visualizaciones del tipo histogramas y distribuciones, para decidir como llenar los valores faltantes. 



### Echando un Vistazo a los "Huecos" que tenemos



* Car: Le faltan 62 datos.
* BuildingArea: Tenemos 6450 datos faltantes
* YearBuilt: 5375 datos faltantes
* CouncilArea: Le faltan 1369 datos.

Vamos a mirar variable por variable para entender mejor que información contiene cada columna, para esto aplicamos estadística descriptiva y probabilidad.

Es muy importante tener en cuenta si tenemos valores atípicos, outliers mediante las distribuciones a graficar como la normal y de esta manera poder elegir el mejor método de imputación para cada columna.


In [None]:
import seaborn as sns
def count_plotter(data, label, labelsize=15, palette="pastel"):    
    sns.set(rc={"figure.figsize": (10, 8), 
                "xtick.labelsize": labelsize})
    sns.set_style("white")    
    data_count = sns.countplot(x=data, palette=palette)
    data_count.set_title('Histograma de ' + label + '\n', fontsize=18)

    
#def distribution_plotter(data, label, bins=None):    
def distribution_plotter(data, label, bin_width=150, color="#FF6F61"):    
    sns.set(rc={"figure.figsize": (10, 8)})
    sns.set_style("white")    
    #dist = sns.distplot(data, bins= bins, hist_kws={'alpha':0.2}, kde_kws={'linewidth':5})
    dist = sns.histplot(data, 
                        stat = 'density', kde = True, 
                        line_kws = {'linewidth':6}, 
                        binwidth = bin_width,
                        color=color,  # color del histograma
                        kde_kws={'linewidth': 3, 'color': '#34568B'})  # color del KDE)        
    dist.set_title('Distribucion de ' + label + '\n', fontsize=18)    
    

# Car

In [None]:
#Observamos la forma de los valores de este campo 
count_plotter(data.Car, "Car")

Podemos usar también este método: **value_counts** 

In [None]:
pd.value_counts(data.Car)

### Rellenando los "Huecos" en la Cantidad de Cocheras ('Car')

En la columna "car" podemos observar que la mayoría de propiedades tienen 1 o 2 parqueaderos que son los valores mas comunes o probables.

Vamos a probar dos formas diferentes de rellenar los 62 valores faltantes que encontramos en esta columna:

**Opción 1: Llenar todos los huecos con 2 cocheras**

Es la idea mas simple y sencilla. 


**Opción 2: Llenar los huecos siguiendo la probabilidad observada**

Podemos cambiar la frecuencia de los parqueaderos y alternarlo, podemos decir que el 45% de las propiedades tienen 1 y el resto (un 55%) tienen 2. Entonces, podríamos rellenar nuestros 62 valores faltantes de la siguiente manera:

* Asignar el valor 1 al 45% de los huecos.
* Asignar el valor 2 al 55% restante de los huecos.

Esto intentaría mantener la proporción de 1 y 2 cocheras que ya vemos en nuestros datos.

Es muy importante verificar que hicimos los cambios correctos, por esto se debe volver a contar los valotes nulos en la columna car y ver cuantas veces aparecen los valores 1 y 2.


In [None]:
# **Primer intento: Llenar todos los huecos de 'Car' con el valor 2**

# Vamos a empezar con la opción más sencilla: llenar todos los valores faltantes en la columna 'Car' con el número 2. 
# Después de hacer esto, vamos a verificar cuántas veces aparece el número 2 en la columna 'Car' y cuántos valores nulos 
#quedan (esperamos que sean cero).

data_car_2_mask = data.Car == 2
data_car_2_count = data_car_2_mask.sum()
print(data_car_2_count)
print("---")
data_car_null_mask = data.Car.isnull()
data_car_null_count = data_car_null_mask.sum()
print(data_car_null_count)

In [None]:
#Rellenamos

data_car_2_fill = data.Car.fillna(2)
# inventamos una columna nueva para no modificar los datos originales y 
# que nos sirva para el siguiente ejercicio sin volver a leer los datos:
data["Car_fill"] = data_car_2_fill

In [None]:
# Contamos nuevamente

data_car_2_mask = data.Car_fill == 2
data_car_2_count = data_car_2_mask.sum()
print(data_car_2_count)
print("---")
data_car_null_mask = data.Car_fill.isnull()
data_car_null_count = data_car_null_mask.sum()
print(data_car_null_count)


¡Exacto! Si antes teníamos 5591 registros con algún valor en 'Car' y le sumamos los 62 que rellenamos con el valor 2, ahora deberíamos tener un total de 5653 registros con valores en esta columna. 

**Segundo intento: Llenar los huecos de 'Car' con una proporción de 1 y 2**

Ahora, vamos a probar la segunda estrategia: rellenar los 62 valores faltantes en 'Car' asignando el valor 1 al 45% de ellos y el valor 2 al 55% restante. Esto se basa en la idea de que los valores 1 y 2 eran los más comunes en los datos que sí teníamos.

Para hacer esto, primero necesitamos calcular cuántos de los 62 huecos deberían llenarse con 1 y cuántos con 2:

* Cantidad de 1s: 45% de 62 = 0.45 * 62 ≈ 28
* Cantidad de 2s: 55% de 62 = 0.55 * 62 ≈ 34

Así que, nuestro objetivo es llenar aproximadamente 28 de los huecos con el valor 1 y los 34 restantes con el valor 2.

**Antes de empezar, veamos cuántos registros tenemos actualmente para cada valor en la columna 'Car' (incluyendo los nulos):**

Esto nos dará una línea base para comparar después de realizar la imputación proporcional. Queremos ver la cantidad de valores nulos (que debería ser 0 después de la imputación) y la cantidad de registros con 1 y 2 en 'Car'.

(Aquí probablemente iría el código para mostrar esos conteos, algo como `data['Car'].value_counts(dropna=False)`)

Después de esto, implementaremos el código para seleccionar aleatoriamente los índices de los valores nulos y asignarles los valores 1 y 2 en las proporciones calculadas. Finalmente, volveremos a verificar los conteos para confirmar que la imputación se realizó correctamente y que las proporciones de 1 y 2 son las esperadas.


In [None]:
cant_car_null = data.Car.isnull().sum()
print(cant_car_null)

car_one_mask = data.Car == 1
cant_car_1 = car_one_mask.sum()
print(cant_car_1)

car_two_mask = data.Car == 2
cant_car_2 = car_two_mask.sum()
print(cant_car_2)


In [None]:
# los registros que son null en Car:
data_car_null_mask = data.Car.isnull()
data_car_null = data.loc[data_car_null_mask, :]
print(data_car_null.shape[0])

# una muestra del 45% de los registros calculados en el paso anterior:
data_car_null_mask_sample_1 = data_car_null.sample(frac = 0.45)

# los índices de ese 45%
data_car_null_ones_index = data_car_null_mask_sample_1.index
print(len(data_car_null_ones_index))

# los que van a ser rellenados con valor 2 son todos los que no fueron seleccionados en el paso anterior:
data_car_null_twos_index = data_car_null.index.difference(data_car_null_ones_index)
print(len(data_car_null_twos_index))

In [None]:
# Teniendo los Indes asignamos los valores 

data.loc[data_car_null_ones_index, "Car"] = 1
data.loc[data_car_null_twos_index, "Car"] = 2

¡Perfecto! Ya tenemos los planes para rellenar los 62 "huecos" en la columna 'Car': asignar el valor 1 a 28 de ellos y el valor 2 a los 34 restantes, manteniendo así una proporción similar a la que vimos en los datos originales.

**Verificando los Resultados de la Imputación Proporcional en 'Car'**

Antes de realizar la imputación, teníamos los siguientes conteos en la columna 'Car':

* **Valores nulos (NaN):** 62
* **Valor 1:** 5509 registros
* **Valor 2:** 5591 registros

Después de nuestra imputación proporcional, donde asignamos 28 valores de 1 y 34 valores de 2 a los antiguos huecos, deberíamos tener los siguientes conteos:

* **Valores nulos (NaN):** 0 (¡Esperamos haber llenado todos los huecos!)
* **Valor 1:** 5509 (originales) + 28 (imputados) = **5537 registros**
* **Valor 2:** 5591 (originales) + 34 (imputados) = **5625 registros**

Ahora, el siguiente paso es **ejecutar el código en Python para contar los valores en la columna 'Car' después de la imputación** y verificar si los resultados coinciden con estos números esperados. Esto nos confirmará que hemos realizado la imputación correctamente y que ya no quedan valores nulos en esta columna.


In [None]:
cant_car_null = data.Car.isnull().sum()
print(cant_car_null)

car_one_mask = data.Car == 1
cant_car_1 = car_one_mask.sum()
print(cant_car_1)

car_two_mask = data.Car == 2
cant_car_2 = car_two_mask.sum()
print(cant_car_2)

# Building Area

In [None]:
#Anteriormente eliminamos esta columna debido a que sus datos excedían el 40% de nulos; Sin embargo vamos hacer la 
#visualización para terminar de argumentar nuestro porqué a esta eliminación
#Relee el archivo original (cambia el nombre y la ruta según tu caso)
data_original = pd.read_csv("Data/melb_data.csv")

#Importamos la librería de matplotlib
import matplotlib.pyplot as plt


# Ahora sí puedes graficar
def distribution_plotter(data, label, bin_width=150, color_hist='#ffadad', color_kde='#2a9d8f'):
    sns.set(rc={"figure.figsize": (10, 8)})
    sns.set_style("white")

    # Histograma con densidad y KDE separados
    sns.histplot(data, stat='density', kde=False, 
                 binwidth=bin_width, color=color_hist, edgecolor='black', alpha=0.5)

    # Agregamos KDE manualmente
    sns.kdeplot(data.dropna(), linewidth=3, color=color_kde)  # verde oscuro

    plt.title('Distribución de ' + label + '\n', fontsize=18)
    plt.xlabel(label)
    plt.ylabel('Densidad')
    plt.grid(True)
    plt.show()


In [None]:
distribution_plotter(data_original["BuildingArea"], "BuildingArea", bin_width=500)


Vemos que hay muchos outliers, ¿qué forma toma la distribución si nos quedamos sólo con valores menor a 1000?

Usemos para eso boolean indexing:

In [None]:
data_building_area_lt_1000_mask = data.BuildingArea < 1000
data_building_area_lt_1000 = data.loc[data_building_area_lt_1000_mask, :]
#distribution_plotter_warn(data_building_area_lt_1000.BuildingArea, "BuildingArea lt 1000")
distribution_plotter(data_building_area_lt_1000.BuildingArea, "BuildingArea lt 1000", bin_width = 15)

In [None]:
print(data_building_area_lt_1000.BuildingArea.mean())
print(data_building_area_lt_1000.shape)
print(data_building_area_lt_1000.BuildingArea.median())
print(data_building_area_lt_1000.BuildingArea.std())
print("----")
print(data.BuildingArea.mean())
print(data.shape)
print(data.BuildingArea.median())
print(data.BuildingArea.std())


Debido a la gran cantidad de valores faltantes (más del 40%) y la significativa variación en los datos de la columna 'BuildingArea', rellenar estos huecos con un simple promedio (o mediana) no representaría fielmente la información real. Para evitar introducir datos engañosos y distorsionar el análisis, se decidió eliminar por completo la columna, siguiendo la misma lógica aplicada a otras columnas con un alto porcentaje de valores nulos.


# YearBuilt

In [None]:
count_plotter(data.YearBuilt, "YearBuilt",0)

Caso similar al anterior, tiene una gran cantidad de nulos y una inmensa dispersión de valores, entonces no se van a acompletar los datos faltantes en esa columna.

### Councilarea

In [None]:
count_plotter(data.CouncilArea, "CouncilArea", 0)

In [None]:
pd.value_counts(data.CouncilArea)

Aunque la variable CouncilArea contiene información valiosa sobre la ubicación de las propiedades, su alta cardinalidad y la presencia de categorías poco frecuentes motivaron una transformación: agrupamos los valores con menos de 100 registros como "Other", conservando así las zonas más representativas para facilitar el análisis y reducir ruido en modelos predictivos.

In [None]:
##### ara facilitar la visualización y preparar los datos para futuros modelos, agrupamos los distritos con menos de 
##### 100 observaciones en una categoría genérica "Other"

threshold = 100
frequent_areas = data['CouncilArea'].value_counts()
frequent_areas = frequent_areas[frequent_areas >= threshold].index

data['CouncilArea_clean'] = data['CouncilArea'].apply(lambda x: x if x in frequent_areas else 'Other')


In [None]:
sns.set(rc={"figure.figsize": (12, 6)})
sns.countplot(x='CouncilArea_clean', data=data, order=data['CouncilArea_clean'].value_counts().index, palette='Set2')
plt.xticks(rotation=45)
plt.title("Distribución de propiedades por CouncilArea (agrupado)")
plt.ylabel("Cantidad")
plt.xlabel("CouncilArea")
plt.show()


# 4 Análisis Exploratorio EDA

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Estilo general para los gráficos
sns.set(style="whitegrid", palette="pastel")




### Vamos a realizar una distribución general de los precios

In [None]:
plt.figure(figsize=(10, 6))
sns.histplot(data['Price'], bins=50, kde=True, color="#69b3a2")

# Media y mediana
media = data['Price'].mean()
mediana = data['Price'].median()

plt.axvline(media, color='red', linestyle='--', linewidth=2, label=f'Media: {media:,.0f}')
plt.axvline(mediana, color='blue', linestyle='--', linewidth=2, label=f'Mediana: {mediana:,.0f}')

plt.title('Distribución de precios de propiedades')
plt.xlabel('Precio en dólares australianos')
plt.ylabel('Frecuencia')
plt.legend()
plt.grid(True)
plt.show()


La distribución de los precios está claramente sesgada a la derecha, lo que significa que hay un grupo reducido de propiedades extremadamente caras (multimillonarias) que elevan de forma importante el valor promedio.

🔴 La media (línea roja) está desplazada hacia la derecha por estos valores extremos.

🔵 La mediana (línea azul) refleja mejor el "precio típico" de una propiedad, ya que no se ve afectada por los valores atípicos.

Debido a la naturaleza asimétrica de los precios, utilizaremos la mediana como medida de tendencia central, ya que representa de forma más robusta el valor central real de las propiedades.



### Ahora visualizaremos el precio vs El tipo de propiedad

In [None]:
plt.figure(figsize=(8, 6))
sns.boxplot(x='Type', y='Price', data=data)
plt.title('Precio por tipo de propiedad')
plt.xlabel('Tipo de propiedad (h = casa, u = unidad/departamento, t = townhouse)')
plt.ylabel('Precio')
plt.show()


Las **casas (h)** son las más caras y con mayor dispersión, es decir que hay mucha variabilidad en sus precios, bien sea un precio mas accesible así como tipo mansió.
Las **unidades/departamentos (u)** tienen precios más bajos y estables, lo que las hacen atractivas para quiénes buscan un acomodo a su bolsillo y menos variabilidad.
Las **townhouses (t)** están en un pundo medio en cuanto a precio y variabilidad.


### Precio vs Número de habitaciones

In [None]:
plt.figure(figsize=(10, 6))
sns.boxplot(x='Rooms', y='Price', data=data,  palette='Set3')
plt.title('Precio por número de habitaciones')
plt.xlabel('Habitaciones')
plt.ylabel('Precio')
plt.grid(True)
plt.show()


El número de habitaciones es un valor que ingluye pero debe realizarse con respecto a mas variables que también influyen en el precio, se puede observar una tendencia creciente ene l precio a medida que aumentan las habitaicones (hasta 5), después de este valor la relación deja de ser clara y consistente.



### Precio vs Region

In [None]:
plt.figure(figsize=(12, 6))
sns.boxplot(x='Regionname', y='Price', data=data)
plt.xticks(rotation=45)
plt.title('Precio por región de Melbourne')
plt.xlabel('Región')
plt.ylabel('Precio')
plt.tight_layout()
plt.show()


La región es una variable determinante, no solo influye el tamaño o tipo de vivienda sino que también el contexto urbano.

Las regiones más costosas son:
- Southern Metropolitan
- Eastern Metropolitan

Las más accesibles:
- Northern Suburbs
- Western Victoria

### Precio vs Distancia al centro

In [None]:
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Distance', y='Price', data=data, alpha=0.5, color='#69b3a2')
plt.title('Precio vs. distancia al centro de Melbourne')
plt.xlabel('Distancia (km)')
plt.ylabel('Precio')
plt.grid(True)
plt.show()


Se puede observar una **correlación negativa** entre el precio y la distancia al centro, en donde  amayor distancia al centro disminuyen los precios (aunque hay excepciones porbablemen por ser zona costera).

### Mapa de precios (Lattitude vs Longtitude)

In [None]:
plt.figure(figsize=(10, 8))
sns.scatterplot(x='Longtitude', y='Lattitude', hue='Price', data=data, palette='viridis', alpha=0.6)
plt.title('Distribución geográfica del precio')
plt.xlabel('Longitud')
plt.ylabel('Latitud')
plt.legend(title='Precio', loc='upper right')
plt.grid(True)
plt.show()


Visualizando latitud y longitud coloreados por precio podemos observar que las propiedades mas cosotosas tienen a centrarse en ciertas zonas (centro o áreas sobresalientes en el sur y sureste), los precios mas accesibles están ubicados en los extremos norte y oeste.


In [None]:
###Área del edificio o terreno

fig, axs = plt.subplots(1, 2, figsize=(14, 5))

sns.scatterplot(data=data, x='Landsize', y='Price', ax=axs[0])
axs[0].set_title('Precio vs tamaño del terreno')
axs[0].set_xlim(0, 1000)

sns.scatterplot(data=data, x='BuildingArea', y='Price', ax=axs[1])
axs[1].set_title('Precio vs área del edificio')
axs[1].set_xlim(0, 500)

plt.tight_layout()
plt.show()


En general, hay una tendencia clara: propiedades más grandes tienden a tener precios más altos. No obstante, la relación no es totalmente lineal, y hay muchas excepciones. Algunos precios muy altos pueden deberse a ubicación o características especiales.



### 5. Correlaciones numéricas


In [None]:
numericas = data.select_dtypes(include=np.number)
correlacion = numericas.corr()

plt.figure(figsize=(12, 8))
sns.heatmap(correlacion, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Matriz de correlación entre variables numéricas')
plt.show()


### Correlación entre variables numéricas

- El precio se relaciona positivamente con:
    Landsize (tamaño del terreno)
    BuildingArea (tamaño construido)
    Rooms (habitaciones), aunque en menor medida.
    
- Correlación negativa con la distancia al centro: mientras más lejos, menor el precio.

- Variables como Car y YearBuilt muestran correlaciones débiles, posiblemente por:
    Datos faltantes
    Poca influencia real en el precio



## 6. Conclusiones generales


- El precio está sesgado a la derecha lo que indica que no sigue una distribución normal por esta razón se usa la mediana como medida principal.
- El tipo de propiedad y la región son factores determinantes:
    • Las casas (h) son más caras y dispersas.
    • Las regiones Southern y Eastern Metropolitan concentran precios altos.
- A mayor distancia al centro, menor precio (con algunas excepciones).
- Variables como Landsize, BuildingArea y Rooms también influyen de forma importante.
- A pesar de las correlaciones claras, existe dispersión significativa.
   



