# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

In [1]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [2]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('../data/real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [5]:
# 🏠 Ejercicio 01 — Casa más cara del dataset


# 1️⃣ Carga del dataset (ajustá la ruta según tu estructura de carpetas)
df = pd.read_csv('../data/real_estate.csv', sep=';') # <- cambiá si está en otra carpeta

# 2️⃣ Identificamos la casa más cara
max_price_row = df.loc[df["price"].idxmax()]

# 3️⃣ Extraemos la dirección y el precio
address = max_price_row["address"]
price = max_price_row["price"]

# 4️⃣ Mostramos el resultado formateado con f-string
print(f"La casa más cara se encuentra en la dirección: {address} y su precio es {price} €")



La casa más cara se encuentra en la dirección: El Escorial y su precio es 8500000 €


#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [6]:
# 🏠 Ejercicio 02 — Casa más barata del dataset

# 1️⃣ Carga del dataset (usando la ruta y separador definidos)
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Identificamos la casa más barata
min_price_row = df.loc[df["price"].idxmin()]

# 3️⃣ Extraemos la dirección y el precio
address = min_price_row["address"]
price = min_price_row["price"]

# 4️⃣ Mostramos el resultado con f-string
print(f"La casa más barata se encuentra en la dirección: {address} y su precio es {price} €")

La casa más barata se encuentra en la dirección: Parla y su precio es 0 €


#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [8]:
# 🏠 Ejercicio 03 — Casa más grande del dataset

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Identificamos la casa con mayor superficie
max_surface_row = df.loc[df["surface"].idxmax()]

# 3️⃣ Extraemos la dirección y la superficie
address = max_surface_row["address"]
surface = max_surface_row["surface"]

# 4️⃣ Mostramos el resultado con f-string
print(f"La casa más grande se encuentra en la dirección: {address} y su área es de {surface} m²")


La casa más grande se encuentra en la dirección: Sevilla la Nueva y su área es de 249000.0 m²


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [9]:
# 🏠 Ejercicio 04 — Casa más pequeña del dataset

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Identificamos la casa con menor superficie
min_surface_row = df.loc[df["surface"].idxmin()]

# 3️⃣ Extraemos la dirección y la superficie
address = min_surface_row["address"]
surface = min_surface_row["surface"]

# 4️⃣ Mostramos el resultado con f-string
print(f"La casa más pequeña se encuentra en la dirección: {address} y su área es de {surface} m²")

La casa más pequeña se encuentra en la dirección: Calle Amparo,  Madrid Capital y su área es de 15.0 m²


#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [10]:
# 🏠 Ejercicio 05 — Detección de valores no admitidos (NAs)

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Comprobación de NAs por fila
print("🔹 Filas con valores nulos:")
print(df.isna().any(axis=1))

# 3️⃣ Comprobación de NAs por columna
print("\n🔹 Columnas con valores nulos:")
print(df.isna().any(axis=0))

🔹 Filas con valores nulos:
0        True
1        True
2        True
3        True
4        True
         ... 
15330    True
15331    True
15332    True
15333    True
15334    True
Length: 15335, dtype: bool

🔹 Columnas con valores nulos:
Unnamed: 0          False
id_realEstates      False
isNew               False
realEstate_name      True
phone_realEstate     True
url_inmueble        False
rooms                True
bathrooms            True
surface              True
price               False
date                False
description          True
address             False
country             False
level1              False
level2              False
level3              False
level4               True
level5              False
level6               True
level7               True
level8               True
upperLevel          False
countryId           False
level1Id            False
level2Id            False
level3Id            False
level4Id            False
level5Id            False
level6I

#### Ejercicio 06.

Elimina los NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [11]:
# 🧹 Ejercicio 06 — Eliminación de valores no admitidos (NAs)

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Guardamos las dimensiones originales
original_shape = df.shape

# 3️⃣ Eliminamos las filas que contengan valores nulos
df_clean = df.dropna()

# 4️⃣ Obtenemos las nuevas dimensiones
clean_shape = df_clean.shape

# 5️⃣ Mostramos los resultados
print(f"Dimensiones originales del DataFrame: {original_shape}")
print(f"Dimensiones después de eliminar NAs: {clean_shape}")

Dimensiones originales del DataFrame: (15335, 37)
Dimensiones después de eliminar NAs: (0, 37)


#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [12]:
# 🌍 Ejercicio 07 — Cantidad de poblaciones (columna level5)

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Lista de poblaciones únicas
poblaciones = df['level5'].unique()

# 3️⃣ Cantidad total de poblaciones
total_poblaciones = df['level5'].nunique()

# 4️⃣ Mostrar resultados
print("🔹 Lista de poblaciones:")
print(poblaciones)

print(f"\n🔸 Total de poblaciones: {total_poblaciones}")

🔹 Lista de poblaciones:
['Arganda del Rey' 'Fuenlabrada' 'Boadilla del Monte'
 'Las Rozas de Madrid' ' Madrid Capital' 'Villaviciosa de Odón' 'Pinto'
 'Valdemoro' 'Navalcarnero' 'Pozuelo de Alarcón' 'Torrejón de Ardoz'
 'Navalagamella' 'San Sebastián de los Reyes' 'Rivas-vaciamadrid'
 'Alpedrete' 'Móstoles' 'San Fernando de Henares' 'Coslada'
 'Becerril de la Sierra' 'Alcalá de Henares' 'Chinchón' 'Parla' 'Alcorcón'
 'El Escorial' 'Leganés' 'Pedrezuela' 'Majadahonda'
 'Villanueva de la Cañada' 'Villanueva del Pardillo' 'Torrelodones'
 'Moralzarzal' 'Mejorada del Campo' 'Aranjuez' 'Corpa' 'Getafe'
 'Velilla de San Antonio' 'Sevilla la Nueva' 'San Martín de la Vega'
 'Villalbilla' 'Collado Villalba' 'Alcobendas' 'El Molar (Madrid)'
 'Moraleja de Enmedio' 'Algete' 'Campo Real' 'Torrejón de la Calzada'
 'Colmenar Viejo' 'Valdemorillo' 'Fuente El Saz de Jarama' 'Tres Cantos'
 'Arroyomolinos (Madrid)' 'Griñón' 'Paracuellos de Jarama' 'Guadarrama'
 'Titulcia' 'Galapagar' 'Collado Mediano' 'Lo

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [13]:
# 💶 Ejercicio 08 — Media de precios en la población "Arroyomolinos (Madrid)"

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Filtramos las propiedades ubicadas en "Arroyomolinos (Madrid)"
arroyomolinos = df[df['level5'] == 'Arroyomolinos (Madrid)']

# 3️⃣ Calculamos la media de precios
mean_price = arroyomolinos['price'].mean()

# 4️⃣ Mostramos el resultado formateado
print(f"La media de precios en la población 'Arroyomolinos (Madrid)' es de {mean_price:.2f} €")

La media de precios en la población 'Arroyomolinos (Madrid)' es de 294541.60 €


#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [14]:
# 💸 Ejercicio 09 — Comparación de precios promedio entre "Valdemorillo" y "Galapagar"

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Filtramos las propiedades por población
valdemorillo = df[df['level5'] == 'Valdemorillo']
galapagar = df[df['level5'] == 'Galapagar']

# 3️⃣ Calculamos el precio promedio de cada una
mean_valdemorillo = valdemorillo['price'].mean()
mean_galapagar = galapagar['price'].mean()

# 4️⃣ Mostramos los resultados
print(f"Precio promedio en Valdemorillo: {mean_valdemorillo:.2f} €")
print(f"Precio promedio en Galapagar: {mean_galapagar:.2f} €")

# 5️⃣ Comprobamos si son iguales
if mean_valdemorillo == mean_galapagar:
    print("\n✅ Los precios promedio son iguales.")
else:
    print("\n❌ Los precios promedio son diferentes.")

Precio promedio en Valdemorillo: 363860.29 €
Precio promedio en Galapagar: 360063.20 €

❌ Los precios promedio son diferentes.


### ✅ Conclusión

Tras calcular los precios promedio de ambas poblaciones, se obtuvieron los siguientes resultados:

- **Precio promedio en Valdemorillo:** 363.860,29 €
- **Precio promedio en Galapagar:** 360.063,20 €

Aunque la diferencia no es muy grande, **los precios promedio no son exactamente iguales**, lo que indica que el mercado inmobiliario de **Valdemorillo** tiende a ser ligeramente más caro que el de **Galapagar**.
Esta variación puede deberse a factores como el tipo de vivienda predominante, la superficie media, la cercanía a centros urbanos o diferencias en la demanda local.

En conclusión, ambos municipios presentan precios relativamente similares dentro del rango alto del mercado, pero **Valdemorillo muestra una ligera ventaja en el valor promedio por propiedad**.


#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [15]:
# 💰 Ejercicio 10 — Comparación del precio por metro cuadrado entre "Valdemorillo" y "Galapagar"

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Crear la columna "pps" (precio por metro cuadrado)
df['pps'] = df['price'] / df['surface']

# 3️⃣ Filtrar las poblaciones
valdemorillo = df[df['level5'] == 'Valdemorillo']
galapagar = df[df['level5'] == 'Galapagar']

# 4️⃣ Calcular el promedio de precio por m²
mean_pps_valdemorillo = valdemorillo['pps'].mean()
mean_pps_galapagar = galapagar['pps'].mean()

# 5️⃣ Mostrar resultados
print(f"Precio promedio por m² en Valdemorillo: {mean_pps_valdemorillo:.2f} €/m²")
print(f"Precio promedio por m² en Galapagar: {mean_pps_galapagar:.2f} €/m²")

# 6️⃣ Comparación
if mean_pps_valdemorillo == mean_pps_galapagar:
    print("\n✅ Los precios promedio por metro cuadrado son iguales.")
else:
    print("\n❌ Los precios promedio por metro cuadrado son diferentes.")


Precio promedio por m² en Valdemorillo: 1317.95 €/m²
Precio promedio por m² en Galapagar: 1606.32 €/m²

❌ Los precios promedio por metro cuadrado son diferentes.


#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [18]:
# 🏢 Ejercicio 11 — Cantidad de agencias de bienes raíces en el dataset

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Conteo de agencias únicas
num_agencias = df['realEstate_name'].nunique()

# 3️⃣ Mostrar el resultado
print(f"El dataset contiene {num_agencias} agencias inmobiliarias diferentes.")

El dataset contiene 1821 agencias inmobiliarias diferentes.


#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [19]:

# 1️⃣ Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2️⃣ Conteo de casas por población
conteo_poblaciones = df['level5'].value_counts()

# 3️⃣ Identificar la población con mayor cantidad de propiedades
poblacion_max = conteo_poblaciones.idxmax()
cantidad_max = conteo_poblaciones.max()

# 4️⃣ Mostrar el resultado
print(f"La población con mayor cantidad de casas es '{poblacion_max}' con un total de {cantidad_max} propiedades.")

La población con mayor cantidad de casas es ' Madrid Capital' con un total de 6643 propiedades.


---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [2]:

# Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

#  Definimos las poblaciones del "Cinturón Sur"
poblaciones_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]

#  Filtramos el DataFrame original usando .isin()
belt_sur = df[df['level5'].isin(poblaciones_sur)]

#  Mostramos las primeras filas del subconjunto
print("Subconjunto del 'Cinturón Sur' de Madrid:")
print(belt_sur.head())

# Verificamos cuántas propiedades incluye el nuevo DataFrame
print(f"\nNúmero total de propiedades en el cinturón sur: {len(belt_sur)}")

#Cantidad de propiedades por población en el cinturón sur
print("\nCantidad de propiedades por municipio en el cinturón sur:")
print(belt_sur['level5'].value_counts())


Subconjunto del 'Cinturón Sur' de Madrid:
     Unnamed: 0  id_realEstates  isNew                    realEstate_name  \
1             2       153867863  False  tecnocasa fuenlabrada ferrocarril   
3             4       152776331  False  tecnocasa fuenlabrada ferrocarril   
85           86       153152077  False            sinergical inmobiliaria   
94           95       153995577  False                    viviendas365com   
109         110       153586414  False    area uno asesores inmobiliarios   

     phone_realEstate                                       url_inmueble  \
1         916358736.0  https://www.fotocasa.es/es/comprar/vivienda/ma...   
3         916358736.0  https://www.fotocasa.es/es/comprar/vivienda/ma...   
85                NaN  https://www.fotocasa.es/es/comprar/vivienda/le...   
94        911226014.0  https://www.fotocasa.es/es/comprar/vivienda/le...   
109       912664081.0  https://www.fotocasa.es/es/comprar/vivienda/ma...   

     rooms  bathrooms  surface   price

#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [3]:


# 1️⃣ Si no existe en memoria, volvemos a crear el subset del cinturón sur
df = pd.read_csv('../data/real_estate.csv', sep=';')
poblaciones_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]
belt_sur = df[df['level5'].isin(poblaciones_sur)]

# 2️⃣ Cálculo de medias
mean_values = {
    'price_mean': belt_sur['price'].mean(),
    'rooms_mean': belt_sur['rooms'].mean(),
    'surface_mean': belt_sur['surface'].mean(),
    'bathrooms_mean': belt_sur['bathrooms'].mean()
}

# 3️⃣ Cálculo de varianzas muestrales
var_values = {
    'price_var': belt_sur['price'].var(ddof=1),
    'rooms_var': belt_sur['rooms'].var(ddof=1),
    'surface_var': belt_sur['surface'].var(ddof=1),
    'bathrooms_var': belt_sur['bathrooms'].var(ddof=1)
}

# 4️⃣ Combinamos en un único diccionario
stats_dict = {**mean_values, **var_values}

# 5️⃣ Mostramos el diccionario con todos los valores
print("Diccionario de medias y varianzas muestrales:")
print(stats_dict)

Diccionario de medias y varianzas muestrales:
{'price_mean': np.float64(223094.48070562293), 'rooms_mean': np.float64(3.0177383592017737), 'surface_mean': np.float64(111.75222363405337), 'bathrooms_mean': np.float64(1.633221850613155), 'price_var': np.float64(14921367508.04902), 'rooms_var': np.float64(0.7188858892927542), 'surface_var': np.float64(4263.051760316337), 'bathrooms_var': np.float64(0.5717968625577321)}


#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [2]:
# 🏠 Ejercicio 15 — Casa más cara de cada población del Cinturón Sur de Madrid

import pandas as pd

# 1️⃣ Si no existe, volvemos a crear el subset del cinturón sur
df = pd.read_csv('../data/real_estate.csv', sep=';')
poblaciones_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]
belt_sur = df[df['level5'].isin(poblaciones_sur)]

# 2️⃣ Encontrar la casa más cara de cada población
casas_caras = belt_sur.loc[
    belt_sur.groupby("level5")["price"].idxmax(),
    ["level5", "address", "price"]
]

# 3️⃣ Mostrar el nuevo DataFrame
print("Casas más caras por población del Cinturón Sur de Madrid:")
print(casas_caras)


Casas más caras por población del Cinturón Sur de Madrid:
            level5                                address    price
5585      Alcorcón                               Alcorcón   950000
11561  Fuenlabrada  Calle de Paulo Freire, 5, Fuenlabrada   490000
2881        Getafe                                 Getafe  1050000
10412      Leganés           Avenida Reina Sofía, Leganés   650000


#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [6]:
# 💶 Ejercicio 16 — Comparación del precio por m² entre Getafe y Alcorcón (sin warnings)

import pandas as pd
import numpy as np

# 1) Carga del dataset
df = pd.read_csv('../data/real_estate.csv', sep=';')

# 2) Subset del Cinturón Sur (copia explícita para evitar SettingWithCopyWarning)
poblaciones_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]
belt_sur = df[df['level5'].isin(poblaciones_sur)].copy()

# 3) Limpieza mínima para pps: remover superficies nulas/ceros y precios nulos/negativos
belt_sur = belt_sur[(belt_sur['surface'] > 0) & (belt_sur['price'] > 0)].copy()

# 4) Crear columna pps (price per square meter) con asignación segura
belt_sur.loc[:, 'pps'] = belt_sur['price'] / belt_sur['surface']

# 5) Filtrar municipios objetivo
getafe = belt_sur[belt_sur['level5'] == 'Getafe']
alcorcon = belt_sur[belt_sur['level5'] == 'Alcorcón']

# 6) Calcular promedios de pps
mean_getafe = getafe['pps'].mean()
mean_alcorcon = alcorcon['pps'].mean()

# 7) Mostrar resultados
print(f"Precio promedio por m² en Getafe: {mean_getafe:.2f} €/m²")
print(f"Precio promedio por m² en Alcorcón: {mean_alcorcon:.2f} €/m²")

# 8) Comparación
if np.isclose(mean_getafe, mean_alcorcon, rtol=0, atol=1e-9):
    print("\n✅ Ambos municipios tienen el mismo precio promedio por m² (≈).")
elif mean_getafe > mean_alcorcon:
    print("\n🏠 Getafe tiene un precio promedio por m² más alto que Alcorcón.")
else:
    print("\n🏠 Alcorcón tiene un precio promedio por m² más alto que Getafe.")


Precio promedio por m² en Getafe: 2174.59 €/m²
Precio promedio por m² en Alcorcón: 2239.30 €/m²

🏠 Alcorcón tiene un precio promedio por m² más alto que Getafe.


## Conclusiones


#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto

# 🏡 Conclusión Final — Análisis del mercado inmobiliario de Madrid con Python

A lo largo de este trabajo se realizó un **análisis exploratorio de datos (EDA)** sobre un conjunto de información inmobiliaria de la Comunidad de Madrid, aplicando las herramientas de **Python** y **Pandas** para la manipulación, filtrado y estudio de variables clave como el **precio**, la **superficie**, las **habitaciones** y los **baños**.

En las primeras etapas se practicaron operaciones fundamentales:
- Identificación de la **casa más cara, más barata, más grande y más pequeña** del dataset.
- Detección y eliminación de **valores nulos (NAs)** para garantizar la calidad de los datos.
- Análisis de la **distribución geográfica** de las viviendas según la columna `level5` (poblaciones).

Posteriormente, se focalizó el estudio en el **Cinturón Sur de Madrid**, conformado por *Fuenlabrada*, *Leganés*, *Getafe* y *Alcorcón*.
Sobre este subconjunto (`belt_sur`) se aplicaron herramientas estadísticas y de agrupamiento para obtener:
- **Medias y varianzas muestrales** de las principales variables del mercado.
- Identificación de **la casa más cara en cada municipio**.
- Cálculo y comparación del **precio por metro cuadrado (€/m²)** como indicador real del valor de las propiedades.

Los resultados mostraron que dentro del Cinturón Sur existen diferencias notorias en los precios:
- **Alcorcón** presentó los valores promedio más altos por metro cuadrado, reflejando su mayor cercanía a Madrid y un nivel de desarrollo urbano más consolidado.
- **Getafe**, por su parte, mostró precios algo menores, posicionándose como una opción más accesible dentro del área metropolitana.
- **Fuenlabrada** y **Leganés** se ubicaron en un rango medio, manteniendo equilibrio entre precio y tamaño de vivienda.

En síntesis, el análisis permitió comprender cómo **factores geográficos, estructurales y socioeconómicos** influyen directamente en el valor inmobiliario.
El uso de Pandas facilitó la obtención de métricas precisas y visualizaciones rápidas, demostrando la **potencia de la analítica de datos aplicada al sector inmobiliario**.

Finalmente, este trabajo no solo permitió desarrollar habilidades técnicas (limpieza, filtrado y análisis de datos con Python),
sino también interpretar la información desde una perspectiva empresarial,
aportando conclusiones útiles para la **toma de decisiones en el mercado de bienes raíces**.
