# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

In [8]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [9]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('../data/real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [11]:
# Seleccionar la casa con el precio más alto

house_max_price = df.loc[df["price"].idxmax()]

# Extraer dirección y precio
address = house_max_price["address"]
price = house_max_price["price"]

# Imprimir resultado con f-string
print(f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €')

La casa más cara se encuentra en la dirección: El Escorial y su precio es 8500000 €


#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [12]:
# Seleccionar la casa con el precio más bajo
house_min_price = df.loc[df["price"].idxmin()]

# Extraer dirección y precio
address = house_min_price["address"]
price = house_min_price["price"]

# Imprimir resultado con f-string
print(f'La casa más barata se encuentra en la dirección: {address} y su precio es {price} €')

La casa más barata se encuentra en la dirección: Parla y su precio es 0 €


#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [13]:
# Seleccionar la casa con mayor superficie
house_max_area = df.loc[df["surface"].idxmax()]

# Extraer dirección y superficie
address = house_max_area["address"]
surface = house_max_area["surface"]

# Imprimir resultado con f-string
print(f'La casa más grande se encuentra en la dirección: {address} y su área es de {surface} m²')

La casa más grande se encuentra en la dirección: Sevilla la Nueva y su área es de 249000.0 m²


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [14]:
# Seleccionar la casa con menor superficie
house_min_area = df.loc[df["surface"].idxmin()]

# Extraer dirección y superficie
address = house_min_area["address"]
surface = house_min_area["surface"]

# Imprimir resultado con f-string
print(f'La casa más pequeña se encuentra en la dirección: {address} y su área es de {surface} m²')

La casa más pequeña se encuentra en la dirección: Calle Amparo,  Madrid Capital y su área es de 15.0 m²


#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [15]:
# Verificar si las filas contienen valores NaN
filas_con_na = df.isna().any(axis=1)

# Verificar si las columnas contienen valores NaN
columnas_con_na = df.isna().any(axis=0)

# Mostrar resultados
print("¿Las filas contienen valores no admitidos (NAs)?")
print(filas_con_na)

print("\n¿Las columnas contienen valores no admitidos (NAs)?")
print(columnas_con_na)


¿Las filas contienen valores no admitidos (NAs)?
0        True
1        True
2        True
3        True
4        True
         ... 
15330    True
15331    True
15332    True
15333    True
15334    True
Length: 15335, dtype: bool

¿Las columnas contienen valores no admitidos (NAs)?
Unnamed: 0          False
id_realEstates      False
isNew               False
realEstate_name      True
phone_realEstate     True
url_inmueble        False
rooms                True
bathrooms            True
surface              True
price               False
date                False
description          True
address             False
country             False
level1              False
level2              False
level3              False
level4               True
level5              False
level6               True
level7               True
level8               True
upperLevel          False
countryId           False
level1Id            False
level2Id            False
level3Id            False
level4Id       

#### Ejercicio 06.

Elimina los NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [16]:
# Mostrar dimensiones originales
print(f"Dimensiones originales: {df.shape}")

# Eliminar filas que contienen valores NA
df_sin_na = df.dropna()

# Mostrar dimensiones después de eliminar NAs
print(f"Dimensiones después de eliminar NAs: {df_sin_na.shape}")

Dimensiones originales: (15335, 37)
Dimensiones después de eliminar NAs: (0, 37)


#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [17]:
# Verificar cómo se llama la columna (level5 o level5Id)
print(df.columns)

# Extraer valores únicos de la columna de poblaciones
poblaciones = df["level5"].unique()

# Mostrar lista de poblaciones
print("Lista de poblaciones:")
print(poblaciones)

# Mostrar total de poblaciones distintas
print(f"\nTotal de poblaciones: {len(poblaciones)}")

Index(['Unnamed: 0', 'id_realEstates', 'isNew', 'realEstate_name',
       'phone_realEstate', 'url_inmueble', 'rooms', 'bathrooms', 'surface',
       'price', 'date', 'description', 'address', 'country', 'level1',
       'level2', 'level3', 'level4', 'level5', 'level6', 'level7', 'level8',
       'upperLevel', 'countryId', 'level1Id', 'level2Id', 'level3Id',
       'level4Id', 'level5Id', 'level6Id', 'level7Id', 'level8Id', 'accuracy',
       'latitude', 'longitude', 'zipCode', 'customZone'],
      dtype='object')
Lista de poblaciones:
['Arganda del Rey' 'Fuenlabrada' 'Boadilla del Monte'
 'Las Rozas de Madrid' ' Madrid Capital' 'Villaviciosa de Odón' 'Pinto'
 'Valdemoro' 'Navalcarnero' 'Pozuelo de Alarcón' 'Torrejón de Ardoz'
 'Navalagamella' 'San Sebastián de los Reyes' 'Rivas-vaciamadrid'
 'Alpedrete' 'Móstoles' 'San Fernando de Henares' 'Coslada'
 'Becerril de la Sierra' 'Alcalá de Henares' 'Chinchón' 'Parla' 'Alcorcón'
 'El Escorial' 'Leganés' 'Pedrezuela' 'Majadahonda'
 'Villanue

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [18]:
# Filtrar las casas ubicadas en Arroyomolinos (Madrid)
arroyomolinos = df[df["level5"] == "Arroyomolinos (Madrid)"]

# Calcular la media de precios
media_precio = arroyomolinos["price"].mean()

# Mostrar resultado
print(f'La media de precios en Arroyomolinos (Madrid) es de {media_precio:.2f} €')

La media de precios en Arroyomolinos (Madrid) es de 294541.60 €


#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [19]:
# Calcular los precios promedio por población
media_valdemorillo = df[df["level5"] == "Valdemorillo"]["price"].mean()
media_galapagar = df[df["level5"] == "Galapagar"]["price"].mean()

# Mostrar ambos resultados
print(f'Precio promedio en Valdemorillo: {media_valdemorillo:.2f} €')
print(f'Precio promedio en Galapagar: {media_galapagar:.2f} €')

# Comparar igualdad de promedios
if media_valdemorillo == media_galapagar:
    print("\nLos precios promedios son IGUALES.")
else:
    print("\nLos precios promedios son DIFERENTES.")


Precio promedio en Valdemorillo: 363860.29 €
Precio promedio en Galapagar: 360063.20 €

Los precios promedios son DIFERENTES.


Podemos ver que a partir de los datos, depeniendo de la zona son los valores de las propiedades.

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [20]:
# Crear una nueva columna con el precio por metro cuadrado
df["pps"] = df["price"] / df["surface"]

# Calcular los promedios de precio por m² en cada población
pps_valdemorillo = df[df["level5"] == "Valdemorillo"]["pps"].mean()
pps_galapagar = df[df["level5"] == "Galapagar"]["pps"].mean()

# Mostrar los resultados
print(f'Precio promedio por m² en Valdemorillo: {pps_valdemorillo:.2f} €')
print(f'Precio promedio por m² en Galapagar: {pps_galapagar:.2f} €')

# Comparación
if pps_valdemorillo == pps_galapagar:
    print("\nLos precios por m² son IGUALES.")
else:
    print("\nLos precios por m² son DIFERENTES.")

Precio promedio por m² en Valdemorillo: 1317.95 €
Precio promedio por m² en Galapagar: 1606.32 €

Los precios por m² son DIFERENTES.


#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [21]:
# Calcular el número de agencias de bienes raíces únicas
total_agencias = df["realEstate_name"].nunique()

# Mostrar el resultado
print(f'El dataset contiene {total_agencias} agencias de bienes raíces diferentes.')

El dataset contiene 1821 agencias de bienes raíces diferentes.


#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [22]:
# Contar cuántas casas hay por población
casas_por_poblacion = df["level5"].value_counts()

# Obtener la población con más casas
poblacion_max = casas_por_poblacion.idxmax()
cantidad_max = casas_por_poblacion.max()

# Mostrar resultados
print(f'La población con mayor cantidad de casas es: {poblacion_max}, con un total de {cantidad_max} casas.')

La población con mayor cantidad de casas es:  Madrid Capital, con un total de 6643 casas.


---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [23]:
# Crear una lista con las poblaciones del "cinturón sur"
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]

# Filtrar el DataFrame para conservar solo esas poblaciones
df_cinturon_sur = df[df["level5"].isin(cinturon_sur)]

# Mostrar el resultado
print("Subconjunto del cinturón sur creado correctamente.")
print(f"Dimensiones del nuevo DataFrame: {df_cinturon_sur.shape}")
print("\nPoblaciones incluidas:")
print(df_cinturon_sur['level5'].unique())

Subconjunto del cinturón sur creado correctamente.
Dimensiones del nuevo DataFrame: (907, 38)

Poblaciones incluidas:
['Fuenlabrada' 'Alcorcón' 'Leganés' 'Getafe']


#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [24]:
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]
data_cinturon_sur = df[df["level5"].isin(cinturon_sur)]

# Calcular media y varianza muestral para las variables solicitadas
estadisticas = {
    "precio_media": df_cinturon_sur["price"].mean(),
    "precio_varianza": df_cinturon_sur["price"].var(),
    "habitaciones_media": df_cinturon_sur["rooms"].mean(),
    "habitaciones_varianza": df_cinturon_sur["rooms"].var(),
    "superficie_media": df_cinturon_sur["surface"].mean(),
    "superficie_varianza": df_cinturon_sur["surface"].var(),
    "baños_media": df_cinturon_sur["bathrooms"].mean(),
    "baños_varianza": df_cinturon_sur["bathrooms"].var()
}

# Mostrar el diccionario con los resultados
print("Estadísticas del cinturón sur de Madrid:\n")
for k, v in estadisticas.items():
    print(f"{k}: {v:.2f}")

Estadísticas del cinturón sur de Madrid:

precio_media: 223094.48
precio_varianza: 14921367508.05
habitaciones_media: 3.02
habitaciones_varianza: 0.72
superficie_media: 111.75
superficie_varianza: 4263.05
baños_media: 1.63
baños_varianza: 0.57


#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [25]:
# Crear el subset con el "cinturón sur"
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]
data_cinturon_sur = df[df["level5"].isin(cinturon_sur)]

# Obtener la casa más cara de cada población
casas_mas_caras = (
    data_cinturon_sur.loc[data_cinturon_sur.groupby("level5")["price"].idxmax(), ["level5", "address", "price"]]
    .reset_index(drop=True)
)

# Mostrar resultados
print("Casas más caras del cinturón sur de Madrid:\n")
print(casas_mas_caras)

Casas más caras del cinturón sur de Madrid:

        level5                                address    price
0     Alcorcón                               Alcorcón   950000
1  Fuenlabrada  Calle de Paulo Freire, 5, Fuenlabrada   490000
2       Getafe                                 Getafe  1050000
3      Leganés           Avenida Reina Sofía, Leganés   650000


#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [26]:
# Calcular el promedio de precio por m² para Getafe y Alcorcón
pps_getafe = df_cinturon_sur[df_cinturon_sur["level5"] == "Getafe"]["pps"].mean()
pps_alcorcon = df_cinturon_sur[df_cinturon_sur["level5"] == "Alcorcón"]["pps"].mean()

# Mostrar resultados
print(f'Precio promedio por m² en Getafe: {pps_getafe:.2f} €')
print(f'Precio promedio por m² en Alcorcón: {pps_alcorcon:.2f} €')

# Comparar valores
if pps_getafe > pps_alcorcon:
    print("\nEl precio por m² es mayor en Getafe.")
elif pps_getafe < pps_alcorcon:
    print("\nEl precio por m² es mayor en Alcorcón.")
else:
    print("\nEl precio por m² es igual en ambos muni")

Precio promedio por m² en Getafe: 2066.31 €
Precio promedio por m² en Alcorcón: 2239.30 €

El precio por m² es mayor en Alcorcón.


Poemos concluir que los predios de mayor valor se encuentran en Alcorcon.

## Conclusiones

#### Ejercicio 17

En este trabajo lo que hicimos fue estudiar un dataset de Fotocasas de España, para entender cómo viene el mercado inmobiliario allá. Vimos cuál era la casa más cara, sacamos cuentas del precio, la cantidad de metros, cuántos cuartos y baños tiene, y también comparamos el precio por metro cuadrado entre distintas zonas. Además, vimos cómo se reparte la cantidad de propiedades según la población y qué tan activas están las inmobiliarias por ahí.

En pocas palabras, nos quedó clarito que los precios y los tamaños cambian según la zona, y de paso nos sirvió para practicar cómo limpiar datos, filtrarlos, armar subconjuntos y sacar estadísticas en la vida