# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

In [3]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [4]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('../data/real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [5]:
max_price = df['price'].max()

casa_mas_cara = df[df['price'] == max_price]

address = casa_mas_cara.iloc[0]['address']
price = casa_mas_cara.iloc[0]['price']

print(f'La casa más cara está en la dirección: {address} y su precio es {price} €')

La casa más cara se encuentra en la dirección: El Escorial y su precio es 8500000 €


#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [8]:
min_price = df['price'].min()

casa_mas_barata = df[df['price'] == min_price]

address = casa_mas_barata.iloc[0]['address']
price = casa_mas_barata.iloc[0]['price']

print(f'La casa más barata está en la dirección: {address} y su precio es {price} €')

La casa más barata está en la dirección: Parla y su precio es 0 €


Como comentario, veo en el dataset que hay varias casas que el precio es 0 €. Agregué solo una con iloc porque vi que es lo que solicitaba el ejercicio

#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [11]:
max_surface = df['surface'].max()

casa_mas_grande = df[df['surface'] == max_surface]

address = casa_mas_grande.iloc[0]['address']
surface = casa_mas_grande.iloc[0]['surface']

print(f'La casa más grande está en la dirección: {address} y su area es {surface}')

La casa más grande está en la dirección: Sevilla la Nueva y su area es 249000.0


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [12]:
min_surface = df['surface'].min()

casa_mas_chica = df[df['surface'] == min_surface]

address = casa_mas_chica.iloc[0]['address']
surface = casa_mas_chica.iloc[0]['surface']

print(f'La casa más chica está en la dirección: {address} y su area es {surface}')

La casa más chica está en la dirección: Calle Amparo,  Madrid Capital y su area es 15.0


#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [13]:
print("¿La fila tiene un valor NA?")
print(df.isna().any(axis=1))

# 3️⃣ Ver si hay valores nulos (NAs) en cada columna
print("\n¿Hay valores NA en las columnas?")
print(df.isna().any())

¿La fila tiene un valor NA?
0        True
1        True
2        True
3        True
4        True
         ... 
15330    True
15331    True
15332    True
15333    True
15334    True
Length: 15335, dtype: bool

¿Hay valores NA en las columnas?
Unnamed: 0          False
id_realEstates      False
isNew               False
realEstate_name      True
phone_realEstate     True
url_inmueble        False
rooms                True
bathrooms            True
surface              True
price               False
date                False
description          True
address             False
country             False
level1              False
level2              False
level3              False
level4               True
level5              False
level6               True
level7               True
level8               True
upperLevel          False
countryId           False
level1Id            False
level2Id            False
level3Id            False
level4Id            False
level5Id            False
lev

Todas las filas tienen por lo menos un valor NA

#### Ejercicio 06.

Elimina los NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [20]:
print(f"Dimensiones originales: {df.shape}")

df_sin_columnas = df.drop(['zipCode', 'customZone'], axis=1)

print(f"Dimensiones después de eliminar zipCode y customZone: {df_sin_columnas.shape}")

Dimensiones originales: (15335, 37)
Dimensiones después de eliminar zipCode y customZone: (15335, 35)


Dejo el codigo planteado. Para mi no tiene sentido eliminar todos los NA del dataset (por filas con valor NA) porque nos quedariamos sin datos. Y tampoco eliminar las columnas con NA porque eliminariamos columnas que para cierta fila si tienen información. Por lo que veo las columnas zipCode y customZone son las que tienen el 100% de sus datos NA así que son las que eliminaria para mejorar el DataFrame

#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [21]:
poblaciones = df['level5'].unique()

print("Lista de poblaciones:")
print(poblaciones)

print(f"\nTotal de poblaciones: {len(poblaciones)}")

Lista de poblaciones:
['Arganda del Rey' 'Fuenlabrada' 'Boadilla del Monte'
 'Las Rozas de Madrid' ' Madrid Capital' 'Villaviciosa de Odón' 'Pinto'
 'Valdemoro' 'Navalcarnero' 'Pozuelo de Alarcón' 'Torrejón de Ardoz'
 'Navalagamella' 'San Sebastián de los Reyes' 'Rivas-vaciamadrid'
 'Alpedrete' 'Móstoles' 'San Fernando de Henares' 'Coslada'
 'Becerril de la Sierra' 'Alcalá de Henares' 'Chinchón' 'Parla' 'Alcorcón'
 'El Escorial' 'Leganés' 'Pedrezuela' 'Majadahonda'
 'Villanueva de la Cañada' 'Villanueva del Pardillo' 'Torrelodones'
 'Moralzarzal' 'Mejorada del Campo' 'Aranjuez' 'Corpa' 'Getafe'
 'Velilla de San Antonio' 'Sevilla la Nueva' 'San Martín de la Vega'
 'Villalbilla' 'Collado Villalba' 'Alcobendas' 'El Molar (Madrid)'
 'Moraleja de Enmedio' 'Algete' 'Campo Real' 'Torrejón de la Calzada'
 'Colmenar Viejo' 'Valdemorillo' 'Fuente El Saz de Jarama' 'Tres Cantos'
 'Arroyomolinos (Madrid)' 'Griñón' 'Paracuellos de Jarama' 'Guadarrama'
 'Titulcia' 'Galapagar' 'Collado Mediano' 'Los 

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [22]:
filtro = df[df['level5'] == 'Arroyomolinos (Madrid)']

media_precios = filtro['price'].mean()

print(f'La media de precios en Arroyomolinos (Madrid) es de {media_precios:.2f} €')

La media de precios en Arroyomolinos (Madrid) es de 294541.60 €


#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [23]:
valdemorillo_prices = df[df['level5'] == 'Valdemorillo']['price']
galapagar_prices = df[df['level5'] == 'Galapagar']['price']

# Calculamos los promedios
promedio_valdemorillo = valdemorillo_prices.mean()
promedio_galapagar = galapagar_prices.mean()

print("Promedio Valdemorillo:", promedio_valdemorillo)
print("Promedio Galapagar:", promedio_galapagar)

Promedio Valdemorillo: 363860.2931034483
Promedio Galapagar: 360063.20238095237


#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [25]:
df['pps'] = df['price'] / df['surface']

valdemorillo_pps = df[df['level5'] == 'Valdemorillo']['pps']
galapagar_pps = df[df['level5'] == 'Galapagar']['pps']

# Calcular promedio
promedio_valdemorillo_pps = valdemorillo_pps.mean()
promedio_galapagar_pps = galapagar_pps.mean()

print("Promedio pps Valdemorillo:", promedio_valdemorillo_pps)
print("Promedio pps Galapagar:", promedio_galapagar_pps)

Promedio pps Valdemorillo: 1317.9502109024986
Promedio pps Galapagar: 1606.3240303094024


#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [26]:
num_agencias = df['realEstate_name'].nunique()

print("Número de agencias de bienes raíces:", num_agencias)

Número de agencias de bienes raíces: 1821


#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [27]:
casas_por_poblacion = df['level5'].value_counts()

poblacion_max = casas_por_poblacion.idxmax()
num_casas_max = casas_por_poblacion.max()

print("Población con más casas:", poblacion_max)
print("Número de casas:", num_casas_max)

Población con más casas:  Madrid Capital
Número de casas: 6643


---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [28]:
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]

# Filtrar el DataFrame original
df_cinturon_sur = df[df['level5'].isin(cinturon_sur)]

# Ver las primeras filas para comprobar
df_cinturon_sur.head()

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone,pps
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,1,4028674,-379351,,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,402853785786438,-379508142135624,,,1034.883721
85,86,153152077,False,sinergical inmobiliaria,,https://www.fotocasa.es/es/comprar/vivienda/le...,1.0,1.0,50.0,107000,...,0,0,0,0,1,4035059,-382693,,,2140.0
94,95,153995577,False,viviendas365com,911226014.0,https://www.fotocasa.es/es/comprar/vivienda/le...,3.0,2.0,120.0,320000,...,0,0,0,0,0,4031933,-377574,,,2666.666667
109,110,153586414,False,area uno asesores inmobiliarios,912664081.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,3.0,142.0,425000,...,0,0,0,0,0,403313411,-38313868,,,2992.957746


#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [30]:
columnas = ['price', 'rooms', 'surface', 'bathrooms']

estadisticas = {}

for col in columnas:
    media = df_cinturon_sur[col].mean()
    varianza = df_cinturon_sur[col].var(ddof=1)
    estadisticas[col] = {'media': media, 'varianza': varianza}

estadisticas

{'price': {'media': np.float64(223094.48070562293),
  'varianza': np.float64(14921367508.04902)},
 'rooms': {'media': np.float64(3.0177383592017737),
  'varianza': np.float64(0.7188858892927542)},
 'surface': {'media': np.float64(111.75222363405337),
  'varianza': np.float64(4263.051760316337)},
 'bathrooms': {'media': np.float64(1.633221850613155),
  'varianza': np.float64(0.5717968625577321)}}

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [31]:
idx_max_precio = df_cinturon_sur.groupby('level5')['price'].idxmax()

casas_mas_caras = df_cinturon_sur.loc[idx_max_precio, ['level5', 'address', 'price']]

casas_mas_caras = casas_mas_caras.reset_index(drop=True)

casas_mas_caras

Unnamed: 0,level5,address,price
0,Alcorcón,Alcorcón,950000
1,Fuenlabrada,"Calle de Paulo Freire, 5, Fuenlabrada",490000
2,Getafe,Getafe,1050000
3,Leganés,"Avenida Reina Sofía, Leganés",650000


Mi conclusión:
Cada población del cinturón sur de Madrid tiene casas con precios máximos distintos.
Estas propiedades representan los extremos del mercado en cada área:
- Fuenlabrada: Calle de Paulo Freire, 5, Fuenlabrada, precio 490000 €
- Leganés: Avenida Reina Sofía, Leganés, precio 650000 €
- Getafe: Getafe, precio 1050000 €
- Alcorcón: Alcorcón, precio 950000 €

Vemos que el precio de la casa más cara varía significativamente entre poblaciones, reflejando diferencias de demanda y características del mercado local.

#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [None]:
# TODO

## Conclusiones

#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto