# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

Agrega observaciones, conclusiones o notas acerca de los datos obtenidos en cada ejercicio.

In [None]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [None]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [None]:
casa_mas_cara = df.loc[df["price"].idxmax()]
direccion = casa_mas_cara["address"]
price = casa_mas_cara["price"]
print(f'La casa más cara se encuentra en la dirección: {direccion} y su precio es {price} €')

La casa más cara se encuentra en la dirección: El Escorial y su precio es 8500000 €


#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [None]:
casa_mas_barata = df.loc[df["price"].idxmin()]
direccion = casa_mas_barata["address"]
price = casa_mas_barata["price"]
print(f'La casa más barata se encuentra en la dirección: {direccion} y su precio es {price} €')

La casa más barata se encuentra en la dirección: Parla y su precio es 0 €


#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [None]:
casa_mas_grande = df.loc[df["surface"].idxmax()]
direccion = casa_mas_grande["address"]
area = casa_mas_grande["surface"]
print(f'La casa más grande se encuentra en la dirección: {direccion} y su area es de {area} metros')

La casa más grande se encuentra en la dirección: Sevilla la Nueva y su area es de 249000.0 metros


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [None]:
casa_mas_pequeña = df.loc[df["surface"].idxmin()]
direccion = casa_mas_pequeña["address"]
area = casa_mas_pequeña["surface"]
print(f'La casa más pequeña se encuentra en la dirección: {direccion} y su area es de {area} metros')

La casa más pequeña se encuentra en la dirección: Calle Amparo,  Madrid Capital y su area es de 15.0 metros


#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [None]:
#filas
dataset_nulo = df.isnull()
dataset_nulo.any(axis=1)

Unnamed: 0,0
0,True
1,True
2,True
3,True
4,True
...,...
15330,True
15331,True
15332,True
15333,True


In [None]:
#columnas
dataset_nulo.any()

Unnamed: 0,0
Unnamed: 0,False
id_realEstates,False
isNew,False
realEstate_name,True
phone_realEstate,True
url_inmueble,False
rooms,True
bathrooms,True
surface,True
price,False


#### Ejercicio 06.

Elimina las columnas que contengan NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [None]:
nuevo_df = df.dropna(axis=1)
f"data frame original:{df.shape[1]} columnas, data frame sin NAs: {nuevo_df.shape[1]} columnas"

'data frame original:37 columnas, data frame sin NAs: 25 columnas'

#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [None]:
poblaciones = df["level5"].unique()
poblaciones

array(['Arganda del Rey', 'Fuenlabrada', 'Boadilla del Monte',
       'Las Rozas de Madrid', ' Madrid Capital', 'Villaviciosa de Odón',
       'Pinto', 'Valdemoro', 'Navalcarnero', 'Pozuelo de Alarcón',
       'Torrejón de Ardoz', 'Navalagamella', 'San Sebastián de los Reyes',
       'Rivas-vaciamadrid', 'Alpedrete', 'Móstoles',
       'San Fernando de Henares', 'Coslada', 'Becerril de la Sierra',
       'Alcalá de Henares', 'Chinchón', 'Parla', 'Alcorcón',
       'El Escorial', 'Leganés', 'Pedrezuela', 'Majadahonda',
       'Villanueva de la Cañada', 'Villanueva del Pardillo',
       'Torrelodones', 'Moralzarzal', 'Mejorada del Campo', 'Aranjuez',
       'Corpa', 'Getafe', 'Velilla de San Antonio', 'Sevilla la Nueva',
       'San Martín de la Vega', 'Villalbilla', 'Collado Villalba',
       'Alcobendas', 'El Molar (Madrid)', 'Moraleja de Enmedio', 'Algete',
       'Campo Real', 'Torrejón de la Calzada', 'Colmenar Viejo',
       'Valdemorillo', 'Fuente El Saz de Jarama', 'Tres Cantos',

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [None]:
media_precios = df.groupby("level5")["price"].mean()
int(media_precios["Arroyomolinos (Madrid)"])

294541

#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
precios_valdemorillo = int(media_precios["Valdemorillo"])
precios_galapagar = int(media_precios["Galapagar"])
f"promedio de precios en Valdemorillo: {precios_valdemorillo}, promedio de precios en Galapagar: {precios_galapagar}"

'promedio de precios en Valdemorillo: 363860, promedio de precios en Galapagar: 360063'

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
df["pps"]=df["price"]/df["surface"]
media_metros2 = df.groupby("level5")["pps"].mean()
valdemorillo_metros2 = int(media_metros2["Valdemorillo"])
galapagar_metros2 = int(media_metros2["Galapagar"])
f"promedio de precios en Valdemorillo por metros2: {valdemorillo_metros2}promedio de precios en Galapagar por metros2: {galapagar_metros2}"

'promedio de precios en Valdemorillo por metros2: 1317promedio de precios en Galapagar por metros2: 1606'

#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [None]:
num_agencias = df["realEstate_name"].nunique()
f"El número de agencias es {num_agencias}"

'El número de agencias es 1821'

#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [None]:
poblacion_mas_casas = df["level5"].value_counts()
poblacion_mas_casas .idxmax(), int(poblacion_mas_casas .max())
poblacion = poblacion_mas_casas.idxmax()
num_casas = int(poblacion_mas_casas .max())
f"La población con más casas es '{poblacion}' con {num_casas} casas."

"La población con más casas es ' Madrid Capital' con 6643 casas."

---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [None]:
cinturon_sur = df[df["level5"].isin(["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"])]
cinturon_sur

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone,pps
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,1,4028674,-379351,,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,402853785786438,-379508142135624,,,1034.883721
85,86,153152077,False,sinergical inmobiliaria,,https://www.fotocasa.es/es/comprar/vivienda/le...,1.0,1.0,50.0,107000,...,0,0,0,0,1,4035059,-382693,,,2140.000000
94,95,153995577,False,viviendas365com,911226014.0,https://www.fotocasa.es/es/comprar/vivienda/le...,3.0,2.0,120.0,320000,...,0,0,0,0,0,4031933,-377574,,,2666.666667
109,110,153586414,False,area uno asesores inmobiliarios,912664081.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,3.0,142.0,425000,...,0,0,0,0,0,403313411,-38313868,,,2992.957746
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15275,15276,153903887,False,aliseda servicios de gestion inmobiliaria,911368198.0,https://www.fotocasa.es/es/comprar/vivienda/al...,3.0,1.0,78.0,138000,...,0,0,0,0,1,4031381,-383733,,,1769.230769
15291,15292,151697757,False,unipiso,912788631.0,https://www.fotocasa.es/es/comprar/vivienda/al...,3.0,2.0,110.0,279000,...,0,0,0,0,0,403259051,-376318,,,2536.363636
15305,15306,153902389,False,jadein ferrero,914871639.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,85.0,170000,...,0,0,0,0,0,402882193,-38098617,,,2000.000000
15322,15323,153871864,False,gestion comercial,911220662.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,91.0,112000,...,0,0,0,0,0,4028282,-378892,,,1230.769231


#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [None]:
variables = {"precio_media": float(cinturon_sur["price"].mean()),
             "precio_varianza": float(cinturon_sur["price"].var()),
             "habitaciones_media": float(cinturon_sur["rooms"].mean()),
             "habitaciones_varianza": float(cinturon_sur["rooms"].var()),
             "superficie_media": float(cinturon_sur["surface"].mean()),
             "superficie_varianza": float(cinturon_sur["surface"].var()),
             "baños_media": float(cinturon_sur["bathrooms"].mean()),
             "baños_varianza": float(cinturon_sur["bathrooms"].var())}
variables



{'precio_media': 223094.48070562293,
 'precio_varianza': 14921367508.049023,
 'habitaciones_media': 3.0177383592017737,
 'habitaciones_varianza': 0.7188858892927564,
 'superficie_media': 111.75222363405337,
 'superficie_varianza': 4263.051760316343,
 'baños_media': 1.633221850613155,
 'baños_varianza': 0.571796862557738}

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [None]:
casa_mas_cara = cinturon_sur.loc[cinturon_sur.groupby("level5")["price"].idxmax(), ["level5", "address", "price"]]
casa_mas_cara


Unnamed: 0,level5,address,price
5585,Alcorcón,Alcorcón,950000
11561,Fuenlabrada,"Calle de Paulo Freire, 5, Fuenlabrada",490000
2881,Getafe,Getafe,1050000
10412,Leganés,"Avenida Reina Sofía, Leganés",650000


#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [None]:
cinturon_sur.loc[:, "pps"] = cinturon_sur["price"] / cinturon_sur["surface"]
subset_getafe_alcorcon = cinturon_sur[cinturon_sur["level5"].isin(["Getafe", "Alcorcón"])]
precio_m2 = subset_getafe_alcorcon.groupby("level5")["pps"].describe()
precio_m2

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
level5,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Alcorcón,173.0,2239.30248,539.951527,604.761905,1904.081633,2207.792208,2472.727273,3698.159509
Getafe,241.0,2066.314949,741.872702,0.0,1684.285714,1973.333333,2628.787879,3827.160494


## Conclusiones

#### Ejercicio 17



El dataset nos permite extraer información sobre el mercado inmobiliario y cómo se distribuyen las propiedades, aunque es necesario limpiar los datos para obtener resultados más confiables.