# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

Agrega observaciones, conclusiones o notas acerca de los datos obtenidos en cada ejercicio.

In [1]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [2]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('assets/real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [34]:
casa_cara = df['price'].idxmax()
fila_casa_cara = df.loc[casa_cara]
calle = fila_casa_cara['address']
precio = fila_casa_cara['price']
print(f'La casa más cara se encuentra en la dirección: {calle} y su precio es {precio} €')

La casa más cara se encuentra en la dirección: El Escorial y su precio es 8500000 €


#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [4]:
casa_barata = df['price'].idxmin()
fila_casa_barata = df.loc[casa_barata]
calle2 = fila_casa_barata['address']
precio2 = fila_casa_barata['price']
print(f'La casa más cara se encuentra en la dirección: {calle2} y su precio es {precio2} €')

La casa más cara se encuentra en la dirección: Parla y su precio es 0 €


#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [5]:
casa_superficie_grande = df['surface'].idxmax()
fila_casa_superficie_grande = df.loc[casa_superficie_grande]
direccion = fila_casa_superficie_grande['address']
superficie = fila_casa_superficie_grande['surface']
print(f"La casa más grande se encuentra en la dirección: {direccion} y tiene una superficie de {superficie}")

La casa más grande se encuentra en la dirección: Sevilla la Nueva y tiene una superficie de 249000.0


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [6]:
casa_superficie_pequeña = df['surface'].idxmin()
fila_casa_superficie_pequeña = df.loc[casa_superficie_pequeña]
direccion2 = fila_casa_superficie_pequeña['address']
superficie2 = fila_casa_superficie_pequeña['surface']
print(f"La casa más pequeña se encuentra en la dirección: {direccion2} y tiene una superficie de {superficie2}")

La casa más pequeña se encuentra en la dirección: Calle Amparo,  Madrid Capital y tiene una superficie de 15.0


#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [35]:
filas_nas = df.isnull().any(axis=1)
columnas_nas = df.isnull().any()
columnas_nas
filas_nas

0        True
1        True
2        True
3        True
4        True
         ... 
15330    True
15331    True
15332    True
15333    True
15334    True
Length: 15335, dtype: bool

#### Ejercicio 06.

Elimina las columnas que contengan NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [None]:
print(f"Data Frame Original:\nFilas: {df.shape[0]}\nColumnas: {df.shape[1]}")
data_frame = df.dropna(axis=1)
print(f"Data Frame Original:\nFilas: {data_frame.shape[0]}\nColumnas: {data_frame.shape[1]}")

Data Frame Original:
Filas: 15335
Columnas: 37
Data Frame Original:
Filas: 15335
Columnas: 37


#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [66]:
poblaciones = df['level5'].unique()
print(f"En total hay {len(poblaciones)} poblaciones.")
poblaciones


En total hay 168 poblaciones.


array(['Arganda del Rey', 'Fuenlabrada', 'Boadilla del Monte',
       'Las Rozas de Madrid', ' Madrid Capital', 'Villaviciosa de Odón',
       'Pinto', 'Valdemoro', 'Navalcarnero', 'Pozuelo de Alarcón',
       'Torrejón de Ardoz', 'Navalagamella', 'San Sebastián de los Reyes',
       'Rivas-vaciamadrid', 'Alpedrete', 'Móstoles',
       'San Fernando de Henares', 'Coslada', 'Becerril de la Sierra',
       'Alcalá de Henares', 'Chinchón', 'Parla', 'Alcorcón',
       'El Escorial', 'Leganés', 'Pedrezuela', 'Majadahonda',
       'Villanueva de la Cañada', 'Villanueva del Pardillo',
       'Torrelodones', 'Moralzarzal', 'Mejorada del Campo', 'Aranjuez',
       'Corpa', 'Getafe', 'Velilla de San Antonio', 'Sevilla la Nueva',
       'San Martín de la Vega', 'Villalbilla', 'Collado Villalba',
       'Alcobendas', 'El Molar (Madrid)', 'Moraleja de Enmedio', 'Algete',
       'Campo Real', 'Torrejón de la Calzada', 'Colmenar Viejo',
       'Valdemorillo', 'Fuente El Saz de Jarama', 'Tres Cantos',

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [105]:
poblacion_arroyomolinos = df['level5'] == 'Arroyomolinos (Madrid)'
df_arroyomolinos = df.loc[poblacion_arroyomolinos]
media_precios = df_arroyomolinos['price'].mean()
print(f"La media de precios es: {media_precios:.2f} €")
# foo = df['level5'].str.startswith('Arro')
# df_foo = df[foo]
# df_foo['level5']

La media de precios es: 294541.60 €


#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [106]:
valdemorillo = df['level5'] == 'Valdemorillo'
galapagar = df['level5'] == 'Galapagar'
df_valdemorillo = df[valdemorillo]
df_galapagar = df[galapagar]

promedio_v = df_valdemorillo['price'].mean()
promedio_g = df_galapagar['price'].mean()


print(f"El precio promedio de Valdemorillo es: {round(promedio_v, 2)} €\nEl precio promedio de Galapagar es: {promedio_g:.2f} €")
diferencia = promedio_v - promedio_g
print(f"Diferencia entre promedios: {round(diferencia, 2)} €")

El precio promedio de Valdemorillo es: 363860.29 €
El precio promedio de Galapagar es: 360063.20 €
Diferencia entre promedios: 3797.09 €


A pesar de ser poblaciones distintas ambas comparten un promedio de precios muy parecidos, con una diferencia de 3797.09€ lo que indica que comparten ciertas caracteristicas similares.

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [12]:
# TODO

#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [13]:
# TODO

#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [14]:
# TODO

---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [15]:
# TODO

#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [16]:
# TODO

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [17]:
# TODO

#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [18]:
# TODO

## Conclusiones

#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto