# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

Agrega observaciones, conclusiones o notas acerca de los datos obtenidos en cada ejercicio.

In [115]:
import pandas as pd

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [116]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('assets/real_estate.csv', sep=';')
df

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level4Id,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone
0,1,153771986,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,103.0,195000,...,0,0,0,0,0,0,402948276786438,-344402412135624,,
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,0,1,4028674,-379351,,
2,3,153430440,False,look find boadilla,916350408.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,99.0,390000,...,0,0,0,0,0,0,404115646786438,-390662252135624,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,0,402853785786438,-379508142135624,,
4,5,153180188,False,ferrari 57 inmobiliaria,912177526.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,2.0,106.0,172000,...,0,0,0,0,0,0,402998774864376,-345226301356237,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15330,15331,153901377,False,infocasa consulting,911360461.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,2.0,1.0,96.0,259470,...,0,0,0,0,0,0,4045416,-370286,,
15331,15332,150394373,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,150.0,165000,...,0,0,0,0,0,0,4036652,-348951,,
15332,15333,153901397,False,tecnocasa torrelodones,912780348.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,4.0,2.0,175.0,495000,...,0,0,0,0,0,0,4057444,-392124,,
15333,15334,152607440,False,inmobiliaria pulpon,912788039.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,101.0,195000,...,0,0,0,0,0,0,4036967,-348105,,


## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [117]:
casa_cara = df['price'].idxmax()
fila_casa_cara = df.loc[casa_cara]
calle = fila_casa_cara['address']
precio = fila_casa_cara['price']
results = {'casa_cara': calle, 'precio':int(precio)}
results

{'casa_cara': 'El Escorial', 'precio': 8500000}

#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [118]:
casa_barata = df['price'].idxmin()
fila_casa_barata = df.loc[casa_barata]
calle2 = fila_casa_barata['address']
precio2 = fila_casa_barata['price']
results = {'casa_barata' : calle2, 'precio': precio2}
results

{'casa_barata': 'Parla', 'precio': np.int64(0)}

#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [119]:
casa_superficie_grande = df['surface'].idxmax()
fila_casa_superficie_grande = df.loc[casa_superficie_grande]
direccion = fila_casa_superficie_grande['address']
superficie = fila_casa_superficie_grande['surface']
results = {'casa_grande_direccion' : direccion, 'superficie': superficie}
results

{'casa_grande_direccion': 'Sevilla la Nueva',
 'superficie': np.float64(249000.0)}

#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [120]:
casa_superficie_pequeña = df['surface'].idxmin()
fila_casa_superficie_pequeña = df.loc[casa_superficie_pequeña]
direccion2 = fila_casa_superficie_pequeña['address']
superficie2 = fila_casa_superficie_pequeña['surface']
results = {'casa_pequeña_direccion' : direccion2, 'superficie': superficie}
results

{'casa_pequeña_direccion': 'Calle Amparo,  Madrid Capital',
 'superficie': np.float64(249000.0)}

#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [121]:
filas_nas = df.isnull().any(axis=1)
columnas_nas = df.isnull().any()
filas_nas
columnas_nas


Unnamed: 0          False
id_realEstates      False
isNew               False
realEstate_name      True
phone_realEstate     True
url_inmueble        False
rooms                True
bathrooms            True
surface              True
price               False
date                False
description          True
address             False
country             False
level1              False
level2              False
level3              False
level4               True
level5              False
level6               True
level7               True
level8               True
upperLevel          False
countryId           False
level1Id            False
level2Id            False
level3Id            False
level4Id            False
level5Id            False
level6Id            False
level7Id            False
level8Id            False
accuracy            False
latitude            False
longitude           False
zipCode              True
customZone           True
dtype: bool

#### Ejercicio 06.

Elimina las columnas que contengan NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [122]:
data_frame = df.dropna(axis=1)
results = {'df_original' : {'filas': df.shape[0], 'columnas' : df.shape[1]}, 
           'df_modificado': {'filas': data_frame.shape[0], 'columnas' : data_frame.shape[1]}}
results

{'df_original': {'filas': 15335, 'columnas': 37},
 'df_modificado': {'filas': 15335, 'columnas': 25}}

#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [123]:
poblaciones = df['level5'].unique()
total_poblaciones = len(poblaciones)
results = {'total_poblaciones' : total_poblaciones, 'poblaciones' : poblaciones}
results


{'total_poblaciones': 168,
 'poblaciones': array(['Arganda del Rey', 'Fuenlabrada', 'Boadilla del Monte',
        'Las Rozas de Madrid', ' Madrid Capital', 'Villaviciosa de Odón',
        'Pinto', 'Valdemoro', 'Navalcarnero', 'Pozuelo de Alarcón',
        'Torrejón de Ardoz', 'Navalagamella', 'San Sebastián de los Reyes',
        'Rivas-vaciamadrid', 'Alpedrete', 'Móstoles',
        'San Fernando de Henares', 'Coslada', 'Becerril de la Sierra',
        'Alcalá de Henares', 'Chinchón', 'Parla', 'Alcorcón',
        'El Escorial', 'Leganés', 'Pedrezuela', 'Majadahonda',
        'Villanueva de la Cañada', 'Villanueva del Pardillo',
        'Torrelodones', 'Moralzarzal', 'Mejorada del Campo', 'Aranjuez',
        'Corpa', 'Getafe', 'Velilla de San Antonio', 'Sevilla la Nueva',
        'San Martín de la Vega', 'Villalbilla', 'Collado Villalba',
        'Alcobendas', 'El Molar (Madrid)', 'Moraleja de Enmedio', 'Algete',
        'Campo Real', 'Torrejón de la Calzada', 'Colmenar Viejo',
        

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [124]:
poblacion_arroyomolinos = df['level5'] == 'Arroyomolinos (Madrid)'
df_arroyomolinos = df.loc[poblacion_arroyomolinos]
media_precios = df_arroyomolinos['price'].mean()
results = round(media_precios, 2)
results


np.float64(294541.6)

#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [131]:
valdemorillo = df['level5'] == 'Valdemorillo'
galapagar = df['level5'] == 'Galapagar'
df_valdemorillo = df[valdemorillo]
df_galapagar = df[galapagar]

promedio_v = df_valdemorillo['price'].mean()
promedio_g = df_galapagar['price'].mean()

diferencia = promedio_v - promedio_g

results = {'mean_valdemorillo' : promedio_v, 'mean_galapagar' : promedio_g, 'difference_mean' : diferencia}
results

{'mean_valdemorillo': np.float64(363860.2931034483),
 'mean_galapagar': np.float64(360063.20238095237),
 'difference_mean': np.float64(3797.090722495923)}

A pesar de ser poblaciones distintas ambas comparten un promedio de precios muy parecidos, con una diferencia de 3797.09€ lo que indica que comparten ciertas características similares.

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [132]:
df['pps'] = df['price'] / df['surface']

promedio_v_pps = df_valdemorillo['pps'].mean()
promedio_g_pps = df_galapagar['pps'].mean()

diferencia_porcentual = round(((promedio_g_pps - promedio_v_pps) / promedio_v_pps) * 100, 2)
diferencia_porcentual

results = {'m2_valdemorillo' : promedio_v_pps, 'm2_galapagar' : promedio_g_pps, 'difference_per' : diferencia_porcentual}
results

{'m2_valdemorillo': np.float64(1317.9502109024986),
 'm2_galapagar': np.float64(1606.3240303094024),
 'difference_per': np.float64(21.88)}

Ambas poblaciones tienen un precio promedio similar, sin embargo hay una gran diferencia de valor en el m2 por superficie, del 21,88%.
Esto es un indicativo que en las casas de Valdemorillo ofrece una mejor relación superficie-precio, el m2 por superficie se está vendiendo notablemente más barato que las casas ubicadas en Galapagar.

#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [133]:
count_real_estate = df['realEstate_name'].unique()
count_real_estate.shape

(1822,)

In [134]:
count_real_estate

array(['ferrari 57 inmobiliaria', 'tecnocasa fuenlabrada ferrocarril',
       'look find boadilla', ..., 'redpiso villaverde bajo san cristobal',
       'gestion comercial', 'nieves'], shape=(1822,), dtype=object)

#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [138]:
poblaciones = df['level5'].value_counts()
poblacion_max = poblaciones.index[0]
casas_max = poblaciones.iloc[0]
results = {'poblacion_max' : poblacion_max, 'casas': casas_max}
results


{'poblacion_max': ' Madrid Capital', 'casas': np.int64(6643)}

---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [None]:
masc_lvl5 = df['level5'].isin(['Fuenlabrada', 'Leganés', 'Getafe', 'Alcorcón'])
df_sub = df[masc_lvl5] 
df_sub

Unnamed: 0.1,Unnamed: 0,id_realEstates,isNew,realEstate_name,phone_realEstate,url_inmueble,rooms,bathrooms,surface,price,...,level5Id,level6Id,level7Id,level8Id,accuracy,latitude,longitude,zipCode,customZone,pps
1,2,153867863,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,,89000,...,0,0,0,0,1,4028674,-379351,,,
3,4,152776331,False,tecnocasa fuenlabrada ferrocarril,916358736.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,86.0,89000,...,0,0,0,0,0,402853785786438,-379508142135624,,,1034.883721
85,86,153152077,False,sinergical inmobiliaria,,https://www.fotocasa.es/es/comprar/vivienda/le...,1.0,1.0,50.0,107000,...,0,0,0,0,1,4035059,-382693,,,2140.000000
94,95,153995577,False,viviendas365com,911226014.0,https://www.fotocasa.es/es/comprar/vivienda/le...,3.0,2.0,120.0,320000,...,0,0,0,0,0,4031933,-377574,,,2666.666667
109,110,153586414,False,area uno asesores inmobiliarios,912664081.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,3.0,142.0,425000,...,0,0,0,0,0,403313411,-38313868,,,2992.957746
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15275,15276,153903887,False,aliseda servicios de gestion inmobiliaria,911368198.0,https://www.fotocasa.es/es/comprar/vivienda/al...,3.0,1.0,78.0,138000,...,0,0,0,0,1,4031381,-383733,,,1769.230769
15291,15292,151697757,False,unipiso,912788631.0,https://www.fotocasa.es/es/comprar/vivienda/al...,3.0,2.0,110.0,279000,...,0,0,0,0,0,403259051,-376318,,,2536.363636
15305,15306,153902389,False,jadein ferrero,914871639.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,2.0,85.0,170000,...,0,0,0,0,0,402882193,-38098617,,,2000.000000
15322,15323,153871864,False,gestion comercial,911220662.0,https://www.fotocasa.es/es/comprar/vivienda/ma...,3.0,1.0,91.0,112000,...,0,0,0,0,0,4028282,-378892,,,1230.769231


#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [None]:
variables = ['price', 'rooms', 'surface', 'bathrooms']
resultados = round(df_sub[variables].agg(['var', 'mean']), 2)
diccionario = (resultados.to_dict('dict'))
diccionario

{'price': {'var': 14921367508.05, 'mean': 223094.48},
 'rooms': {'var': 0.72, 'mean': 3.02},
 'surface': {'var': 4263.05, 'mean': 111.75},
 'bathrooms': {'var': 0.57, 'mean': 1.63}}

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [None]:
df_fuenlabrada = df_sub[df_sub['level5'] == 'Fuenlabrada']
df_leganes = df_sub[df_sub['level5'] == 'Leganés']
df_getafe = df_sub[df_sub['level5'] == 'Getafe']
df_alcorcon = df_sub[df_sub['level5'] == 'Alcorcón']

df_ordenado = df_sub.sort_values('price', ascending = False)
df_casas_caras = df_ordenado.drop_duplicates('level5')
df_sur = df_casas_caras[['level5', 'address', 'price']]
df_sur



Unnamed: 0,level5,address,price
2881,Getafe,Getafe,1050000
5585,Alcorcón,Alcorcón,950000
10412,Leganés,"Avenida Reina Sofía, Leganés",650000
11561,Fuenlabrada,"Calle de Paulo Freire, 5, Fuenlabrada",490000


>***OBSERVACIONES***

> Estos valores altos representan los puntos atipicos, los chalets de lujo de las poblaciones.

#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [None]:
average_getafe  = round(df_getafe['pps'].mean(), 2)
average_alcorcon = round(df_alcorcon['pps'].mean() ,2)

diferencia_porcentual = round(((average_alcorcon - average_getafe) / average_getafe) * 100, 2)

results = {'promedio_m2_getafe': average_getafe, 'promedio_m2_alcorcon' : average_alcorcon, 'diferencia_per' : diferencia_porcentual}
results

{'promedio_m2_getafe': np.float64(2066.31),
 'promedio_m2_alcorcon': np.float64(2239.3),
 'diferencia_per': np.float64(8.37)}

>***OBSERVACIONES***

> "La diferencia porcentual del precio promedio por metro cuadrado entre Getafe y Alcorcón es relativamente baja (8,37€). Esto se debe a que ambas poblaciones pertenecen al cinturón sur de Madrid y comparten un contexto inmobiliario similar. Por lo tanto, el mercado las valora de manera muy pareja, reflejando precios por metro cuadrado muy competitivos y homogéneos."

## Conclusiones

#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto

>***OBSERVACIONES***

> El proyecto ayuda al estudiante de forma escalada a familiarisarse y entender como filtrar y acceder a los elementos de un dataframe.
> Este proyecto ha servido para adquirir una comprensión fundamental del análisis exploratorio de datos (EDA) y la manipulación de Pandas en Python. 