# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

In [None]:
import pandas as pd
import numpy as np

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [None]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('../data/real_estate.csv', sep=';')
df

## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [None]:
# TODO
# Encontrar la fila con el precio mínimo
fila_max = df.loc[df["price"].idxmax()]

# Extraer la dirección y el precio
direccion = fila_max["address"]
precio = fila_max["price"]

# Retornar el resultado con f-string
f"La casa más cara se encuentra en la dirección: {direccion} y su precio es €{precio}"

#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [None]:
# TODO
# Encontrar la fila con el precio mínimo
fila_min = df.loc[df["price"].idxmin()]

# Extraer la dirección y el precio
direccion = fila_min["address"]
precio = fila_min["price"]

# Retornar el resultado con f-string
f"La casa más barata se encuentra en la dirección: {direccion} y su precio es €{precio}"

#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [None]:
# TODO
# Asegurar que 'surface' sea numérico y eliminar NA
df["surface"] = pd.to_numeric(df["surface"], errors="coerce")
df = df.dropna(subset=["surface"])

# Posición de la casa más grande
idx = np.argmax(df["surface"].values)

# Dirección y superficie
direccion = df.iloc[idx]["address"]
superficie = df.iloc[idx]["surface"]

# Resultado
f"La casa más grande se encuentra en la dirección: {direccion} y su superficie es {superficie} m²"


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [None]:
# TODO
# Asegurar que 'surface' sea numérico y eliminar NA
df["surface"] = pd.to_numeric(df["surface"], errors="coerce")
df = df.dropna(subset=["surface"])

# Posición de la casa más pequeña
idx = np.argmin(df["surface"].values)

# Dirección y superficie
direccion = df.iloc[idx]["address"]
superficie = df.iloc[idx]["surface"]

# Resultado
f"La casa más pequeña se encuentra en la dirección: {direccion} y su superficie es {superficie} m²"

#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [None]:
# TODO
class AnalisisNA:
    def __init__(self, df):
        self.df = df

    def revisar_na(self):
        return {
            "filas_con_na": self.df.isna().any(axis=1),
            "columnas_con_na": self.df.isna().any()
        }

# Uso (ya tienes df cargado antes)
analisis = AnalisisNA(df)
analisis.revisar_na()

#### Ejercicio 06.

Elimina los NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [63]:
# TODO
class LimpiezaNA:
    def __init__(self, df):
        self.df = df

    def eliminar_na(self):
        # Dimensiones originales
        original_shape = self.df.shape

        # Eliminar filas con NAs
        df_sin_na = self.df.dropna()

        # Dimensiones después de eliminar
        nuevo_shape = df_sin_na.shape

        return {
            "dimensiones_originales": original_shape,
            "dimensiones_sin_na": nuevo_shape
        }

# Uso (ya tienes df cargado antes)
limpieza = LimpiezaNA(df)
limpieza.eliminar_na()

{'dimensiones_originales': (14085, 37), 'dimensiones_sin_na': (0, 37)}

#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [64]:
# TODO
class AnalisisPoblaciones:
    def __init__(self, df):
        self.df = df

    def poblaciones(self):
        # Quitar NAs y valores duplicados
        poblaciones = self.df["level5"].dropna().unique()
        total = len(poblaciones)

        return {
            "lista_poblaciones": poblaciones.tolist(),
            "total_poblaciones": total
        }

# Uso (ya tienes df cargado antes)
analisis = AnalisisPoblaciones(df)
analisis.poblaciones()

{'lista_poblaciones': ['Arganda del Rey',
  'Boadilla del Monte',
  'Fuenlabrada',
  'Las Rozas de Madrid',
  ' Madrid Capital',
  'Villaviciosa de Odón',
  'Pinto',
  'Valdemoro',
  'Navalcarnero',
  'Pozuelo de Alarcón',
  'Torrejón de Ardoz',
  'Navalagamella',
  'San Sebastián de los Reyes',
  'Rivas-vaciamadrid',
  'Alpedrete',
  'Móstoles',
  'San Fernando de Henares',
  'Coslada',
  'Becerril de la Sierra',
  'Alcalá de Henares',
  'Chinchón',
  'Parla',
  'Alcorcón',
  'El Escorial',
  'Leganés',
  'Pedrezuela',
  'Majadahonda',
  'Villanueva de la Cañada',
  'Villanueva del Pardillo',
  'Torrelodones',
  'Moralzarzal',
  'Mejorada del Campo',
  'Aranjuez',
  'Corpa',
  'Getafe',
  'Velilla de San Antonio',
  'Sevilla la Nueva',
  'San Martín de la Vega',
  'Villalbilla',
  'Collado Villalba',
  'Alcobendas',
  'El Molar (Madrid)',
  'Moraleja de Enmedio',
  'Algete',
  'Campo Real',
  'Torrejón de la Calzada',
  'Colmenar Viejo',
  'Valdemorillo',
  'Fuente El Saz de Jarama',


#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [None]:
# TODO

#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
# TODO

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
# TODO

#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [None]:
# TODO

#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [None]:
# TODO

---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [None]:
# TODO

#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [None]:
# TODO

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [None]:
# TODO

#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [None]:
# TODO

## Conclusiones

#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto