# Limpieza del dataset de bienes raíces

Este es un conjunto de datos (dataset) reales que fue descargado usando técnicas de web scraping. El archivo contiene registros de **Fotocasa**, el cual es uno de los sitios más populares de bienes raíces en España. Contiene miles de datos de casas reales publicadas en la web www.fotocasa.com.

El dataset fue descargado hace algunos años y en ningún caso se obtuvo beneficio económico de ello.

Tu objetivo es extraer tanta información como sea posible con el conocimiento que tienes hasta ahora de ciencia de datos.

In [None]:
import pandas as pd
import numpy as np

#### Ejercicio 00

Lee el dataset data/real_estate.csv e intenta visualizar la tabla (★☆☆)

In [None]:
# Este archivo CSV contiene puntos y comas en lugar de comas como separadores
df = pd.read_csv('../data/real_estate.csv', sep=';')
df

In [None]:
df.head()

## Trabajando con un DataFrame

#### Ejercicio 01

¿Cuál es la casa más cara del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada. Para visualizar el resultado utiliza un f-string. Por ejemplo:

```py
f'La casa más cara se encuentra en la dirección: {address} y su precio es {price} €'
```

In [None]:

# Encontrar la fila con el precio máximo
fila_max = df.loc[df["price"].idxmax()]

# Extraer la dirección y el precio
direccion = fila_max["address"]
precio = fila_max["price"]

# Retornar el resultado con f-string
f"La casa más cara se encuentra en la dirección: {direccion} y su precio es €{precio}"

#### Ejercicio 02

¿Cuál es la casa más barata del dataset? (★☆☆)

Imprime la dirección y el precio de la casa seleccionada utilizando f-string

In [None]:

# Filtrar las filas con precio mínimo distinto de 0
df_filtrado = df[df["price"] != 0]

# Encontrar la fila con el precio mínimo (sin contar los ceros)
fila_min = df_filtrado.loc[df_filtrado["price"].idxmin()]

# Extraer la dirección y el precio
direccion = fila_min["address"]
precio = fila_min["price"]

# Retornar el resultado con f-string
f"La casa más barata se encuentra en la dirección: {direccion} y su precio es €{precio}"


#### Ejercicio 03

¿Cuál es la casa más grande del dataset? (★☆☆)

Imprime la dirección y el área de las casas seleccionadas utilizando f-string

In [None]:
df['surface'].dtypes

In [None]:
surface_max = df.loc[df["surface"].idxmax()]
surface_max

In [None]:

# Asegurar que 'surface' sea numérico y eliminar NA
df["surface"] = pd.to_numeric(df["surface"], errors="coerce")
df = df.dropna(subset=["surface"])

# Posición de la casa más grande
idx = np.argmax(df["surface"].values)

# Dirección y superficie
direccion = df.iloc[idx]["address"]
superficie = df.iloc[idx]["surface"]

# Resultado
f"La casa más grande se encuentra en la dirección: {direccion} y su superficie es {superficie} m²"


#### Ejercicio 04

¿Cuál es la casa más pequeña del dataset? (★☆☆)

In [None]:
df['surface'].dtypes

In [None]:
surface_min = df.loc[df["surface"].idxmin()]
surface_min

In [None]:

# Asegurar que 'surface' sea numérico y eliminar NA
df["surface"] = pd.to_numeric(df["surface"], errors="coerce")
df = df.dropna(subset=["surface"])

# Posición de la casa más pequeña
idx = np.argmin(df["surface"].values)

# Dirección y superficie
direccion = df.iloc[idx]["address"]
superficie = df.iloc[idx]["surface"]

# Resultado
f"La casa más pequeña se encuentra en la dirección: {direccion} y su superficie es {superficie} m²"

#### Ejercicio 05.

¿El dataset contiene valores no admitidos (NAs)? (★☆☆)

- Muestra el nombre de las filas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.
- También muestra el nombre de las columnas seguidas por un booleano (`True` o `False`) según contengan o no contengan NAs.

In [None]:

class AnalisisNA:
    def __init__(self, dataframe):
        self.df = dataframe

    def revisar_na(self):
        result = {"filas_con_na": self.df.isna().any(axis=1),
                  "columnas_con_na": self.df.isna().any()}
        return result

# Uso (ya tienes df cargado antes)
analisis = AnalisisNA(df)
analisis.revisar_na()

#### Ejercicio 06.

Elimina los NAs del dataset, si aplica (★★☆)

Muestra las dimensiones del DataFrame original y del DataFrame después de las eliminaciones.

In [None]:
# Dimensiones originales
print("Dimensiones originales:", df.shape)

# Eliminar columnas zipCode y customZone
df = df.drop(columns=["zipCode", "customZone"], errors="ignore")

# Dimensiones después de eliminar
print("Dimensiones sin zipCode y customZone:", df.shape)

#### Ejercicio 07

¿Cuantas poblaciones (columna level5) contiene el dataset? (★☆☆)

- Muestra una lista con los nombres de las poblaciones
- Muestra el total de las mismas

In [None]:
# Quitar NAs y valores duplicados
poblaciones = df["level5"].dropna().unique()

# Convertir a lista con NumPy
poblaciones = np.array(poblaciones).tolist()

# Contar total
total = len(poblaciones)

poblaciones, total

#### Ejercicio 08

¿Cuál es la media de precios en la población (columna level5) de "Arroyomolinos (Madrid)"? (★★☆)

In [None]:
# Filtrar solo las filas donde level5 sea "Arroyomolinos (Madrid)"
arroyomolinos = df.loc[df["level5"] == "Arroyomolinos (Madrid)"].copy()

# Calcular la media de price
media_precios = arroyomolinos["price"].mean()

# Retornar con f-string
f"Media de precios en Arroyomolinos (Madrid): {media_precios:.2f} € | Número de propiedades analizadas: {len(arroyomolinos)}"



#### Ejercicio 09.

¿Los precios promedios de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

- Muestra ambos promedios
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
media_valdemorillo = df[df["level5"] == "Valdemorillo"]["price"].mean()
media_galapagar = df[df["level5"] == "Galapagar"]["price"].mean()

print("Media Valdemorillo:", media_valdemorillo)
print("Media Galapagar:", media_galapagar)

if media_valdemorillo == media_galapagar:
    print("Los precios promedios son iguales")
else:
    print("Los precios promedios NO son iguales")

#### Ejercicio 10

¿Los promedios de precio por metro cuadrado (precio/m2) de "Valdemorillo" y "Galapagar" son iguales? (★★☆)

> Pista: Crea una nueva columna llamada `pps` (*price per square* o precio por metro cuadrado) y luego analiza los valores.

- Muestra ambos promedios de precio por metro cuadrado
- Escribe en una celda markdown una conclusión sobre ellos

In [None]:
# Asegurar nombres limpios
df.columns = df.columns.str.strip()

# Detectar la columna de m²
area_cols_posibles = ["size", "m2", "area", "surface", "metros2", "sqm", "squareMeters"]
area_cols = [c for c in area_cols_posibles if c in df.columns]
area_col = area_cols[0]

# Asegurar numéricos
df["price"] = pd.to_numeric(df["price"], errors="coerce")
df[area_col] = pd.to_numeric(df[area_col], errors="coerce")

# Crear precio por m²
df["pps"] = df["price"] / df[area_col]

# Calcular promedios
pps_valdemorillo = df.loc[df["level5"] == "Valdemorillo", "pps"].mean()
pps_galapagar   = df.loc[df["level5"] == "Galapagar",   "pps"].mean()

# Mostrar resultados con f-strings
resultado1 = f"Precio medio por m² en Valdemorillo: {pps_valdemorillo:.2f} €/m²"
resultado2 = f"Precio medio por m² en Galapagar: {pps_galapagar:.2f} €/m²"
resultado3 = f"¿Los promedios son iguales? {'Sí' if abs(pps_valdemorillo - pps_galapagar) < 1e-9 else 'No'}"

resultado1, resultado2, resultado3



### Conclusión
Se calcularon los promedios de precio por metro cuadrado (pps) para **Valdemorillo** y **Galapagar** a partir de la columna `pps = price / m²`.
Por lo que se ve el precio promedio medio por metro cuadrado son levemente superiores en Galapagar que en Valdemorillo, esto se mantiene por la línea del ejercicio anterior, donde vimos una superioridad que puede estar causada por una mejor ubicación o una menor oferta de prioridades lo que hace que a


#### Ejercicio 11

¿Cuántas agencia de bienes raíces contiene el dataset? (★★☆)

- Muestra el valor obtenido.

In [None]:
num_agencias = df["realEstate_name"].nunique()

f"Cantidad de agencias de bienes raíces en el dataset: {num_agencias}"


#### Ejercicio 12

¿Cuál es la población (columna level5) que contiene la mayor cantidad de casas?(★★☆)

- Muestra la población y el número de casas.

In [None]:
conteo_casas = df["level5"].value_counts()

poblacion_max = conteo_casas.idxmax()
num_casas_max = conteo_casas.max()

f"La población con más casas es '{poblacion_max}' con {num_casas_max} casas."


---

## Trabajando con un subconjunto del DataFrame

#### Ejercicio 13

Ahora vamos a trabajar con el "cinturón sur" de Madrid.

Haz un subconjunto del DataFrame original que contenga las siguientes poblaciones (columna level5): "Fuenlabrada", "Leganés", "Getafe", "Alcorcón" (★★☆)

> Pista: Filtra el DataFrame original usando la columna `level5` y la función `isin`.

In [None]:
# Definir las poblaciones del cinturón sur
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]

# Subset
subset_cinturon_sur = df[df["level5"].isin(cinturon_sur)]

# Número total de registros
total_registros = subset_cinturon_sur.shape[0]

# Cantidad por población
cantidad_por_poblacion = subset_cinturon_sur["level5"].value_counts()

total_registros, cantidad_por_poblacion

In [None]:
# Definir las poblaciones del cinturón sur
cinturon_sur = ["Fuenlabrada", "Leganés", "Getafe", "Alcorcón"]

# Subset
subset_cinturon_sur = df[df["level5"].isin(cinturon_sur)]

# Verificar
print(subset_cinturon_sur.head())
print("Número de registros en el subset:", len(subset_cinturon_sur))

#### Ejercicio 14

Calcula la media y la varianza de muestra para las siguientes variables: precio, habitaciones, superficie y baños (★★★)

> Debes usar el subset obtenido en la pregunta 13

- Crea y visualiza un diccionario con todos los valores

In [32]:
resultados = {"Precio - media": subset_cinturon_sur["price"].mean(),
    "Precio - varianza": subset_cinturon_sur["price"].var(ddof=1),
    "Habitaciones - media": subset_cinturon_sur["rooms"].mean(),
    "Habitaciones - varianza": subset_cinturon_sur["rooms"].var(ddof=1),
    "Superficie - media": subset_cinturon_sur["surface"].mean(),
    "Superficie - varianza": subset_cinturon_sur["surface"].var(ddof=1),
    "Baños - media": subset_cinturon_sur["bathrooms"].mean(),
    "Baños - varianza": subset_cinturon_sur["bathrooms"].var(ddof=1)}
resultados

{'Precio - media': np.float64(222009.1156289708),
 'Precio - varianza': np.float64(15166379956.903913),
 'Habitaciones - media': np.float64(3.0063856960408684),
 'Habitaciones - varianza': np.float64(0.7045627513040866),
 'Superficie - media': np.float64(111.75222363405337),
 'Superficie - varianza': np.float64(4263.051760316336),
 'Baños - media': np.float64(1.6363636363636365),
 'Baños - varianza': np.float64(0.5727272727272728)}

In [None]:
resultados = {"Precio - media": subset_cinturon_sur["price"].mean(),
    "Precio - varianza": subset_cinturon_sur["price"].var(ddof=1),
    "Habitaciones - media": subset_cinturon_sur["rooms"].mean(),
    "Habitaciones - varianza": subset_cinturon_sur["rooms"].var(ddof=1),
    "Superficie - media": subset_cinturon_sur["surface"].mean(),
    "Superficie - varianza": subset_cinturon_sur["surface"].var(ddof=1),
    "Baños - media": subset_cinturon_sur["bathrooms"].mean(),
    "Baños - varianza": subset_cinturon_sur["bathrooms"].var(ddof=1),}

print("Resultados (media y varianza muestral):\n")
for clave, valor in resultados.items():
    print(f"{clave:25} -> {valor:.2f}")

#### Ejercicio 15

¿Cuál es la casa más cara de cada población del cinturón sur de Madríd? (★★☆)

> Debes usar el subset obtenido en la pregunta 13

- Genera un DataFrame con esta información
- Muestra tanto la dirección como el precio de la casa seleccionada de cada población.
- Genera conclusiones en una celda markdown

In [33]:
# Encontrar la casa más cara de cada población del subset
casas_caras = subset_cinturon_sur.loc[
subset_cinturon_sur.groupby("level5")["price"].idxmax(),
    ["level5", "address", "price"]]
casas_caras

Unnamed: 0,level5,address,price
5585,Alcorcón,Alcorcón,950000
11561,Fuenlabrada,"Calle de Paulo Freire, 5, Fuenlabrada",490000
2881,Getafe,Getafe,1050000
10412,Leganés,"Avenida Reina Sofía, Leganés",650000


In [34]:
# Encontrar la casa más cara de cada población del subset
casas_caras = subset_cinturon_sur.loc[
    subset_cinturon_sur.groupby("level5")["price"].idxmax(),
    ["level5", "address", "price"]
]

# Mostrar el DataFrame
print(casas_caras)

            level5                                address    price
5585      Alcorcón                               Alcorcón   950000
11561  Fuenlabrada  Calle de Paulo Freire, 5, Fuenlabrada   490000
2881        Getafe                                 Getafe  1050000
10412      Leganés           Avenida Reina Sofía, Leganés   650000


#### Ejercicio 16

¿Qué puedes decir acerca del precio por metro cuadrado (precio/m2) entre los municipios de 'Getafe' y 'Alcorcón'? (★★☆)

> Debes usar el subset obtenido en la pregunta 13
>
> Pista: Crea una nueva columna llamada `pps` (price per square en inglés) y luego analiza los valores

In [35]:
# Crear una copia del subset porque saltaba un warning
subset_cinturon_sur = subset_cinturon_sur.copy()

# Crear nueva columna: precio por metro cuadrado
subset_cinturon_sur["pps"] = subset_cinturon_sur["price"] / subset_cinturon_sur["surface"]

# Calcular la media del pps en Getafe y Alcorcón
pps_promedio = subset_cinturon_sur[
    subset_cinturon_sur["level5"].isin(["Getafe", "Alcorcón"])
].groupby("level5")["pps"].mean()
pps_promedio

level5
Alcorcón    2239.302480
Getafe      2066.314949
Name: pps, dtype: float64

In [None]:
# Crear una copia del subset porque saltaba un warning
subset_cinturon_sur = subset_cinturon_sur.copy()

# Crear nueva columna: precio por metro cuadrado
subset_cinturon_sur["pps"] = subset_cinturon_sur["price"] / subset_cinturon_sur["surface"]

# Calcular la media del pps en Getafe y Alcorcón
pps_promedio = subset_cinturon_sur[subset_cinturon_sur["level5"].isin(["Getafe", "Alcorcón"])] \
    .groupby("level5")["pps"].mean()

# Mostrar resultados
print("Precio por metro cuadrado (€/m2):\n")
print(pps_promedio)

## Conclusiones

#### Ejercicio 17

Escribe aquí tus conclusiones acerca de este proyecto