In [16]:
# 1. Importación de Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 2. Configuración de Visualización
# Para que los gráficos se muestren en el notebook
%matplotlib inline
# Estilo de los gráficos
sns.set_style('whitegrid')
plt.style.use('ggplot')

# 3. Carga de Datos
# La ruta es relativa a la ubicación del notebook.
# '../' significa 'subir un nivel de carpeta' (de 'notebooks' a la raíz del proyecto).
file_path = '../data/listings.csv.gz'
df = pd.read_csv(file_path, compression='gzip')

# 4. Inspección Inicial Rápida
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas.")
df.head()

El dataset tiene 26004 filas y 79 columnas.


Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,21853,https://www.airbnb.com/rooms/21853,20250612050748,2025-06-26,city scrape,Bright and airy room,We have a quiet and sunny room with a good vie...,We live in a leafy neighbourhood with plenty o...,https://a0.muscache.com/pictures/68483181/87bc...,83531,...,4.82,4.21,4.67,,f,2,0,2,0,0.25
1,30320,https://www.airbnb.com/rooms/30320,20250612050748,2025-06-27,previous scrape,Apartamentos Dana Sol,,,https://a0.muscache.com/pictures/336868/f67409...,130907,...,4.78,4.9,4.69,,f,3,3,0,0,0.94
2,30959,https://www.airbnb.com/rooms/30959,20250612050748,2025-06-27,previous scrape,Beautiful loft in Madrid Center,Beautiful Loft 60m2 size just in the historica...,,https://a0.muscache.com/pictures/78173471/835e...,132883,...,4.63,4.88,4.25,,f,1,1,0,0,0.06
3,40916,https://www.airbnb.com/rooms/40916,20250612050748,2025-06-26,previous scrape,Apartasol Apartamentos Dana,,,https://a0.muscache.com/pictures/hosting/Hosti...,130907,...,4.79,4.88,4.55,,t,3,3,0,0,0.27
4,62423,https://www.airbnb.com/rooms/62423,20250612050748,2025-06-25,city scrape,MAGIC ARTISTIC HOUSE IN THE CENTER OF MADRID,INCREDIBLE HOME OF AN ARTIST SURROUNDED BY PAI...,DISTRICT WITH VERY GOOD VIBES IN THE MIDDLE OF...,https://a0.muscache.com/pictures/miso/Hosting-...,303845,...,4.86,4.97,4.59,,f,3,1,2,0,2.7


## 1. Vistazo General y Limpieza de Datos

En esta sección, realizaremos una primera inspección del dataset para entender su estructura, identificar columnas irrelevantes, manejar valores nulos y corregir los tipos de datos. El objetivo es tener un DataFrame limpio y listo para el análisis exploratorio.

In [17]:
# Ver un resumen de todas las columnas, sus tipos de datos y los valores no nulos.
df.info(verbose=True, show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 26004 entries, 0 to 26003
Data columns (total 79 columns):
 #   Column                                        Non-Null Count  Dtype  
---  ------                                        --------------  -----  
 0   id                                            26004 non-null  int64  
 1   listing_url                                   26004 non-null  object 
 2   scrape_id                                     26004 non-null  int64  
 3   last_scraped                                  26004 non-null  object 
 4   source                                        26004 non-null  object 
 5   name                                          26004 non-null  object 
 6   description                                   25104 non-null  object 
 7   neighborhood_overview                         11158 non-null  object 
 8   picture_url                                   26002 non-null  object 
 9   host_id                                       26004 non-null 

### 2. Selección de Columnas Relevantes

El dataset original contiene 79 columnas, muchas de las cuales no son relevantes para nuestro análisis (URLs, IDs de scrapeo, etc.). Para simplificar el manejo y enfocarnos en los datos importantes, seleccionaremos un subconjunto de estas columnas.

In [18]:
# Lista de columnas que conservaremos para el análisis
columns_to_keep = [
    'id', 'name', 'host_id', 'host_is_superhost', 'neighbourhood_cleansed', 
    'latitude', 'longitude', 'property_type', 'room_type', 'accommodates', 
    'bathrooms_text', 'bedrooms', 'beds', 'amenities', 'price', 
    'minimum_nights', 'maximum_nights', 'number_of_reviews', 'review_scores_rating',
    'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin',
    'review_scores_communication', 'review_scores_location', 'review_scores_value'
]

# Creamos un nuevo DataFrame solo con estas columnas
df_madrid = df[columns_to_keep].copy()

# Verificamos la nueva dimensión del DataFrame
print(f"El nuevo dataset tiene {df_madrid.shape[0]} filas y {df_madrid.shape[1]} columnas.")

# Mostramos las primeras filas del nuevo DataFrame
df_madrid.head()

El nuevo dataset tiene 26004 filas y 25 columnas.


Unnamed: 0,id,name,host_id,host_is_superhost,neighbourhood_cleansed,latitude,longitude,property_type,room_type,accommodates,...,minimum_nights,maximum_nights,number_of_reviews,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value
0,21853,Bright and airy room,83531,f,Cármenes,40.40381,-3.7413,Private room in rental unit,Private room,1,...,4,40,33,4.58,4.72,4.56,4.75,4.82,4.21,4.67
1,30320,Apartamentos Dana Sol,130907,f,Sol,40.41476,-3.70418,Entire rental unit,Entire home/apt,2,...,5,50,172,4.63,4.71,4.88,4.82,4.78,4.9,4.69
2,30959,Beautiful loft in Madrid Center,132883,f,Embajadores,40.41259,-3.70105,Entire loft,Entire home/apt,2,...,3,730,8,4.38,4.14,4.38,4.63,4.63,4.88,4.25
3,40916,Apartasol Apartamentos Dana,130907,f,Universidad,40.42247,-3.70577,Entire rental unit,Entire home/apt,2,...,5,50,49,4.65,4.69,4.9,4.85,4.79,4.88,4.55
4,62423,MAGIC ARTISTIC HOUSE IN THE CENTER OF MADRID,303845,f,Justicia,40.41884,-3.69655,Private room in rental unit,Private room,4,...,1,30,234,4.65,4.78,4.44,4.8,4.86,4.97,4.59


### 2.1. Limpieza de la Columna 'price'

La columna `price` es fundamental para nuestro análisis, pero está formateada como texto (object) debido a los símbolos de moneda y separadores. Necesitamos convertirla a un tipo numérico (float) para poder realizar cálculos y visualizaciones.

In [19]:
# Inspeccionamos algunos valores de la columna 'price' antes de la limpieza
print("Valores de 'price' antes de la limpieza:")
print(df_madrid['price'].head())

# Eliminamos el símbolo '$' y las comas ',' usando expresiones regulares para más robustez
# .str.replace('[$,]', '', regex=True) busca cualquier '$' o ',' y lo reemplaza por nada
df_madrid['price'] = df_madrid['price'].str.replace('[$,]', '', regex=True).astype(float)

# Verificamos el tipo de dato después de la conversión
print("\nTipo de dato de 'price' después de la limpieza:")
print(df_madrid['price'].dtype)

# Mostramos los valores limpios
print("\nValores de 'price' después de la limpieza:")
print(df_madrid['price'].head())

Valores de 'price' antes de la limpieza:
0    $29.00
1       NaN
2       NaN
3       NaN
4    $64.00
Name: price, dtype: object

Tipo de dato de 'price' después de la limpieza:
float64

Valores de 'price' después de la limpieza:
0    29.0
1     NaN
2     NaN
3     NaN
4    64.0
Name: price, dtype: float64


### 3. Manejo de Valores Nulos

Los datasets del mundo real raramente están completos. Antes de proceder con el análisis, es crucial identificar las columnas con valores faltantes y aplicar una estrategia para manejarlos. Las estrategias pueden incluir eliminar las filas, imputar valores (como la media o la mediana) o simplemente tomar nota de su ausencia.

In [20]:
# Calculamos el porcentaje de valores nulos para cada columna
null_percentage = (df_madrid.isnull().sum() / len(df_madrid)) * 100

# Filtramos solo las columnas que tienen valores nulos y las ordenamos
null_percentage = null_percentage[null_percentage > 0].sort_values(ascending=False)

# Mostramos el resultado
print("Porcentaje de valores nulos por columna:")
print(null_percentage)

Porcentaje de valores nulos por columna:
beds                           22.823412
price                          22.781111
review_scores_value            20.173819
review_scores_location         20.169974
review_scores_checkin          20.162283
review_scores_cleanliness      20.162283
review_scores_communication    20.158437
review_scores_accuracy         20.158437
review_scores_rating           20.154592
bedrooms                        9.437010
host_is_superhost               3.672512
bathrooms_text                  0.115367
dtype: float64


#### 3.1. Imputación en `host_is_superhost`
Para la columna `host_is_superhost`, asumiremos que los valores nulos corresponden a anfitriones que no son "Superhost" y rellenaremos con el valor 'f' (falso).

In [21]:
# Rellenamos los NaN en 'host_is_superhost' con 'f' (la moda o el valor más común)
df_madrid['host_is_superhost'].fillna('f', inplace=True)

# Verificamos que ya no hay nulos en esa columna
print(f"Valores nulos en 'host_is_superhost' después de rellenar: {df_madrid['host_is_superhost'].isnull().sum()}")

Valores nulos en 'host_is_superhost' después de rellenar: 0


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_madrid['host_is_superhost'].fillna('f', inplace=True)


#### 3.2. Eliminación de Filas con Datos Faltantes Críticos
Para columnas esenciales como `bedrooms`, `beds`, y las puntuaciones de reseñas, la ausencia de datos impide un análisis comparativo justo. Dado que representan un porcentaje manejable del total, eliminaremos las filas (`rows`) que contengan cualquier valor nulo en estas columnas específicas para asegurar la calidad y fiabilidad de nuestro análisis posterior.

In [22]:
# Definimos las columnas críticas para nuestro análisis
critical_columns = ['bedrooms', 'beds', 'review_scores_rating']

# Guardamos el número de filas antes de eliminar
rows_before = df_madrid.shape[0]

# Eliminamos las filas que tienen al menos un valor nulo en las columnas críticas
df_madrid.dropna(subset=critical_columns, inplace=True)

# Guardamos el número de filas después de eliminar
rows_after = df_madrid.shape[0]

# Imprimimos un resumen del proceso
print(f"Se han eliminado {rows_before - rows_after} filas.")
print(f"El DataFrame ahora tiene {rows_after} filas.")

# Verificamos que ya no hay nulos en el DataFrame
print("\nConteo de nulos después de la limpieza final:")
print(df_madrid.isnull().sum())

Se han eliminado 9210 filas.
El DataFrame ahora tiene 16794 filas.

Conteo de nulos después de la limpieza final:
id                              0
name                            0
host_id                         0
host_is_superhost               0
neighbourhood_cleansed          0
latitude                        0
longitude                       0
property_type                   0
room_type                       0
accommodates                    0
bathrooms_text                 16
bedrooms                        0
beds                            0
amenities                       0
price                           3
minimum_nights                  0
maximum_nights                  0
number_of_reviews               0
review_scores_rating            0
review_scores_accuracy          1
review_scores_cleanliness       1
review_scores_checkin           2
review_scores_communication     1
review_scores_location          1
review_scores_value             1
dtype: int64


#### 3.3. Limpieza Final
Después de la eliminación principal, observamos que quedan una cantidad insignificante de valores nulos en columnas secundarias. Para garantizar un dataset completamente limpio, procederemos a eliminar estas últimas filas residuales.

In [23]:
# Guardamos el número de filas antes de la limpieza final
rows_before = df_madrid.shape[0]

# Eliminamos cualquier fila que todavía contenga algún valor nulo
df_madrid.dropna(inplace=True)

# Guardamos el número de filas después
rows_after = df_madrid.shape[0]

print(f"Se han eliminado {rows_before - rows_after} filas adicionales.")
print(f"El DataFrame final y limpio tiene {rows_after} filas.")

# Verificación final y definitiva
print("\nConteo de nulos definitivo:")
print(df_madrid.isnull().sum().sum()) # .sum().sum() suma todos los nulos de todas las columnas

Se han eliminado 21 filas adicionales.
El DataFrame final y limpio tiene 16773 filas.

Conteo de nulos definitivo:
0
