# 🏠 Taller: Análisis y Modelamiento de Datos de Airbnb en Barcelona 🏙️

---

## ✨ Introducción

En este taller trabajaremos con un conjunto de datos reales de Airbnb que contiene información detallada sobre las propiedades disponibles para alquiler en Barcelona. Los datos incluyen características de los alojamientos, detalles de los anfitriones, precios, disponibilidad, y reseñas. Este contexto real te permitirá aplicar técnicas fundamentales de limpieza, exploración, análisis y modelamiento de datos para obtener insights y construir un **estimador de precio para las propiedades listadas**.

---

## 📋 Reglas de juego

- 👥 Este taller se debe presentar en grupos de máximo **3 estudiantes**  
- ❌ Cualquier intento de copia que se identifique entre 2 o más grupos inmediatamente otorga una calificación de **0.0**  
- ⏰ La fecha de entrega será el día **21 de Agosto de 2025 antes de media noche**

---

## 🎯 Objetivo

El objetivo principal es desarrollar un flujo completo de análisis de datos que abarque desde la limpieza y manejo, la identificación y tratamiento de valores atípicos, hasta la creación de un **modelo predictivo para estimar el precio de las propiedades en Airbnb Barcelona**.

Para lograr esto, deberás:

- 🧹 Procesar y limpiar el conjunto de datos.  
- 🔎 Realizar análisis exploratorio descriptivo de las variables.  
- 🛠️ Imputar datos faltantes donde sea necesario.  
- 🚩 Identificar y analizar datos atípicos (outliers).  
- 📈 Construir un modelo predictivo (regresión u otro) para estimar el precio de los listings.

---

## 📚 Descripción de Variables Clave

| 🏷️ Variable                              | 📝 Descripción                                               |
|-------------------------------------|-----------------------------------------------------------|
| `id`                                | Identificador único de la propiedad                       |
| `listing_url`                       | URL del anuncio en Airbnb                                 |
| `scrape_id`                        | Identificador de la extracción del dato                  |
| `last_scraped`                     | Fecha de la última extracción                             |
| `source`                          | Fuente de los datos                                       |
| `name`                            | Nombre del listado                                        |
| `description`                     | Descripción del alojamiento                               |
| `neighborhood_overview`            | Descripción del vecindario                                |
| `picture_url`                     | URL de la imagen principal                                |
| `host_id`                        | Identificador del anfitrión                               |
| `host_url`                       | URL del perfil del anfitrión                              |
| `host_name`                      | Nombre del anfitrión                                     |
| `host_since`                     | Fecha desde que el anfitrión está activo                 |
| `host_location`                  | Ubicación del anfitrión                                  |
| `host_about`                    | Descripción del anfitrión                                |
| `host_response_time`            | Tiempo promedio de respuesta del anfitrión               |
| `host_response_rate`            | Porcentaje de respuestas del anfitrión                   |
| `host_acceptance_rate`          | Porcentaje de aceptación de solicitudes                   |
| `host_is_superhost`             | Indicador si el anfitrión es superhost                    |
| `host_thumbnail_url`            | URL de la miniatura del anfitrión                         |
| `host_picture_url`              | URL de la foto del anfitrión                              |
| `host_neighbourhood`            | Vecindario del anfitrión                                  |
| `host_listings_count`           | Número de listados del anfitrión                          |
| `host_total_listings_count`     | Total de listados del anfitrión (incluye otros tipos)    |
| `host_verifications`            | Métodos de verificación del anfitrión                     |
| `host_has_profile_pic`          | Indicador si tiene foto de perfil                         |
| `host_identity_verified`        | Indicador de identidad verificada                         |
| `neighbourhood`                 | Vecindario                                               |
| `neighbourhood_cleansed`        | Vecindario limpio                                        |
| `neighbourhood_group_cleansed`  | Grupo del vecindario limpio                              |
| `latitude`                     | Latitud                                                 |
| `longitude`                    | Longitud                                                |
| `property_type`                | Tipo de propiedad                                       |
| `room_type`                   | Tipo de habitación                                     |
| `accommodates`                | Número de personas que puede alojar                    |
| `bathrooms`                   | Número de baños                                       |
| `bathrooms_text`              | Descripción de baños                                  |
| `bedrooms`                   | Número de habitaciones                               |
| `beds`                       | Número de camas                                    |
| `amenities`                  | Lista de amenidades                                |
| `price`                     | Precio por noche                                  |
| `minimum_nights`            | Número mínimo de noches                             |
| `maximum_nights`            | Número máximo de noches                             |
| `minimum_minimum_nights`    | Mínimo de la mínima cantidad de noches permitidas  |
| `maximum_minimum_nights`    | Máximo de la mínima cantidad de noches permitidas  |
| `minimum_maximum_nights`    | Mínimo de la máxima cantidad de noches permitidas  |
| `maximum_maximum_nights`    | Máximo de la máxima cantidad de noches permitidas  |
| `minimum_nights_avg_ntm`    | Promedio de mínimas noches por mes                   |
| `maximum_nights_avg_ntm`    | Promedio de máximas noches por mes                   |
| `calendar_updated`          | Fecha de actualización del calendario                |
| `has_availability`          | Indicador de disponibilidad                           |
| `availability_30`           | Disponibilidad en los próximos 30 días                |
| `availability_60`           | Disponibilidad en los próximos 60 días                |
| `availability_90`           | Disponibilidad en los próximos 90 días                |
| `availability_365`          | Disponibilidad en los próximos 365 días               |
| `calendar_last_scraped`     | Fecha del último scraping del calendario               |
| `number_of_reviews`         | Número total de reseñas                                |
| `number_of_reviews_ltm`     | Número de reseñas últimos 12 meses                     |
| `number_of_reviews_l30d`    | Número de reseñas últimos 30 días                       |
| `availability_eoy`          | Disponibilidad para fin de año                          |
| `number_of_reviews_ly`      | Número de reseñas del año pasado                        |
| `estimated_occupancy_l365d`| Estimación de ocupación últimos 365 días               |
| `estimated_revenue_l365d`  | Estimación de ingresos últimos 365 días                |
| `first_review`              | Fecha de la primera reseña                              |
| `last_review`               | Fecha de la última reseña                               |
| `review_scores_rating`      | Calificación promedio                                  |
| `review_scores_accuracy`    | Calificación de precisión                              |
| `review_scores_cleanliness` | Calificación de limpieza                               |
| `review_scores_checkin`     | Calificación de check-in                               |
| `review_scores_communication` | Calificación de comunicación                         |
| `review_scores_location`    | Calificación de ubicación                              |
| `review_scores_value`       | Calificación de valor                                  |
| `license`                   | Licencia (si aplica)                                   |
| `instant_bookable`          | Indicador si se puede reservar instantáneamente       |
| `calculated_host_listings_count` | Número calculado de listados del anfitrión       |
| `calculated_host_listings_count_entire_homes` | Número de listados casas completas        |
| `calculated_host_listings_count_private_rooms` | Número de listados habitaciones privadas |
| `calculated_host_listings_count_shared_rooms` | Número de listados habitaciones compartidas |
| `reviews_per_month`         | Promedio de reseñas por mes                            |

> *Nota: algunas variables pueden contener valores faltantes o formatos heterogéneos que requerirán tratamiento.* ⚠️

---

## ❓ Puntos / Preguntas a Resolver

1. **Carga y limpieza de datos:**  
   - Carga el archivo `listings.csv.gz` y revisa las primeras filas.  
   - Identifica variables con valores faltantes, duplicados o inconsistentes.  
   - Realiza una limpieza básica:  
     - Corrige formatos de fecha.  
     - Convierte columnas numéricas que estén como texto.  
     - Maneja valores faltantes: decide si imputar o eliminar observaciones.  

2. **Análisis exploratorio de datos:**  
   - Describe la distribución de variables numéricas relevantes (`price`, `bedrooms`, `accommodates`, `number_of_reviews`, etc.).  
   - Realiza gráficos para entender la distribución y relación entre variables (histogramas, boxplots, scatterplots).  
   - **Opcional:** Examina la distribución geográfica usando `latitude` y `longitude`.  

3. **Imputación y tratamiento de valores faltantes:**  
   - Analiza qué variables tienen datos faltantes y sus proporciones.  
   - Realiza una imputación adecuada y justifica la técnica usada.  

4. **Identificación y análisis de outliers:**  
   - Identifica valores atípicos en variables clave (`price`, `bedrooms`, `accommodates`).  
   - Decide cómo tratarlos (transformación, eliminación o capping).  

5. **Construcción de modelo predictivo para `price`:**  
   - Define la variable objetivo y variables predictoras relevantes.  
   - Entrena un modelo de regresión lineal.  
   - Evalúa desempeño con métricas como $R^2$, RMSE, MAE, etc.  
   - Interpreta coeficientes o importancia de variables.  
   - **Opcional:** Explora modelos más complejos para mejorar desempeño (calificación extra).  

6. **Conclusiones:**  
   - Resume hallazgos importantes.  
   - Propón recomendaciones para estrategia de precios o gestión en Airbnb.  

---

## 💡 Recursos Sugeridos

- 🐼 Pandas para manipulación y limpieza de datos.  
- 📊 Matplotlib y Seaborn para visualización.  
- 🤖 Scikit-learn para modelamiento.  
- 🗺️ Geopandas o Folium para visualización geográfica.  
- 🛠️ Técnicas de imputación: media, mediana, KNN, regresión.  
- 🔍 Detección de outliers con boxplots, IQR o Isolation Forest.  

---

🚀 **¡Manos a la obra y éxito en el análisis!** 🎉📈

In [3]:
import pandas as pd
pd.set_option('display.max_columns', None)  # Show all columns

df = pd.read_csv('listings.csv.gz', compression='gzip')
df.head()

Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,host_url,host_name,host_since,host_location,host_about,host_response_time,host_response_rate,host_acceptance_rate,host_is_superhost,host_thumbnail_url,host_picture_url,host_neighbourhood,host_listings_count,host_total_listings_count,host_verifications,host_has_profile_pic,host_identity_verified,neighbourhood,neighbourhood_cleansed,neighbourhood_group_cleansed,latitude,longitude,property_type,room_type,accommodates,bathrooms,bathrooms_text,bedrooms,beds,amenities,price,minimum_nights,maximum_nights,minimum_minimum_nights,maximum_minimum_nights,minimum_maximum_nights,maximum_maximum_nights,minimum_nights_avg_ntm,maximum_nights_avg_ntm,calendar_updated,has_availability,availability_30,availability_60,availability_90,availability_365,calendar_last_scraped,number_of_reviews,number_of_reviews_ltm,number_of_reviews_l30d,availability_eoy,number_of_reviews_ly,estimated_occupancy_l365d,estimated_revenue_l365d,first_review,last_review,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,18674,https://www.airbnb.com/rooms/18674,20250612050654,2025-06-21,city scrape,Huge flat for 8 people close to Sagrada Familia,110m2 apartment to rent in Barcelona. Located ...,Apartment in Barcelona located in the heart of...,https://a0.muscache.com/pictures/13031453/413c...,71615,https://www.airbnb.com/users/show/71615,Mireia Maria,2010-01-19,"Barcelona, Spain","We are Mireia (47) & Maria (49), two multiling...",within an hour,96%,91%,f,https://a0.muscache.com/im/pictures/user/User/...,https://a0.muscache.com/im/pictures/user/User/...,la Sagrada Família,44.0,46.0,"['email', 'phone']",t,t,"Barcelona, CT, Spain",la Sagrada Família,Eixample,41.40556,2.17262,Entire rental unit,Entire home/apt,8,2.0,2 baths,3.0,6.0,"[""30 inch TV"", ""AC - split type ductless syste...",$232.00,1,1125,1.0,5.0,999.0,999.0,2.2,999.0,,t,11,32,53,65,2025-06-21,48,6,2,65,5,36,8352.0,2013-05-27,2025-06-11,4.3,4.36,4.53,4.62,4.6,4.81,4.28,HUTB-002062,t,28,28,0,0,0.33
1,23197,https://www.airbnb.com/rooms/23197,20250612050654,2025-06-23,city scrape,"Forum CCIB DeLuxe, Spacious, Large Balcony, relax",Beautiful and Spacious Apartment with Large Te...,"Strategically located in the Parc del Fòrum, a...",https://a0.muscache.com/pictures/miso/Hosting-...,90417,https://www.airbnb.com/users/show/90417,Etain (Marnie),2010-03-09,"Catalonia, Spain","Hi there,\n\nI’m marnie, originally from Austr...",within an hour,100%,96%,t,https://a0.muscache.com/im/pictures/user/44b56...,https://a0.muscache.com/im/pictures/user/44b56...,El Besòs i el Maresme,6.0,9.0,"['email', 'phone']",t,t,"Sant Adria de Besos, Barcelona, Spain",el Besòs i el Maresme,Sant Martí,41.412432,2.21975,Entire rental unit,Entire home/apt,5,2.0,2 baths,3.0,4.0,"[""Bed linens"", ""Ceiling fan"", ""Oven"", ""AC - sp...",$382.00,3,32,2.0,7.0,1125.0,1125.0,3.3,1125.0,,t,6,12,29,174,2025-06-23,88,10,1,124,7,60,22920.0,2011-03-15,2025-05-31,4.82,4.94,4.9,4.94,4.99,4.65,4.68,HUTB005057,f,1,1,0,0,0.51
2,32711,https://www.airbnb.com/rooms/32711,20250612050654,2025-06-22,city scrape,Sagrada Familia area - Còrsega 1,A lovely two bedroom apartment only 250 m from...,What's nearby <br />This apartment is located...,https://a0.muscache.com/pictures/357b25e4-f414...,135703,https://www.airbnb.com/users/show/135703,Nick,2010-05-31,"Barcelona, Spain",I'm Nick your English host in Barcelona.\r\n\r...,within an hour,100%,100%,f,https://a0.muscache.com/im/users/135703/profil...,https://a0.muscache.com/im/users/135703/profil...,Camp d'en Grassot i Gràcia Nova,3.0,15.0,"['email', 'phone', 'work_email']",t,t,"Barcelona, Catalonia, Spain",el Camp d'en Grassot i Gràcia Nova,Gràcia,41.40566,2.17015,Entire rental unit,Entire home/apt,6,1.5,1.5 baths,2.0,3.0,"[""Oven"", ""AC - split type ductless system"", ""S...",$186.00,1,31,1.0,1.0,31.0,31.0,1.0,31.0,,t,5,12,31,39,2025-06-22,147,26,0,39,37,156,29016.0,2011-07-17,2025-05-14,4.46,4.44,4.38,4.88,4.89,4.89,4.47,HUTB-001722,f,3,3,0,0,0.87
3,34241,https://www.airbnb.com/rooms/34241,20250612050654,2025-06-22,city scrape,Stylish Top Floor Apartment - Ramblas Plaza Real,Located in close proximity to Plaza Real and L...,,https://a0.muscache.com/pictures/2437facc-2fe7...,73163,https://www.airbnb.com/users/show/73163,Andres,2010-01-24,"Barcelona, Spain","Hello I am a Professional designer, a traveler...",within an hour,80%,94%,f,https://a0.muscache.com/im/pictures/user/9cbe7...,https://a0.muscache.com/im/pictures/user/9cbe7...,El Gòtic,5.0,5.0,"['email', 'phone', 'work_email']",t,t,,el Barri Gòtic,Ciutat Vella,41.38062,2.17517,Entire condo,Entire home/apt,2,1.0,1 bath,1.0,1.0,"[""Bed linens"", ""Oven"", ""Dishwasher"", ""Hot wate...",$131.00,31,180,31.0,31.0,180.0,180.0,31.0,180.0,,t,30,60,90,333,2025-06-22,25,9,0,193,17,255,33405.0,2010-07-10,2024-11-05,4.36,4.45,4.55,4.68,4.68,4.73,4.23,Exempt,f,3,3,0,0,0.14
4,347824,https://www.airbnb.com/rooms/347824,20250612050654,2025-06-22,city scrape,"Ideal Happy Location Barceloneta Beach, Old Town!",Please send us a message to confirm availabili...,,https://a0.muscache.com/pictures/miso/Hosting-...,1447144,https://www.airbnb.com/users/show/1447144,Acomodis Apartments,2011-11-27,"Barcelona, Spain",Apartamentos ACOMODIS en Barcelona\n\nSomos un...,within an hour,87%,28%,f,https://a0.muscache.com/im/pictures/user/f1ba6...,https://a0.muscache.com/im/pictures/user/f1ba6...,El Poble-sec,356.0,565.0,"['email', 'phone']",t,t,,la Barceloneta,Ciutat Vella,41.3764,2.19102,Entire rental unit,Entire home/apt,3,1.0,1 bath,1.0,3.0,"[""Bed linens"", ""Hot water"", ""High chair"", ""Coo...",$285.00,2,330,2.0,2.0,330.0,330.0,2.0,330.0,,t,30,60,90,365,2025-06-22,3,0,0,193,1,0,0.0,2014-05-06,2024-02-19,4.0,4.67,4.0,2.67,3.67,5.0,4.0,HUTB-076700,f,355,355,0,0,0.02


In [None]:
df.shape

(18927, 79)

In [None]:
# Importaciones
import pandas as pd
import numpy as np

  from pkg_resources import resource_filename


# Sección 1:

In [15]:
df = pd.read_csv("listings.csv.gz", compression='gzip')

print(f"✅ Cantidad de datos: {df.shape[0]} filas y {df.shape[1]} columnas\n")

print("✔️ Primeras filas de la base de datos:")
display(df.head()) 

print("\n✔️ Nombre de las columnas:")
print(df.columns.tolist()) 

print("\n✔️ Revisión de los tipos de datos de las columnas:")
display(df.dtypes) 

print("\n✔️ Conteo de los valores nulos en cada columna:")
faltantes = (
    df.isnull().sum()
      .to_frame("Nulos")
      .assign(Proporcion=lambda x: (x["Nulos"]/len(df)*100).round(2))
      .query("Nulos > 0")
      .sort_values("Nulos", ascending=False)
)

display(faltantes)

duplicados = df.duplicated()
print(f"✔️ Filas duplicadas: {duplicados.sum()}")

print("\n✔️ Estadísticas descriptivas (variables numéricas):")
display(df.describe())

print("\n✔️ Estadísticas descriptivas (variables categóricas):")
display(df.describe(include='object'))

✅ Cantidad de datos: 18927 filas y 79 columnas

✔️ Primeras filas de la base de datos:


Unnamed: 0,id,listing_url,scrape_id,last_scraped,source,name,description,neighborhood_overview,picture_url,host_id,...,review_scores_communication,review_scores_location,review_scores_value,license,instant_bookable,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
0,18674,https://www.airbnb.com/rooms/18674,20250612050654,2025-06-21,city scrape,Huge flat for 8 people close to Sagrada Familia,110m2 apartment to rent in Barcelona. Located ...,Apartment in Barcelona located in the heart of...,https://a0.muscache.com/pictures/13031453/413c...,71615,...,4.6,4.81,4.28,HUTB-002062,t,28,28,0,0,0.33
1,23197,https://www.airbnb.com/rooms/23197,20250612050654,2025-06-23,city scrape,"Forum CCIB DeLuxe, Spacious, Large Balcony, relax",Beautiful and Spacious Apartment with Large Te...,"Strategically located in the Parc del Fòrum, a...",https://a0.muscache.com/pictures/miso/Hosting-...,90417,...,4.99,4.65,4.68,HUTB005057,f,1,1,0,0,0.51
2,32711,https://www.airbnb.com/rooms/32711,20250612050654,2025-06-22,city scrape,Sagrada Familia area - Còrsega 1,A lovely two bedroom apartment only 250 m from...,What's nearby <br />This apartment is located...,https://a0.muscache.com/pictures/357b25e4-f414...,135703,...,4.89,4.89,4.47,HUTB-001722,f,3,3,0,0,0.87
3,34241,https://www.airbnb.com/rooms/34241,20250612050654,2025-06-22,city scrape,Stylish Top Floor Apartment - Ramblas Plaza Real,Located in close proximity to Plaza Real and L...,,https://a0.muscache.com/pictures/2437facc-2fe7...,73163,...,4.68,4.73,4.23,Exempt,f,3,3,0,0,0.14
4,347824,https://www.airbnb.com/rooms/347824,20250612050654,2025-06-22,city scrape,"Ideal Happy Location Barceloneta Beach, Old Town!",Please send us a message to confirm availabili...,,https://a0.muscache.com/pictures/miso/Hosting-...,1447144,...,3.67,5.0,4.0,HUTB-076700,f,355,355,0,0,0.02



✔️ Nombre de las columnas:
['id', 'listing_url', 'scrape_id', 'last_scraped', 'source', 'name', 'description', 'neighborhood_overview', 'picture_url', 'host_id', 'host_url', 'host_name', 'host_since', 'host_location', 'host_about', 'host_response_time', 'host_response_rate', 'host_acceptance_rate', 'host_is_superhost', 'host_thumbnail_url', 'host_picture_url', 'host_neighbourhood', 'host_listings_count', 'host_total_listings_count', 'host_verifications', 'host_has_profile_pic', 'host_identity_verified', 'neighbourhood', 'neighbourhood_cleansed', 'neighbourhood_group_cleansed', 'latitude', 'longitude', 'property_type', 'room_type', 'accommodates', 'bathrooms', 'bathrooms_text', 'bedrooms', 'beds', 'amenities', 'price', 'minimum_nights', 'maximum_nights', 'minimum_minimum_nights', 'maximum_minimum_nights', 'minimum_maximum_nights', 'maximum_maximum_nights', 'minimum_nights_avg_ntm', 'maximum_nights_avg_ntm', 'calendar_updated', 'has_availability', 'availability_30', 'availability_60', '

id                                                int64
listing_url                                      object
scrape_id                                         int64
last_scraped                                     object
source                                           object
                                                 ...   
calculated_host_listings_count                    int64
calculated_host_listings_count_entire_homes       int64
calculated_host_listings_count_private_rooms      int64
calculated_host_listings_count_shared_rooms       int64
reviews_per_month                               float64
Length: 79, dtype: object


✔️ Conteo de los valores nulos en cada columna:


Unnamed: 0,Nulos,Proporcion
calendar_updated,18927,100.0
host_neighbourhood,9776,51.65
neighborhood_overview,9773,51.64
neighbourhood,9773,51.64
host_about,6775,35.8
license,6329,33.44
review_scores_checkin,5002,26.43
review_scores_accuracy,5001,26.42
review_scores_location,5001,26.42
review_scores_value,5001,26.42


✔️ Filas duplicadas: 0

✔️ Estadísticas descriptivas (variables numéricas):


Unnamed: 0,id,scrape_id,host_id,host_listings_count,host_total_listings_count,latitude,longitude,accommodates,bathrooms,bedrooms,...,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,calculated_host_listings_count_shared_rooms,reviews_per_month
count,18927.0,18927.0,18927.0,18924.0,18924.0,18927.0,18927.0,18927.0,14942.0,16870.0,...,13927.0,13925.0,13928.0,13926.0,13926.0,18927.0,18927.0,18927.0,18927.0,13929.0
mean,5.644774e+17,20250610000000.0,200721700.0,79.357166,101.944673,41.392254,2.166862,3.386538,1.432071,1.860403,...,4.621006,4.722626,4.720793,4.752836,4.464138,58.118402,40.914883,17.085698,0.079093,1.454379
std,5.586685e+17,0.0,202774300.0,174.647488,208.042297,0.014058,0.017843,2.271423,0.845467,1.343585,...,0.503187,0.475715,0.488591,0.381106,0.557166,118.410875,102.46355,67.319843,0.528217,2.117481
min,18674.0,20250610000000.0,3073.0,1.0,1.0,41.33531,2.085593,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.01
25%,28429250.0,20250610000000.0,11425670.0,2.0,3.0,41.38117,2.156303,2.0,1.0,1.0,...,4.5,4.67,4.67,4.68,4.33,2.0,0.0,0.0,0.0,0.19
50%,6.396171e+17,20250610000000.0,132979100.0,9.0,12.0,41.39012,2.16768,3.0,1.0,2.0,...,4.75,4.86,4.86,4.85,4.58,7.0,3.0,0.0,0.0,0.75
75%,1.112177e+18,20250610000000.0,357946500.0,47.0,83.0,41.40161,2.177699,4.0,2.0,2.0,...,4.93,5.0,5.0,5.0,4.78,39.0,24.0,2.0,0.0,2.18
max,1.440887e+18,20250610000000.0,700703000.0,1457.0,2696.0,41.456377,2.22183,16.0,16.0,29.0,...,5.0,5.0,5.0,5.0,5.0,522.0,522.0,414.0,6.0,74.79



✔️ Estadísticas descriptivas (variables categóricas):


Unnamed: 0,listing_url,last_scraped,source,name,description,neighborhood_overview,picture_url,host_url,host_name,host_since,...,room_type,bathrooms_text,amenities,price,has_availability,calendar_last_scraped,first_review,last_review,license,instant_bookable
count,18927,18927,18927,18927,18189,9154,18927,18927,18924,18924,...,18927,18919,18927,14913,17838,18927,13929,13929,12598,18927
unique,18927,6,2,18165,14951,6270,18668,6637,3212,3493,...,4,37,16878,891,1,6,3745,1828,6111,2
top,https://www.airbnb.com/rooms/18674,2025-06-22,city scrape,Double room with balcony,Live a unique experience in Barcelona in our C...,A modernist treasure trove full of elaborate a...,https://a0.muscache.com/pictures/miso/Hosting-...,https://www.airbnb.com/users/show/346367515,Ukio,2020-05-15,...,Entire home/apt,1 bath,"[""Cooking basics"", ""Wifi"", ""Washer"", ""Lockbox""...",$80.00,t,2025-06-22,2025-05-31,2025-06-08,Exempt,f
freq,1,6753,14946,12,367,79,12,522,522,523,...,11657,7568,49,172,17838,6753,28,495,4741,11908


### ✏️ Corrección de datos

Durante la revisión inicial de los tipos de datos del conjunto, se identificó que varias columnas que representan fechas estaban almacenadas como tipo `object`, es decir, como cadenas de texto. Este formato limita el analísis de estos datos, por lo que es fundal convertirlas al tipo de datos `datetime`.

En cuanto a los valores faltantes se hará lo siguiente: 
1) La columna `calendar_updated` está completamente vacía (100% nulos) por lo que se va a eliminar
2) Para los datos `host_about` (**35,8% nulos**), `host_neighbourhood` (**51,6% nulos**), `neighborhood_overview` (**51,6% nulos**) y `neighbourhood` (**51,6% nulos**) se reemplazarán por `"No information"`.  

3) En el caso de `neighbourhood` y `host_location` (entre **23% y 52% nulos**) se priorizarán las variables estandarizadas `neighbourhood_cleansed` y `neighbourhood_group_cleansed` (sin nulos), dejando las originales con `NaN`

4) Para las variables de reseñas como `review_scores_rating`, `review_scores_cleanliness`, etc. (aprox. **26% nulos**) se mantendrán los valores `NaN`, ya que son informativos (indican que el alojamiento no tiene reseñas).

5) En variables categóricas como `instant_bookable`, `host_is_superhost` y `host_has_profile_pic` (menos del **3% nulos**) los faltantes se imputarán con la moda


In [32]:
columnas_fecha = [
    'last_scraped', 'host_since', 'calendar_last_scraped',
    'first_review', 'last_review'
]
for col in columnas_fecha:
    if col in df.columns:
        df[col] = pd.to_datetime(df[col], errors='coerce')

print("✔️ Formato fechas:")
print(df[columnas_fecha].dtypes) #verificamos que la fecha se convirtió correctamente 

df_clean = df.copy() #hacemos una copia del DataFrame original para no modificarlo directamente

cols_drop = [c for c in ["calendar_updated"] if c in df_clean.columns] #eliminamos la columna que estaba completamente vacía
df_clean = df_clean.drop(columns=cols_drop)


cols_money_auto = [ #modificamos las columnas que incluyen un $ y las pasamos a tipo numérico
    col for col in df_clean.columns
    if df_clean[col].dtype == 'object' and df_clean[col].astype(str).str.contains(r"\$", na=False).any()
]

for col in set(cols_money_auto + [c for c in ["price"] if c in df_clean.columns]):
    df_clean[col] = (
        df_clean[col].astype(str)
        .str.replace(r"[\$,]", "", regex=True)
        .str.strip()
    )
    df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')

df_clean["price"] = (
    df_clean["price"].astype(str)     
    .str.replace(r"[\$,]", "", regex=True)   
)

df_clean["price"] = pd.to_numeric(df_clean["price"], errors="coerce") 

# Convertir columnas con % a numéricas
cols_porcentaje = ["host_response_rate", "host_acceptance_rate"]

for col in cols_porcentaje:
    if col in df_clean.columns:
        df_clean[col] = (
            df_clean[col]
            .astype(str)                
            .str.replace("%", "", regex=False)  
            .str.strip()   
        )            
        df_clean[col] = pd.to_numeric(df_clean[col], errors="coerce")  # a float


# Rellenamos con "No information"
cols_texto_info = ["host_about", "host_neighbourhood", "neighborhood_overview", "neighbourhood", "description", "license"]
for col in cols_texto_info:
    if col in df_clean.columns:
        df_clean[col] = df_clean[col].fillna("No information")

# Reemplazamos nulos con la moda
cols_categoricas = ["instant_bookable", "host_is_superhost", "host_has_profile_pic",
                    "host_identity_verified", "has_availability", "host_response_time"]
for col in cols_categoricas:
    if col in df_clean.columns:
        moda_series = df_clean[col].mode(dropna=True)
        if not moda_series.empty:
            df_clean[col] = df_clean[col].fillna(moda_series.iloc[0])

# Reemplazamos nulos con la mediana
cols_numericas_objetivo = [
    "beds", "bedrooms", "bathrooms", "price",
    "estimated_revenue_l365d", "host_response_rate", "host_acceptance_rate"
]
for col in cols_numericas_objetivo:
    if col in df_clean.columns and pd.api.types.is_numeric_dtype(df_clean[col]):
        mediana = df_clean[col].median(skipna=True)
        df_clean[col] = df_clean[col].fillna(mediana)

# Creamos has_reviews
if "review_scores_rating" in df_clean.columns:
    df_clean["has_reviews"] = df_clean["review_scores_rating"].notna().astype(int)

# Reporte de nulos restantes
nulos_restantes = df_clean.isnull().sum().sort_values(ascending=False)
print("Nulos restantes:")
print(nulos_restantes.head(10))
print(f"Total nulos restantes: {int(nulos_restantes.sum())}")


✔️ Formato fechas:
last_scraped             datetime64[ns]
host_since               datetime64[ns]
calendar_last_scraped    datetime64[ns]
first_review             datetime64[ns]
last_review              datetime64[ns]
dtype: object
Nulos restantes:
review_scores_checkin          5002
review_scores_location         5001
review_scores_value            5001
review_scores_accuracy         5001
review_scores_cleanliness      5000
review_scores_communication    4999
last_review                    4998
first_review                   4998
reviews_per_month              4998
review_scores_rating           4998
dtype: int64
Total nulos restantes: 54417


Tras el proceso de limpieza, los nulos que permanecen corresponden principalmente a columnas asociadas con reseñas (`review_scores_*`, `first_review`, `last_review`, `reviews_per_month`). Estos valores faltantes no representan un error en la información, sino que indican de manera natural que ciertos alojamientos nunca han recibido reseñas. Por ello, no existe una calificación, fecha o conteo mensual que registrar en dichos casos. En este contexto, los `NaN` funcionan como un dato informativo (es decir, “sin reseñas”) y no deben ser imputados, ya que hacerlo podría distorsionar el significado real de las variables. En cambio, se generó una variable auxiliar (`has_reviews`) para identificar fácilmente si un alojamiento tiene reseñas registradas o no.


# Sección 2:

# Sección 3:

# Sección 4:

# Sección 5:

# Sección 6: