## Analisis Exploratorio de Datos (EDA) - Airbnb Ciudad de Mexico

Este notebook tiene como objetivo explorar las dataset extraidos de MongoDB para comprender su estructura, calidad y posibles transformaciones necesarias antes de descargarlos en un Data Warehouse.

Se analizaran las siguientes colecciones:
- Listings
- Reviews
- Calendar

In [None]:
import sys
import os
sys.path.append(os.path.abspath(os.path.join(os.getcwd(), '..')))
from src.extraccion import Extraccion

import seaborn as sns
import matplotlib.pyplot as plt

extraccion = Extraccion()
df_listings = extraccion.obtener_datos('MX_listings')
df_reviews = extraccion.obtener_datos('MX_reviews')
df_calendar = extraccion.obtener_datos('MX_calendar') 

#------Primeras filas-----

df_listings.head()
df_reviews.head()
df_calendar.head()

#-----Dimensiones--------

print("Listings:", df_listings.shape)
print("Reviews:", df_reviews.shape)
print("Calendar:", df_calendar.shape)

#-------Tipos de datos----

df_listings.info()
df_reviews.info()
df_calendar.info()

#------Valores nulos------

df_listings.isnull().sum()
df_reviews.isnull().sum()
df_calendar.isnull().sum()

#------Duplicados-------

print("Listings duplicados:", df_listings.duplicated().sum())
print("Reviews duplicados:", df_reviews.duplicated().sum())
print("Calendar duplicados:", df_calendar.duplicated().sum())

ModuleNotFoundError: No module named 'seaborn'

In [None]:

#-----Boxplot de precios-----

sns.boxplot(x=df_listings['price'])
plt.title("Distribución de precios")
plt.show()

#-----Estadisticas descriptivas-----

df_listings[['price', 'minimun_nights', 'availability_365']].describe()

#------Campos anidados-----

df_listings['amenities'].head()

#-----Agrupacion por mes-----
df_calendar['date']= pd.to_datetime(df_calendar['date'])
df_calendar['month'] = df_calendar['date'].dt.month
df_calendar.groupby('month')['available'].sum()

#------Limpieza de datos-----
df_listings['price'] = df_listings['price'].replace('[\$,]', '', regex=True).astype(float)

#--------Histograma de precios--------
plt.hist(df_listings['price'], bins=50)
plt.title("Histograma de precios")
plt.xlabel("Precio")
plt.ylabel("Frecuencia")
plt.show()

#--------Disponibilidad por mes---------
df_calendar.groupby('month')['available'].sum().plot(kind='bar')
plt.title("Disponibilidad por mes")
plt.xlabel("Mes")
plt.ylabel("Total disponible")
plt.show()


# Hallazgos del EDA

- La columna `price` contiene símbolos que deben limpiarse para convertir a tipo numérico.
- Se detectaron valores extremos en `minimum_nights`, algunos con más de 1000 noches.
- `amenities` es una lista que puede expandirse en columnas binarias para análisis.
- El campo `date` en `calendar` puede usarse para derivar mes, año y trimestre.
- Existen valores nulos en varias columnas que deben tratarse en la fase de transformación.