# AirBnb Challenge

Airbnb 🏡 es una plataforma en línea que conecta a viajeros ✈️ con personas que alquilan sus casas 🛏️ por corto tiempo. Fundada en 2008 🗓️, no posee las propiedades, sino que cobra comisión por cada reserva 💰. Disponible en web y app 📱, también ofrece experiencias turísticas únicas 🌍. Su nombre viene de “AirBedandBreakfast”, su idea original de ofrecer camas inflables y desayuno 🍳.

## Sobre los datos

El **conjunto de datos** con el que trabajarás forma parte de la iniciativa **Airbnb Inside** y proporciona información sobre los **anuncios de alojamientos en casas particulares** en la ciudad de **Nueva York**. Este conjunto de datos incluye detalles sobre los anuncios, como **descripciones completas**, **puntuaciones de reseñas promedio**, **reseñas de usuarios con identificación única** y **comentarios detallados**, además de **calendarios** con información de **precios** y **disponibilidad** para cada anuncio y día.



##Análisis exploratorio de datos EDA


📊 **Comencemos familiarizándonos con el dataset**

Para dar el primer paso en nuestro análisis, te recomiendo hacer lo siguiente:

1. **Carga los datos** 🗂️  
   Asegúrate de que el archivo esté correctamente leído en tu entorno de trabajo.

2. **Explora los tipos de datos** 🔍  
   Revisa con qué tipo de datos cuenta cada columna (números, texto, fechas, etc.).

3. **Observa los nombres de las columnas** 🧾  
   Esto te ayudará a entender qué información contiene cada una y cómo puedes usarla.

4. **Visualiza algunas filas del dataset** 👁️  
   Echa un vistazo general a las primeras filas para hacerte una idea de qué representa cada columna y cómo están organizados los datos.

> 💡 *Este paso es clave para que tu análisis posterior sea más eficiente y enfocado.*

In [1]:
import pandas as pd

In [2]:
# Descarga de aca a los datos : https://drive.google.com/file/d/16Z1rpnVm_NQ5ljiIZfSGzHAiNlUXL0x4/view
# Cargar el dataset
PATH ="/content/Airbnb_Open_Data.csv"

airbnb = pd.read_csv(PATH) # cargar dataset

  airbnb = pd.read_csv(PATH) # cargar dataset


In [4]:
airbnb.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102599 entries, 0 to 102598
Data columns (total 26 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   id                              102599 non-null  int64  
 1   NAME                            102349 non-null  object 
 2   host id                         102599 non-null  int64  
 3   host_identity_verified          102310 non-null  object 
 4   host name                       102193 non-null  object 
 5   neighbourhood group             102570 non-null  object 
 6   neighbourhood                   102583 non-null  object 
 7   lat                             102591 non-null  float64
 8   long                            102591 non-null  float64
 9   country                         102067 non-null  object 
 10  country code                    102468 non-null  object 
 11  instant_bookable                102494 non-null  object 
 12  cancellation_pol

In [None]:
# Veamos algunas filas


In [None]:
# Informacion sobre las columnas y el tipo de dato asociado a ellas




Reemplaza todas aquellas columnas con espacio entre las palabras con "_". Adicionalmente, deje todos los nombre en minúsculas.

## Limpieza de datos

♻️  **Convierte las columnas `price`, `service_fee` a númericas**

> 💡 Hint: usa la función `replace` para poder hacer la conversión de los datos:

> ```df['price'].str.replace('$','').astype(float)```


🧩 **Manejo de Valores Faltantes**

Ahora que tienes una idea general de lo que hay en el dataset, deberás corregir los problemas que este tiene.

1. 🔍 **Identifica las columnas con valores faltantes.**
2. 🛠️ **Decide una estrategia para manejarlos**, como:
   * Imputación con media/mediana/moda.
   * Eliminar columnas o filas con muchos valores faltantes.
   * Rellenar con un valor específico.
   * Justificar si decides no hacer nada.

---

### 🧠 Estrategias sugeridas:

---

#### ❌ **Eliminar columnas**
Si una columna tiene más del **50 %** de valores faltantes y **no es crucial**, considera eliminarla.

```python
# Eliminar una columna con muchos valores nulos
df = df.drop(columns=['nombre_columna'])
```

---

#### 🔢 **Imputación de valores faltantes**

Cuando la columna es importante, puedes rellenar los valores faltantes con una estrategia adecuada:

##### 📈 Media
```python
# Rellenar con la media (para columnas numéricas)
df['columna_numerica'] = df['columna_numerica'].fillna(df['columna_numerica'].mean())
```

##### 📊 Mediana
```python
# Rellenar con la mediana (más robusta a valores atípicos)
df['columna_numerica'] = df['columna_numerica'].fillna(df['columna_numerica'].median())
```

##### 🔁 Moda
```python
# Rellenar con la moda (para columnas categóricas)
df['columna_categorica'] = df['columna_categorica'].fillna(df['columna_categorica'].mode()[0])
```

##### 🧱 Valor específico
```python
# Rellenar con un valor fijo (por ejemplo, "Desconocido")
df['columna'] = df['columna'].fillna('Desconocido')
```

---

#### 🧹 **Eliminar filas**
Si los valores faltantes son pocos pero en columnas importantes, puedes optar por eliminar esas filas.

```python
# Eliminar filas que tengan al menos un valor nulo
df = df.dropna(subset=['columna_importante'])
```

---

#### ✅ **Dejar los valores nulos (con justificación)**
En algunos casos, puede tener sentido **no rellenar** los valores faltantes si se justifican bien en el análisis.

> 💬 *Ejemplo: “Decidimos no imputar la columna `X` ya que los valores faltantes indican un evento significativo que se analizará por separado.”*

---

Recuerda siempre **justificar** tu decisión y considerar el impacto en el análisis 📊.


In [None]:
# Verificar valores faltantes


In [None]:
# a. Eliminar columnas con muchos valores faltantes


# b. Imputar con la moda (ej: 'neighbourhood group')


# c. Eliminar filas con valores faltantes en columnas importantes (ej: 'price')


# d. Llenar valores nulos de 'review rate number' con 0. Asumimos que si no tiene review rate number es porque no tiene reviews.



# e. Verifica los cambios



## Análisis


Piensa que tu cliente puede ser  alguno de los siguientes interesados:

| Stakeholder | Intereses |
|---|---|
| **Huéspedes** | Encontrar alojamientos con buena relación calidad-precio, en ubicaciones convenientes y con las comodidades que necesitan. |
| **Anfitriones** | Maximizar sus ingresos, optimizar la ocupación de sus propiedades y mejorar la experiencia de sus huéspedes. |
| **Inversores** | Identificar zonas con alto potencial de rentabilidad, evaluar el retorno de la inversión en propiedades para alquiler a corto plazo y comprender las tendencias del mercado. |
| **Gobierno local** | Asegurar el cumplimiento de las normativas, controlar el impacto del turismo en la ciudad y proteger los derechos de los residentes. |
| **Comunidades locales** | Preservar la calidad de vida en sus barrios, evitar la gentrificación y participar en la toma de decisiones sobre el turismo en su zona. |



* Escoge uno de ellos y haz un listado de posibles preguntas que pudieran ser de su interés


* De las preguntas escoge un par, discutan que tabla  tabla resumen (`groupby` , `describe`,`query` ) que pudieran usar para  responder. *e.g. El top 3 de Alojamientos que*



In [None]:
# Distribucion de viviendas segun año de contruccion. Para ello, debe contar el numero de registros según el año de construcción.
# Barrios con mayor numero de viviendas para arriendo. Cuente el número de registros y agrupelos por barrio de forma descendente.
# Obtenga el costo promedio de alojamiento según el barrio de la ciudad.
# Determina el top 5 de vecindarios con el mejor review promedio (review_rate_number).

