<p align="center">
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/69/Airbnb_Logo_B%C3%A9lo.svg/2560px-Airbnb_Logo_B%C3%A9lo.svg.png" width="300">
</p>

# <span style="color: #ff385c;">Documentación de Datos: Airbnb Madrid</span>

## <span style="color: #ff385c;">Resumen de los Datos</span>

Este documento describe los conjuntos de datos utilizados en el análisis de precios de Airbnb en Madrid. Los datos están distribuidos en cinco dataframes que representan diferentes aspectos de los alojamientos.

## <span style="color: #ff385c;">Estructura de los Datos</span>

Los datos están organizados en cinco dataframes:

| Dataframe       | Descripción                            |
|-----------------|----------------------------------------|
| `df_conditions` | Condiciones de alquiler y precios      |
| `df_location`   | Datos de ubicación y geografía         |
| `df_property`   | Características de las propiedades     |
| `df_reviews`    | Valoraciones y reseñas de huéspedes    |
| `df_host`       | Información de los anfitriones         |

## <span style="color: #ff385c;">Descripción de los Dataframes</span>

### <span style="color: #ff385c;">df_conditions (21,020 filas, 7 columnas)</span>

Contiene información sobre las condiciones contractuales y precios de los alojamientos.

| Variable                           | Tipo    | Descripción                                       |
|------------------------------------|---------|---------------------------------------------------|
| `id`                               | int64   | Identificador único del alojamiento               |
| `price`                            | float64 | Precio por noche (€)                              |
| `minimum_nights`                   | int64   | Número mínimo de noches requeridas                |
| `maximum_nights`                   | int64   | Número máximo de noches permitidas                |
| `cancellation_policy`              | object  | Política de cancelación                           |
| `require_guest_profile_picture`    | int64   | Si se requiere foto de perfil del huésped (0/1)    |
| `require_guest_phone_verification` | int64   | Si se requiere verificación de teléfono (0/1)     |

**Notas**: No hay valores nulos en este dataframe.

---

## <span style="color: #ff385c;">Preprocesamiento de Datos</span>

### <span style="color: #ff385c;">1. Unión de Datos</span>
```python
df = df_conditions.merge(df_host, on='id')\
      .merge(df_location, on='id')\
      .merge(df_property, on='id')\
      .merge(df_reviews, on='id')



## <span style="color: #ff385c;">2. Manejo de valores nulos</span>
- Para `host_response_time` y `host_response_rate`: considerar una categoría "No Response" o imputar con la mediana.
- Para las columnas de reseñas: tratar los NA como 0 o crear una variable indicadora de "Sin reseñas".

## <span style="color: #ff385c;">3. Filtrado por segmento objetivo</span>
```python
# Filtrar apartamentos de 1-3 habitaciones
df_target = df_merged[
    (df_merged['property_type'] == 'apartment') & 
    (df_merged['bedrooms'] >= 1) & 
    (df_merged['bedrooms'] <= 3)
]
```

## <span style="color: #ff385c;">4. Variables potencialmente útiles para el análisis</span>
- `price` como variable objetivo
- `dist_km_sol` para análisis de ubicación
- Agrupación por `neighbourhood_group`
- Impacto de las condiciones del inmueble en el precio
- Impacto de comodidades (`amenities_*`) en el precio
- Relación entre `review_scores_*` y precio
- Relación entre `host_is_superhost` y precio
