<p align="center">
    <img src="https://upload.wikimedia.org/wikipedia/commons/thumb/6/69/Airbnb_Logo_B%C3%A9lo.svg/2560px-Airbnb_Logo_B%C3%A9lo.svg.png" width="300">
</p>

# <span style="color: #ff385c;">Documentación de Datos: Airbnb Madrid</span>

## <span style="color: #ff385c;">Resumen de los Datos</span>

Este documento describe los conjuntos de datos utilizados en el análisis de precios de Airbnb en Madrid. Los datos están distribuidos en cinco dataframes que representan diferentes aspectos de los alojamientos.

## <span style="color: #ff385c;">Estructura de los Datos</span>

Los datos están organizados en cinco dataframes:

| Dataframe       | Descripción                            |
|-----------------|----------------------------------------|
| `df_conditions` | Condiciones de alquiler y precios      |
| `df_location`   | Datos de ubicación y geografía         |
| `df_property`   | Características de las propiedades     |
| `df_reviews`    | Valoraciones y reseñas de huéspedes    |
| `df_host`       | Información de los anfitriones         |

## <span style="color: #ff385c;">Descripción de los Dataframes</span>

### <span style="color: #ff385c;">df_conditions (21,020 filas, 7 columnas)</span>

Contiene información sobre las condiciones contractuales y precios de los alojamientos.

| Variable                           | Tipo    | Descripción                                       |
|------------------------------------|---------|---------------------------------------------------|
| `id`                               | int64   | Identificador único del alojamiento               |
| `price`                            | float64 | Precio por noche (€)                              |
| `minimum_nights`                   | int64   | Número mínimo de noches requeridas                |
| `maximum_nights`                   | int64   | Número máximo de noches permitidas                |
| `cancellation_policy`              | object  | Política de cancelación                           |
| `require_guest_profile_picture`    | int64   | Si se requiere foto de perfil del huésped (0/1)    |
| `require_guest_phone_verification` | int64   | Si se requiere verificación de teléfono (0/1)     |

**Notas**: No hay valores nulos en este dataframe.

---

### <span style="color: #ff385c;">df_location (21,020 filas, 7 columnas)</span>

Datos de ubicación geográfica y relación con el entorno.

| Variable | Tipo | Descripción |
|----------|------|-------------|
| `id` | int64 | Identificador único del alojamiento |
| `neighbourhood` | object | Barrio (nivel detallado) |
| `neighbourhood_group` | object | Distrito (nivel agregado) |
| `latitude` | float64 | Latitud geográfica |
| `longitude` | float64 | Longitud geográfica |
| `dist_km_sol` | float64 | Distancia en km a la Puerta del Sol |
| `dist_km_airport` | float64 | Distancia en km al aeropuerto |

**Notas**: No hay valores nulos en este dataframe.

---

### <span style="color: #ff385c;">df_property (21,020 filas, 13 columnas)</span>

Características físicas y descriptivas de las propiedades.

| Variable | Tipo | Descripción |
|----------|------|-------------|
| `id` | int64 | Identificador único del alojamiento |
| `property_type` | object | Tipo de propiedad (apartamento, casa, etc.) |
| `room_type` | object | Tipo de habitación (entire_home_apt, private_room, etc.) |
| `accommodates` | int64 | Capacidad máxima de personas |
| `bathrooms` | float64 | Número de baños |
| `bedrooms` | float64 | Número de dormitorios |
| `beds` | float64 | Número de camas |
| `bed_type` | object | Tipo de cama (real_bed, etc.) |
| `amenities_wifi_internet` | int64 | Disponibilidad de WiFi/Internet (0/1) |
| `amenities_tv` | int64 | Disponibilidad de televisión (0/1) |
| `amenities_air_conditioning` | int64 | Disponibilidad de aire acondicionado (0/1) |
| `amenities_heating` | int64 | Disponibilidad de calefacción (0/1) |
| `amenities_kitchen` | int64 | Disponibilidad de cocina (0/1) |

**Notas**: No hay valores nulos en este dataframe.

---

### <span style="color: #ff385c;">df_reviews (21,020 filas, 16 columnas)</span>

Información sobre valoraciones y reseñas de los huéspedes.

| Variable | Tipo | Descripción |
|----------|------|-------------|
| `id` | int64 | Identificador único del alojamiento |
| `number_of_reviews` | int64 | Cantidad total de reseñas |
| `number_of_reviews_ltm` | int64 | Cantidad de reseñas en los últimos 12 meses |
| `review_scores_rating` | float64 | Puntuación general (0-100) |
| `review_scores_accuracy` | float64 | Puntuación en precisión (0-10) |
| `review_scores_cleanliness` | float64 | Puntuación en limpieza (0-10) |
| `review_scores_checkin` | float64 | Puntuación en proceso de check-in (0-10) |
| `review_scores_communication` | float64 | Puntuación en comunicación (0-10) |
| `review_scores_location` | float64 | Puntuación en ubicación (0-10) |
| `review_scores_value` | float64 | Puntuación en relación calidad-precio (0-10) |
| `reviews_per_month` | float64 | Promedio de reseñas por mes |
| `days_since_last_review` | int64 | Días transcurridos desde la última reseña |
| `days_since_first_review` | int64 | Días transcurridos desde la primera reseña |
| `number_of_reviews_en` | float64 | Número de reseñas en inglés |
| `number_of_reviews_es` | float64 | Número de reseñas en español |
| `number_of_reviews_otros` | float64 | Número de reseñas en otros idiomas |

**Notas**: Hay valores nulos considerables en las columnas de puntuaciones (~4,294) y en las columnas relacionadas con reseñas mensuales e idiomas (4,038).

---

### <span style="color: #ff385c;">df_host (21,020 filas, 13 columnas)</span>

Información detallada sobre los anfitriones.

| Variable | Tipo | Descripción |
|----------|------|-------------|
| `id` | int64 | Identificador único del alojamiento |
| `host_response_time` | object | Tiempo promedio de respuesta del anfitrión |
| `host_response_rate` | float64 | Porcentaje de mensajes respondidos |
| `host_is_superhost` | int64 | Si el anfitrión tiene estatus de Superhost (0/1) |
| `host_has_profile_pic` | int64 | Si el anfitrión tiene foto de perfil (0/1) |
| `host_identity_verified` | int64 | Si la identidad del anfitrión está verificada (0/1) |
| `host_verifications_email` | int64 | Si el anfitrión ha verificado su email (0/1) |
| `host_verifications_phone` | int64 | Si el anfitrión ha verificado su teléfono (0/1) |
| `host_verifications_reviews` | int64 | Si el anfitrión ha verificado con reseñas (0/1) |
| `host_verifications_facebook` | int64 | Si el anfitrión ha verificado con Facebook (0/1) |
| `host_verifications_government_id` | int64 | Si el anfitrión ha verificado con identificación oficial (0/1) |
| `calculated_host_listings_count` | int64 | Número total de propiedades del anfitrión |
| `host_seniority` | int64 | Antigüedad del anfitrión en días |

**Notas**: Hay 4,464 valores nulos en `host_response_time` y `host_response_rate`.

---

## <span style="color: #ff385c;">Estadísticas Básicas</span>

### <span style="color: #ff385c;">Tamaño de los Datasets</span>

| Dataframe | Filas | Columnas |
|-----------|-------|----------|
| df_conditions | 21,020 | 7 |
| df_location | 21,020 | 7 |
| df_property | 21,020 | 13 |
| df_reviews | 21,020 | 16 |
| df_host | 21,020 | 13 |

## <span style="color: #ff385c;">Notas Técnicas</span>

- Todos los dataframes comparten la columna `id` como clave única para unir los datos.
- No hay filas duplicadas en ninguno de los dataframes.
- Las variables booleanas están codificadas como 0/1 (tipo int64).
- Los datos de reseñas tienen valores faltantes significativos, especialmente para propiedades sin reseñas.
- Valores -1 en días_since_last_review y days_since_first_review probablemente indican propiedades sin reseñas.


---

## <span style="color: #ff385c;">Preprocesamiento de Datos</span>

### <span style="color: #ff385c;">1. Unión de Datos</span>
```python
df = df_conditions.merge(df_host, on='id')\
      .merge(df_location, on='id')\
      .merge(df_property, on='id')\
      .merge(df_reviews, on='id')



## <span style="color: #ff385c;">2. Manejo de valores nulos</span>
- Para `host_response_time` y `host_response_rate`: considerar una categoría "No Response" o imputar con la mediana.
- Para las columnas de reseñas: tratar los NA como 0 o crear una variable indicadora de "Sin reseñas".

## <span style="color: #ff385c;">3. Filtrado por segmento objetivo</span>
```python
# Filtrar apartamentos de 1-3 habitaciones
df_target = df_merged[
    (df_merged['property_type'] == 'apartment') & 
    (df_merged['bedrooms'] >= 1) & 
    (df_merged['bedrooms'] <= 3)
]
```

## <span style="color: #ff385c;">4. Variables potencialmente útiles para el análisis</span>
- `price` como variable objetivo
- `dist_km_sol` para análisis de ubicación
- Agrupación por `neighbourhood_group`
- Impacto de las condiciones del inmueble en el precio
- Impacto de comodidades (`amenities_*`) en el precio
- Relación entre `review_scores_*` y precio
- Relación entre `host_is_superhost` y precio
