# 📊 Dataset `listings_unificado.csv` - Documentación de Columnas

## 🎯 Descripción General

Dataset unificado de Airbnb para análisis de turismo urbano, conteniendo **61,289 registros** de Barcelona, Madrid y Mallorca. Este archivo representa la versión consolidada de datos básicos utilizados por la aplicación Streamlit.

---

## 📋 Estructura del Dataset

**Dimensiones**: 61,289 filas × 10 columnas  
**Ciudades**: Barcelona, Madrid, Mallorca  
**Propósito**: Dataset operativo para app Streamlit  
**Características**: Versión simplificada y optimizada para visualizaciones

---

## 🔢 Columnas del Dataset

| # | Columna | Tipo | Descripción |
|---|---------|------|-------------|
| 1 | `id` | **int64** | **Identificador único** - ID principal del listing en Airbnb |
| 2 | `ciudad` | **object** | **Ciudad** - Barcelona, Madrid o Mallorca |
| 3 | `name` | **object** | **Nombre del listing** - Título de la propiedad en Airbnb |
| 4 | `neighbourhood_cleansed` | **object** | **Barrio normalizado** - Nombre del barrio/zona geográfica |
| 5 | `distrito` | **object** | **Distrito administrativo** - Agrupación de barrios por distrito |
| 6 | `latitude` | **float64** | **Latitud** - Coordenada geográfica (precisión ~100m) |
| 7 | `longitude` | **float64** | **Longitud** - Coordenada geográfica (precisión ~100m) |
| 8 | `room_type` | **object** | **Tipo de habitación** - Entire home/apt, Private room, Shared room |
| 9 | `minimum_nights` | **int64** | **Estancia mínima** - Número mínimo de noches requeridas |
| 10 | `availability_365` | **int64** | **Disponibilidad anual** - Días disponibles en los próximos 365 días |

---

## 📈 Características Técnicas

### **Rangos de Valores Esperados**
- **`id`**: Números únicos de 6-8 dígitos
- **`ciudad`**: 3 valores únicos (Barcelona, Madrid, Mallorca)  
- **`latitude`**: ~39.5-42.0 (rango geográfico España)
- **`longitude`**: ~1.4-4.4 (rango geográfico España)
- **`room_type`**: 3 categorías principales
- **`minimum_nights`**: 1-1250 días (casos extremos para alquiler largo plazo)
- **`availability_365`**: 0-365 días

### **Calidad de Datos**
- ✅ **Sin valores nulos** en columnas críticas (id, ciudad, coordenadas)
- ✅ **Coordenadas validadas** dentro de rangos geográficos
- ✅ **Consistencia territorial** entre barrio y distrito
- ⚠️ **Algunos nulos** posibles en name y neighbourhood_cleansed

---

## 🎯 Uso en la Aplicación

### **Métricas Calculadas**
1. **Ocupación**: `(365 - availability_365) / 365 * 100`
2. **Densidad por barrio**: Conteo de listings por neighbourhood_cleansed
3. **Distribución geográfica**: Basada en latitude/longitude
4. **Tipos de alojamiento**: Análisis de room_type

### **Visualizaciones Generadas**
- 🗺️ **Mapas interactivos** usando coordenadas
- 📊 **Gráficos por distrito** y barrio  
- 📈 **Análisis de disponibilidad** temporal
- 🏠 **Segmentación por tipo** de habitación

---

**💡 Nota**: Este dataset es la versión operativa utilizada por `app_nuevo.py`. Para análisis más detallados con precios y métricas avanzadas, usar `listings_nuevo.csv`.

In [1]:
import pandas as pd


In [2]:
df = pd.read_csv('listings_unificado.csv')


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 61114 entries, 0 to 61113
Data columns (total 10 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      61114 non-null  int64  
 1   ciudad                  61114 non-null  object 
 2   name                    61114 non-null  object 
 3   neighbourhood_cleansed  61114 non-null  object 
 4   distrito                61114 non-null  object 
 5   latitude                61114 non-null  float64
 6   longitude               61114 non-null  float64
 7   room_type               61114 non-null  object 
 8   minimum_nights          61114 non-null  int64  
 9   availability_365        61114 non-null  int64  
dtypes: float64(2), int64(3), object(5)
memory usage: 4.7+ MB


In [None]:
# muestra 10 filas aleatorias de neighbourhood_cleansed
df['neighbourhood_cleansed'].sample(10, random_state=42)

## 💰 **SÍ, app_nuevo.py muestra datos de precios y costes**

### **1. Métricas de Precios en Dashboard Principal** 📊
- **💰 Precio Medio**: `{precio_medio:.0f}€` por noche
- **💼 Impacto Económico**: `{impacto_economico:.0f}M€` anual estimado

### **2. Fuentes de Datos de Precios** 📂
La app intenta cargar precios desde múltiples fuentes:
```python
# Archivos que busca para precios:
- "precios_inmobiliarios.csv"
- "listings_precios" (dataset principal con precios)
- "pre_airbnb" (datos con precios reales)
```

### **3. Dónde Aparecen los Precios** 🗺️
1. **Mapas interactivos**: 
   - `precio_medio_euros` en tooltips/hover
   - Información de precios por barrio

2. **Cards de barrios**:
   - `💰 Precio Medio: €{precio_medio}/noche`

3. **KPIs principales**:
   - Precio medio ponderado por ciudad
   - Impacto económico calculado

### **4. Cálculo de Métricas Económicas** 🧮
```python
# Fórmula del impacto económico:
pib_airbnb_diario = total_listings * precio_medio * ocupacion_media
impacto_anual = (pib_airbnb_diario * dias_operativos) / 1_000_000  # En millones
```

### **5. Valores por Defecto** ⚙️
Cuando no hay datos reales disponibles:
- **Precio medio**: 85€/noche (promedio España)
- **Impacto económico**: 750M€ (estimación sectorial)

### **🚨 PROBLEMA IDENTIFICADO**
**`listings_unificado.csv` NO tiene columnas de precios**, por lo que la app:
- ✅ **Carga la estructura** correctamente
- ❌ **No puede mostrar precios reales** de este dataset
- 🔄 **Usa valores por defecto** o datos de otros archivos si existen

### **💡 Recomendación**
Para que los precios funcionen completamente, la app necesita:
1. `listings_nuevo.csv` (que SÍ tiene columna `price`)
2. O archivos complementarios como `precios_inmobiliarios.csv`
3. O datos en `pre_airbnb` con precios reales

21841               Trafalgar
16869         Palos de Moguer
3075                Trafalgar
40789    el Putxet i el Farró
15325              Guindalera
18200           Valdeacederas
31745             Sant Antoni
23186                 Legazpi
47713                Pollença
3181              Embajadores
Name: neighbourhood_cleansed, dtype: object