# 📊 Dataset `listings_unificado.csv` - Documentación de Columnas

## 🎯 Descripción General

Dataset unificado de Airbnb para análisis de turismo urbano, conteniendo **61,114 registros** de Barcelona, Madrid y Mallorca. Este archivo representa la versión consolidada de datos básicos con precios y estado de licencias utilizados por la aplicación Streamlit.

---

## 📋 Estructura del Dataset

**Dimensiones**: 61,114 filas × 12 columnas  
**Ciudades**: Barcelona, Madrid, Mallorca  
**Propósito**: Dataset operativo para app Streamlit con análisis de precios y licencias  
**Características**: Versión optimizada para visualizaciones y métricas económicas con validación regulatoria

---

## 🔢 Columnas del Dataset

| # | Columna | Tipo | Descripción |
|---|---------|------|-------------|
| 1 | `id` | **int64** | **Identificador único** - ID principal del listing en Airbnb |
| 2 | `ciudad` | **object** | **Ciudad** - Barcelona, Madrid o Mallorca |
| 3 | `name` | **object** | **Nombre del listing** - Título de la propiedad en Airbnb |
| 4 | `neighbourhood_cleansed` | **object** | **Barrio normalizado** - Nombre del barrio/zona geográfica |
| 5 | `distrito` | **object** | **Distrito administrativo** - Agrupación de barrios por distrito |
| 6 | `latitude` | **float64** | **Latitud** - Coordenada geográfica (precisión ~100m) |
| 7 | `longitude` | **float64** | **Longitud** - Coordenada geográfica (precisión ~100m) |
| 8 | `room_type` | **object** | **Tipo de habitación** - Entire home/apt, Private room, Shared room |
| 9 | `minimum_nights` | **int64** | **Estancia mínima** - Número mínimo de noches requeridas |
| 10 | `availability_365` | **int64** | **Disponibilidad anual** - Días disponibles en los próximos 365 días |
| 11 | `price` | **float64** | **Precio por noche** - Precio en euros para una noche de estancia |
| 12 | `license` | **bool** | **Estado de licencia** - Indica si el alojamiento tiene licencia turística oficial |

---

## 🆕 Nueva Columna: `license` (Estado de Licencias Turísticas)

### **📋 Descripción**
La columna `license` indica si cada alojamiento cuenta con una **licencia turística oficial** según los registros disponibles de cada ciudad.

### **🔧 Proceso de Filtrado a Valores Booleanos**

**Transformación aplicada:**
```python
# Valores originales variados convertidos a booleanos estrictos
df['license'] = df['license_original'].fillna(False).astype(bool)
```

**Criterios de conversión:**
- **`True`** ➜ Alojamiento **CON licencia** oficial validada
- **`False`** ➜ Alojamiento **SIN licencia** o licencia no verificable
- **Valores nulos/vacíos** ➜ Convertidos a `False` (sin licencia)

### **📊 Distribución Actual**
- **✅ Con Licencia**: 13,904 alojamientos (22.7%)
- **❌ Sin Licencia**: 47,210 alojamientos (77.3%)
- **Total Analizados**: 61,114 registros

### **🎯 Propósito en el Dashboard**
- **Análisis regulatorio**: Pie chart en sección "Impacto Económico"
- **Métricas de cumplimiento**: Porcentaje de alojamientos legalizados
- **Comparativas por ciudad**: Nivel de regulación por destino
- **Base para recomendaciones**: Políticas de mejora de cumplimiento

---

## 🔄 Funcionamiento con la Aplicación Streamlit

### **📥 Carga y Filtrado de Datos**
La aplicación (`app_unificado.py`) aplica filtros estrictos al cargar este dataset:

1. **🔢 Conversión de precios**: `price` se convierte a numérico
2. **🏘️ Datos completos**: Elimina registros sin ciudad/barrio
3. **💰 Precios válidos**: Elimina registros sin precio o precio ≤ 0
4. **🚫 Precios extremos**: Filtra precios ≥ 6501€/noche
5. **📋 Licencias**: Mantiene columna `license` para análisis regulatorio

**Resultado**: De ~61k registros iniciales → ~33k registros válidos para análisis

### **📊 Métricas Calculadas**
- **Ocupación**: `(365 - availability_365) / 365 * 100`
- **Precio medio**: Promedio ponderado de `price` por ciudad/barrio
- **Impacto económico**: `total_listings × precio_medio × ocupación × días_año`
- **Densidad**: Conteo de listings por neighbourhood_cleansed
- **Cumplimiento regulatorio**: `sum(license) / count(total) * 100`

### **🗺️ Visualizaciones Generadas**
- **Mapas interactivos** con precios por barrio
- **Análisis de distribución** geográfica y económica
- **KPIs principales** por ciudad y distrito
- **Comparativas** de tipos de alojamiento
- **📋 Pie chart de licencias** en sección económica

---

## 📈 Características Técnicas

### **Rangos de Valores Esperados**
- **`price`**: 1-6500€ (tras filtrado de extremos)
- **`availability_365`**: 0-365 días
- **`license`**: True/False (estricto booleano)
- **Coordenadas**: Validadas dentro de España

### **🔧 Calidad de Datos Post-Filtrado**
- ✅ **Datos completos** en todas las columnas críticas
- ✅ **Precios realistas** (1-6500€/noche)
- ✅ **Consistencia geográfica** validada
- ✅ **Sin valores nulos** en campos operativos
- ✅ **Licencias normalizadas** a formato booleano estricto

---

**💡 Nota**: Este dataset es la fuente principal para `app_unificado.py` y `app_nuevo.py`. Los filtros aplicados garantizan análisis robustos con datos válidos, incluyendo análisis regulatorio mediante la columna `license`.

In [None]:
# 📋 Ejemplo de Análisis de Licencias - Columna 'license'

import pandas as pd
import numpy as np

# Cargar el dataset
df = pd.read_csv('listings_unificado.csv')

print("🔍 ANÁLISIS DE LA COLUMNA 'LICENSE'")
print("=" * 50)

# 1. Información básica de la columna license
print("\n📊 Información general:")
print(f"Tipo de datos: {df['license'].dtype}")
print(f"Valores únicos: {df['license'].unique()}")
print(f"Registros totales: {len(df):,}")

# 2. Distribución de licencias
print("\n📈 Distribución de licencias:")
license_counts = df['license'].value_counts()
print(license_counts)

# Calcular porcentajes
license_percentages = df['license'].value_counts(normalize=True) * 100
print(f"\n📊 Porcentajes:")
for status, percentage in license_percentages.items():
    label = "✅ Con Licencia" if status else "❌ Sin Licencia"
    print(f"{label}: {percentage:.1f}%")

# 3. Análisis por ciudad
print("\n🏙️ Distribución por ciudad:")
city_license = df.groupby('ciudad')['license'].agg(['count', 'sum']).reset_index()
city_license['porcentaje_con_licencia'] = (city_license['sum'] / city_license['count'] * 100).round(1)
city_license.columns = ['Ciudad', 'Total_Alojamientos', 'Con_Licencia', 'Porcentaje_Con_Licencia']

for _, row in city_license.iterrows():
    print(f"📍 {row['Ciudad'].title()}:")
    print(f"   Total: {row['Total_Alojamientos']:,} alojamientos")
    print(f"   Con licencia: {row['Con_Licencia']:,} ({row['Porcentaje_Con_Licencia']}%)")
    print(f"   Sin licencia: {row['Total_Alojamientos']-row['Con_Licencia']:,}")

# 4. Ejemplo de filtrado para análisis específicos
print("\n🔧 EJEMPLOS DE FILTRADO:")
print("=" * 30)

# Filtro 1: Solo alojamientos con licencia
with_license = df[df['license'] == True]
print(f"Alojamientos CON licencia: {len(with_license):,}")

# Filtro 2: Solo alojamientos sin licencia  
without_license = df[df['license'] == False]
print(f"Alojamientos SIN licencia: {len(without_license):,}")

# Filtro 3: Precio medio por estado de licencia
price_by_license = df.groupby('license')['price'].mean()
print(f"\n💰 Precio medio por estado de licencia:")
for status, price in price_by_license.items():
    label = "Con Licencia" if status else "Sin Licencia" 
    print(f"   {label}: €{price:.2f}/noche")

print("\n✅ Análisis completado. La columna 'license' está lista para visualizaciones.")

## 🔄 Proceso de Transformación: Valores Originales → Booleanos

### **Datos Originales Encontrados**
Los datos de licencias venían en formatos variados de las diferentes fuentes:

```python
# Ejemplos de valores originales encontrados:
valores_originales = [
    "HUT-123456-78",     # Código de licencia válido
    "HUTT-2023-001",     # Otro formato de código
    "",                  # Cadena vacía
    np.nan,              # Valor nulo
    "No registrado",     # Texto indicando ausencia
    "Pendiente",         # Estado pendiente
    None,                # Valor None de Python
    "VT-123-AB"          # Variación de formato por comunidad
]
```

### **🔧 Lógica de Transformación Aplicada**

```python
def transformar_a_booleano(valor_original):
    """
    Convierte valores de licencia variados a booleano estricto
    
    True: Solo si hay un código de licencia válido identificable
    False: Cualquier otro caso (nulos, vacíos, pendientes, etc.)
    """
    if pd.isna(valor_original) or valor_original == "":
        return False
    
    if isinstance(valor_original, str):
        # Buscar patrones de códigos de licencia válidos
        if re.match(r'^[A-Z]{2,4}-[\d]{4,6}-[A-Z\d]{1,3}$', valor_original):
            return True
        elif "pendiente" in valor_original.lower():
            return False
        elif "no registrado" in valor_original.lower():
            return False
    
    # Por defecto, valores desconocidos = False (conservador)
    return False
```

### **📊 Resultado de la Transformación**
- **Criterio conservador**: Solo códigos claramente válidos → `True`
- **Todos los demás casos** → `False`
- **Beneficio**: Análisis preciso del cumplimiento regulatorio real