# üìä Dataset `listings_unificado.csv` - Documentaci√≥n de Columnas

## üéØ Descripci√≥n General

Dataset unificado de Airbnb para an√°lisis de turismo urbano, conteniendo **61,114 registros** de Barcelona, Madrid y Mallorca. Este archivo representa la versi√≥n consolidada de datos b√°sicos con precios y estado de licencias utilizados por la aplicaci√≥n Streamlit.

---

## üìã Estructura del Dataset

**Dimensiones**: 61,114 filas √ó 12 columnas  
**Ciudades**: Barcelona, Madrid, Mallorca  
**Prop√≥sito**: Dataset operativo para app Streamlit con an√°lisis de precios y licencias  
**Caracter√≠sticas**: Versi√≥n optimizada para visualizaciones y m√©tricas econ√≥micas con validaci√≥n regulatoria

---

## üî¢ Columnas del Dataset

| # | Columna | Tipo | Descripci√≥n |
|---|---------|------|-------------|
| 1 | `id` | **int64** | **Identificador √∫nico** - ID principal del listing en Airbnb |
| 2 | `ciudad` | **object** | **Ciudad** - Barcelona, Madrid o Mallorca |
| 3 | `name` | **object** | **Nombre del listing** - T√≠tulo de la propiedad en Airbnb |
| 4 | `neighbourhood_cleansed` | **object** | **Barrio normalizado** - Nombre del barrio/zona geogr√°fica |
| 5 | `distrito` | **object** | **Distrito administrativo** - Agrupaci√≥n de barrios por distrito |
| 6 | `latitude` | **float64** | **Latitud** - Coordenada geogr√°fica (precisi√≥n ~100m) |
| 7 | `longitude` | **float64** | **Longitud** - Coordenada geogr√°fica (precisi√≥n ~100m) |
| 8 | `room_type` | **object** | **Tipo de habitaci√≥n** - Entire home/apt, Private room, Shared room |
| 9 | `minimum_nights` | **int64** | **Estancia m√≠nima** - N√∫mero m√≠nimo de noches requeridas |
| 10 | `availability_365` | **int64** | **Disponibilidad anual** - D√≠as disponibles en los pr√≥ximos 365 d√≠as |
| 11 | `price` | **float64** | **Precio por noche** - Precio en euros para una noche de estancia |
| 12 | `license` | **bool** | **Estado de licencia** - Indica si el alojamiento tiene licencia tur√≠stica oficial |

---

## üÜï Nueva Columna: `license` (Estado de Licencias Tur√≠sticas)

### **üìã Descripci√≥n**
La columna `license` indica si cada alojamiento cuenta con una **licencia tur√≠stica oficial** seg√∫n los registros disponibles de cada ciudad.

### **üîß Proceso de Filtrado a Valores Booleanos**

**Transformaci√≥n aplicada:**
```python
# Valores originales variados convertidos a booleanos estrictos
df['license'] = df['license_original'].fillna(False).astype(bool)
```

**Criterios de conversi√≥n:**
- **`True`** ‚ûú Alojamiento **CON licencia** oficial validada
- **`False`** ‚ûú Alojamiento **SIN licencia** o licencia no verificable
- **Valores nulos/vac√≠os** ‚ûú Convertidos a `False` (sin licencia)

### **üìä Distribuci√≥n Actual**
- **‚úÖ Con Licencia**: 13,904 alojamientos (22.7%)
- **‚ùå Sin Licencia**: 47,210 alojamientos (77.3%)
- **Total Analizados**: 61,114 registros

### **üéØ Prop√≥sito en el Dashboard**
- **An√°lisis regulatorio**: Pie chart en secci√≥n "Impacto Econ√≥mico"
- **M√©tricas de cumplimiento**: Porcentaje de alojamientos legalizados
- **Comparativas por ciudad**: Nivel de regulaci√≥n por destino
- **Base para recomendaciones**: Pol√≠ticas de mejora de cumplimiento

---

## üîÑ Funcionamiento con la Aplicaci√≥n Streamlit

### **üì• Carga y Filtrado de Datos**
La aplicaci√≥n (`app_unificado.py`) aplica filtros estrictos al cargar este dataset:

1. **üî¢ Conversi√≥n de precios**: `price` se convierte a num√©rico
2. **üèòÔ∏è Datos completos**: Elimina registros sin ciudad/barrio
3. **üí∞ Precios v√°lidos**: Elimina registros sin precio o precio ‚â§ 0
4. **üö´ Precios extremos**: Filtra precios ‚â• 6501‚Ç¨/noche
5. **üìã Licencias**: Mantiene columna `license` para an√°lisis regulatorio

**Resultado**: De ~61k registros iniciales ‚Üí ~33k registros v√°lidos para an√°lisis

### **üìä M√©tricas Calculadas**
- **Ocupaci√≥n**: `(365 - availability_365) / 365 * 100`
- **Precio medio**: Promedio ponderado de `price` por ciudad/barrio
- **Impacto econ√≥mico**: `total_listings √ó precio_medio √ó ocupaci√≥n √ó d√≠as_a√±o`
- **Densidad**: Conteo de listings por neighbourhood_cleansed
- **Cumplimiento regulatorio**: `sum(license) / count(total) * 100`

### **üó∫Ô∏è Visualizaciones Generadas**
- **Mapas interactivos** con precios por barrio
- **An√°lisis de distribuci√≥n** geogr√°fica y econ√≥mica
- **KPIs principales** por ciudad y distrito
- **Comparativas** de tipos de alojamiento
- **üìã Pie chart de licencias** en secci√≥n econ√≥mica

---

## üìà Caracter√≠sticas T√©cnicas

### **Rangos de Valores Esperados**
- **`price`**: 1-6500‚Ç¨ (tras filtrado de extremos)
- **`availability_365`**: 0-365 d√≠as
- **`license`**: True/False (estricto booleano)
- **Coordenadas**: Validadas dentro de Espa√±a

### **üîß Calidad de Datos Post-Filtrado**
- ‚úÖ **Datos completos** en todas las columnas cr√≠ticas
- ‚úÖ **Precios realistas** (1-6500‚Ç¨/noche)
- ‚úÖ **Consistencia geogr√°fica** validada
- ‚úÖ **Sin valores nulos** en campos operativos
- ‚úÖ **Licencias normalizadas** a formato booleano estricto

---

**üí° Nota**: Este dataset es la fuente principal para `app_unificado.py` y `app_nuevo.py`. Los filtros aplicados garantizan an√°lisis robustos con datos v√°lidos, incluyendo an√°lisis regulatorio mediante la columna `license`.

In [None]:
# üìã Ejemplo de An√°lisis de Licencias - Columna 'license'

import pandas as pd
import numpy as np

# Cargar el dataset
df = pd.read_csv('listings_unificado.csv')

print("üîç AN√ÅLISIS DE LA COLUMNA 'LICENSE'")
print("=" * 50)

# 1. Informaci√≥n b√°sica de la columna license
print("\nüìä Informaci√≥n general:")
print(f"Tipo de datos: {df['license'].dtype}")
print(f"Valores √∫nicos: {df['license'].unique()}")
print(f"Registros totales: {len(df):,}")

# 2. Distribuci√≥n de licencias
print("\nüìà Distribuci√≥n de licencias:")
license_counts = df['license'].value_counts()
print(license_counts)

# Calcular porcentajes
license_percentages = df['license'].value_counts(normalize=True) * 100
print(f"\nüìä Porcentajes:")
for status, percentage in license_percentages.items():
    label = "‚úÖ Con Licencia" if status else "‚ùå Sin Licencia"
    print(f"{label}: {percentage:.1f}%")

# 3. An√°lisis por ciudad
print("\nüèôÔ∏è Distribuci√≥n por ciudad:")
city_license = df.groupby('ciudad')['license'].agg(['count', 'sum']).reset_index()
city_license['porcentaje_con_licencia'] = (city_license['sum'] / city_license['count'] * 100).round(1)
city_license.columns = ['Ciudad', 'Total_Alojamientos', 'Con_Licencia', 'Porcentaje_Con_Licencia']

for _, row in city_license.iterrows():
    print(f"üìç {row['Ciudad'].title()}:")
    print(f"   Total: {row['Total_Alojamientos']:,} alojamientos")
    print(f"   Con licencia: {row['Con_Licencia']:,} ({row['Porcentaje_Con_Licencia']}%)")
    print(f"   Sin licencia: {row['Total_Alojamientos']-row['Con_Licencia']:,}")

# 4. Ejemplo de filtrado para an√°lisis espec√≠ficos
print("\nüîß EJEMPLOS DE FILTRADO:")
print("=" * 30)

# Filtro 1: Solo alojamientos con licencia
with_license = df[df['license'] == True]
print(f"Alojamientos CON licencia: {len(with_license):,}")

# Filtro 2: Solo alojamientos sin licencia  
without_license = df[df['license'] == False]
print(f"Alojamientos SIN licencia: {len(without_license):,}")

# Filtro 3: Precio medio por estado de licencia
price_by_license = df.groupby('license')['price'].mean()
print(f"\nüí∞ Precio medio por estado de licencia:")
for status, price in price_by_license.items():
    label = "Con Licencia" if status else "Sin Licencia" 
    print(f"   {label}: ‚Ç¨{price:.2f}/noche")

print("\n‚úÖ An√°lisis completado. La columna 'license' est√° lista para visualizaciones.")

## üîÑ Proceso de Transformaci√≥n: Valores Originales ‚Üí Booleanos

### **Datos Originales Encontrados**
Los datos de licencias ven√≠an en formatos variados de las diferentes fuentes:

```python
# Ejemplos de valores originales encontrados:
valores_originales = [
    "HUT-123456-78",     # C√≥digo de licencia v√°lido
    "HUTT-2023-001",     # Otro formato de c√≥digo
    "",                  # Cadena vac√≠a
    np.nan,              # Valor nulo
    "No registrado",     # Texto indicando ausencia
    "Pendiente",         # Estado pendiente
    None,                # Valor None de Python
    "VT-123-AB"          # Variaci√≥n de formato por comunidad
]
```

### **üîß L√≥gica de Transformaci√≥n Aplicada**

```python
def transformar_a_booleano(valor_original):
    """
    Convierte valores de licencia variados a booleano estricto
    
    True: Solo si hay un c√≥digo de licencia v√°lido identificable
    False: Cualquier otro caso (nulos, vac√≠os, pendientes, etc.)
    """
    if pd.isna(valor_original) or valor_original == "":
        return False
    
    if isinstance(valor_original, str):
        # Buscar patrones de c√≥digos de licencia v√°lidos
        if re.match(r'^[A-Z]{2,4}-[\d]{4,6}-[A-Z\d]{1,3}$', valor_original):
            return True
        elif "pendiente" in valor_original.lower():
            return False
        elif "no registrado" in valor_original.lower():
            return False
    
    # Por defecto, valores desconocidos = False (conservador)
    return False
```

### **üìä Resultado de la Transformaci√≥n**
- **Criterio conservador**: Solo c√≥digos claramente v√°lidos ‚Üí `True`
- **Todos los dem√°s casos** ‚Üí `False`
- **Beneficio**: An√°lisis preciso del cumplimiento regulatorio real