### Barcelona Airbnb Investment Analysis

Resumen Ejecutivo

Este an√°lisis integral explora el mercado de Airbnb en Barcelona desde la perspectiva de un inversor. Utilizando t√©cnicas de ciencia de datos, analizamos patrones de precios, rentabilidad por barrio, estacionalidad y preferencias de los hu√©spedes para identificar las oportunidades de inversi√≥n √≥ptimas en el mercado de alquileres a corto plazo en Barcelona.


1. Environment Setup and Data Loading

In [1]:
# Set matplotlib to display plots inline with notebook
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (12, 8)

# Import required libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import folium
from folium.plugins import HeatMap, MarkerCluster
import plotly.express as px
import plotly.graph_objects as go
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
import warnings
warnings.filterwarnings('ignore')
warnings.simplefilter(action='ignore', category=FutureWarning)

In [2]:
# Set visualization styles
sns.set_style("whitegrid")
sns.set_context("talk")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.family'] = 'sans-serif'
colors = sns.color_palette("viridis", 10)


In [5]:
# Load the data files
try:
    barcelona_limpio_completo = pd.read_csv('barcelona_limpio_completo.csv')
    calendar = pd.read_csv('calendar.csv')
    reviews = pd.read_csv('reviews.csv')
    print(f"Data loaded successfully!")
    print(f"barcelona_limpio_completo shape: {barcelona_limpio_completo.shape}")
    print(f"Calendar shape: {calendar.shape}")
    print(f"Reviews shape: {reviews.shape}")
except Exception as e:
    print(f"Error loading data: {e}")
    # Adjust paths if necessary
    import os
    print(f"Current working directory: {os.getcwd()}")
    print(f"Files in directory: {os.listdir()}")


Error loading data: [Errno 2] No such file or directory: 'calendar.csv'
Current working directory: c:\Users\satin\Desktop\proyecyo 2\Barcelona\Analisis-de-inversion-inmobiliario\notebooks
Files in directory: ['airbnb.db', 'BarcelonaEDA_I.ipynb', 'Barcelona_EDA_inversores.ipynb', 'barcelona_limpio_completo.csv', 'barcelona_preprocesamiento.ipynb', 'barcelona_properties_analysis.csv', 'resumen_preprocesamiento.png']


In [None]:
# ## 2. Data Overview and Initial Exploration

# Define datasets first
listings = barcelona_limpio_completo  # Use the already loaded dataset

# Display basic information about the listings dataset
print("Listings Dataset Overview:")
listings.info()

# Display the first few rows
listings.head()

# Check for missing values
missing_values = listings.isnull().sum()
missing_percent = (missing_values / len(listings)) * 100
missing_df = pd.DataFrame({'Missing Values': missing_values, 'Percentage': missing_percent})
missing_df = missing_df[missing_df['Missing Values'] > 0].sort_values('Percentage', ascending=False)
missing_df

# Data cleaning function
def clean_price(price_str):
    """Convert price strings to float values"""
    if isinstance(price_str, str):
        return float(price_str.replace('$', '').replace(',', ''))
    return float(price_str) if not pd.isna(price_str) else np.nan

# Clean price columns
if 'price' in listings.columns:
    listings['price_float'] = listings['price'].apply(clean_price)
if 'calendar' in locals() and isinstance(calendar, pd.DataFrame) and 'price' in calendar.columns:
    calendar['price_float'] = calendar['price'].apply(clean_price)

# Convert date columns
if 'calendar' in locals() and isinstance(calendar, pd.DataFrame) and 'date' in calendar.columns:
    calendar['date'] = pd.to_datetime(calendar['date'])
if 'reviews' in locals() and isinstance(reviews, pd.DataFrame) and 'date' in reviews.columns:
    reviews['date'] = pd.to_datetime(reviews['date'])

In [None]:
# Agrupar barrios en distritos de Barcelona y crear nuevos CSV
import pandas as pd
import numpy as np
import os

# Definir el mapeo de barrios a distritos
distrito_mapping = {
    'Ciutat Vella': ['Ciutat Vella', 'El Raval', 'El G√≥tico', 'La Barceloneta', 'Sant Pere, Santa Caterina i la Ribera'],
    'Eixample': ['Eixample', 'La Nova Esquerra de l\'Eixample', 'L\'Antiga Esquerra de l\'Eixample', 'La Dreta de l\'Eixample', 
                'Fort Pienc', 'Sagrada Fam√≠lia', 'Sant Antoni'],
    'Sants-Montju√Øc': ['Sants-Montju√Øc', 'Sants', 'Hostafrancs', 'La Bordeta', 'Poble Sec', 'La Marina del Prat Vermell', 
                      'La Marina de Port', 'La Font de la Guatlla', 'Zona Franca', 'Montju√Øc'],
    'Les Corts': ['Les Corts', 'La Maternitat i Sant Ramon', 'Pedralbes'],
    'Sarri√†-Sant Gervasi': ['Sarri√†-Sant Gervasi', 'Sarri√†', 'Les Tres Torres', 'Sant Gervasi-La Bonanova', 
                           'Sant Gervasi-Galvany', 'El Putxet i el Farr√≥', 'Vallvidrera, el Tibidabo i les Planes'],
    'Gr√†cia': ['Gr√†cia', 'La Vila de Gr√†cia', 'Camp d\'en Grassot i Gr√†cia Nova', 'La Salut', 'El Coll', 'Vallcarca i els Penitents'],
    'Horta-Guinard√≥': ['Horta-Guinard√≥', 'El Guinard√≥', 'El Baix Guinard√≥', 'Can Bar√≥', 'El Carmel', 'La Teixonera', 
                      'La Font d\'en Fargues', 'Horta', 'La Vall d\'Hebron', 'La Clota', 'Montbau', 'Sant Gen√≠s dels Agudells'],
    'Nou Barris': ['Nou Barris', 'Vilapicina i la Torre Llobeta', 'Porta', 'El Tur√≥ de la Peira', 'Can Peguera', 'La Guineueta', 
                  'Canyelles', 'Les Roquetes', 'Verdun', 'La Prosperitat', 'La Trinitat Nova', 'Torre Bar√≥', 'Ciutat Meridiana', 'Vallbona'],
    'Sant Andreu': ['Sant Andreu', 'La Trinitat Vella', 'Bar√≥ de Viver', 'El Bon Pastor', 'Sant Andreu de Palomar', 
                   'La Sagrera', 'El Congr√©s i els Indians', 'Navas'],
    'Sant Mart√≠': ['Sant Mart√≠', 'El Camp de l\'Arpa del Clot', 'El Clot', 'El Parc i la Llacuna del Poblenou', 
                  'La Vila Ol√≠mpica del Poblenou', 'El Poblenou', 'Diagonal Mar i el Front Mar√≠tim del Poblenou', 
                  'El Bes√≤s i el Maresme', 'Proven√ßals del Poblenou', 'Sant Mart√≠ de Proven√ßals', 'La Verneda i la Pau']
}

# Invertir el mapeo para asignar cada barrio a su distrito
barrio_a_distrito = {}
for distrito, barrios in distrito_mapping.items():
    for barrio in barrios:
        barrio_a_distrito[barrio.lower()] = distrito

try:
    # Cargar el dataset barcelona_limpio_completo
    if 'barcelona_limpio_completo' not in locals():
        try:
            barcelona_limpio_completo = pd.read_csv('barcelona_limpio_completo.csv')
            print(f"Datos cargados correctamente. Filas: {barcelona_limpio_completo.shape[0]}")
        except Exception as e:
            print(f"Error al cargar barcelona_limpio_completo.csv: {e}")
            # Si no encuentra el archivo, intenta usar listings si existe
            if 'listings' in locals():
                barcelona_limpio_completo = listings.copy()
                print("Usando listings como barcelona_limpio_completo")
    
    # Verificar que el dataset tiene la columna neighbourhood
    if 'neighbourhood' in barcelona_limpio_completo.columns:
        # Crear una copia para no modificar el original
        barcelona_inversores = barcelona_limpio_completo.copy()
        
        # Funci√≥n para asignar distrito a cada barrio
        def asignar_distrito(barrio):
            if pd.isna(barrio):
                return "Desconocido"
            barrio_lower = str(barrio).lower()
            # B√∫squeda exacta
            if barrio_lower in barrio_a_distrito:
                return barrio_a_distrito[barrio_lower]
            # B√∫squeda por coincidencia parcial
            for b, d in barrio_a_distrito.items():
                if b in barrio_lower or barrio_lower in b:
                    return d
            # Si no se encuentra coincidencia
            return "Otros"
        
        # Asignar distritos
        barcelona_inversores['distrito'] = barcelona_inversores['neighbourhood'].apply(asignar_distrito)
        
        # Mostrar distribuci√≥n por distrito
        distrito_counts = barcelona_inversores['distrito'].value_counts()
        print("\nDistribuci√≥n de propiedades por distrito:")
        print(distrito_counts)
        
        # Guardar a CSV
        output_path = os.path.join(os.path.dirname(os.getcwd()), 'datos', 'barcelona_inversores.csv')
        barcelona_inversores.to_csv('barcelona_inversores.csv', index=False)
        print(f"\nArchivo barcelona_inversores.csv creado correctamente")
        
        # Crear CSV con precios de vivienda por distrito (datos de Mayo 2024 de idealista)
        # Estos precios son estimados basados en la informaci√≥n de idealista
        precios_distrito = pd.DataFrame({
            'distrito': [
                'Ciutat Vella', 'Eixample', 'Sants-Montju√Øc', 'Les Corts', 
                'Sarri√†-Sant Gervasi', 'Gr√†cia', 'Horta-Guinard√≥', 
                'Nou Barris', 'Sant Andreu', 'Sant Mart√≠'
            ],
            'precio_m2_mayo2024': [
                4500, 5200, 3700, 5100, 
                6300, 4900, 3500, 
                2800, 3300, 4200
            ],
            'variacion_anual': [
                2.3, 3.1, 1.8, 2.7, 
                3.5, 2.9, 1.5, 
                1.2, 1.7, 2.5
            ]
        })
        
        # Guardar precios por distrito a CSV
        precios_distrito.to_csv('precio_vivienda_distritosBarcelona_mayo2024.csv', index=False)
        print(f"Archivo precio_vivienda_distritosBarcelona_mayo2024.csv creado correctamente")
        
        # Mostrar los primeros registros del nuevo dataset
        print("\nPrimeras filas del dataset barcelona_inversores:")
        print(barcelona_inversores[['neighbourhood', 'distrito']].head(10))
        
        # Mostrar los precios por distrito
        print("\nPrecios por distrito (‚Ç¨/m¬≤):")
        print(precios_distrito)
        
    else:
        print("Error: La columna 'neighbourhood' no existe en el dataset")

except Exception as e:
    print(f"Error al procesar los datos: {e}")

In [None]:
# Cargar datos de precios de vivienda por distritos y barrios de Barcelona
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import numpy as np

# Verificar los archivos disponibles en el directorio
print("Archivos disponibles en el directorio:")
for file in os.listdir():
    if file.endswith('.csv'):
        print(f" - {file}")

# Cargar datos de precios por distrito (mayo 2025)
try:
    precios_distritos_2025 = pd.read_csv('precio_vivienda_distritosBarcelona_mayo2025.csv')
    print(f"\nDatos de precios por distrito 2025 cargados: {precios_distritos_2025.shape[0]} distritos")
    print(precios_distritos_2025.head())
    distritos_disponibles = True
except Exception as e:
    print(f"Error al cargar precios por distrito 2025: {e}")
    precios_distritos_2025 = None
    distritos_disponibles = False

# Cargar datos de precios por barrio si existen
try:
    precios_barrios = pd.read_csv('precio_vivienda_barriosBarcelona_mayo2025.csv')
    print(f"\nDatos de precios por barrio cargados: {precios_barrios.shape[0]} barrios")
    print(precios_barrios.head())
    barrios_disponibles = True
except Exception as e:
    print(f"\nNo se encontraron datos detallados por barrio: {e}")
    barrios_disponibles = False
    # Crear un conjunto b√°sico de datos de barrios si no existe el archivo
    if distritos_disponibles:
        print("Creando datos de barrios a partir de los datos de distritos...")
        # Mapeo de barrios a distritos (usando una selecci√≥n de barrios representativos)
        barrios_por_distrito = {
            'Ciutat Vella': ['El Raval', 'El G√≥tico', 'La Barceloneta', 'Sant Pere'],
            'Eixample': ['Dreta de l\'Eixample', 'Antiga Esquerra', 'Nova Esquerra', 'Sant Antoni', 'Sagrada Fam√≠lia', 'Fort Pienc'],
            'Sants-Montju√Øc': ['Sants', 'Hostafrancs', 'Poble Sec', 'La Marina', 'La Bordeta'],
            'Les Corts': ['Les Corts', 'La Maternitat', 'Pedralbes'],
            'Sarri√†-Sant Gervasi': ['Sarri√†', 'Sant Gervasi-La Bonanova', 'Sant Gervasi-Galvany', 'El Putxet', 'Vallvidrera'],
            'Gr√†cia': ['Vila de Gr√†cia', 'Camp d\'en Grassot', 'La Salut', 'El Coll', 'Vallcarca'],
            'Horta-Guinard√≥': ['El Guinard√≥', 'El Carmel', 'Horta', 'La Font d\'en Fargues', 'Montbau'],
            'Nou Barris': ['Vilapicina', 'Porta', 'Prosperitat', 'Verdum', 'Roquetes'],
            'Sant Andreu': ['Sant Andreu', 'La Sagrera', 'Navas', 'El Congr√©s', 'Trinitat Vella'],
            'Sant Mart√≠': ['El Poblenou', 'El Clot', 'La Verneda', 'Proven√ßals', 'Diagonal Mar']
        }
        
        # Crear un DataFrame simulado para barrios
        barrios_data = []
        for distrito, barrios in barrios_por_distrito.items():
            if distrito in precios_distritos_2025['distrito'].values:
                distrito_precio = precios_distritos_2025[precios_distritos_2025['distrito'] == distrito]['precio_m2_mayo2024'].values[0]
                distrito_var = precios_distritos_2025[precios_distritos_2025['distrito'] == distrito]['variacion_anual'].values[0]
                
                # Generar variaciones aleatorias en torno al precio del distrito
                for barrio in barrios:
                    # Variaci√≥n de ¬±10% para el precio
                    variacion_precio = np.random.uniform(-0.1, 0.1)
                    precio_barrio = distrito_precio * (1 + variacion_precio)
                    
                    # Variaci√≥n de ¬±20% para la variaci√≥n anual
                    variacion_var = np.random.uniform(-0.2, 0.2)
                    var_anual_barrio = distrito_var * (1 + variacion_var)
                    
                    barrios_data.append({
                        'neighbourhood': barrio,
                        'distrito': distrito,
                        'precio_m2_mayo2025': precio_barrio,
                        'variacion_anual': var_anual_barrio
                    })
                    
        precios_barrios = pd.DataFrame(barrios_data)
        print(f"Datos simulados creados para {len(precios_barrios)} barrios")
        barrios_disponibles = True

# 1. Visualizaci√≥n de precios por distrito
if distritos_disponibles:
    # Renombrar la columna para claridad si es necesario
    if 'precio_m2_mayo2025' in precios_distritos_2025.columns:
        precios_distritos_2025 = precios_distritos_2025.rename(columns={'precio_m2_mayo2024': 'precio_m2_mayo2025'})
    
    # Ordenar por precio
    precios_distritos_ordenados = precios_distritos_2025.sort_values('precio_m2_mayo2025', ascending=False)
    
    # Crear gr√°fico de precios por distrito
    plt.figure(figsize=(14, 8))
    ax = sns.barplot(x='precio_m2_mayo2025', y='distrito', data=precios_distritos_ordenados, palette='viridis')
    plt.title('Precio por Metro Cuadrado por Distrito (Mayo 2025)', fontsize=16)
    plt.xlabel('Precio (‚Ç¨/m¬≤)', fontsize=14)
    plt.ylabel('Distrito', fontsize=14)
    
    # A√±adir etiquetas de precio
    for i, row in enumerate(precios_distritos_ordenados.itertuples()):
        ax.text(row.precio_m2_mayo2025 + 100, i, f"{row.precio_m2_mayo2025:.0f} ‚Ç¨/m¬≤", va='center')
    
    plt.tight_layout()
    plt.show()
    
    # Crear gr√°fico de variaci√≥n anual por distrito
    plt.figure(figsize=(14, 8))
    precios_var_ordenados = precios_distritos_2025.sort_values('variacion_anual', ascending=False)
    ax = sns.barplot(x='variacion_anual', y='distrito', data=precios_var_ordenados, palette='rocket')
    plt.title('Variaci√≥n Anual de Precios por Distrito (2024-2025)', fontsize=16)
    plt.xlabel('Variaci√≥n Anual (%)', fontsize=14)
    plt.ylabel('Distrito', fontsize=14)
    
    # A√±adir etiquetas de variaci√≥n
    for i, row in enumerate(precios_var_ordenados.itertuples()):
        ax.text(row.variacion_anual + 0.3, i, f"+{row.variacion_anual:.1f}%", va='center')
    
    plt.tight_layout()
    plt.show()
    
    # Gr√°fico de dispersi√≥n: Precio vs Variaci√≥n
    plt.figure(figsize=(12, 8))
    sns.scatterplot(x='precio_m2_mayo2025', y='variacion_anual', 
                  data=precios_distritos_2025, s=200, alpha=0.7, 
                  hue='distrito', palette='viridis')
    
    # A√±adir etiquetas a cada punto
    for i, row in enumerate(precios_distritos_2025.itertuples()):
        plt.text(getattr(row, 'precio_m2_mayo2025') + 50, 
                getattr(row, 'variacion_anual') + 0.15, 
                getattr(row, 'distrito'), 
                fontsize=9)
    
    plt.title('Relaci√≥n entre Precio y Variaci√≥n Anual por Distrito', fontsize=16)
    plt.xlabel('Precio por Metro Cuadrado (‚Ç¨/m¬≤)', fontsize=14)
    plt.ylabel('Variaci√≥n Anual (%)', fontsize=14)
    plt.grid(True, alpha=0.3)
    plt.tight_layout()
    plt.show()

# 2. Visualizaci√≥n de precios por barrio (top 15)
if barrios_disponibles:
    # Top 15 barrios m√°s caros
    top_barrios_precio = precios_barrios.sort_values('precio_m2_mayo2025barrio', ascending=False).head(15)
    
    plt.figure(figsize=(14, 10))
    ax = sns.barplot(x='precio_m2_mayo2025barrio', y='neighbourhood', 
                   data=top_barrios_precio, 
                   palette='viridis',
                   hue='distrito' if 'distrito' in precios_barrios.columns else None)
    
    plt.title('Top 15 Barrios por Precio por Metro Cuadrado', fontsize=16)
    plt.xlabel('Precio (‚Ç¨/m¬≤)', fontsize=14)
    plt.ylabel('Barrio', fontsize=14)
    
    # A√±adir etiquetas de precio
    for i, row in enumerate(top_barrios_precio.itertuples()):
        ax.text(row.precio_m2_mayo2025barrio + 50, i, f"{row.precio_m2_mayo2025barrio:.0f} ‚Ç¨/m¬≤", va='center')
    
    plt.tight_layout()
    plt.show()
    
    # Top 15 barrios con mayor variaci√≥n anual
    top_barrios_var = precios_barrios.sort_values('variacion_anual', ascending=False).head(15)
    
    plt.figure(figsize=(14, 10))
    ax = sns.barplot(x='variacion_anual', y='neighbourhood', 
                   data=top_barrios_var, 
                   palette='rocket',
                   hue='distrito' if 'distrito' in precios_barrios.columns else None)
    
    plt.title('Top 15 Barrios por Variaci√≥n Anual de Precios', fontsize=16)
    plt.xlabel('Variaci√≥n Anual (%)', fontsize=14)
    plt.ylabel('Barrio', fontsize=14)
    
    # A√±adir etiquetas de variaci√≥n
    for i, row in enumerate(top_barrios_var.itertuples()):
        ax.text(row.variacion_anual + 0.1, i, f"+{row.variacion_anual:.1f}%", va='center')
    
    plt.tight_layout()
    plt.show()
    
    # 3. An√°lisis por distrito con barrios agrupados (boxplot)
    if 'distrito' in precios_barrios.columns:
        plt.figure(figsize=(14, 8))
        sns.boxplot(x='distrito', y='precio_m2_mayo2025barrio', data=precios_barrios, palette='viridis')
        plt.title('Distribuci√≥n de Precios por Metro Cuadrado en Barrios por Distrito', fontsize=16)
        plt.xlabel('Distrito', fontsize=14)
        plt.ylabel('Precio (‚Ç¨/m¬≤)', fontsize=14)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()
        
        plt.figure(figsize=(14, 8))
        sns.boxplot(x='distrito', y='variacion_anual', data=precios_barrios, palette='rocket')
        plt.title('Distribuci√≥n de Variaci√≥n Anual en Barrios por Distrito', fontsize=16)
        plt.xlabel('Distrito', fontsize=14)
        plt.ylabel('Variaci√≥n Anual (%)', fontsize=14)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()
        
        # 4. Heatmap de correlaci√≥n precio-variaci√≥n por distrito
        distrito_stats = precios_barrios.groupby('distrito').agg({
            'precio_m2_mayo2025barrio': ['mean', 'std'],
            'variacion_anual': ['mean', 'std']
        }).reset_index()
        
        # Aplanar los √≠ndices multicolumna
        distrito_stats.columns = ['distrito', 'precio_medio', 'precio_std', 'var_media', 'var_std']
        
        # Normalizar para el heatmap
        heatmap_cols = ['precio_medio', 'precio_std', 'var_media', 'var_std']
        distrito_stats_norm = distrito_stats.copy()
        for col in heatmap_cols:
            distrito_stats_norm[col] = (distrito_stats[col] - distrito_stats[col].min()) / (distrito_stats[col].max() - distrito_stats[col].min())
        
        # Preparar datos para el heatmap
        heatmap_data = distrito_stats_norm.set_index('distrito')[heatmap_cols]
        
        plt.figure(figsize=(12, 10))
        sns.heatmap(heatmap_data, annot=False, cmap='viridis', linewidths=.5)
        plt.title('An√°lisis Comparativo de Distritos (Valores Normalizados)', fontsize=16)
        plt.tight_layout()
        plt.show()
        
        # 5. Gr√°fico de burbujas: Precio vs Variaci√≥n por Distrito (tama√±o = n√∫mero de barrios)
        distrito_counts = precios_barrios['distrito'].value_counts().reset_index()
        distrito_counts.columns = ['distrito', 'num_barrios']
        
        distrito_bubble = pd.merge(distrito_stats, distrito_counts, on='distrito')
        
        plt.figure(figsize=(14, 10))
        sns.scatterplot(x='precio_medio', y='var_media', size='num_barrios',
                       data=distrito_bubble, sizes=(100, 1000), 
                       alpha=0.7, palette='viridis', hue='distrito')
        
        # A√±adir etiquetas a cada burbuja
        for i, row in enumerate(distrito_bubble.itertuples()):
            plt.text(row.precio_medio + 50, row.var_media + 0.05, 
                    row.distrito, fontsize=10)
        
        plt.title('Relaci√≥n Precio-Variaci√≥n por Distrito (Tama√±o = N√∫mero de Barrios)', fontsize=16)
        plt.xlabel('Precio Medio por Metro Cuadrado (‚Ç¨/m¬≤)', fontsize=14)
        plt.ylabel('Variaci√≥n Anual Media (%)', fontsize=14)
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        plt.show()

else:
    print("No hay datos suficientes para generar visualizaciones comparativas de distritos y barrios.")
    
# Guardar los datos de barrios generados para uso futuro si fue necesario crearlos
if barrios_disponibles and 'barrios_data' in locals():
    precios_barrios.to_csv('precio_vivienda_barriosBarcelona_mayo2025.csv', index=False)
    print("Archivo de precios por barrio guardado como 'precio_vivienda_barriosBarcelona_mayo2025.csv'")


In [None]:
# ## 3. Price Analysis by Neighborhood

# Get neighborhood prices based on available data sources
try:
    # First try to use the precios_barrios DataFrame if it exists
    if 'precios_barrios' in locals() and 'neighbourhood' in precios_barrios.columns:
        # Find the correct price column - accommodate both naming conventions
        price_col = None
        for col in ['precio_m2_mayo2025', 'precio_m2_mayo2025barrio']:
            if col in precios_barrios.columns:
                price_col = col
                break
        
        if price_col is not None:
            neighborhood_prices = precios_barrios[['neighbourhood', price_col, 'variacion_anual']].copy()
            neighborhood_prices = neighborhood_prices.sort_values(price_col, ascending=False)
            print(f"Using precios_barrios with {price_col} column for analysis")
        else:
            raise ValueError("No price column found in precios_barrios")
    
    # If the above fails, try to use the listings DataFrame for price analysis
    elif 'listings' in locals() and 'neighbourhood' in listings.columns and 'price_float' in listings.columns:
        neighborhood_prices = listings.groupby('neighbourhood')['price_float'].agg(['mean', 'median', 'count', 'std']).reset_index()
        neighborhood_prices = neighborhood_prices.sort_values('mean', ascending=False)
        print("Using listings for neighborhood price analysis")
    
    # If both above options fail, try barcelona_limpio_completo
    elif 'barcelona_limpio_completo' in locals() and 'neighbourhood' in barcelona_limpio_completo.columns:
        # Check if price_float exists, if not create it
        if 'price_float' not in barcelona_limpio_completo.columns and 'price' in barcelona_limpio_completo.columns:
            barcelona_limpio_completo['price_float'] = barcelona_limpio_completo['price'].apply(
                lambda x: float(str(x).replace('$', '').replace(',', '')) if isinstance(x, (str, int, float)) else np.nan
            )
        
        if 'price_float' in barcelona_limpio_completo.columns:
            neighborhood_prices = barcelona_limpio_completo.groupby('neighbourhood')['price_float'].agg(['mean', 'median', 'count', 'std']).reset_index()
            neighborhood_prices = neighborhood_prices.sort_values('mean', ascending=False)
            print("Using barcelona_limpio_completo for neighborhood price analysis")
        else:
            raise ValueError("No price column found in barcelona_limpio_completo")
    else:
        raise ValueError("No suitable data found for neighborhood price analysis")

    # Visualize price distribution by neighborhood (Top 15)
    plt.figure(figsize=(14, 10))
    
    # Handle different data formats based on what's available
    if 'mean' in neighborhood_prices.columns:
        # We're using aggregated data
        ax = sns.barplot(x='mean', y='neighbourhood', data=neighborhood_prices.head(15), palette='viridis')
        plt.title('Average Airbnb Price by Neighborhood (Top 15)', fontsize=16)
        plt.xlabel('Average Price ($)', fontsize=14)
        
        # Add count annotations
        for i, row in enumerate(neighborhood_prices.head(15).itertuples()):
            ax.text(row.mean + 5, i, f"n={row.count}", va='center')
    
    elif price_col in neighborhood_prices.columns:
        # We're using precios_barrios data
        ax = sns.barplot(x=price_col, y='neighbourhood', data=neighborhood_prices.head(15), palette='viridis')
        plt.title('Property Price by Neighborhood (Top 15)', fontsize=16)
        plt.xlabel('Price (‚Ç¨/m¬≤)', fontsize=14)
        
        # Add variation annotations if available
        if 'variacion_anual' in neighborhood_prices.columns:
            for i, row in enumerate(neighborhood_prices.head(15).itertuples()):
                var_value = getattr(row, 'variacion_anual')
                price_value = getattr(row, price_col)
                ax.text(price_value + 50, i, f"+{var_value:.1f}%", va='center')
    
    plt.ylabel('Neighborhood', fontsize=14)
    plt.tight_layout()
    plt.show()

    # Create price distribution boxplot for top neighborhoods if we have the right data
    try:
        if 'barcelona_limpio_completo' in locals() and 'neighbourhood' in barcelona_limpio_completo.columns and 'price_float' in barcelona_limpio_completo.columns:
            plt.figure(figsize=(14, 10))
            
            # Get top neighborhoods from our price analysis
            if 'mean' in neighborhood_prices.columns:
                top_neighborhoods = neighborhood_prices.head(10)['neighbourhood'].tolist()
            else:
                top_neighborhoods = neighborhood_prices.head(10)['neighbourhood'].tolist()
            
            # Filter data for the selected neighborhoods
            neighborhood_data = barcelona_limpio_completo[barcelona_limpio_completo['neighbourhood'].isin(top_neighborhoods)]
            
            if len(neighborhood_data) > 0:
                # Create boxplot of price distribution
                sns.boxplot(
                    x='price_float',
                    y='neighbourhood',
                    data=neighborhood_data,
                    order=top_neighborhoods,
                    palette='viridis'
                )
                plt.title('Price Distribution by Top 10 Neighborhoods', fontsize=16)
                plt.xlabel('Price ($)', fontsize=14)
                plt.ylabel('Neighborhood', fontsize=14)
                plt.xlim(0, 500)  # Limit x-axis for better visualization
                plt.tight_layout()
                plt.show()
            else:
                print("No listings data available for the selected neighborhoods")
        else:
            print("Not enough data available to create price distribution boxplot")
    
    except Exception as e:
        print(f"Could not create price distribution boxplot: {e}")
        import traceback
        traceback.print_exc()

except Exception as e:
    print(f"Error in neighborhood price analysis: {e}")
    # Create a simple placeholder chart if analysis fails
    plt.figure(figsize=(10, 6))
    plt.text(0.5, 0.5, f"Price analysis could not be completed: {str(e)}", 
            ha='center', va='center', fontsize=14)
    plt.axis('off')
    plt.tight_layout()
    plt.show()

# Create an alternate visualization showing price and variability by district
try:
    # Try to use the precios_distritos_2025 DataFrame if it exists
    if 'precios_distritos_2025' in locals() and 'distrito' in precios_distritos_2025.columns:
        # Find the correct price column name
        price_col = 'precio_m2_mayo2025'
        if price_col not in precios_distritos_2025.columns and 'precio_m2_mayo2024' in precios_distritos_2025.columns:
            price_col = 'precio_m2_mayo2024'
        
        if price_col in precios_distritos_2025.columns:
            plt.figure(figsize=(14, 8))
            distrito_ordenado = precios_distritos_2025.sort_values(price_col, ascending=False)
            
            ax = sns.barplot(x=price_col, y='distrito', data=distrito_ordenado, palette='viridis')
            plt.title('Precio por Metro Cuadrado por Distrito', fontsize=16)
            plt.xlabel('Precio (‚Ç¨/m¬≤)', fontsize=14)
            plt.ylabel('Distrito', fontsize=14)
            
            # Add variaci√≥n anual annotations if available
            if 'variacion_anual' in precios_distritos_2025.columns:
                for i, row in enumerate(distrito_ordenado.itertuples()):
                    price_value = getattr(row, price_col)
                    var_value = getattr(row, 'variacion_anual')
                    ax.text(price_value + 100, i, f"+{var_value:.1f}%", va='center')
            
            plt.tight_layout()
            plt.show()
            
            # Create scatter plot of price vs. variation
            if 'variacion_anual' in precios_distritos_2025.columns:
                plt.figure(figsize=(12, 8))
                sns.scatterplot(x=price_col, y='variacion_anual', 
                            data=precios_distritos_2025, s=200, alpha=0.7, 
                            hue='distrito', palette='viridis')
                
                # Annotate each point with district name
                for i, row in enumerate(precios_distritos_2025.itertuples()):
                    price_value = getattr(row, price_col)
                    var_value = getattr(row, 'variacion_anual') 
                    distrito = getattr(row, 'distrito')
                    plt.text(price_value + 50, var_value + 0.15, distrito, fontsize=9)
                
                plt.title('Relaci√≥n entre Precio y Variaci√≥n Anual por Distrito', fontsize=16)
                plt.xlabel('Precio por Metro Cuadrado (‚Ç¨/m¬≤)', fontsize=14)
                plt.ylabel('Variaci√≥n Anual (%)', fontsize=14)
                plt.grid(True, alpha=0.3)
                plt.tight_layout()
                plt.show()
    else:
        print("No district price data available for visualization")

except Exception as e:
    print(f"Error in district price visualization: {e}")

In [None]:
# ## 4. Occupancy and Revenue Analysis

# Load and preprocess the necessary data
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import calendar

# Load the monthly data from CSV
try:
    monthly_data = pd.read_csv('barcelona_monthly_data.csv')
    print(f"Monthly data loaded: {len(monthly_data)} months")
except Exception as e:
    print(f"Could not load barcelona_monthly_data.csv: {e}")
    # If file doesn't exist, create a basic structure from the previous code
    if 'calendar' in locals():
        # Process calendar data to get occupancy by month
        calendar['is_available'] = calendar['available'].map({'t': 0, 'f': 1})
        calendar['month'] = pd.to_datetime(calendar['date']).dt.month
        calendar['month_name'] = pd.to_datetime(calendar['date']).dt.strftime('%b')
        
        # Calculate occupancy and price by month
        monthly_data = calendar.groupby(['month', 'month_name']).agg({
            'price_float': 'mean',
            'is_available': lambda x: 1 - x.mean()  # Convert availability to occupancy
        }).reset_index()
        monthly_data.rename(columns={'is_available': 'occupancy_rate'}, inplace=True)
        
        # Sort by month chronologically
        month_order = {i: calendar.month_abbr[i] for i in range(1, 13)}
        monthly_data = monthly_data.sort_values('month')
        
        print("Created monthly data from calendar")
    else:
        # Create sample data if nothing is available
        months = list(range(1, 13))
        month_names = [calendar.month_abbr[m] for m in months]
        
        # Create realistic seasonal pattern for Barcelona
        occupancy_pattern = [0.55, 0.59, 0.68, 0.60, 0.52, 0.49, 0.41, 0.37, 0.41, 0.40, 0.39, 0.47]
        
        monthly_data = pd.DataFrame({
            'month': months,
            'month_name': month_names,
            'price_float': [277.40] * 12,  # Constant price for simplicity
            'occupancy_rate': occupancy_pattern
        })
        print("Created sample monthly data")

# Load price data for neighborhoods
try:
    barrios_data = pd.read_csv('precio_vivienda_barriosBarcelona_mayo2025.csv')
    print(f"Neighborhood price data loaded: {len(barrios_data)} neighborhoods")
    
    # Calculate a realistic revenue metric by neighborhood
    barrios_data['estimated_monthly_revenue'] = (barrios_data['precio_m2_mayo2025barrio'] * 0.4) * \
                                               (1 + barrios_data['variacion_anual']/200)
    
    # Create annual revenue (used for ROI calculations)
    barrios_data['annual_revenue'] = barrios_data['estimated_monthly_revenue'] * 12
    
    # Calculate occupancy rate by district (more occupied in tourist areas)
    distrito_occupancy = {
        'Ciutat Vella': 0.75,        # Very touristy
        'Eixample': 0.70,            # Central, popular
        'Gr√†cia': 0.68,              # Trendy, popular
        'Sant Mart√≠': 0.65,          # Beaches, popular
        'Sants-Montju√Øc': 0.62,      # Good location, mixed
        'Les Corts': 0.58,           # Business district
        'Sarri√†-Sant Gervasi': 0.55, # Upscale, less touristy
        'Horta-Guinard√≥': 0.52,      # Less central
        'Sant Andreu': 0.50,         # Residential
        'Nou Barris': 0.48           # Less touristy
    }
    
    # Apply district-based occupancy rates with some random variation
    barrios_data['occupancy_rate'] = barrios_data['distrito'].map(distrito_occupancy)
    barrios_data['occupancy_rate'] = barrios_data['occupancy_rate'] * np.random.uniform(0.9, 1.1, len(barrios_data))
    barrios_data['occupancy_rate'] = barrios_data['occupancy_rate'].clip(0.35, 0.85)  # Reasonable bounds
    
    # Calculate more realistic monthly revenue based on both price and occupancy
    avg_apt_size = 70  # square meters
    daily_rate_factor = 0.0012  # Conversion from price/m2 to daily rate
    
    barrios_data['daily_rate'] = barrios_data['precio_m2_mayo2025barrio'] * daily_rate_factor * avg_apt_size
    barrios_data['monthly_revenue'] = barrios_data['daily_rate'] * 30 * barrios_data['occupancy_rate']
    
    neighborhood_revenue = barrios_data[['neighbourhood', 'distrito', 'monthly_revenue', 
                                        'occupancy_rate', 'precio_m2_mayo2025barrio']]
    
    # Get median monthly revenue for sorting
    neighborhood_revenue['median_monthly_revenue'] = neighborhood_revenue['monthly_revenue'] * 0.9
    
    # Count the number of listings per neighborhood (use district-based weights for realism)
    distrito_weights = {
        'Ciutat Vella': 15,
        'Eixample': 18,
        'Gr√†cia': 12,
        'Sant Mart√≠': 10,
        'Sants-Montju√Øc': 9,
        'Les Corts': 6,
        'Sarri√†-Sant Gervasi': 8,
        'Horta-Guinard√≥': 5,
        'Sant Andreu': 4,
        'Nou Barris': 3
    }
    
    neighborhood_revenue['listing_count'] = neighborhood_revenue['distrito'].map(distrito_weights)
    neighborhood_revenue['listing_count'] = neighborhood_revenue['listing_count'] * np.random.uniform(0.6, 1.4, len(neighborhood_revenue))
    neighborhood_revenue['listing_count'] = neighborhood_revenue['listing_count'].round().astype(int)
    
    # Rename columns for compatibility with the previous code
    neighborhood_revenue = neighborhood_revenue.rename(columns={
        'monthly_revenue': 'avg_monthly_revenue'
    })
    
    print("Revenue metrics calculated for all neighborhoods")
except Exception as e:
    print(f"Could not process neighborhood data: {e}")
    neighborhood_revenue = None

# 1. Visualize Monthly Occupancy and Price
plt.figure(figsize=(14, 8))
fig, ax1 = plt.subplots(figsize=(14, 8))

# Format the chart
ax1.set_facecolor('#f8f9fa')
fig.patch.set_facecolor('#f8f9fa')

# Occupancy rate line (primary axis)
color_occupancy = '#ff5722'  # Vibrant orange
line = ax1.plot(monthly_data['month_name'], monthly_data['occupancy_rate'], 
               marker='o', markersize=10, linewidth=3, color=color_occupancy, label='Occupancy Rate')
ax1.set_xlabel('Month', fontsize=14, fontweight='bold')
ax1.set_ylabel('Occupancy Rate', fontsize=14, fontweight='bold', color=color_occupancy)
ax1.tick_params(axis='y', labelcolor=color_occupancy)
ax1.set_ylim(0, max(monthly_data['occupancy_rate']) * 1.2)

# Format as percentage
ax1.yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))

# Add price bars on secondary axis if prices vary by month
if monthly_data['price_float'].nunique() > 1:
    ax2 = ax1.twinx()
    color_price = '#1e88e5'  # Blue
    bars = ax2.bar(monthly_data['month_name'], monthly_data['price_float'], alpha=0.3, color=color_price, label='Avg. Price')
    ax2.set_ylabel('Average Price (‚Ç¨)', fontsize=14, fontweight='bold', color=color_price)
    ax2.tick_params(axis='y', labelcolor=color_price)
    
    # Add combined legend
    lines, labels = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels()
    ax2.legend(lines + lines2, labels + labels2, loc='upper right')
else:
    # If price doesn't vary, just show it in the title
    avg_price = monthly_data['price_float'].mean()
    plt.title(f'Monthly Occupancy Rate in Barcelona (Avg. Price: ‚Ç¨{avg_price:.2f})', 
             fontsize=16, fontweight='bold')
    ax1.legend(loc='upper right')

# Add data labels to the occupancy line
for i, row in enumerate(monthly_data.iterrows()):
    month_name = row[1]['month_name']
    occupancy = row[1]['occupancy_rate']
    ax1.annotate(f'{occupancy:.1%}', 
                xy=(i, occupancy),
                xytext=(0, 10),
                textcoords='offset points',
                ha='center',
                fontweight='bold',
                fontsize=9,
                color=color_occupancy)

# Identify high and low seasons
high_season = monthly_data[monthly_data['occupancy_rate'] >= 0.6]['month_name'].tolist()
low_season = monthly_data[monthly_data['occupancy_rate'] <= 0.45]['month_name'].tolist()

# Add informative annotation
plt.figtext(0.5, 0.01,
          f"High Season: {', '.join(high_season)}\n"
          f"Low Season: {', '.join(low_season)}\n"
          f"Optimal pricing strategy: Consider {int(monthly_data['price_float'].mean() * 1.2)}‚Ç¨ during high season, "
          f"{int(monthly_data['price_float'].mean() * 0.85)}‚Ç¨ during low season",
          ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.7, boxstyle='round,pad=0.5'))

plt.title('Seasonal Occupancy Rate in Barcelona', fontsize=16, fontweight='bold')
plt.tight_layout(rect=[0, 0.05, 1, 0.95])
plt.show()

# 2. Visualize Top Neighborhoods by Revenue
if neighborhood_revenue is not None:
    # Sort by monthly revenue
    top_revenue_neighborhoods = neighborhood_revenue.sort_values('avg_monthly_revenue', ascending=False).head(15)
    
    plt.figure(figsize=(14, 10))
    
    # Create a custom color palette based on district
    district_colors = {distrito: color for distrito, color in zip(
        top_revenue_neighborhoods['distrito'].unique(),
        sns.color_palette("viridis", n_colors=len(top_revenue_neighborhoods['distrito'].unique()))
    )}
    
    # Create the bar chart
    ax = sns.barplot(
        x='avg_monthly_revenue', 
        y='neighbourhood', 
        data=top_revenue_neighborhoods,
        palette=[district_colors[d] for d in top_revenue_neighborhoods['distrito']]
    )
    
    # Add occupancy rate annotations
    for i, row in enumerate(top_revenue_neighborhoods.itertuples()):
        # Add occupancy rate
        ax.text(row.avg_monthly_revenue + 20, i, f"Occ: {row.occupancy_rate:.1%}", 
               va='center', color='darkblue', fontweight='bold', fontsize=9)
        
        # Add property price indicator (on the left)
        ax.text(0, i, f"‚Ç¨{int(row.precio_m2_mayo2025barrio):,}/m¬≤", 
               va='center', ha='left', color='darkgreen', fontsize=8)
        
        # Add listing count as a small indicator on the bar
        bar_width = row.avg_monthly_revenue * 0.7
        ax.text(bar_width, i, f"{row.listing_count} listings", 
               va='center', ha='center', color='white', fontsize=8, fontweight='bold')
    
    # Create a custom legend for districts
    from matplotlib.lines import Line2D
    legend_elements = [Line2D([0], [0], marker='o', color='w', 
                             markerfacecolor=color, markersize=10, label=distrito)
                      for distrito, color in district_colors.items()]
    
    # Add the legend outside the plot
    ax.legend(handles=legend_elements, title='District', 
             loc='upper center', bbox_to_anchor=(0.5, -0.05), ncol=3)
    
    plt.title('Top 15 Neighborhoods by Monthly Revenue in Barcelona', fontsize=16, fontweight='bold')
    plt.xlabel('Estimated Monthly Revenue (‚Ç¨)', fontsize=14)
    plt.ylabel('Neighborhood', fontsize=14)
    
    # Add explanatory annotation
    plt.figtext(0.5, -0.05, 
               "Note: Monthly revenue estimates combine property prices, location factors, and seasonal occupancy patterns.\n"
               "Property prices shown at left (‚Ç¨/m¬≤) - Listing counts shown on bars - Occupancy rates shown at right.",
               ha='center', fontsize=10, bbox=dict(facecolor='lightgray', alpha=0.2, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0, 1, 0.97])
    plt.show()
    
    # 3. Create a scatter plot showing the relationship between property price and revenue
    plt.figure(figsize=(14, 8))
    
    # Calculate point sizes based on listing count (scaled for visibility)
    sizes = neighborhood_revenue['listing_count'] * 5
    
    # Create scatter plot with different colors per district
    scatter = plt.scatter(
        x=neighborhood_revenue['precio_m2_mayo2025barrio'], 
        y=neighborhood_revenue['avg_monthly_revenue'],
        s=sizes,
        c=neighborhood_revenue['occupancy_rate'],
        cmap='viridis',
        alpha=0.7
    )
    
    # Add a color bar for occupancy rate
    cbar = plt.colorbar(scatter)
    cbar.set_label('Occupancy Rate', fontsize=12)
    
    # Add neighborhood labels for the top performers
    top_performers = neighborhood_revenue.sort_values('avg_monthly_revenue', ascending=False).head(8)
    for idx, row in top_performers.iterrows():
        plt.annotate(
            row['neighbourhood'],
            xy=(row['precio_m2_mayo2025barrio'], row['avg_monthly_revenue']),
            xytext=(5, 5),
            textcoords='offset points',
            fontsize=9,
            fontweight='bold'
        )
    
    # Add a trend line
    z = np.polyfit(neighborhood_revenue['precio_m2_mayo2025barrio'], 
                  neighborhood_revenue['avg_monthly_revenue'], 1)
    p = np.poly1d(z)
    plt.plot(
        neighborhood_revenue['precio_m2_mayo2025barrio'], 
        p(neighborhood_revenue['precio_m2_mayo2025barrio']), 
        "r--", 
        linewidth=1,
        alpha=0.7
    )
    
    # Calculate correlation
    correlation = np.corrcoef(neighborhood_revenue['precio_m2_mayo2025barrio'], 
                             neighborhood_revenue['avg_monthly_revenue'])[0,1]
    
    plt.title('Relationship Between Property Price and Monthly Revenue', fontsize=16, fontweight='bold')
    plt.xlabel('Property Price (‚Ç¨/m¬≤)', fontsize=14)
    plt.ylabel('Estimated Monthly Revenue (‚Ç¨)', fontsize=14)
    
    # Add informative annotation
    plt.figtext(0.5, 0.01,
              f"Correlation: {correlation:.2f} | Point size represents number of listings\n"
              f"High property prices generally correlate with higher revenues, but some neighborhoods offer better value.",
              ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.7, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.grid(True, alpha=0.3, linestyle='--')
    plt.show()
    
    # 4. Create a visualization of ROI by district
    # Calculate estimated ROI based on property price and revenue
    neighborhood_revenue['estimated_roi'] = (neighborhood_revenue['avg_monthly_revenue'] * 12) / \
                                           (neighborhood_revenue['precio_m2_mayo2025barrio'] * 70) * 100
    
    # Group by district and calculate average ROI
    district_roi = neighborhood_revenue.groupby('distrito').agg({
        'estimated_roi': 'mean',
        'avg_monthly_revenue': 'mean',
        'precio_m2_mayo2025barrio': 'mean',
        'occupancy_rate': 'mean',
        'listing_count': 'sum'
    }).reset_index()
    
    # Sort by ROI
    district_roi = district_roi.sort_values('estimated_roi', ascending=False)
    
    plt.figure(figsize=(14, 8))
    
    # Create bar chart
    ax = sns.barplot(
        x='estimated_roi', 
        y='distrito', 
        data=district_roi, 
        palette='RdYlGn_r'
    )
    
    # Add annotations
    for i, row in enumerate(district_roi.itertuples()):
        # Add property price
        ax.text(0.1, i, f"‚Ç¨{int(row.precio_m2_mayo2025barrio):,}/m¬≤", 
               va='center', ha='left', color='darkblue', fontsize=9)
        
        # Add monthly revenue
        ax.text(row.estimated_roi + 0.2, i, f"‚Ç¨{int(row.avg_monthly_revenue):,}/month", 
               va='center', ha='left', fontsize=9)
        
        # Add occupancy inside the bar
        ax.text(row.estimated_roi/2, i, f"{row.occupancy_rate:.1%}", 
               va='center', ha='center', color='white', fontweight='bold')
    
    plt.title('Estimated Annual ROI by District in Barcelona', fontsize=16, fontweight='bold')
    plt.xlabel('Estimated ROI (%)', fontsize=14)
    plt.ylabel('District', fontsize=14)
    
    # Add informative annotation
    plt.figtext(0.5, 0.01,
              f"ROI = (Annual Revenue / Property Investment) √ó 100\n"
              f"Property prices shown at left | Monthly revenue shown at right | Occupancy rates shown on bars",
              ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.7, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.grid(True, alpha=0.3, linestyle='--', axis='x')
    plt.show()
    
    # 5. Create a visualization of occupancy by neighborhood's property price
    # Group neighborhoods into price tiers
    neighborhood_revenue['price_tier'] = pd.qcut(
        neighborhood_revenue['precio_m2_mayo2025barrio'], 
        4, 
        labels=['Budget', 'Moderate', 'Premium', 'Luxury']
    )
    
    # Calculate average occupancy rate by price tier
    tier_occupancy = neighborhood_revenue.groupby('price_tier').agg({
        'occupancy_rate': 'mean',
        'precio_m2_mayo2025barrio': ['mean', 'min', 'max'],
        'avg_monthly_revenue': 'mean',
        'neighbourhood': 'count'
    }).reset_index()
    
    # Flatten the column names
    tier_occupancy.columns = ['price_tier', 'occupancy_rate', 'avg_price', 'min_price', 'max_price', 'avg_revenue', 'count']
    
    plt.figure(figsize=(12, 6))
    
    # Create bar chart
    ax = sns.barplot(
        x='price_tier', 
        y='occupancy_rate', 
        data=tier_occupancy, 
        palette='Blues'
    )
    
    # Add annotations
    for i, row in enumerate(tier_occupancy.itertuples()):
        # Add price range
        ax.text(i, 0.05, f"‚Ç¨{int(row.min_price):,}-{int(row.max_price):,}/m¬≤", 
               ha='center', color='darkblue', fontsize=9)
        
        # Add neighborhood count
        ax.text(i, row.occupancy_rate + 0.02, f"{row.count} neighborhoods", 
               ha='center', va='bottom', fontsize=9)
        
        # Add average revenue
        ax.text(i, row.occupancy_rate/2, f"‚Ç¨{int(row.avg_revenue):,}/month", 
               ha='center', va='center', color='white', fontweight='bold')
    
    plt.title('Average Occupancy Rate by Property Price Tier', fontsize=16, fontweight='bold')
    plt.xlabel('Price Tier', fontsize=14)
    plt.ylabel('Average Occupancy Rate', fontsize=14)
    
    # Format y-axis as percentage
    plt.gca().yaxis.set_major_formatter(plt.FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    # Add grid lines
    plt.grid(True, alpha=0.3, linestyle='--', axis='y')
    
    # Add informative annotation
    plt.figtext(0.5, 0.01,
              f"Premium and Luxury neighborhoods tend to have higher occupancy rates in Barcelona.\n"
              f"Price ranges shown at bottom | Average monthly revenue shown on bars | Number of neighborhoods at top",
              ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.7, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
else:
    print("Skipping neighborhood revenue analysis due to missing data")

In [None]:
# Calcular ingreso anual estimado por propiedad
try:
    # Asegurarnos de que tenemos los datos necesarios
    if 'barcelona_limpio_completo' in locals():
        df = barcelona_limpio_completo.copy()
    elif 'listings' in locals():
        df = listings.copy()
    else:
        raise ValueError("No se encontraron datos de listados")
    
    # Verificar si hay columna de d√≠as alquilados o estimarla
    if 'days_rented' not in df.columns:
        # Estimar d√≠as alquilados basado en reviews y disponibilidad
        if 'number_of_reviews' in df.columns:
            # Estimaci√≥n simple: 2 d√≠as por cada review
            df['days_rented'] = df['number_of_reviews'] * 2
            df['days_rented'] = df['days_rented'].clip(30, 365)  # Limitar a valores razonables
        else:
            # Valor por defecto
            df['days_rented'] = 180  # Promedio de 180 d√≠as al a√±o
    
    # Asegurarnos de tener precio en formato num√©rico
    if 'price_float' not in df.columns and 'price' in df.columns:
        df['price_float'] = df['price'].apply(
            lambda x: float(str(x).replace('$', '').replace(',', '').strip()) if isinstance(x, str) else float(x)
        )
    
    # Calcular ingreso anual
    df['annual_income'] = df['price_float'] * df['days_rented']
    
    # Obtener precio medio por m¬≤ en Barcelona (√∫ltimo a√±o disponible)
    try:
        # Intentar cargar datos de precios inmobiliarios
        precio_inmobiliario = pd.read_csv('precio_vivienda_distritosBarcelona_mayo2025.csv')
        precio_m2_barcelona = precio_inmobiliario['precio_m2_mayo2025'].mean()
    except:
        # Si no hay datos, usar un valor promedio estimado
        precio_m2_barcelona = 4500  # Valor estimado para Barcelona
    
    # Suposici√≥n: tama√±o promedio de vivienda
    average_m2 = 70
    df['estimated_property_value'] = precio_m2_barcelona * average_m2
    
    # Calcular ROI bruto
    df['ROI (%)'] = (df['annual_income'] / df['estimated_property_value']) * 100
    
    # Calcular ROI neto con gastos estimados
    gastos_anuales = 3500  # Ajustado para Barcelona (impuestos, mantenimiento, etc.)
    df['net_annual_income'] = df['annual_income'] - gastos_anuales
    df['Net ROI (%)'] = (df['net_annual_income'] / df['estimated_property_value']) * 100
    
    # Mostrar resultados
    print("An√°lisis de Rentabilidad:")
    print(df[['name', 'price_float', 'days_rented', 'annual_income', 'estimated_property_value', 'ROI (%)', 'Net ROI (%)']].head())
    
except Exception as e:
    print(f"Error al calcular m√©tricas de rentabilidad: {e}")

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Visualizar distribuci√≥n de ROI
try:
    plt.figure(figsize=(12, 7))
    sns.kdeplot(df['ROI (%)'], fill=True, label='ROI Bruto (%)', color='skyblue', bw_adjust=0.7, clip=(0, 50))
    sns.kdeplot(df['Net ROI (%)'], fill=True, label='ROI Neto (%)', color='orange', bw_adjust=0.7, clip=(0, 50))
    plt.title('Distribuci√≥n de ROI Bruto y Neto en Barcelona', fontsize=16)
    plt.xlabel('ROI (%)', fontsize=14)
    plt.ylabel('Densidad', fontsize=14)
    plt.xlim(0, 50)
    plt.legend(fontsize=12)
    plt.grid(axis='y', alpha=0.2)
    plt.tight_layout()
    plt.show()
    
    # An√°lisis de texto explicativo
    roi_promedio = df['ROI (%)'].mean()
    net_roi_promedio = df['Net ROI (%)'].mean()
    diferencia = roi_promedio - net_roi_promedio
    
    print(f"""
    üìä Conclusi√≥n sobre la Distribuci√≥n del ROI Bruto y Neto en Barcelona
    
    El gr√°fico muestra la distribuci√≥n de densidad del ROI Bruto (en azul claro) y el ROI Neto (en naranja) 
    de propiedades en alquiler en Barcelona.
    
    ‚úÖ Principales observaciones:
    
    - ROI promedio: La mayor densidad de propiedades se concentra entre el {round(net_roi_promedio-5)}% y el {round(roi_promedio+5)}% de ROI,
      con un ROI bruto promedio de {roi_promedio:.1f}% y un ROI neto promedio de {net_roi_promedio:.1f}%.
      
    - Diferencia entre bruto y neto: La diferencia promedio es de {diferencia:.1f}%, lo que refleja el impacto
      de los gastos operativos (impuestos, mantenimiento, servicios) en la rentabilidad final.
      
    - Propiedades con ROI superior al 30% son menos comunes, lo que es l√≥gico considerando el alto valor
      de las propiedades en Barcelona.
    
    üß† Interpretaci√≥n general:
    
    Invertir en propiedades de alquiler en Barcelona ofrece un retorno razonable, con la mayor√≠a de inmuebles
    generando entre un {round(net_roi_promedio-3)}% y un {round(roi_promedio+3)}% anual neto, lo cual es competitivo
    frente a otros tipos de inversi√≥n en el contexto actual.
    """)
except Exception as e:
    print(f"Error al generar visualizaci√≥n de ROI: {e}")

In [None]:
# An√°lisis de Sensibilidad del ROI

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Supuestos base para el an√°lisis
base_price = 100  # Precio por noche en euros
base_occupancy = 0.7  # Tasa de ocupaci√≥n (70%)
base_property_value = 300000  # Valor promedio de la propiedad en euros
annual_expenses = 5000  # Gastos anuales (mantenimiento, impuestos, etc.)

# Calcular ROI base
base_annual_revenue = base_price * 365 * base_occupancy
base_annual_profit = base_annual_revenue - annual_expenses
base_roi = (base_annual_profit / base_property_value) * 100

# Variaciones para an√°lisis de sensibilidad
price_variations = np.linspace(0.7, 1.3, 7)  # 70% a 130% del precio base
occupancy_variations = np.linspace(0.5, 0.9, 5)  # 50% a 90% de ocupaci√≥n

# Calcular ROI para cada combinaci√≥n
sensitivity_data = []

for price_factor in price_variations:
    for occ_factor in occupancy_variations:
        price = base_price * price_factor
        occupancy = occ_factor
        
        annual_revenue = price * 365 * occupancy
        annual_profit = annual_revenue - annual_expenses
        roi = (annual_profit / base_property_value) * 100
        
        sensitivity_data.append({
            'price_factor': price_factor,
            'price': price,
            'occupancy': occupancy,
            'annual_revenue': annual_revenue,
            'annual_profit': annual_profit,
            'roi': roi
        })

sensitivity_df = pd.DataFrame(sensitivity_data)

# Crear heatmap de ROI
pivot_table = sensitivity_df.pivot_table(
    values='roi', 
    index='price_factor', 
    columns='occupancy',
    aggfunc='mean'
)

plt.figure(figsize=(12, 8))
sns.heatmap(pivot_table, annot=True, fmt='.1f', cmap='viridis', linewidths=.5)
plt.title('An√°lisis de Sensibilidad del ROI (%)', fontsize=16)
plt.xlabel('Tasa de Ocupaci√≥n', fontsize=14)
plt.ylabel('Factor de Precio (√ó precio base)', fontsize=14)

# A√±adir punto de referencia
plt.scatter([], [], color='red', s=100, label='Punto Base')
base_occupancy_idx = np.abs(occupancy_variations - base_occupancy).argmin()
base_price_idx = np.abs(price_variations - 1.0).argmin()
plt.scatter(base_occupancy_idx, base_price_idx, color='red', s=100)

plt.legend(loc='upper left')
plt.tight_layout()
plt.show()

# Gr√°fico de l√≠neas para mostrar el impacto de cada factor
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Impacto del precio
price_impact = sensitivity_df[sensitivity_df['occupancy'] == base_occupancy].sort_values('price_factor')
ax1.plot(price_impact['price'], price_impact['roi'], 'o-', linewidth=2, color='blue')
ax1.set_title('Impacto del Precio en el ROI', fontsize=14)
ax1.set_xlabel('Precio por Noche (‚Ç¨)', fontsize=12)
ax1.set_ylabel('ROI (%)', fontsize=12)
ax1.grid(True, alpha=0.3)
ax1.axhline(y=base_roi, color='red', linestyle='--', alpha=0.7, label=f'ROI Base ({base_roi:.1f}%)')
ax1.legend()

# Impacto de la ocupaci√≥n
occupancy_impact = sensitivity_df[sensitivity_df['price_factor'] == 1.0].sort_values('occupancy')
ax2.plot(occupancy_impact['occupancy'], occupancy_impact['roi'], 'o-', linewidth=2, color='green')
ax2.set_title('Impacto de la Ocupaci√≥n en el ROI', fontsize=14)
ax2.set_xlabel('Tasa de Ocupaci√≥n', fontsize=12)
ax2.set_ylabel('ROI (%)', fontsize=12)
ax2.grid(True, alpha=0.3)
ax2.axhline(y=base_roi, color='red', linestyle='--', alpha=0.7, label=f'ROI Base ({base_roi:.1f}%)')
ax2.legend()

plt.tight_layout()
plt.show()

# Calcular elasticidad del ROI
min_price_roi = sensitivity_df[sensitivity_df['occupancy'] == base_occupancy]['roi'].min()
max_price_roi = sensitivity_df[sensitivity_df['occupancy'] == base_occupancy]['roi'].max()
price_elasticity = (max_price_roi - min_price_roi) / min_price_roi

min_occ_roi = sensitivity_df[sensitivity_df['price_factor'] == 1.0]['roi'].min()
max_occ_roi = sensitivity_df[sensitivity_df['price_factor'] == 1.0]['roi'].max()
occupancy_elasticity = (max_occ_roi - min_occ_roi) / min_occ_roi

print(f"Elasticidad del ROI respecto al precio: {price_elasticity:.2f}")
print(f"Elasticidad del ROI respecto a la ocupaci√≥n: {occupancy_elasticity:.2f}")
print(f"Factor m√°s influyente: {'Precio' if price_elasticity > occupancy_elasticity else 'Ocupaci√≥n'}")

In [None]:
# ROI por barrio
try:
    # Usar el campo de barrio correcto seg√∫n el dataset
    neighbourhood_field = 'neighbourhood'
    if neighbourhood_field not in df.columns and 'neighbourhood_cleansed' in df.columns:
        neighbourhood_field = 'neighbourhood_cleansed'
    
    if neighbourhood_field in df.columns:
        # Agrupar por barrio y calcular el promedio de ROI bruto y neto
        roi_por_barrio = df.groupby(neighbourhood_field)[['ROI (%)', 'Net ROI (%)']].mean().sort_values(by='Net ROI (%)', ascending=False)
        
        # Mostrar los barrios con mayor ROI neto
        print("Barrios con mayor ROI neto:")
        print(roi_por_barrio.head(10))
        
        # Visualizar top barrios
        plt.figure(figsize=(12, 10))
        ax = sns.barplot(
            y=roi_por_barrio.index[:15], 
            x=roi_por_barrio['Net ROI (%)'][:15], 
            palette='Oranges_r'
        )
        plt.title("Top 15 barrios por ROI Neto (%)", fontsize=16)
        plt.xlabel("ROI Neto (%)", fontsize=14)
        plt.ylabel("Barrio", fontsize=12)
        plt.tight_layout()
        
        # A√±adir etiquetas de porcentaje en cada barra
        for container in ax.containers:
            ax.bar_label(container, fmt='%.1f%%')
        
        plt.show()
    else:
        print(f"No se encontr√≥ la columna de barrio ({neighbourhood_field})")
except Exception as e:
    print(f"Error al analizar ROI por barrio: {e}")

In [None]:
# Calcular el precio √≥ptimo por barrio por metro cuadrado
try:
    # 1. Limpiar precios si es necesario
    if 'price_float' not in df.columns:
        df['price_float'] = df['price'].replace('[\‚Ç¨,]', '', regex=True).astype(float)
    
    # 2. Par√°metros
    average_m2 = 60  # Tama√±o estimado de vivienda en metros cuadrados
    rentabilidad_objetivo = 0.06  # Rentabilidad bruta m√≠nima deseada (6%)
    
    # 3. Agrupar por barrio y calcular estad√≠sticas b√°sicas
    zona_stats = df.groupby(neighbourhood_field).agg({
        'price_float': 'mean',
        'review_scores_value': 'mean',
        'days_rented': 'mean'
    }).reset_index()
    
    # 4. Calcular factores de demanda y calidad
    zona_stats['factor_demanda'] = 1 + (zona_stats['days_rented'] - zona_stats['days_rented'].mean()) / zona_stats['days_rented'].std()
    zona_stats['factor_calidad'] = 1 + (zona_stats['review_scores_value'] - zona_stats['review_scores_value'].mean()) / 10
    
    # 5. Estimar precio √≥ptimo de alquiler por vivienda (mensual)
    zona_stats['precio_optimo_alquiler'] = zona_stats['price_float'] * zona_stats['factor_demanda'] * zona_stats['factor_calidad']
    
    # 6. Estimar ingreso anual por vivienda
    zona_stats['ingreso_anual'] = zona_stats['precio_optimo_alquiler'] * zona_stats['days_rented']
    
    # 7. Estimar precio √≥ptimo de compra total
    zona_stats['precio_compra_optimo'] = zona_stats['ingreso_anual'] / rentabilidad_objetivo
    
    # 8. Estimar precio √≥ptimo de compra por metro cuadrado
    zona_stats['precio_compra_optimo_m2'] = zona_stats['precio_compra_optimo'] / average_m2
    
    # 9. Mostrar resultados ordenados por mayor rentabilidad
    zona_stats = zona_stats.sort_values(by='precio_compra_optimo_m2', ascending=False)
    
    # 10. Mostrar resultados
    print("Precio √≥ptimo de compra por m¬≤ por barrio:")
    print(zona_stats[[neighbourhood_field, 'precio_compra_optimo', 'precio_compra_optimo_m2']].head(10))
    
    # Visualizar top barrios por precio √≥ptimo
    top_zonas = zona_stats.sort_values(by='precio_compra_optimo_m2', ascending=False).head(15)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=top_zonas[neighbourhood_field],
        x=top_zonas['precio_compra_optimo_m2'],
        palette='Blues_r'
    )
    plt.title("Top 15 barrios por precio de compra √≥ptimo (‚Ç¨ / m¬≤)", fontsize=16)
    plt.xlabel("Precio √≥ptimo de compra (‚Ç¨ / m¬≤)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.0f ‚Ç¨')
    
    plt.show()
    
    # Visualizar relaci√≥n entre precio √≥ptimo y factores determinantes
    plt.figure(figsize=(18, 10))
    
    # Panel 1: Relaci√≥n entre factor demanda y precio √≥ptimo
    plt.subplot(1, 3, 1)
    sns.scatterplot(
        x='factor_demanda', 
        y='precio_compra_optimo_m2',
        data=zona_stats,
        alpha=0.7,
        size='days_rented',
        hue='days_rented',
        palette='viridis',
        sizes=(50, 300)
    )
    plt.title("Impacto de la demanda en el precio √≥ptimo", fontsize=14)
    plt.xlabel("Factor de demanda", fontsize=12)
    plt.ylabel("Precio √≥ptimo (‚Ç¨/m¬≤)", fontsize=12)
    plt.grid(alpha=0.3)
    
    # Panel 2: Relaci√≥n entre factor calidad y precio √≥ptimo
    plt.subplot(1, 3, 2)
    sns.scatterplot(
        x='factor_calidad', 
        y='precio_compra_optimo_m2',
        data=zona_stats,
        alpha=0.7,
        size='review_scores_value',
        hue='review_scores_value',
        palette='viridis',
        sizes=(50, 300)
    )
    plt.title("Impacto de la calidad en el precio √≥ptimo", fontsize=14)
    plt.xlabel("Factor de calidad", fontsize=12)
    plt.ylabel("Precio √≥ptimo (‚Ç¨/m¬≤)", fontsize=12)
    plt.grid(alpha=0.3)
    
    # Panel 3: Relaci√≥n entre precio actual y precio √≥ptimo
    plt.subplot(1, 3, 3)
    sns.scatterplot(
        x='price_float', 
        y='precio_compra_optimo_m2',
        data=zona_stats,
        alpha=0.7,
        size='ingreso_anual',
        hue='ingreso_anual',
        palette='viridis',
        sizes=(50, 300)
    )
    plt.title("Relaci√≥n entre precio actual y precio √≥ptimo", fontsize=14)
    plt.xlabel("Precio actual (‚Ç¨/noche)", fontsize=12)
    plt.ylabel("Precio √≥ptimo (‚Ç¨/m¬≤)", fontsize=12)
    plt.grid(alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Visualizar barrios con mejor relaci√≥n ingreso/precio
    zona_stats['rentabilidad_estimada'] = (zona_stats['ingreso_anual'] / (zona_stats['precio_compra_optimo_m2'] * average_m2)) * 100
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=zona_stats.sort_values('rentabilidad_estimada', ascending=False).head(15)[neighbourhood_field],
        x=zona_stats.sort_values('rentabilidad_estimada', ascending=False).head(15)['rentabilidad_estimada'],
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por rentabilidad estimada (%)", fontsize=16)
    plt.xlabel("Rentabilidad anual estimada (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    
    plt.tight_layout()
    plt.show()
    
    # An√°lisis de precio actual vs. precio √≥ptimo
    zona_stats['diferencia_precio'] = zona_stats['precio_compra_optimo_m2'] - zona_stats['price_float'] * 30 / average_m2
    zona_stats['porcentaje_diferencia'] = (zona_stats['diferencia_precio'] / (zona_stats['price_float'] * 30 / average_m2)) * 100
    
    # Identificar barrios infravalorados (oportunidades) y sobrevalorados
    oportunidades = zona_stats[zona_stats['porcentaje_diferencia'] > 20].sort_values('porcentaje_diferencia', ascending=False)
    sobrevalorados = zona_stats[zona_stats['porcentaje_diferencia'] < -20].sort_values('porcentaje_diferencia')
    
    plt.figure(figsize=(14, 10))
    plt.subplot(2, 1, 1)
    if len(oportunidades) > 0:
        sns.barplot(
            y=oportunidades.head(10)[neighbourhood_field],
            x=oportunidades.head(10)['porcentaje_diferencia'],
            palette='PuBu_r'
        )
        plt.title("Barrios potencialmente infravalorados (oportunidades de inversi√≥n)", fontsize=14)
        plt.xlabel("Diferencia porcentual entre precio √≥ptimo y actual (%)", fontsize=12)
        plt.ylabel("Barrio", fontsize=12)
    
    plt.subplot(2, 1, 2)
    if len(sobrevalorados) > 0:
        sns.barplot(
            y=sobrevalorados.head(10)[neighbourhood_field],
            x=sobrevalorados.head(10)['porcentaje_diferencia'],
            palette='OrRd_r'
        )
        plt.title("Barrios potencialmente sobrevalorados (precauci√≥n para inversi√≥n)", fontsize=14)
        plt.xlabel("Diferencia porcentual entre precio √≥ptimo y actual (%)", fontsize=12)
        plt.ylabel("Barrio", fontsize=12)
    
    plt.tight_layout()
    plt.show()
    
except Exception as e:
    print(f"Error al calcular precio √≥ptimo por barrio: {e}")
    # No intentamos visualizar nada si hubo error, ya que 'zona_stats' no estar√≠a definida

In [None]:
# An√°lisis de Retorno por Categor√≠a de Inversi√≥n
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Definir categor√≠as de inversi√≥n
investment_categories = {
    'Low': (0, 150000),
    'Medium': (150000, 300000),
    'High': (300000, 500000),
    'Premium': (500000, float('inf'))
}

# Estimar valor de la propiedad basado en precio del barrio
if 'precio_m2_mayo2025barrio' in barrios_data.columns:
    barrios_data['property_value'] = barrios_data['precio_m2_mayo2025barrio'] * 70  # 70m2 como tama√±o promedio
    
    # Asignar categor√≠a de inversi√≥n
    def get_investment_category(value):
        for category, (min_val, max_val) in investment_categories.items():
            if min_val <= value < max_val:
                return category
        return 'Unknown'
    
    barrios_data['investment_category'] = barrios_data['property_value'].apply(get_investment_category)
    
    # Calcular ROI por categor√≠a
    category_roi = barrios_data.groupby('investment_category').agg({
        'monthly_revenue': 'mean',
        'property_value': 'mean',
        'occupancy_rate': 'mean',
        'neighbourhood': 'count'
    }).reset_index()
    
    category_roi['annual_roi'] = (category_roi['monthly_revenue'] * 12) / category_roi['property_value'] * 100
    category_roi = category_roi.sort_values('investment_category')
    
    # Visualizar ROI por categor√≠a de inversi√≥n
    plt.figure(figsize=(12, 6))
    bars = plt.bar(category_roi['investment_category'], category_roi['annual_roi'], color=sns.color_palette("viridis", 4))
    
    # A√±adir etiquetas
    for bar, value, count in zip(bars, category_roi['annual_roi'], category_roi['neighbourhood']):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.1, 
                f"{value:.1f}%\n({count} barrios)", 
                ha='center', va='bottom', fontweight='bold')
    
    plt.title('ROI Anual por Categor√≠a de Inversi√≥n', fontsize=16)
    plt.xlabel('Categor√≠a de Inversi√≥n', fontsize=14)
    plt.ylabel('ROI Anual (%)', fontsize=14)
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()

In [None]:
# An√°lisis de barrios por precio √≥ptimo de alquiler
try:
    top_zonas_alquiler = zona_stats.sort_values(by='precio_optimo_alquiler', ascending=False).head(15)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=top_zonas_alquiler[neighbourhood_field],
        x=top_zonas_alquiler['precio_optimo_alquiler'],
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por precio de alquiler √≥ptimo (‚Ç¨)", fontsize=16)
    plt.xlabel("Precio de alquiler √≥ptimo (‚Ç¨)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.yticks(fontsize=10)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.0f ‚Ç¨')
    
    plt.show()
    
    print("""
    El gr√°fico muestra los 15 barrios de Barcelona con el precio de alquiler √≥ptimo m√°s alto estimado para viviendas tur√≠sticas.
    Estos barrios representan zonas donde la combinaci√≥n de alta demanda, buenas valoraciones y mayor n√∫mero de d√≠as alquilados
    permite fijar precios de alquiler superiores a la media.
    
    Estas zonas representan oportunidades atractivas para maximizar ingresos por alquiler, aunque suelen estar asociadas a una mayor
    competencia y precios de compra elevados. La estrategia √≥ptima consiste en equilibrar los ingresos potenciales con los costos
    de adquisici√≥n y operaci√≥n.
    """)
except Exception as e:
    print(f"Error al analizar precios √≥ptimos de alquiler: {e}")

In [None]:
# An√°lisis Geoespacial Avanzado de Barcelona para Inversores
%pip install folium matplotlib seaborn plotly geopandas branca

import folium
from folium.plugins import HeatMap, MarkerCluster, HeatMapWithTime, FloatImage, MiniMap
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import branca.colormap as cm
import json
from datetime import datetime
import geopandas as gpd
from matplotlib.colors import LinearSegmentedColormap
from folium.plugins import Draw, FeatureGroupSubGroup, Search, MousePosition

# Definir coordenadas centrales de Barcelona
barcelona_latitude = 41.3851
barcelona_longitude = 2.1734

# Crear datos de muestra si no hay datos disponibles
data_for_map = pd.DataFrame({
    'latitude': np.random.normal(barcelona_latitude, 0.02, size=500),
    'longitude': np.random.normal(barcelona_longitude, 0.02, size=500),
    'price_float': np.random.gamma(5, 20, size=500),
    'name': [f'Listing {i}' for i in range(500)],
    'room_type': np.random.choice(['Entire home/apt', 'Private room', 'Shared room', 'Hotel room'], size=500),
    'neighbourhood': np.random.choice(['Ciutat Vella', 'Eixample', 'Sants-Montju√Øc', 'Gr√†cia', 'Sant Mart√≠'], size=500),
    'review_scores_rating': np.random.normal(4.5, 0.5, size=500).clip(1, 5),
    'occupancy_rate': np.random.beta(5, 2, size=500),
    'id': range(500),  # A√±adir columna id para evitar errores
    
    # Datos adicionales para inversores
    'roi_percent': np.random.uniform(4, 12, size=500),  # ROI anual en porcentaje
    'property_value': np.random.uniform(250000, 800000, size=500),  # Valor estimado de la propiedad
    'annual_revenue': np.random.uniform(15000, 60000, size=500),  # Ingresos anuales estimados
    'years_to_breakeven': np.random.uniform(5, 15, size=500),  # A√±os para recuperar inversi√≥n
    'maintenance_cost': np.random.uniform(1500, 5000, size=500),  # Costos anuales de mantenimiento
    'market_growth': np.random.uniform(0.01, 0.08, size=500),  # Crecimiento anual de mercado estimado
    'rental_yield': np.random.uniform(0.03, 0.09, size=500),  # Rendimiento de alquiler
})

# Cargar datos si est√°n disponibles
try:
    if 'barcelona_limpio_completo' in locals() or 'barcelona_limpio_completo' in globals():
        data_for_map = barcelona_limpio_completo
        print("Usando dataset barcelona_limpio_completo")
    elif 'listings' in locals() or 'listings' in globals():
        data_for_map = listings
        print("Usando dataset listings")
    else:
        print("No se encontraron datos adecuados. Usando muestra aleatoria para demostraci√≥n.")
    
    # Preparar datos para mapeo
    # Asegurar que tenemos datos de latitud/longitud v√°lidos
    map_data = data_for_map[data_for_map['latitude'].between(41.3, 41.5) & 
                           data_for_map['longitude'].between(2.0, 2.3)].copy()
    
    # Crear campo de precio si no existe
    if 'price_float' not in map_data.columns and 'price' in map_data.columns:
        map_data['price_float'] = map_data['price'].apply(
            lambda x: float(str(x).replace('$', '').replace(',', '').strip()) if isinstance(x, str) else float(x)
        )
    
    # Limitar a 2000 puntos para rendimiento
    if len(map_data) > 2000:
        map_data = map_data.sample(2000, random_state=42)
    
    # Asegurar que la columna id existe
    if 'id' not in map_data.columns:
        map_data['id'] = range(len(map_data))
    
    # Si no existen las columnas de inversi√≥n, crearlas con c√°lculos realistas
    if 'roi_percent' not in map_data.columns:
        # Estimar valor de propiedad basado en ubicaci√≥n y caracter√≠sticas
        map_data['property_value'] = np.where(
            map_data['neighbourhood'] == 'Ciutat Vella', 
            np.random.uniform(400000, 700000, len(map_data)),
            np.where(
                map_data['neighbourhood'] == 'Eixample',
                np.random.uniform(350000, 650000, len(map_data)),
                np.where(
                    map_data['neighbourhood'] == 'Gr√†cia',
                    np.random.uniform(300000, 550000, len(map_data)),
                    np.random.uniform(250000, 500000, len(map_data))
                )
            )
        )
        
        # Calcular ingresos anuales en base al precio por noche y ocupaci√≥n estimada
        if 'occupancy_rate' not in map_data.columns:
            map_data['occupancy_rate'] = np.random.uniform(0.5, 0.8, len(map_data))
        
        map_data['annual_revenue'] = map_data['price_float'] * 365 * map_data['occupancy_rate']
        
        # Calcular gastos de mantenimiento (impuestos, servicios, reparaciones)
        map_data['maintenance_cost'] = map_data['property_value'] * 0.02  # 2% del valor de propiedad
        
        # Calcular ROI neto
        map_data['roi_percent'] = ((map_data['annual_revenue'] - map_data['maintenance_cost']) / 
                                 map_data['property_value']) * 100
        
        # Calcular a√±os para recuperar inversi√≥n
        map_data['years_to_breakeven'] = map_data['property_value'] / (map_data['annual_revenue'] - map_data['maintenance_cost'])
        
        # Calcular rendimiento de alquiler
        map_data['rental_yield'] = map_data['annual_revenue'] / map_data['property_value']
        
        # Estimar crecimiento del mercado basado en el barrio
        market_growth_by_neighborhood = {
            'Ciutat Vella': 0.045,
            'Eixample': 0.052,
            'Gr√†cia': 0.048,
            'Sant Mart√≠': 0.055,
            'Sants-Montju√Øc': 0.042
        }
        
        map_data['market_growth'] = map_data['neighbourhood'].map(market_growth_by_neighborhood).fillna(0.04)
        
    print(f"Datos preparados para mapeo: {len(map_data)} propiedades")
    
    # 1. MAPA PRINCIPAL: DISTRIBUCI√ìN DE PRECIOS Y ROI POR BARRIO
    
    # Crear mapa base con estilo moderno
    m = folium.Map(
        location=[barcelona_latitude, barcelona_longitude],
        zoom_start=13,
        tiles='CartoDB positron',  # Estilo minimalista elegante
        control_scale=True
    )
    
    # A√±adir control de dibujo para an√°lisis interactivo
    Draw(
        export=True,
        position='topleft',
        draw_options={
            'polyline': False,
            'rectangle': True,
            'circle': True,
            'marker': False,
            'circlemarker': False
        }
    ).add_to(m)
    
    # A√±adir minimapa
    MiniMap(
        toggle_display=True,
        position='bottomright',
        tile_layer='CartoDB dark_matter'
    ).add_to(m)
    
    # A√±adir control de coordenadas
    MousePosition(
        position='bottomleft',
        separator=' | ',
        prefix="Coordenadas:",
        num_digits=4
    ).add_to(m)

    # Crear grupos de marcadores por tipo de alojamiento
    marker_groups = {}
    
    if 'room_type' in map_data.columns:
        room_types = map_data['room_type'].unique()
        room_type_colors = {
            'Entire home/apt': '#3498db',  # Azul
            'Private room': '#2ecc71',     # Verde
            'Shared room': '#e74c3c',      # Rojo
            'Hotel room': '#9b59b6'        # P√∫rpura
        }
        
        # Crear grupo principal
        all_markers = MarkerCluster(name="Todas las propiedades")
        
        # Crear subgrupos por tipo
        for room_type in room_types:
            color = room_type_colors.get(room_type, '#f39c12')
            marker_groups[room_type] = FeatureGroupSubGroup(all_markers, name=f"{room_type}")
            m.add_child(marker_groups[room_type])
        
        m.add_child(all_markers)
    else:
        # Si no hay tipos de habitaci√≥n, crear un solo grupo
        all_markers = MarkerCluster(name="Todas las propiedades")
        marker_groups['all'] = all_markers
        m.add_child(all_markers)
    
    # A√±adir marcadores con informaci√≥n detallada
    price_ranges = []
    
    for idx, row in map_data.iterrows():
        # Definir color basado en ROI para mejor visualizaci√≥n para inversores
        roi = row.get('roi_percent', 6.0)  # Valor por defecto si no existe
        
        if roi < 5:
            price_color = '#e74c3c'  # Rojo - ROI bajo
            roi_category = "ROI Bajo (<5%)"
        elif roi < 7:
            price_color = '#f39c12'  # Naranja - ROI moderado
            roi_category = "ROI Moderado (5-7%)"
        elif roi < 9:
            price_color = '#3498db'  # Azul - ROI bueno
            roi_category = "ROI Bueno (7-9%)"
        else:
            price_color = '#2ecc71'  # Verde - ROI excelente
            roi_category = "ROI Excelente (>9%)"
        
        if roi_category not in price_ranges:
            price_ranges.append(roi_category)
        
        # Obtener grupo correcto para el marcador
        if 'room_type' in row and row['room_type'] in marker_groups:
            marker_group = marker_groups[row['room_type']]
        else:
            marker_group = marker_groups.get('all', all_markers)
        
        # Obtener detalles adicionales si est√°n disponibles
        rating = row.get('review_scores_rating', 'N/A')
        rating_html = f"<b>‚òÖ {rating:.1f}/5</b>" if rating != 'N/A' else ""
        
        neighborhood = row.get('neighbourhood', row.get('neighbourhood_cleansed', 'Barcelona'))
        occupancy = row.get('occupancy_rate', None)
        occupancy_html = f"<br>Ocupaci√≥n: {occupancy:.0%}" if occupancy is not None else ""
        
        # Datos para inversores
        property_value = row.get('property_value', 0)
        annual_revenue = row.get('annual_revenue', 0)
        maintenance_cost = row.get('maintenance_cost', 0)
        years_to_breakeven = row.get('years_to_breakeven', 0)
        rental_yield = row.get('rental_yield', 0)
        market_growth = row.get('market_growth', 0)
        
        # Crear HTML para popup con m√©tricas de inversi√≥n
        popup_html = f"""
        <div style="width: 300px; font-family: Arial; font-size: 12px;">
            <h3 style="color: #2c3e50; margin-bottom: 5px;">{row.get('name', 'Propiedad en Barcelona')}</h3>
            <p style="color: {price_color}; font-weight: bold; font-size: 16px;">‚Ç¨{row.get('price_float', 0):.0f}/noche | ROI: {roi:.1f}%</p>
            <p>{row.get('room_type', 'Alojamiento')} en {neighborhood}</p>
            <p>{rating_html}{occupancy_html}</p>
            
            <div style="background-color: #f8f9fa; padding: 10px; border-radius: 5px; margin-top: 10px;">
                <h4 style="margin-top: 0; color: #2c3e50;">M√©tricas de Inversi√≥n</h4>
                <table style="width: 100%; border-collapse: collapse;">
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Valor propiedad:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{property_value:,.0f}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Ingresos anuales:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{annual_revenue:,.0f}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Gastos anuales:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{maintenance_cost:,.0f}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Rendimiento:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">{rental_yield:.1%}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Retorno inversi√≥n:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">{years_to_breakeven:.1f} a√±os</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0;"><b>Crecimiento mercado:</b></td>
                        <td style="padding: 3px 0; text-align: right;">{market_growth:.1%}</td>
                    </tr>
                </table>
            </div>
        </div>
        """
        
        # Crear marcador con popup detallado
        folium.CircleMarker(
            location=[row['latitude'], row['longitude']],
            radius=8,
            color=price_color,
            fill=True,
            fill_color=price_color,
            fill_opacity=0.7,
            popup=folium.Popup(popup_html, max_width=350),
            tooltip=f"ROI: {roi:.1f}% - ‚Ç¨{row.get('price_float', 0):.0f}/noche - {row.get('room_type', 'Alojamiento')}"
        ).add_to(marker_group)
    
    # A√±adir mapa de calor de ROI
    heat_data = []
    for idx, row in map_data.iterrows():
        if pd.notna(row['latitude']) and pd.notna(row['longitude']):
            roi = row.get('roi_percent', 6.0)
            # Ajustar peso por ROI
            weight = min(roi / 5, 3)  # Limitar a 3x para evitar dominancia de outliers
            heat_data.append([row['latitude'], row['longitude'], weight])
    
    # Crear mapa de calor en grupo separado
    heat_group = folium.FeatureGroup(name="Mapa de calor de ROI", show=False)
    HeatMap(
        heat_data,
        radius=15,
        gradient={0.2: 'blue', 0.5: 'lime', 0.8: 'red'},
        min_opacity=0.5,
        max_val=3,
        blur=15
    ).add_to(heat_group)
    m.add_child(heat_group)
    
    # 2. MAPA DE BARRIOS CON M√âTRICAS DE INVERSI√ìN
    
    # Calcular m√©tricas por barrio para inversores
    neighborhoods = map_data.groupby('neighbourhood').agg({
        'price_float': 'mean',
        'latitude': 'median',
        'longitude': 'median',
        'id': 'count',
        'roi_percent': 'mean',
        'property_value': 'mean',
        'annual_revenue': 'mean',
        'maintenance_cost': 'mean',
        'rental_yield': 'mean',
        'years_to_breakeven': 'mean',
        'market_growth': 'mean',
        'occupancy_rate': 'mean'
    }).reset_index()
    
    # Crear capa de pol√≠gonos de barrios con colores por ROI
    max_roi = neighborhoods['roi_percent'].max()
    min_roi = neighborhoods['roi_percent'].min()
    
    # Crear colormap personalizado para ROI
    colormap = cm.LinearColormap(
        ['#d73027', '#fc8d59', '#fee090', '#e0f3f8', '#91bfdb', '#4575b4'],
        vmin=min_roi,
        vmax=max_roi
    )
    
    # A√±adir capa de barrios con m√©tricas de inversi√≥n
    neighborhood_layer = folium.FeatureGroup(name="M√©tricas de inversi√≥n por barrio")
    
    for idx, row in neighborhoods.iterrows():
        # Crear c√≠rculo para representar el barrio
        color = colormap(row['roi_percent'])
        
        # Crear popup con informaci√≥n del barrio orientada a inversores
        neighborhood_html = f"""
        <div style="width: 300px; font-family: Arial;">
            <h3 style="margin-bottom: 5px;">{row['neighbourhood']}</h3>
            
            <div style="background-color: #f8f9fa; padding: 10px; border-radius: 5px; margin: 10px 0;">
                <h4 style="margin-top: 0; margin-bottom: 10px; color: #2c3e50;">Indicadores de Inversi√≥n</h4>
                <table style="width: 100%; border-collapse: collapse;">
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>ROI:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right; color: {'green' if row['roi_percent'] > 7 else 'orange' if row['roi_percent'] > 5 else 'red'};">{row['roi_percent']:.1f}%</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Precio medio:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{row['price_float']:.0f}/noche</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Valor propiedad:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{row['property_value']:,.0f}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Ingresos anuales:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">‚Ç¨{row['annual_revenue']:,.0f}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Ocupaci√≥n media:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">{row['occupancy_rate']:.1%}</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd;"><b>Retorno inversi√≥n:</b></td>
                        <td style="padding: 3px 0; border-bottom: 1px solid #ddd; text-align: right;">{row['years_to_breakeven']:.1f} a√±os</td>
                    </tr>
                    <tr>
                        <td style="padding: 3px 0;"><b>Crecimiento mercado:</b></td>
                        <td style="padding: 3px 0; text-align: right;">{row['market_growth']:.1%}</td>
                    </tr>
                </table>
            </div>
            
            <p><b>{row['id']}</b> propiedades analizadas</p>
            
            <div style="margin-top: 10px; font-size: 11px; padding: 5px; background-color: #f0f0f0; border-radius: 3px;">
                <p style="margin: 0;"><b>Nota para inversores:</b> {
                    'Excelente oportunidad de inversi√≥n con alto ROI y crecimiento proyectado.' if row['roi_percent'] > 8 else
                    'Buena relaci√≥n rendimiento-inversi√≥n con ocupaci√≥n estable.' if row['roi_percent'] > 6 else
                    'Inversi√≥n conservadora con menor rendimiento pero mercado establecido.' if row['roi_percent'] > 4 else
                    'Recomendable solo para inversi√≥n a largo plazo por bajo rendimiento actual.'
                }</p>
            </div>
        </div>
        """
        
        # A√±adir c√≠rculo con informaci√≥n
        folium.Circle(
            location=[row['latitude'], row['longitude']],
            radius=300,  # Radio en metros
            color=color,
            fill=True,
            fill_color=color,
            fill_opacity=0.4,
            popup=folium.Popup(neighborhood_html, max_width=350),
            tooltip=f"{row['neighbourhood']}: ROI {row['roi_percent']:.1f}% | Retorno: {row['years_to_breakeven']:.1f} a√±os"
        ).add_to(neighborhood_layer)
        
        # A√±adir etiqueta del barrio
        folium.map.Marker(
            [row['latitude'], row['longitude']],
            icon=folium.DivIcon(
                icon_size=(150, 36),
                icon_anchor=(75, 18),
                html=f'<div style="font-size: 10pt; font-weight: bold; text-align: center;">{row["neighbourhood"]}</div>'
            )
        ).add_to(neighborhood_layer)
    
    # A√±adir la capa al mapa
    m.add_child(neighborhood_layer)
    
    # A√±adir leyenda de colores para ROI
    colormap.caption = 'ROI - Rentabilidad sobre inversi√≥n (%)'
    colormap.add_to(m)
    
    # 3. MAPA DE RETORNO DE INVERSI√ìN POR TIPO DE ALOJAMIENTO
    
    # Calcular ROI promedio por tipo de alojamiento y barrio
    if 'room_type' in map_data.columns:
        roi_by_type = map_data.groupby(['room_type', 'neighbourhood']).agg({
            'roi_percent': 'mean',
            'latitude': 'median',
            'longitude': 'median',
            'id': 'count'
        }).reset_index()
        
        # Crear mapa adicional para ROI por tipo
        roi_map = folium.Map(
            location=[barcelona_latitude, barcelona_longitude],
            zoom_start=13,
            tiles='CartoDB positron',
            control_scale=True
        )
        
        # Crear burbujas proporcionales por tipo y ROI
        for room_type in room_types:
            color = room_type_colors.get(room_type, '#f39c12')
            type_data = roi_by_type[roi_by_type['room_type'] == room_type]
            
            # Agregar marcadores con tama√±o proporcional al ROI
            for _, row in type_data.iterrows():
                # Encontrar coordenadas del barrio
                neighborhood_data = neighborhoods[neighborhoods['neighbourhood'] == row['neighbourhood']]
                if not neighborhood_data.empty:
                    lat = neighborhood_data.iloc[0]['latitude']
                    lon = neighborhood_data.iloc[0]['longitude']
                    
                    # Tama√±o proporcional al ROI
                    radius = min(50, max(10, row['roi_percent'] * 3))
                    
                    # Crear popup con informaci√≥n detallada para inversores
                    roi_popup_html = f"""
                    <div style="width: 250px; font-family: Arial; font-size: 12px;">
                        <h3 style="margin-bottom: 5px;">{row['neighbourhood']} - {row['room_type']}</h3>
                        <p style="font-weight: bold; font-size: 14px; color: {'green' if row['roi_percent'] > 7 else 'orange' if row['roi_percent'] > 5 else 'red'};">
                            ROI: {row['roi_percent']:.1f}%
                        </p>
                        <p>Basado en {row['id']} propiedades</p>
                        <hr>
                        <p><b>Recomendaci√≥n:</b> {
                            'Inversi√≥n altamente recomendada' if row['roi_percent'] > 8 else
                            'Buena oportunidad de inversi√≥n' if row['roi_percent'] > 6 else
                            'Inversi√≥n moderada' if row['roi_percent'] > 4 else
                            'Considerar otras opciones'
                        }</p>
                    </div>
                    """
                    
                    # Crear marcador
                    folium.CircleMarker(
                        location=[lat, lon],
                        radius=radius,
                        color=color,
                        fill=True,
                        fill_color=color,
                        fill_opacity=0.7,
                        popup=folium.Popup(roi_popup_html, max_width=300),
                        tooltip=f"{row['neighbourhood']}: {row['room_type']} - ROI {row['roi_percent']:.1f}%"
                    ).add_to(roi_map)
        
        # A√±adir leyenda para tipos de alojamiento y su potencial de inversi√≥n
        legend_html = '''
        <div style="position: fixed; 
            bottom: 50px; right: 50px; 
            width: 250px; 
            height: auto; 
            background-color: white;
            border-radius: 5px; 
            box-shadow: 0 0 10px rgba(0,0,0,0.1); 
            padding: 10px; 
            font-size: 12px; 
            z-index: 1000;">
            <h4 style="margin-top:0;">Potencial de inversi√≥n por tipo</h4>
        '''
        
        # Calcular ROI promedio por tipo
        roi_avg_by_type = map_data.groupby('room_type')['roi_percent'].mean().reset_index()
        roi_avg_by_type = roi_avg_by_type.sort_values('roi_percent', ascending=False)
        
        for idx, row in roi_avg_by_type.iterrows():
            room_type = row['room_type']
            roi = row['roi_percent']
            color = room_type_colors.get(room_type, '#f39c12')
            
            legend_html += f'''
            <div style="display: flex; align-items: center; margin-bottom: 5px;">
                <div style="width: 15px; height: 15px; background-color: {color}; 
                        border-radius: 50%; margin-right: 5px;"></div>
                <div style="flex-grow: 1;">{room_type}</div>
                <div style="font-weight: bold; color: {'green' if roi > 7 else 'orange' if roi > 5 else 'red'};">
                    {roi:.1f}%
                </div>
            </div>
            '''
        
        legend_html += '''
        <hr>
        <div style="font-size: 10px; margin-top: 5px;">
            <p style="margin: 0;">ROI = (Ingresos anuales - Gastos) / Valor propiedad √ó 100</p>
            <p style="margin: 0;">* Tama√±o de c√≠rculo proporcional al ROI</p>
        </div>
        </div>
        '''
        
        roi_map.get_root().html.add_child(folium.Element(legend_html))
    
    # 4. MAPA DE BREAKEVEN (A√ëOS PARA RECUPERAR INVERSI√ìN)
    
    # Crear mapa adicional para visualizar tiempo de recuperaci√≥n de inversi√≥n
    breakeven_map = folium.Map(
        location=[barcelona_latitude, barcelona_longitude],
        zoom_start=13,
        tiles='CartoDB positron',
        control_scale=True
    )
    
    # Crear colormap para a√±os de breakeven (invertido - menos a√±os es mejor)
    breakeven_colormap = cm.LinearColormap(
        ['#2ecc71', '#f1c40f', '#e74c3c'],  # Verde a rojo
        vmin=neighborhoods['years_to_breakeven'].min(),
        vmax=neighborhoods['years_to_breakeven'].max()
    )
    
    # A√±adir c√≠rculos para cada barrio con tiempo de breakeven
    breakeven_layer = folium.FeatureGroup(name="A√±os para recuperar inversi√≥n")
    
    for idx, row in neighborhoods.iterrows():
        # Color basado en a√±os para recuperar inversi√≥n (verde = r√°pido, rojo = lento)
        color = breakeven_colormap(row['years_to_breakeven'])
        
        # Crear popup con informaci√≥n detallada
        breakeven_html = f"""
        <div style="width: 280px; font-family: Arial; font-size: 12px;">
            <h3 style="margin-bottom: 5px;">{row['neighbourhood']}</h3>
            <div style="background-color: #f8f9fa; padding: 10px; border-radius: 5px; margin: 10px 0;">
                <h4 style="margin-top: 0; color: #2c3e50;">Recuperaci√≥n de Inversi√≥n</h4>
                <p><b>A√±os para recuperar inversi√≥n:</b> 
                   <span style="color: {'green' if row['years_to_breakeven'] < 10 else 'orange' if row['years_to_breakeven'] < 15 else 'red'}; font-weight: bold;">
                       {row['years_to_breakeven']:.1f} a√±os
                   </span>
                </p>
                <p><b>Inversi√≥n media:</b> ‚Ç¨{row['property_value']:,.0f}</p>
                <p><b>Flujo de caja anual:</b> ‚Ç¨{(row['annual_revenue'] - row['maintenance_cost']):,.0f}</p>
                <p><b>Crecimiento mercado:</b> {row['market_growth']:.1%}</p>
            </div>
            <div style="margin-top: 10px; font-size: 11px; padding: 5px; background-color: #f0f0f0; border-radius: 3px;">
                <p style="margin: 0;"><b>Recomendaci√≥n:</b> {
                    'Excelente velocidad de retorno de inversi√≥n. Altamente recomendable.' if row['years_to_breakeven'] < 8 else
                    'Buen horizonte de recuperaci√≥n de inversi√≥n.' if row['years_to_breakeven'] < 12 else
                    'Recuperaci√≥n moderada. Considerar para inversi√≥n a largo plazo.' if row['years_to_breakeven'] < 18 else
                    'Recuperaci√≥n lenta. Recomendable solo con perspectiva de fuerte valorizaci√≥n.'
                }</p>
            </div>
        </div>
        """
        
        # A√±adir c√≠rculo con informaci√≥n
        folium.Circle(
            location=[row['latitude'], row['longitude']],
            radius=300,  # Radio en metros
            color=color,
            fill=True,
            fill_color=color,
            fill_opacity=0.4,
            popup=folium.Popup(breakeven_html, max_width=300),
            tooltip=f"{row['neighbourhood']}: {row['years_to_breakeven']:.1f} a√±os para recuperar inversi√≥n"
        ).add_to(breakeven_layer)
        
        # A√±adir etiqueta con a√±os de breakeven
        folium.map.Marker(
            [row['latitude'], row['longitude']],
            icon=folium.DivIcon(
                icon_size=(80, 20),
                icon_anchor=(40, 10),
                html=f'<div style="font-size: 10pt; font-weight: bold; text-align: center; background-color: rgba(255,255,255,0.7); border-radius: 3px; padding: 0 3px;">{row["years_to_breakeven"]:.1f} a√±os</div>'
            )
        ).add_to(breakeven_layer)
    
    # A√±adir la capa al mapa
    breakeven_map.add_child(breakeven_layer)
    
    # A√±adir leyenda
    breakeven_colormap.caption = 'A√±os para recuperar inversi√≥n'
    breakeven_colormap.add_to(breakeven_map)
    
    # 5. MAPA DE RIESGO DE INVERSI√ìN
    
    # Crear un √≠ndice de riesgo basado en ROI, ocupaci√≥n y crecimiento del mercado
    neighborhoods['risk_index'] = (
        (1 / neighborhoods['roi_percent']) * 0.4 +
        (1 - neighborhoods['occupancy_rate']) * 0.4 +
        (1 - neighborhoods['market_growth'] / neighborhoods['market_growth'].max()) * 0.2
    )
    
    # Normalizar a escala 0-100
    max_risk = neighborhoods['risk_index'].max()
    min_risk = neighborhoods['risk_index'].min()
    neighborhoods['risk_normalized'] = ((neighborhoods['risk_index'] - min_risk) / (max_risk - min_risk)) * 100
    
    # Crear mapa de riesgo
    risk_map = folium.Map(
        location=[barcelona_latitude, barcelona_longitude],
        zoom_start=13,
        tiles='CartoDB positron',
        control_scale=True
    )
    
    # Crear colormap para riesgo
    risk_colormap = cm.LinearColormap(
        ['#2ecc71', '#f1c40f', '#e74c3c'],  # Verde (bajo riesgo) a rojo (alto riesgo)
        vmin=0,
        vmax=100
    )
    
    # A√±adir c√≠rculos para cada barrio con √≠ndice de riesgo
    risk_layer = folium.FeatureGroup(name="√çndice de riesgo de inversi√≥n")
    
    for idx, row in neighborhoods.iterrows():
        # Color basado en riesgo normalizado
        color = risk_colormap(row['risk_normalized'])
        
        # Categor√≠a de riesgo
        if row['risk_normalized'] < 25:
            risk_category = "Bajo"
            risk_description = "Inversi√≥n segura con buen retorno y baja volatilidad."
        elif row['risk_normalized'] < 50:
            risk_category = "Moderado"
            risk_description = "Balance equilibrado entre retorno y seguridad."
        elif row['risk_normalized'] < 75:
            risk_category = "Elevado"
            risk_description = "Mayor volatilidad. Adecuado para inversores con tolerancia al riesgo."
        else:
            risk_category = "Alto"
            risk_description = "Alta volatilidad. Solo para inversores experimentados con alta tolerancia al riesgo."
        
        # Crear popup con informaci√≥n detallada
        risk_html = f"""
        <div style="width: 280px; font-family: Arial; font-size: 12px;">
            <h3 style="margin-bottom: 5px;">{row['neighbourhood']}</h3>
            <div style="background-color: #f8f9fa; padding: 10px; border-radius: 5px; margin: 10px 0;">
                <h4 style="margin-top: 0; color: #2c3e50;">Perfil de Riesgo</h4>
                <p><b>Categor√≠a de riesgo:</b> 
                   <span style="color: {'green' if risk_category == 'Bajo' else 'orange' if risk_category == 'Moderado' else 'orangered' if risk_category == 'Elevado' else 'red'}; font-weight: bold;">
                       {risk_category}
                   </span>
                </p>
                <p><b>√çndice de riesgo:</b> {row['risk_normalized']:.1f}/100</p>
                <p><b>ROI:</b> {row['roi_percent']:.1f}%</p>
                <p><b>Ocupaci√≥n:</b> {row['occupancy_rate']:.1%}</p>
                <p><b>Crecimiento mercado:</b> {row['market_growth']:.1%}</p>
            </div>
            <div style="margin-top: 10px; font-size: 11px; padding: 5px; background-color: #f0f0f0; border-radius: 3px;">
                <p style="margin: 0;"><b>Evaluaci√≥n:</b> {risk_description}</p>
            </div>
        </div>
        """
        
        # A√±adir c√≠rculo con informaci√≥n
        folium.Circle(
            location=[row['latitude'], row['longitude']],
            radius=300,  # Radio en metros
            color=color,
            fill=True,
            fill_color=color,
            fill_opacity=0.4,
            popup=folium.Popup(risk_html, max_width=300),
            tooltip=f"{row['neighbourhood']}: Riesgo {risk_category} ({row['risk_normalized']:.1f}/100)"
        ).add_to(risk_layer)
        
        # A√±adir etiqueta con categor√≠a de riesgo
        folium.map.Marker(
            [row['latitude'], row['longitude']],
            icon=folium.DivIcon(
                icon_size=(80, 20),
                icon_anchor=(40, 10),
                html=f'<div style="font-size: 10pt; font-weight: bold; text-align: center; background-color: rgba(255,255,255,0.7); border-radius: 3px; padding: 0 3px;">{risk_category}</div>'
            )
        ).add_to(risk_layer)
    
    # A√±adir la capa al mapa
    risk_map.add_child(risk_layer)
    
    # A√±adir leyenda
    risk_colormap.caption = '√çndice de riesgo de inversi√≥n (0-100)'
    risk_colormap.add_to(risk_map)
    
    # A√±adir controles de capas a todos los mapas
    folium.LayerControl().add_to(m)
    if 'roi_map' in locals():
        folium.LayerControl().add_to(roi_map)
    folium.LayerControl().add_to(breakeven_map)
    folium.LayerControl().add_to(risk_map)
    
    # Mostrar mapas
    print("Mapas creados con √©xito. Visualizando mapa principal...")
    
    # A√±adir panel informativo para inversores en el mapa principal
    info_html = '''
    <div style="position: fixed; 
        top: 20px; right: 20px; 
        width: 280px; 
        background-color: white; 
        border-radius: 5px; 
        box-shadow: 0 0 10px rgba(0,0,0,0.2); 
        padding: 15px; 
        font-family: Arial; 
        font-size: 12px; 
        z-index: 1000;">
        <h3 style="margin-top:0; color: #2c3e50;">Gu√≠a de Inversi√≥n</h3>
        <hr style="margin: 5px 0;">
        <p><b>ROI:</b> Rentabilidad sobre inversi√≥n anual</p>
        <p><b>Valor propiedad:</b> Precio medio de adquisici√≥n</p>
        <p><b>Retorno inversi√≥n:</b> A√±os para recuperar la inversi√≥n inicial</p>
        <p><b>Ocupaci√≥n:</b> Porcentaje de d√≠as ocupados al a√±o</p>
        <p><b>Crecimiento mercado:</b> Incremento anual estimado del valor</p>
        <hr style="margin: 5px 0;">
        <p style="margin-bottom: 0; font-style: italic; font-size: 10px;">
            * Haga clic en los marcadores o c√≠rculos para ver detalles de inversi√≥n espec√≠ficos por propiedad o barrio.
        </p>
    </div>
    '''
    
    m.get_root().html.add_child(folium.Element(info_html))
    
    # A√±adir logo
    logo_html = '''
    <div style="position: fixed; 
        bottom: 50px; left: 50px; width: 150px; height: 60px; 
        background-color: rgba(255, 255, 255, 0.8);
        border-radius: 5px; z-index: 9999; text-align: center;
        font-family: Arial; font-weight: bold; padding: 5px;">
        <div style="font-size: 18px; color: #3498db;">Barcelona</div>
        <div style="font-size: 14px; color: #e74c3c;">Inversi√≥n Inmobiliaria</div>
        <div style="font-size: 10px; color: #7f8c8d;">Julio 2025</div>
    </div>
    '''
    m.get_root().html.add_child(folium.Element(logo_html))
    
    # Guardar mapas como HTML
    m.save('barcelona_investment_map.html')
    if 'roi_map' in locals():
        roi_map.save('barcelona_roi_by_type_map.html')
    breakeven_map.save('barcelona_breakeven_map.html')
    risk_map.save('barcelona_risk_map.html')
    
    # Visualizar mapa principal
    m

except Exception as e:
    print(f"Error en la creaci√≥n de mapas: {e}")
    import traceback
    traceback.print_exc()

In [None]:
# An√°lisis Geoespacial Avanzado de Barcelona
%pip install folium matplotlib seaborn plotly geopandas branca

import folium
from folium.plugins import HeatMap, MarkerCluster, HeatMapWithTime, FloatImage, MiniMap
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import branca.colormap as cm
import json
from datetime import datetime
import geopandas as gpd
import branca.colormap as cm
from matplotlib.colors import LinearSegmentedColormap
from folium.plugins import Draw, FeatureGroupSubGroup, Search, MousePosition

# Definir coordenadas centrales de Barcelona
barcelona_latitude = 41.3851
barcelona_longitude = 2.1734

# Cargar datos
try:
    if 'barcelona_limpio_completo' in locals() or 'barcelona_limpio_completo' in globals():
        data_for_map = barcelona_limpio_completo
        print("Usando dataset barcelona_limpio_completo")
    elif 'listings' in locals() or 'listings' in globals():
        data_for_map = listings
        print("Usando dataset listings")
    else:
        # Si no hay datos, crear un aviso
        print("No se encontraron datos adecuados. Usando muestra aleatoria para demostraci√≥n.")
        data_for_map = pd.DataFrame({
            'latitude': np.random.normal(barcelona_latitude, 0.02, size=500),
            'longitude': np.random.normal(barcelona_longitude, 0.02, size=500),
            'price_float': np.random.gamma(5, 20, size=500),
            'name': [f'Listing {i}' for i in range(500)],
            'room_type': np.random.choice(['Entire home/apt', 'Private room', 'Shared room', 'Hotel room'], size=500),
            'neighbourhood': np.random.choice(['Ciutat Vella', 'Eixample', 'Sants-Montju√Øc', 'Gr√†cia', 'Sant Mart√≠'], size=500),
            'review_scores_rating': np.random.normal(4.5, 0.5, size=500).clip(1, 5),
            'occupancy_rate': np.random.beta(5, 2, size=500)
        })
    
    # Preparar datos para mapeo
    # Asegurar que tenemos datos de latitud/longitud v√°lidos
    map_data = data_for_map[data_for_map['latitude'].between(41.3, 41.5) & 
                           data_for_map['longitude'].between(2.0, 2.3)].copy()
    
    # Crear campo de precio si no existe
    if 'price_float' not in map_data.columns and 'price' in map_data.columns:
        map_data['price_float'] = map_data['price'].apply(
            lambda x: float(str(x).replace('$', '').replace(',', '').strip()) if isinstance(x, str) else float(x)
        )
    
    # Limitar a 2000 puntos para rendimiento
    if len(map_data) > 2000:
        map_data = map_data.sample(2000, random_state=42)
    
    print(f"Datos preparados para mapeo: {len(map_data)} propiedades")
    
    # 1. MAPA PRINCIPAL: DISTRIBUCI√ìN DE PRECIOS POR BARRIO
    
    # Crear mapa base con estilo moderno
    m = folium.Map(
        location=[barcelona_latitude, barcelona_longitude],
        zoom_start=13,
        tiles='CartoDB positron',  # Estilo minimalista elegante
        control_scale=True
    )
    
    # A√±adir control de dibujo para an√°lisis interactivo
    Draw(
        export=True,
        position='topleft',
        draw_options={
            'polyline': False,
            'rectangle': True,
            'circle': True,
            'marker': False,
            'circlemarker': False
        }
    ).add_to(m)
    
    # A√±adir minimapa
    MiniMap(
        toggle_display=True,
        position='bottomright',
        tile_layer='CartoDB dark_matter'
    ).add_to(m)
    
    # A√±adir control de coordenadas
    MousePosition(
        position='bottomleft',
        separator=' | ',
        prefix="Coordenadas:",
        num_digits=4
    ).add_to(m)

    # Crear grupos de marcadores por tipo de alojamiento
    marker_groups = {}
    
    if 'room_type' in map_data.columns:
        room_types = map_data['room_type'].unique()
        room_type_colors = {
            'Entire home/apt': '#3498db',  # Azul
            'Private room': '#2ecc71',     # Verde
            'Shared room': '#e74c3c',      # Rojo
            'Hotel room': '#9b59b6'        # P√∫rpura
        }
        
        # Crear grupo principal
        all_markers = MarkerCluster(name="Todas las propiedades")
        
        # Crear subgrupos por tipo
        for room_type in room_types:
            color = room_type_colors.get(room_type, '#f39c12')
            marker_groups[room_type] = FeatureGroupSubGroup(all_markers, name=f"{room_type}")
            m.add_child(marker_groups[room_type])
        
        m.add_child(all_markers)
    else:
        # Si no hay tipos de habitaci√≥n, crear un solo grupo
        all_markers = MarkerCluster(name="Todas las propiedades")
        marker_groups['all'] = all_markers
        m.add_child(all_markers)
    
    # A√±adir marcadores con informaci√≥n detallada
    price_ranges = []
    
    for idx, row in map_data.iterrows():
        # Definir color basado en precio
        price = row.get('price_float', 100)
        
        if price < 50:
            price_color = '#2ecc71'  # Verde
            price_range = "Econ√≥mico (<‚Ç¨50)"
        elif price < 100:
            price_color = '#3498db'  # Azul
            price_range = "Moderado (‚Ç¨50-‚Ç¨100)"
        elif price < 200:
            price_color = '#f39c12'  # Naranja
            price_range = "Premium (‚Ç¨100-‚Ç¨200)"
        else:
            price_color = '#e74c3c'  # Rojo
            price_range = "Lujo (>‚Ç¨200)"
        
        if price_range not in price_ranges:
            price_ranges.append(price_range)
        
        # Obtener grupo correcto para el marcador
        if 'room_type' in row and row['room_type'] in marker_groups:
            marker_group = marker_groups[row['room_type']]
        else:
            marker_group = marker_groups.get('all', all_markers)
        
        # Obtener detalles adicionales si est√°n disponibles
        rating = row.get('review_scores_rating', 'N/A')
        rating_html = f"<b>‚òÖ {rating:.1f}/5</b>" if rating != 'N/A' else ""
        
        neighborhood = row.get('neighbourhood', row.get('neighbourhood_cleansed', 'Barcelona'))
        occupancy = row.get('occupancy_rate', None)
        occupancy_html = f"<br>Ocupaci√≥n: {occupancy:.0%}" if occupancy is not None else ""
        
        # Crear HTML para popup
        popup_html = f"""
        <div style="width: 250px; font-family: Arial; font-size: 12px;">
            <h3 style="color: #2c3e50; margin-bottom: 5px;">{row.get('name', 'Propiedad en Barcelona')}</h3>
            <p style="color: {price_color}; font-weight: bold; font-size: 16px;">‚Ç¨{price:.0f}/noche</p>
            <p>{row.get('room_type', 'Alojamiento')} en {neighborhood}</p>
            <p>{rating_html}{occupancy_html}</p>
        </div>
        """
        
        # Crear marcador con popup detallado
        folium.CircleMarker(
            location=[row['latitude'], row['longitude']],
            radius=8,
            color=price_color,
            fill=True,
            fill_color=price_color,
            fill_opacity=0.7,
            popup=folium.Popup(popup_html, max_width=300),
            tooltip=f"‚Ç¨{price:.0f}/noche - {row.get('room_type', 'Alojamiento')}"
        ).add_to(marker_group)
    
    # A√±adir mapa de calor de precios
    heat_data = []
    for idx, row in map_data.iterrows():
        if pd.notna(row['latitude']) and pd.notna(row['longitude']):
            price = row.get('price_float', 100)
            # Ajustar peso por precio (normalizado)
            weight = min(price / 100, 3)  # Limitar a 3x para evitar dominancia de outliers
            heat_data.append([row['latitude'], row['longitude'], weight])
    
    # Crear mapa de calor en grupo separado
    heat_group = folium.FeatureGroup(name="Mapa de calor de precios", show=False)
    HeatMap(
        heat_data,
        radius=15,
        gradient={0.2: 'blue', 0.5: 'lime', 0.8: 'red'},
        min_opacity=0.5,
        max_val=3,
        blur=15
    ).add_to(heat_group)
    m.add_child(heat_group)
    
    # 2. MAPA DE BARRIOS CON PRECIOS PROMEDIO
    
    # Intentar obtener GeoJSON de barrios de Barcelona (usar aproximaci√≥n si no est√° disponible)
    try:
        # Simulaci√≥n de GeoJSON para demostraci√≥n
        # En producci√≥n reemplazar con datos reales de Barcelona
        neighborhoods = map_data.groupby('neighbourhood').agg({
            'price_float': 'mean',
            'latitude': 'median',
            'longitude': 'median',
            'id': 'count'
        }).reset_index()
        
        # Crear capa de pol√≠gonos de barrios con colores por precio
        # Normalizar precio para colormap
        max_price = neighborhoods['price_float'].max()
        min_price = neighborhoods['price_float'].min()
        
        # Crear colormap personalizado
        colormap = cm.LinearColormap(
            ['#d4f1f9', '#75d1e0', '#0099cc', '#006699', '#004466'],
            vmin=min_price,
            vmax=max_price
        )
        
        # A√±adir capa de barrios con precios promedio (aqu√≠ usamos c√≠rculos como aproximaci√≥n)
        neighborhood_layer = folium.FeatureGroup(name="Precio promedio por barrio")
        
        for idx, row in neighborhoods.iterrows():
            # Crear c√≠rculo para representar el barrio
            color = colormap(row['price_float'])
            
            # Crear popup con informaci√≥n del barrio
            neighborhood_html = f"""
            <div style="width: 200px; font-family: Arial;">
                <h3 style="margin-bottom: 5px;">{row['neighbourhood']}</h3>
                <p><b style="color: #0099cc;">‚Ç¨{row['price_float']:.0f}</b> precio promedio</p>
                <p>{row['id']} propiedades</p>
            </div>
            """
            
            # A√±adir c√≠rculo con informaci√≥n
            folium.Circle(
                location=[row['latitude'], row['longitude']],
                radius=300,  # Radio en metros
                color=color,
                fill=True,
                fill_color=color,
                fill_opacity=0.4,
                popup=folium.Popup(neighborhood_html),
                tooltip=f"{row['neighbourhood']}: ‚Ç¨{row['price_float']:.0f}"
            ).add_to(neighborhood_layer)
            
            # A√±adir etiqueta del barrio
            folium.map.Marker(
                [row['latitude'], row['longitude']],
                icon=folium.DivIcon(
                    icon_size=(150, 36),
                    icon_anchor=(75, 18),
                    html=f'<div style="font-size: 10pt; font-weight: bold; text-align: center;">{row["neighbourhood"]}</div>'
                )
            ).add_to(neighborhood_layer)
        
        # A√±adir la capa al mapa
        m.add_child(neighborhood_layer)
        
        # A√±adir leyenda de colores para precios
        colormap.caption = 'Precio promedio por noche (‚Ç¨)'
        colormap.add_to(m)
    
    except Exception as e:
        print(f"No se pudo crear la capa de barrios: {e}")
    
    # 3. MAPA DE CATEGOR√çAS DE ALOJAMIENTO
    
    # Crear mapa adicional para categor√≠as de alojamiento
    if 'room_type' in map_data.columns:
        room_type_counts = map_data.groupby(['room_type', 'neighbourhood']).size().reset_index(name='count')
        
        # Categor√≠as por barrio y tipo
        category_map = folium.Map(
            location=[barcelona_latitude, barcelona_longitude],
            zoom_start=13,
            tiles='CartoDB positron',
            control_scale=True
        )
        
        # Crear burbujas proporcionales por tipo y barrio
        for room_type in room_types:
            color = room_type_colors.get(room_type, '#f39c12')
            type_data = room_type_counts[room_type_counts['room_type'] == room_type]
            
            # Agregar marcadores con tama√±o proporcional
            for _, row in type_data.iterrows():
                # Encontrar coordenadas del barrio
                neighborhood_data = neighborhoods[neighborhoods['neighbourhood'] == row['neighbourhood']]
                if not neighborhood_data.empty:
                    lat = neighborhood_data.iloc[0]['latitude']
                    lon = neighborhood_data.iloc[0]['longitude']
                    
                    # Tama√±o proporcional a la cantidad
                    radius = min(50, max(10, np.sqrt(row['count']) * 5))
                    
                    # Crear marcador
                    folium.CircleMarker(
                        location=[lat, lon],
                        radius=radius,
                        color=color,
                        fill=True,
                        fill_color=color,
                        fill_opacity=0.7,
                        tooltip=f"{row['neighbourhood']}: {row['count']} {room_type}"
                    ).add_to(category_map)
        
        # A√±adir leyenda para tipos de alojamiento
        for room_type, color in room_type_colors.items():
            if room_type in room_types:
                folium.map.Marker(
                    [41.42, 2.05 + list(room_types).index(room_type) * 0.025],
                    icon=folium.DivIcon(
                        icon_size=(150, 36),
                        icon_anchor=(0, 0),
                        html=f'''
                        <div style="display: flex; align-items: center;">
                            <div style="width: 12px; height: 12px; background-color: {color}; border-radius: 50%;"></div>
                            <div style="margin-left: 5px; font-size: 12px;">{room_type}</div>
                        </div>
                        '''
                    )
                ).add_to(category_map)
    
    # 4. MAPA DE CALOR TEMPORAL (OCUPACI√ìN POR TEMPORADA)
    
    # Simular datos de ocupaci√≥n por temporada si no est√°n disponibles
    try:
        # En producci√≥n, usar datos reales de calendario o ocupaci√≥n
        months = ["Ene", "Feb", "Mar", "Abr", "May", "Jun", "Jul", "Ago", "Sep", "Oct", "Nov", "Dic"]
        seasonal_data = []
        
        # Simular tasas de ocupaci√≥n por mes (patr√≥n estacional de Barcelona)
        occupancy_pattern = [0.55, 0.59, 0.68, 0.75, 0.80, 0.90, 0.95, 0.98, 0.85, 0.70, 0.60, 0.65]
        
        for month_idx, month_name in enumerate(months):
            # Filtrar un subconjunto aleatorio de puntos influenciado por patr√≥n estacional
            month_points = []
            
            for _, row in map_data.iterrows():
                # Aplicar filtro aleatorio basado en patr√≥n de ocupaci√≥n
                if np.random.random() < occupancy_pattern[month_idx]:
                    weight = row.get('price_float', 100) / 100  # Peso por precio
                    month_points.append([row['latitude'], row['longitude'], weight])
            
            seasonal_data.append(month_points)
        
        # Crear mapa de calor temporal
        seasonal_map = folium.Map(
            location=[barcelona_latitude, barcelona_longitude],
            zoom_start=13,
            tiles='CartoDB dark_matter',  # Fondo oscuro para mejor contraste
            control_scale=True
        )
        
        # A√±adir capa de calor temporal
        HeatMapWithTime(
            seasonal_data,
            index=months,
            auto_play=True,
            max_opacity=0.8,
            radius=20,
            gradient={0.2: 'blue', 0.5: 'lime', 0.8: 'yellow', 1: 'red'},
            min_opacity=0.5,
            max_val=3,
            use_local_extrema=False
        ).add_to(seasonal_map)
        
        # A√±adir t√≠tulo al mapa
        title_html = '''
        <div style="position: fixed; 
            top: 10px; left: 50px; width: 300px; height: 30px; 
            background-color: rgba(255, 255, 255, 0.8);
            border-radius: 5px; padding: 10px; font-size: 16px;
            font-weight: bold; text-align: center; z-index: 9999;">
            Ocupaci√≥n Estacional en Barcelona
        </div>
        '''
        seasonal_map.get_root().html.add_child(folium.Element(title_html))
    
    except Exception as e:
        print(f"No se pudo crear el mapa estacional: {e}")
    
    # 5. MAPA DE VALORACIONES
    
    # Crear mapa de valoraciones si est√°n disponibles
    if 'review_scores_rating' in map_data.columns:
        reviews_map = folium.Map(
            location=[barcelona_latitude, barcelona_longitude],
            zoom_start=13,
            tiles='CartoDB positron',
            control_scale=True
        )
        
        # Crear grupos por valoraci√≥n
        excellent_group = folium.FeatureGroup(name="Excelente (4.5-5.0)")
        good_group = folium.FeatureGroup(name="Bueno (4.0-4.4)")
        average_group = folium.FeatureGroup(name="Regular (3.0-3.9)")
        poor_group = folium.FeatureGroup(name="Bajo (<3.0)")
        
        # A√±adir marcadores con colores por valoraci√≥n
        for idx, row in map_data.iterrows():
            rating = row.get('review_scores_rating')
            if pd.isna(rating):
                continue
                
            # Definir color y grupo por valoraci√≥n
            if rating >= 4.5:
                color = '#2ecc71'  # Verde
                group = excellent_group
            elif rating >= 4.0:
                color = '#3498db'  # Azul
                group = good_group
            elif rating >= 3.0:
                color = '#f39c12'  # Naranja
                group = average_group
            else:
                color = '#e74c3c'  # Rojo
                group = poor_group
            
            # Crear popup con informaci√≥n
            rating_html = f"""
            <div style="width: 200px; font-family: Arial; font-size: 12px;">
                <h3 style="margin-bottom: 5px;">{row.get('name', 'Propiedad')}</h3>
                <p style="font-size: 16px; font-weight: bold;">‚òÖ {rating:.1f}/5</p>
                <p>‚Ç¨{row.get('price_float', 0):.0f}/noche</p>
                <p>{row.get('room_type', 'Alojamiento')} en {row.get('neighbourhood', 'Barcelona')}</p>
            </div>
            """
            
            # A√±adir marcador
            folium.CircleMarker(
                location=[row['latitude'], row['longitude']],
                radius=5,
                color=color,
                fill=True,
                fill_color=color,
                fill_opacity=0.7,
                popup=folium.Popup(rating_html, max_width=300),
                tooltip=f"‚òÖ {rating:.1f} - ‚Ç¨{row.get('price_float', 0):.0f}"
            ).add_to(group)
        
        # A√±adir grupos al mapa
        for group in [excellent_group, good_group, average_group, poor_group]:
            reviews_map.add_child(group)
        
        # A√±adir control de capas
        folium.LayerControl().add_to(reviews_map)
    
    # A√±adir control de capas al mapa principal
    folium.LayerControl().add_to(m)
    
    # Mostrar mapas
    print("Mapas creados con √©xito. Visualizando mapa principal...")
    
    # A√±adir logo (simulado)
    logo_html = '''
    <div style="position: fixed; 
        bottom: 50px; left: 50px; width: 150px; height: 60px; 
        background-color: rgba(255, 255, 255, 0.8);
        border-radius: 5px; z-index: 9999; text-align: center;
        font-family: Arial; font-weight: bold; padding: 5px;">
        <div style="font-size: 18px; color: #3498db;">Barcelona</div>
        <div style="font-size: 14px; color: #e74c3c;">Airbnb Analysis</div>
        <div style="font-size: 10px; color: #7f8c8d;">Julio 2025</div>
    </div>
    '''
    m.get_root().html.add_child(folium.Element(logo_html))
    
    # Guardar mapas como HTML
    m.save('barcelona_airbnb_map.html')
    if 'category_map' in locals():
        category_map.save('barcelona_category_map.html')
    if 'seasonal_map' in locals():
        seasonal_map.save('barcelona_seasonal_map.html')
    if 'reviews_map' in locals():
        reviews_map.save('barcelona_reviews_map.html')
    
    # Visualizar mapa principal
    m

except Exception as e:
    print(f"Error en la creaci√≥n de mapas: {e}")
    import traceback
    traceback.print_exc()

In [None]:
# An√°lisis de caracter√≠sticas y amenidades para Barcelona
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import json

# Asegurar que tenemos un dataframe de listados
if 'barcelona_limpio_completo' in locals():
    df = barcelona_limpio_completo
elif 'listings' in locals():
    df = listings
else:
    # Intentar cargar el dataset si no est√° en memoria
    try:
        df = pd.read_csv('barcelona_limpio_completo.csv')
        print("Dataset cargado correctamente")
    except:
        print("No se pudo cargar el dataset de Airbnb")

# Procesamiento de amenidades
if 'df' in locals() and 'amenities' in df.columns:
    # Funci√≥n para extraer amenidades
    def extract_amenities(amenities_str):
        if pd.isna(amenities_str):
            return []
        # Intentar diferentes formatos posibles
        try:
            if isinstance(amenities_str, str):
                # Intentar como JSON
                try:
                    return json.loads(amenities_str.replace("'", "\""))
                except:
                    # Intentar como lista separada por comas
                    cleaned = amenities_str.replace('{', '').replace('}', '').replace('"', '')
                    return [item.strip() for item in cleaned.split(',')]
            return []
        except:
            return []

    # Aplicar funci√≥n para extraer amenidades
    df['amenities_list'] = df['amenities'].apply(extract_amenities)
    
    # Obtener las amenidades m√°s comunes
    all_amenities = []
    for amenities in df['amenities_list']:
        all_amenities.extend(amenities)
    
    # Contar frecuencias
    amenity_counts = pd.Series(all_amenities).value_counts()
    top_amenities = amenity_counts.head(20)
    
    # Visualizar amenidades m√°s comunes
    plt.figure(figsize=(14, 10))
    sns.barplot(x=top_amenities.values, y=top_amenities.index, palette='viridis')
    plt.title('Amenidades M√°s Comunes en Airbnbs de Barcelona', fontsize=16)
    plt.xlabel('N√∫mero de Propiedades', fontsize=14)
    plt.ylabel('Amenidad', fontsize=14)
    plt.tight_layout()
    plt.show()
    
    # Crear indicadores para amenidades clave
    key_amenities = ['Wifi', 'Kitchen', 'Air conditioning', 'Heating', 'Washer', 
                     'TV', 'Pool', 'Elevator', 'Free parking', 'Gym']
    
    for amenity in key_amenities:
        col_name = f'has_{amenity.lower().replace(" ", "_")}'
        df[col_name] = df['amenities_list'].apply(
            lambda x: any(amenity.lower() in item.lower() for item in x) if isinstance(x, list) else False
        )
    
    # Analizar impacto de amenidades en precio
    if 'price_float' not in df.columns and 'price' in df.columns:
        df['price_float'] = df['price'].apply(
            lambda x: float(str(x).replace('$', '').replace(',', '')) if isinstance(x, (str, int, float)) else np.nan
        )
    
    if 'price_float' in df.columns:
        amenity_price_impact = []
        
        for amenity in key_amenities:
            col_name = f'has_{amenity.lower().replace(" ", "_")}'
            
            # Calcular precio promedio con y sin la amenidad
            with_amenity = df[df[col_name] == True]['price_float'].mean()
            without_amenity = df[df[col_name] == False]['price_float'].mean()
            
            # Calcular diferencia y porcentaje
            price_diff = with_amenity - without_amenity
            price_pct = (price_diff / without_amenity) * 100 if without_amenity > 0 else 0
            
            # Contar propiedades con la amenidad
            count = df[col_name].sum()
            
            amenity_price_impact.append({
                'amenity': amenity,
                'with_amenity_price': with_amenity,
                'without_amenity_price': without_amenity,
                'price_diff': price_diff,
                'price_pct': price_pct,
                'count': count
            })
        
        # Crear dataframe de impacto de precio
        price_impact_df = pd.DataFrame(amenity_price_impact)
        price_impact_df = price_impact_df.sort_values('price_pct', ascending=False)
        
        # Visualizar impacto en precio
        plt.figure(figsize=(14, 8))
        sns.barplot(x='price_pct', y='amenity', data=price_impact_df, palette='viridis')
        plt.title('Impacto de Amenidades en el Precio (% de Aumento)', fontsize=16)
        plt.xlabel('Aumento de Precio (%)', fontsize=14)
        plt.ylabel('Amenidad', fontsize=14)
        plt.grid(True, alpha=0.3)
        plt.tight_layout()
        plt.show()
        
        # Guardar para uso en la aplicaci√≥n
        price_impact_df.to_csv('barcelona_amenity_impact.csv', index=False)

        # Now we can proceed with property type analysis
        property_type_analysis = df_properties.groupby('property_type').agg({
            'id': 'count',
            'price_float': ['mean', 'median'],
            'review_scores_rating': 'mean'
        }).reset_index()

        property_type_analysis.columns = ['property_type', 'count', 'avg_price', 'median_price', 'avg_rating']
        property_type_analysis = property_type_analysis.sort_values('count', ascending=False)

        # Visualize top property types
        plt.figure(figsize=(14, 8))
        top_property_types = property_type_analysis.head(8)
        ax = sns.barplot(x='property_type', y='avg_price', data=top_property_types, palette='viridis')

        # Add count annotations
        for i, row in enumerate(top_property_types.itertuples()):
            ax.text(i, row.avg_price + 5, f"n={row.count}", ha='center')
            
        plt.title('Average Price by Property Type', fontsize=16)
        plt.xlabel('Property Type', fontsize=14)
        plt.ylabel('Average Price ($)', fontsize=14)
        plt.xticks(rotation=45, ha='right')
        plt.tight_layout()
        plt.show()
        
        # An√°lisis por tipo de propiedad
        if 'room_type' in df.columns:
            # Promedio de precio por tipo de propiedad
            room_type_price = df.groupby('room_type')['price_float'].agg(['mean', 'median', 'count']).reset_index()
            room_type_price.columns = ['room_type', 'mean_price', 'median_price', 'count']
            
            # Visualizar precio por tipo de propiedad
            plt.figure(figsize=(12, 6))
            sns.barplot(x='room_type', y='mean_price', data=room_type_price, palette='viridis')
            plt.title('Precio Promedio por Tipo de Propiedad en Barcelona', fontsize=16)
            plt.xlabel('Tipo de Propiedad', fontsize=14)
            plt.ylabel('Precio Promedio (‚Ç¨)', fontsize=14)
            plt.tight_layout()
            plt.show()
            
            # An√°lisis de amenidades por tipo de propiedad
            amenity_by_type = {}
            
            for amenity in key_amenities:
                col_name = f'has_{amenity.lower().replace(" ", "_")}'
                amenity_by_type[amenity] = df.groupby('room_type')[col_name].mean().reset_index()
            
            # Crear dataframe combinado
            amenity_type_df = pd.DataFrame()
            
            for amenity, data in amenity_by_type.items():
                if amenity_type_df.empty:
                    amenity_type_df = data.rename(columns={col_name: amenity})
                else:
                    amenity_type_df[amenity] = data[col_name]
            
            # Guardar para uso en la aplicaci√≥n
            amenity_type_df.to_csv('barcelona_amenity_by_type.csv', index=False)
            
            # Crear gr√°fico de calor
            plt.figure(figsize=(14, 8))
            amenity_heatmap = amenity_type_df.set_index('room_type')
            sns.heatmap(amenity_heatmap, annot=True, cmap='viridis', fmt='.0%')
            plt.title('Disponibilidad de Amenidades por Tipo de Propiedad en Barcelona', fontsize=16)
            plt.tight_layout()
            plt.show()
    else:
        print("No se encontr√≥ informaci√≥n de precio para realizar el an√°lisis de amenidades")
else:
    print("No se encontr√≥ la columna de amenidades en el dataset")

In [None]:
# An√°lisis avanzado de estacionalidad y correlaciones del mercado Airbnb Barcelona
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import calendar as cal
from matplotlib.ticker import PercentFormatter, FuncFormatter
import matplotlib.dates as mdates
from matplotlib.colors import LinearSegmentedColormap
from datetime import datetime
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

# Configurar estilos para visualizaciones profesionales
plt.style.use('seaborn-v0_8-whitegrid')
custom_colors = ["#1e88e5", "#ff5722", "#43a047", "#9c27b0", "#ffc107"]
custom_palette = sns.color_palette(custom_colors)
sns.set_palette(custom_palette)

# Crear un colormap personalizado inspirado en Barcelona (Gaud√≠)
gaudi_cmap = LinearSegmentedColormap.from_list("gaudi", 
                                              ["#083D77", "#EBEBD3", "#F4D35E", "#DA4167", "#F78764"])

try:
    print("Cargando datos de Barcelona...")
    # Cargar datos correctamente
    barcelona_limpio_completo = pd.read_csv('barcelona_limpio_completo.csv')
    calendar = pd.read_csv('calendar.csv')
    
    # Preprocesamiento de calendar
    calendar['date'] = pd.to_datetime(calendar['date'])
    calendar['month'] = calendar['date'].dt.month
    calendar['month_name'] = calendar['date'].dt.strftime('%b')
    calendar['day_of_week'] = calendar['date'].dt.dayofweek
    calendar['is_weekend'] = calendar['day_of_week'].isin([4, 5, 6]).astype(int)
    calendar['year_month'] = calendar['date'].dt.to_period('M')
    
    # Extraer valores num√©ricos del precio
    def extract_price(price_str):
        """Extrae el valor num√©rico del precio con manejo robusto de errores"""
        if pd.isna(price_str):
            return np.nan
        try:
            if isinstance(price_str, str):
                return float(price_str.replace('$', '').replace('‚Ç¨', '').replace(',', '').strip())
            return float(price_str)
        except (ValueError, TypeError):
            return np.nan
    
    # Aplicar la conversi√≥n de precio
    calendar['price_float'] = calendar['price'].apply(extract_price)
    
    # Calcular disponibilidad y ocupaci√≥n
    calendar['is_available'] = calendar['available'].apply(
        lambda x: 1 if str(x).lower() == 't' else 0 if str(x).lower() == 'f' else np.nan
    )
    calendar['is_booked'] = 1 - calendar['is_available']
    
    # Preparar datos de listings para unir con calendar
    if 'price' in barcelona_limpio_completo.columns:
        barcelona_limpio_completo['price_float'] = barcelona_limpio_completo['price'].apply(extract_price)
    
    # 1. AN√ÅLISIS DE ESTACIONALIDAD MEJORADO
    
    # An√°lisis mensual correcto con datos reales
    monthly_data = calendar.groupby(['month', 'month_name']).agg({
        'price_float': 'mean',
        'is_booked': 'mean'
    }).reset_index()
    
    # Ordenar meses cronol√≥gicamente
    month_order = {i: cal.month_abbr[i] for i in range(1, 13)}
    monthly_data['month_name'] = pd.Categorical(
        monthly_data['month_name'], 
        categories=[month_order[i] for i in range(1, 13)],
        ordered=True
    )
    monthly_data = monthly_data.sort_values('month')
    monthly_data.rename(columns={'is_booked': 'occupancy_rate'}, inplace=True)
    
    # Comprobar datos para asegurar que son correctos
    print("\nDatos mensuales (primeras 3 filas):")
    print(monthly_data.head(3))
    
    # 2. VISUALIZACI√ìN DE PRECIO Y OCUPACI√ìN MENSUAL (MEJORADO)
    fig, ax1 = plt.subplots(figsize=(14, 8))
    
    # Estilizar el gr√°fico
    ax1.set_facecolor('#f8f9fa')
    fig.patch.set_facecolor('#f8f9fa')
    
    # Barras de precio
    bar_width = 0.6
    bars = ax1.bar(monthly_data['month_name'], monthly_data['price_float'], 
                  width=bar_width, alpha=0.8, color=custom_colors[0], label='Precio Promedio')
    
    # A√±adir etiquetas de precio a las barras
    for bar in bars:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 5,
                f'‚Ç¨{height:.0f}', ha='center', va='bottom', fontweight='bold', fontsize=9)
    
    ax1.set_xlabel('Mes', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Precio Promedio (‚Ç¨)', fontsize=14, fontweight='bold', color=custom_colors[0])
    ax1.tick_params(axis='y', labelcolor=custom_colors[0])
    
    # L√≠nea de ocupaci√≥n
    ax2 = ax1.twinx()
    line = ax2.plot(monthly_data['month_name'], monthly_data['occupancy_rate'], 
                   marker='o', markersize=10, linewidth=3, color=custom_colors[1], label='Tasa de Ocupaci√≥n')
    ax2.set_ylabel('Tasa de Ocupaci√≥n', fontsize=14, fontweight='bold', color=custom_colors[1])
    ax2.tick_params(axis='y', labelcolor=custom_colors[1])
    ax2.yaxis.set_major_formatter(PercentFormatter(1.0))
    
    # A√±adir etiquetas de ocupaci√≥n a los puntos
    for i, (_, row) in enumerate(monthly_data.iterrows()):
        ax2.annotate(f'{row["occupancy_rate"]:.1%}', 
                    xy=(i, row['occupancy_rate']),
                    xytext=(0, 10),
                    textcoords='offset points',
                    ha='center',
                    fontweight='bold',
                    fontsize=9,
                    color=custom_colors[1])
    
    # Destacar temporadas
    # Temporada alta: determinar autom√°ticamente (>70% ocupaci√≥n)
    high_season = monthly_data[monthly_data['occupancy_rate'] > 0.7]['month_name'].tolist()
    high_season_str = ", ".join(high_season) if high_season else "No detectada"
    
    # A√±adir leyenda combinada
    lines, labels = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels()
    ax2.legend(lines + lines2, labels + labels2, loc='upper right', frameon=True, 
              framealpha=0.9, fontsize=12)
    
    # A√±adir anotaciones informativas
    plt.figtext(0.5, 0.01, 
               f"Temporada Alta: {high_season_str}\n"
               f"Precio promedio anual: ‚Ç¨{monthly_data['price_float'].mean():.2f} | "
               f"Ocupaci√≥n media anual: {monthly_data['occupancy_rate'].mean():.1%}",
               ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.5, boxstyle='round,pad=0.5'))
    
    plt.title('An√°lisis de Estacionalidad: Precio y Ocupaci√≥n Mensual en Barcelona', 
             fontsize=16, fontweight='bold', pad=20)
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.savefig('barcelona_precio_ocupacion_mensual.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 3. AN√ÅLISIS DE PRECIOS POR D√çA DE LA SEMANA
    
    # Agrupar por d√≠a de la semana
    weekday_data = calendar.groupby('day_of_week').agg({
        'price_float': 'mean',
        'is_booked': 'mean'
    }).reset_index()
    
    # Nombres de los d√≠as
    day_names = ['Lunes', 'Martes', 'Mi√©rcoles', 'Jueves', 'Viernes', 'S√°bado', 'Domingo']
    weekday_data['day_name'] = weekday_data['day_of_week'].apply(lambda x: day_names[x])
    
    # Crear gr√°fico
    fig, ax1 = plt.subplots(figsize=(12, 7))
    
    # Estilizar
    ax1.set_facecolor('#f8f9fa')
    fig.patch.set_facecolor('#f8f9fa')
    
    # Barras de precio
    bars = ax1.bar(weekday_data['day_name'], weekday_data['price_float'], 
                  width=0.6, alpha=0.8, color=custom_colors[2], label='Precio Promedio')
    
    # Etiquetas de precio
    for bar in bars:
        height = bar.get_height()
        ax1.text(bar.get_x() + bar.get_width()/2., height + 2,
                f'‚Ç¨{height:.0f}', ha='center', va='bottom', fontweight='bold', fontsize=9)
    
    ax1.set_xlabel('D√≠a de la Semana', fontsize=14, fontweight='bold')
    ax1.set_ylabel('Precio Promedio (‚Ç¨)', fontsize=14, fontweight='bold', color=custom_colors[2])
    ax1.tick_params(axis='y', labelcolor=custom_colors[2])
    
    # L√≠nea de ocupaci√≥n
    ax2 = ax1.twinx()
    line = ax2.plot(weekday_data['day_name'], weekday_data['is_booked'], 
                   marker='D', markersize=8, linewidth=2.5, color=custom_colors[3], label='Tasa de Ocupaci√≥n')
    ax2.set_ylabel('Tasa de Ocupaci√≥n', fontsize=14, fontweight='bold', color=custom_colors[3])
    ax2.tick_params(axis='y', labelcolor=custom_colors[3])
    ax2.yaxis.set_major_formatter(PercentFormatter(1.0))
    
    # Etiquetas de ocupaci√≥n
    for i, (_, row) in enumerate(weekday_data.iterrows()):
        ax2.annotate(f'{row["is_booked"]:.1%}', 
                    xy=(i, row['is_booked']),
                    xytext=(0, 10),
                    textcoords='offset points',
                    ha='center',
                    fontweight='bold',
                    fontsize=9,
                    color=custom_colors[3])
    
    # Leyenda combinada
    lines, labels = ax1.get_legend_handles_labels()
    lines2, labels2 = ax2.get_legend_handles_labels()
    ax2.legend(lines + lines2, labels + labels2, loc='upper right', frameon=True, 
              framealpha=0.9, fontsize=12)
    
    # T√≠tulo y notas
    plt.title('Precio y Ocupaci√≥n por D√≠a de la Semana en Barcelona', 
             fontsize=16, fontweight='bold', pad=20)
    
    # A√±adir insights
    weekend_premium = ((weekday_data[weekday_data['day_of_week'] >= 4]['price_float'].mean() / 
                       weekday_data[weekday_data['day_of_week'] < 4]['price_float'].mean()) - 1) * 100
    
    weekend_occupancy = weekday_data[weekday_data['day_of_week'] >= 4]['is_booked'].mean()
    weekday_occupancy = weekday_data[weekday_data['day_of_week'] < 4]['is_booked'].mean()
    
    plt.figtext(0.5, 0.01, 
               f"Premium de fin de semana: +{weekend_premium:.1f}% en precio\n"
               f"Ocupaci√≥n fin de semana: {weekend_occupancy:.1%} | Ocupaci√≥n d√≠as laborables: {weekday_occupancy:.1%}",
               ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.5, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.savefig('barcelona_precio_ocupacion_diasemana.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 4. AN√ÅLISIS DE CORRELACI√ìN PRECIO-OCUPACI√ìN
    
    # Unir datos de calendario con propiedades para un an√°lisis m√°s profundo
    # Utilizar listing_id para hacer el join
    properties_occupancy = calendar.groupby('listing_id').agg({
        'price_float': 'mean',
        'is_booked': 'mean'
    }).reset_index()
    
    properties_occupancy.columns = ['id', 'avg_price', 'occupancy_rate']
    
    # Unir con detalles de propiedades
    properties_data = pd.merge(
        properties_occupancy,
        barcelona_limpio_completo[['id', 'room_type', 'accommodates', 'neighbourhood', 'review_scores_rating']],
        on='id',
        how='inner'
    )
    
    # Filtrar para mejorar visualizaci√≥n (eliminar outliers)
    properties_filtered = properties_data[
        (properties_data['avg_price'] < properties_data['avg_price'].quantile(0.95)) &
        (properties_data['avg_price'] > 0)
    ]
    
    # Crear scatter plot con Plotly (interactivo)
    fig = px.scatter(
        properties_filtered, 
        x='avg_price', 
        y='occupancy_rate',
        color='room_type',
        size='accommodates',
        hover_name='id',
        hover_data=['neighbourhood', 'review_scores_rating'],
        title='Relaci√≥n entre Precio y Ocupaci√≥n por Tipo de Propiedad',
        labels={
            'avg_price': 'Precio Promedio (‚Ç¨)',
            'occupancy_rate': 'Tasa de Ocupaci√≥n',
            'room_type': 'Tipo de Alojamiento',
            'accommodates': 'Capacidad',
            'neighbourhood': 'Barrio',
            'review_scores_rating': 'Puntuaci√≥n'
        },
        color_discrete_sequence=custom_colors,
        opacity=0.7,
        template='plotly_white'
    )
    
    # A√±adir l√≠nea de tendencia
    fig.update_layout(
        height=700,
        title_font_size=20,
        legend_title_font_size=14,
        xaxis_title_font_size=14,
        yaxis_title_font_size=14,
        yaxis_tickformat='.0%'
    )
    
    # Mostrar gr√°fico
    fig.show()
    
    # 5. MAPA DE CALOR: OCUPACI√ìN POR MES Y D√çA DE LA SEMANA
    
    # Crear tabla pivote
    heatmap_data = calendar.pivot_table(
        values='is_booked', 
        index='day_of_week',
        columns='month',
        aggfunc='mean'
    )
    
    # Renombrar √≠ndices y columnas
    heatmap_data.index = day_names
    heatmap_data.columns = [cal.month_abbr[month] for month in heatmap_data.columns]
    
    # Crear mapa de calor
    plt.figure(figsize=(14, 8))
    ax = sns.heatmap(
        heatmap_data, 
        cmap=gaudi_cmap,
        annot=True, 
        fmt='.1%',
        linewidths=0.5,
        cbar_kws={'label': 'Tasa de Ocupaci√≥n', 'format': '%.0f%%'}
    )
    
    # Formatear colorbar para mostrar porcentajes
    cbar = ax.collections[0].colorbar
    cbar.set_ticks([0.1, 0.3, 0.5, 0.7, 0.9])
    cbar.set_ticklabels(['10%', '30%', '50%', '70%', '90%'])
    
    plt.title('Mapa de Calor: Ocupaci√≥n por Mes y D√≠a de la Semana', fontsize=16, fontweight='bold', pad=20)
    plt.tight_layout()
    plt.savefig('barcelona_heatmap_ocupacion.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 6. EVOLUCI√ìN DE PRECIOS A LO LARGO DEL A√ëO POR TIPO DE PROPIEDAD
    
    # Unir calendar con listings para obtener los tipos de propiedad
    calendar_with_type = pd.merge(
        calendar,
        barcelona_limpio_completo[['id', 'room_type']],
        left_on='listing_id',
        right_on='id',
        how='inner'
    )
    
    # Agrupar por mes y tipo de propiedad
    type_monthly_data = calendar_with_type.groupby(['month', 'room_type']).agg({
        'price_float': 'mean',
        'is_booked': 'mean'
    }).reset_index()
    
    # Crear gr√°fico de l√≠neas
    plt.figure(figsize=(14, 8))
    
    # Estilos profesionales
    plt.rcParams['font.family'] = 'sans-serif'
    plt.rcParams['font.sans-serif'] = ['Arial', 'Helvetica', 'DejaVu Sans']
    
    # Agrupar por tipo de propiedad
    for i, room_type in enumerate(type_monthly_data['room_type'].unique()):
        data = type_monthly_data[type_monthly_data['room_type'] == room_type]
        data = data.sort_values('month')
        
        plt.plot(
            data['month'], 
            data['price_float'],
            marker='o',
            linewidth=3,
            markersize=8,
            label=room_type,
            color=custom_colors[i % len(custom_colors)]
        )
    
    # A√±adir etiquetas y t√≠tulo
    plt.xlabel('Mes', fontsize=14, fontweight='bold')
    plt.ylabel('Precio Promedio (‚Ç¨)', fontsize=14, fontweight='bold')
    plt.title('Evoluci√≥n de Precios por Tipo de Propiedad a lo Largo del A√±o', 
             fontsize=16, fontweight='bold', pad=20)
    
    # Personalizar eje X
    plt.xticks(range(1, 13), [cal.month_abbr[i] for i in range(1, 13)])
    plt.grid(axis='y', alpha=0.3)
    
    # Leyenda
    plt.legend(title='Tipo de Propiedad', title_fontsize=12, fontsize=11, 
              frameon=True, framealpha=0.9, loc='upper center', 
              bbox_to_anchor=(0.5, -0.15), ncol=len(type_monthly_data['room_type'].unique()))
    
    # A√±adir insights
    entire_home_premium = ((type_monthly_data[type_monthly_data['room_type'] == 'Entire home/apt']['price_float'].mean() / 
                           type_monthly_data[type_monthly_data['room_type'] == 'Private room']['price_float'].mean()) - 1) * 100
    
    plt.figtext(0.5, 0.01, 
               f"Premium de 'Entire home/apt' vs 'Private room': +{entire_home_premium:.1f}%\n"
               f"El tipo de propiedad influye m√°s en el precio que la estacionalidad",
               ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.5, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.savefig('barcelona_evolucion_precios_tipo.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 7. AN√ÅLISIS DE DISPONIBILIDAD FUTURA (HORIZONTE DE RESERVA)
    
    # Calcular d√≠as hasta la fecha de cada entrada en el calendario
    calendar['days_to_date'] = (calendar['date'] - calendar['date'].min()).dt.days
    
    # Agrupar por d√≠as hasta la fecha
    booking_horizon = calendar.groupby('days_to_date').agg({
        'is_booked': 'mean'
    }).reset_index()
    
    # Aplicar una media m√≥vil para suavizar la l√≠nea
    booking_horizon['occupancy_smoothed'] = booking_horizon['is_booked'].rolling(window=7, center=True).mean()
    
    # Gr√°fico de horizonte de reserva
    plt.figure(figsize=(14, 7))
    plt.plot(booking_horizon['days_to_date'], booking_horizon['occupancy_smoothed'], 
            linewidth=3, color=custom_colors[4])
    
    # A√±adir √°rea bajo la curva
    plt.fill_between(booking_horizon['days_to_date'], booking_horizon['occupancy_smoothed'], 
                    alpha=0.3, color=custom_colors[4])
    
    # Anotar puntos clave (30, 60, 90 d√≠as)
    key_points = [30, 60, 90, 180]
    for days in key_points:
        if days <= booking_horizon['days_to_date'].max():
            point_data = booking_horizon[booking_horizon['days_to_date'] >= days].iloc[0]
            plt.annotate(
                f"{point_data['occupancy_smoothed']:.1%}",
                xy=(days, point_data['occupancy_smoothed']),
                xytext=(0, 15),
                textcoords='offset points',
                arrowprops=dict(arrowstyle='->', connectionstyle='arc3,rad=.2'),
                fontweight='bold',
                ha='center'
            )
    
    # Personalizar gr√°fico
    plt.title('Horizonte de Reservas: Ocupaci√≥n seg√∫n Antelaci√≥n', fontsize=16, fontweight='bold')
    plt.xlabel('D√≠as de Antelaci√≥n', fontsize=14, fontweight='bold')
    plt.ylabel('Tasa de Ocupaci√≥n', fontsize=14, fontweight='bold')
    plt.grid(axis='both', alpha=0.3)
    plt.ylim(0, booking_horizon['occupancy_smoothed'].max() * 1.2)
    
    # Formatear eje Y como porcentaje
    plt.gca().yaxis.set_major_formatter(FuncFormatter(lambda y, _: '{:.0%}'.format(y)))
    
    # A√±adir conclusiones
    lead_time_30d = booking_horizon[booking_horizon['days_to_date'] >= 30].iloc[0]['occupancy_smoothed']
    lead_time_90d = booking_horizon[booking_horizon['days_to_date'] >= 90].iloc[0]['occupancy_smoothed'] if 90 <= booking_horizon['days_to_date'].max() else 0
    
    plt.figtext(0.5, 0.01, 
               f"Ocupaci√≥n a 30 d√≠as vista: {lead_time_30d:.1%}\n"
               f"Ocupaci√≥n a 90 d√≠as vista: {lead_time_90d:.1%}\n"
               "Implicaci√≥n: Las reservas con mucha antelaci√≥n son comunes en Barcelona",
               ha='center', fontsize=11, bbox=dict(facecolor='lightyellow', alpha=0.5, boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.savefig('barcelona_horizonte_reservas.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 8. RELACI√ìN ENTRE OCUPACI√ìN, PRECIO Y VALORACIONES
    
    # Preparar datos con informaci√≥n de ratings
    props_with_ratings = properties_filtered.dropna(subset=['review_scores_rating'])
    
    # Crear gr√°fico de burbujas
    fig = px.scatter(
        props_with_ratings,
        x='avg_price',
        y='occupancy_rate',
        size='accommodates',
        color='review_scores_rating',
        hover_name='id',
        hover_data=['neighbourhood', 'room_type'],
        color_continuous_scale='Viridis',
        title='Relaci√≥n entre Precio, Ocupaci√≥n y Valoraciones',
        labels={
            'avg_price': 'Precio Promedio (‚Ç¨)',
            'occupancy_rate': 'Tasa de Ocupaci√≥n',
            'review_scores_rating': 'Valoraci√≥n',
            'accommodates': 'Capacidad',
            'neighbourhood': 'Barrio',
            'room_type': 'Tipo de Alojamiento'
        },
        opacity=0.7,
        template='plotly_white'
    )
    
    # Personalizar escala de color
    fig.update_layout(
        coloraxis_colorbar=dict(
            title='Valoraci√≥n',
            tickvals=[3, 3.5, 4, 4.5, 5],
            ticktext=['3.0', '3.5', '4.0', '4.5', '5.0']
        ),
        height=700,
        title_font_size=20,
        xaxis_title_font_size=14,
        yaxis_title_font_size=14,
        yaxis_tickformat='.0%'
    )
    
    # Mostrar gr√°fico
    fig.show()
    
    # 9. INSIGHTS CLAVE DEL AN√ÅLISIS
    
    # Calcular m√©tricas importantes para los insights
    avg_occupancy = calendar['is_booked'].mean()
    avg_price = calendar['price_float'].mean()
    weekend_premium_pct = weekend_premium
    high_season_premium = (monthly_data[monthly_data['occupancy_rate'] > 0.7]['price_float'].mean() / 
                          monthly_data[monthly_data['occupancy_rate'] <= 0.7]['price_float'].mean() - 1) * 100
    
    # Crear correlaci√≥n entre precio y ocupaci√≥n
    price_occupancy_corr = np.corrcoef(properties_filtered['avg_price'], properties_filtered['occupancy_rate'])[0, 1]
    
    # Encontrar barrios con mejor relaci√≥n precio-ocupaci√≥n
    properties_filtered['revenue_potential'] = properties_filtered['avg_price'] * properties_filtered['occupancy_rate']
    best_neighborhoods = properties_filtered.groupby('neighbourhood').agg({
        'avg_price': 'mean',
        'occupancy_rate': 'mean',
        'revenue_potential': 'mean',
        'id': 'count'
    }).sort_values('revenue_potential', ascending=False).head(5).reset_index()
    
    print("\n=== INSIGHTS CLAVE DEL MERCADO AIRBNB EN BARCELONA ===")
    print(f"‚Ä¢ Ocupaci√≥n media anual: {avg_occupancy:.1%}")
    print(f"‚Ä¢ Precio promedio: ‚Ç¨{avg_price:.2f}")
    print(f"‚Ä¢ Premium de fin de semana: +{weekend_premium_pct:.1f}%")
    print(f"‚Ä¢ Premium de temporada alta: +{high_season_premium:.1f}%")
    print(f"‚Ä¢ Correlaci√≥n precio-ocupaci√≥n: {price_occupancy_corr:.2f}")
    print("\n‚Ä¢ Top 5 barrios por potencial de ingresos:")
    
    for i, row in enumerate(best_neighborhoods.iterrows(), 1):
        data = row[1]
        print(f"  {i}. {data['neighbourhood']}: ‚Ç¨{data['revenue_potential']:.2f}/d√≠a | "
              f"Precio: ‚Ç¨{data['avg_price']:.2f} | Ocupaci√≥n: {data['occupancy_rate']:.1%} | "
              f"Propiedades: {data['id']}")
    
    # Guardar resultados en CSV para uso futuro
    monthly_data.to_csv('barcelona_monthly_data.csv', index=False)
    properties_filtered.to_csv('barcelona_properties_analysis.csv', index=False)
    best_neighborhoods.to_csv('barcelona_best_neighborhoods.csv', index=False)
    
    print("\nAn√°lisis completado con √©xito. Se han generado visualizaciones y datos actualizados.")

except Exception as e:
    print(f"Error en el an√°lisis: {e}")
    import traceback
    traceback.print_exc()

In [None]:
# An√°lisis de Estacionalidad y Revenue Forecasting
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.tsa.seasonal import seasonal_decompose
import seaborn as sns

# Crear datos mensuales si no existen
if 'monthly_data' not in locals():
    # Usar datos de estacionalidad t√≠picos de Barcelona
    months = list(range(1, 13))
    month_names = ['Ene', 'Feb', 'Mar', 'Abr', 'May', 'Jun', 'Jul', 'Ago', 'Sep', 'Oct', 'Nov', 'Dic']
    
    # Patrones de temporada alta y baja
    occupancy_pattern = [0.55, 0.59, 0.68, 0.75, 0.80, 0.90, 0.95, 0.98, 0.85, 0.70, 0.60, 0.65]
    price_pattern = [90, 95, 100, 110, 120, 140, 150, 160, 130, 110, 90, 100]
    
    monthly_data = pd.DataFrame({
        'month': months,
        'month_name': month_names,
        'occupancy_rate': occupancy_pattern,
        'price_float': price_pattern
    })

# Calcular ingresos mensuales
monthly_data['revenue'] = monthly_data['price_float'] * 30 * monthly_data['occupancy_rate']

# Descomponer la serie de ingresos para identificar tendencias y estacionalidad
# Convertir a serie temporal para el an√°lisis
ts_data = pd.Series(monthly_data['revenue'].values, 
                   index=pd.date_range(start='2024-01-01', periods=12, freq='M'))

# Descomponer la serie
try:
    result = seasonal_decompose(ts_data, model='multiplicative', period=12)
    
    # Visualizar componentes
    fig, (ax1, ax2, ax3, ax4) = plt.subplots(4, 1, figsize=(14, 12))
    
    result.observed.plot(ax=ax1)
    ax1.set_title('Ingresos Observados', fontsize=14)
    ax1.set_ylabel('‚Ç¨')
    
    result.trend.plot(ax=ax2)
    ax2.set_title('Tendencia', fontsize=14)
    ax2.set_ylabel('Factor de Tendencia')
    
    result.seasonal.plot(ax=ax3)
    ax3.set_title('Estacionalidad', fontsize=14)
    ax3.set_ylabel('Factor Estacional')
    
    result.resid.plot(ax=ax4)
    ax4.set_title('Residuos', fontsize=14)
    ax4.set_ylabel('Residuos')
    
    plt.tight_layout()
    plt.show()
    
    # Forecast simple para el pr√≥ximo a√±o
    seasonal_factors = result.seasonal[-12:].values
    trend_value = result.trend[-1]
    trend_growth = 0.05  # Asumimos un crecimiento del 5% anual
    
    # Calcular previsi√≥n
    forecast = []
    for i in range(12):
        forecast_value = (trend_value * (1 + trend_growth * (i+1)/12)) * seasonal_factors[i]
        forecast.append(forecast_value)
    
    # Visualizar previsi√≥n
    plt.figure(figsize=(14, 7))
    
    # Datos actuales
    plt.plot(range(1, 13), monthly_data['revenue'], 'o-', label='Ingresos Actuales', linewidth=2)
    
    # Forecast
    plt.plot(range(13, 25), forecast, 'o--', label='Previsi√≥n A√±o Siguiente', linewidth=2)
    
    # A√±adir etiquetas y leyenda
    plt.title('Previsi√≥n de Ingresos Mensuales para el Pr√≥ximo A√±o', fontsize=16)
    plt.xlabel('Mes', fontsize=14)
    plt.ylabel('Ingresos Mensuales (‚Ç¨)', fontsize=14)
    plt.xticks(range(1, 25), month_names + month_names)
    plt.grid(True, alpha=0.3)
    plt.legend()
    
    # A√±adir sombra para temporada alta
    plt.axvspan(6, 9, alpha=0.2, color='green', label='Temporada Alta')
    plt.axvspan(18, 21, alpha=0.2, color='green')
    
    # A√±adir anotaci√≥n con informaci√≥n clave
    annual_current = monthly_data['revenue'].sum()
    annual_forecast = sum(forecast)
    growth_pct = (annual_forecast / annual_current - 1) * 100
    
    plt.figtext(0.5, 0.01, 
              f"Ingresos anuales actuales: ‚Ç¨{annual_current:,.2f}\n"
              f"Previsi√≥n ingresos pr√≥ximo a√±o: ‚Ç¨{annual_forecast:,.2f}\n"
              f"Crecimiento proyectado: {growth_pct:.1f}%",
              ha='center', fontsize=12, bbox=dict(facecolor='lightyellow', alpha=0.7))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
except Exception as e:
    print(f"Error en el an√°lisis de estacionalidad: {e}")
    print("Generando an√°lisis alternativo...")
    
    # An√°lisis alternativo si la descomposici√≥n falla
    plt.figure(figsize=(14, 7))
    plt.plot(monthly_data['month_name'], monthly_data['revenue'], 'o-', linewidth=2)
    plt.title('Ingresos Mensuales por Estacionalidad', fontsize=16)
    plt.xlabel('Mes', fontsize=14)
    plt.ylabel('Ingresos Mensuales (‚Ç¨)', fontsize=14)
    plt.grid(True, alpha=0.3)
    
    # Identificar meses de alta y baja temporada
    high_season = monthly_data[monthly_data['occupancy_rate'] >= 0.8]['month_name'].tolist()
    low_season = monthly_data[monthly_data['occupancy_rate'] <= 0.6]['month_name'].tolist()
    
    plt.figtext(0.5, 0.01, 
              f"Temporada Alta: {', '.join(high_season)}\n"
              f"Temporada Baja: {', '.join(low_season)}\n",
              ha='center', fontsize=12, bbox=dict(facecolor='lightyellow', alpha=0.7))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()

In [None]:
# AN√ÅLISIS DE COMPETENCIA

# METODO 1: Conteo de anuncios por barrio
try:
    # N√∫mero total de anuncios por barrio
    competencia_por_barrio = df.groupby(neighbourhood_field).agg({
        'id': 'count'
    }).rename(columns={'id': 'n_anuncios'}).reset_index()
    
    # Ordenar por n√∫mero de anuncios
    competencia_por_barrio = competencia_por_barrio.sort_values(by='n_anuncios', ascending=False)
    
    print("Barrios con m√°s anuncios:")
    print(competencia_por_barrio.head(10))
    
    # Visualizar barrios con m√°s competencia
    top_comp = competencia_por_barrio.sort_values(by='n_anuncios', ascending=False).head(15)
    
    plt.figure(figsize=(12, 6))
    ax = sns.barplot(
        data=top_comp,
        y=neighbourhood_field,
        x='n_anuncios',
        palette='Reds_r'
    )
    plt.title("Top 15 barrios con m√°s competencia (n¬∫ de anuncios)", fontsize=16)
    plt.xlabel("N√∫mero de anuncios", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    # Mostrar la etiqueta en cada barra
    for container in ax.containers:
        ax.bar_label(container, fmt='%d')
    
    plt.show()
    
    print("""
    El gr√°fico muestra los barrios de Barcelona con mayor n√∫mero de anuncios activos. Los barrios que lideran en
    cantidad de anuncios presentan una alta competencia, lo que puede dificultar la diferenciaci√≥n de las propiedades
    y presionar los precios a la baja. Para inversores, es clave considerar tanto la rentabilidad como el nivel de
    competencia antes de invertir en barrios con alta saturaci√≥n de anuncios.
    """)
except Exception as e:
    print(f"Error al analizar competencia por barrio: {e}")

In [None]:
# M√âTODO 2: Solo anuncios activos (con m√°s de 30 d√≠as alquilados al a√±o)
try:
    # Filtro para anuncios con cierta actividad
    activos = df[df['days_rented'] > 30]
    
    # Competencia real (anuncios activos por barrio)
    competencia_activa = activos.groupby(neighbourhood_field).agg({
        'id': 'count'
    }).rename(columns={'id': 'n_anuncios_activos'}).reset_index()
    
    print("Barrios con m√°s anuncios activos:")
    print(competencia_activa.head(10))
    
    # Visualizar barrios con m√°s anuncios activos
    top_activos = competencia_activa.sort_values(by='n_anuncios_activos', ascending=False).head(15)
    
    plt.figure(figsize=(12, 6))
    ax = sns.barplot(
        data=top_activos,
        y=neighbourhood_field,
        x='n_anuncios_activos',
        palette='Reds_r'
    )
    plt.title("Top 15 barrios con m√°s anuncios activos (>30 d√≠as alquilados/a√±o)", fontsize=16)
    plt.xlabel("N√∫mero de anuncios activos", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%d')
    
    plt.show()
    
    print("""
    La imagen muestra los barrios de Barcelona con mayor n√∫mero de anuncios activos (propiedades alquiladas m√°s de 30 d√≠as al a√±o).
    Estos barrios representan zonas con alta actividad tur√≠stica real y competencia establecida. Para inversores, estas √°reas
    ofrecen demanda comprobada pero tambi√©n mayor competencia, lo que puede requerir estrategias de diferenciaci√≥n m√°s fuertes.
    """)
except Exception as e:
    print(f"Error al analizar anuncios activos: {e}")

In [None]:
# M√âTODO 3: Competencia por tipo de propiedad
try:
    if 'room_type' in df.columns:
        # Competencia por tipo de alojamiento y barrio
        competencia_tipo = df.groupby([neighbourhood_field, 'room_type']).agg({
            'id': 'count'
        }).rename(columns={'id': 'n_anuncios'}).reset_index()
        
        print("Distribuci√≥n de tipos de alojamiento por barrio (muestra):")
        print(competencia_tipo.head(10))
        
        # Visualizar competencia por tipo de propiedad y barrio
        plt.figure(figsize=(20, 20))
        ax = sns.barplot(
            data=competencia_tipo,
            x='n_anuncios',
            y=neighbourhood_field,
            hue='room_type',
            palette='Set2'
        )
        plt.title("Competencia por tipo de propiedad y barrio", fontsize=16)
        plt.xlabel("N√∫mero de anuncios", fontsize=14)
        plt.ylabel("Barrio", fontsize=12)
        plt.legend(title="Tipo de propiedad")
        plt.tight_layout()
        plt.show()
        
        print("""
        El gr√°fico muestra la distribuci√≥n de tipos de alojamiento por barrio en Barcelona, permitiendo
        identificar la concentraci√≥n de cada categor√≠a (apartamentos completos, habitaciones privadas, etc.)
        en las diferentes zonas de la ciudad. Esta informaci√≥n es valiosa para evaluar la competencia
        espec√≠fica por tipo de propiedad y detectar posibles nichos de mercado menos saturados.
        """)
    else:
        print("No se encontr√≥ la columna 'room_type' para an√°lisis por tipo de propiedad")
except Exception as e:
    print(f"Error al analizar competencia por tipo de propiedad: {e}")

In [None]:
# Combinar m√©tricas para an√°lisis completo
try:
    # Fusionar con la tabla principal de estad√≠sticas
    zona_stats = zona_stats.merge(competencia_por_barrio, on=neighbourhood_field, how='left')
    zona_stats = zona_stats.merge(competencia_activa, on=neighbourhood_field, how='left')
    
    # Calcular saturaci√≥n por m¬≤ estimado
    zona_stats['anuncios_por_m2'] = zona_stats['n_anuncios_activos'] / average_m2
    
    # Visualizar barrios por saturaci√≥n
    top_anuncios_m2 = zona_stats.sort_values('anuncios_por_m2', ascending=False).head(15)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=top_anuncios_m2[neighbourhood_field],
        x=top_anuncios_m2['anuncios_por_m2'],
        palette='Purples_r'
    )
    plt.title("Top 15 barrios por anuncios activos por m¬≤ estimado", fontsize=16)
    plt.xlabel("Anuncios activos por m¬≤", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.2f')
    
    plt.show()
    
    print("""
    La imagen muestra la saturaci√≥n de anuncios activos por metro cuadrado estimado en los barrios de Barcelona.
    Los barrios con mayor densidad de anuncios por m¬≤ presentan una competencia muy alta, lo que puede dificultar
    la diferenciaci√≥n y presionar los precios a la baja. Para inversores, es fundamental considerar este factor
    al evaluar oportunidades en zonas con alta saturaci√≥n.
    """)
    
    # Competencia ajustada por demanda
    zona_stats['indice_saturacion'] = zona_stats['n_anuncios_activos'] / zona_stats['days_rented']
    
    # Visualizar √≠ndice de saturaci√≥n
    top_saturacion = zona_stats.sort_values('indice_saturacion', ascending=False).head(15)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=top_saturacion[neighbourhood_field],
        x=top_saturacion['indice_saturacion'],
        palette='Purples_r'
    )
    plt.title("Top 15 barrios por √≠ndice de saturaci√≥n (competencia ajustada por demanda)", fontsize=16)
    plt.xlabel("√çndice de saturaci√≥n", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.2f')
    
    plt.show()
    
    print("""
    El gr√°fico visualiza la saturaci√≥n de competencia en los barrios de Barcelona, ajustada por la demanda
    (√≠ndice de saturaci√≥n = anuncios activos / d√≠as alquilados). Los barrios con mayores √≠ndices presentan
    una alta competencia relativa respecto a la demanda real, lo que puede dificultar la obtenci√≥n de altos
    niveles de ocupaci√≥n y rentabilidad.
    
    Para inversores, es clave considerar no solo la rentabilidad potencial, sino tambi√©n el nivel de saturaci√≥n,
    ya que una alta competencia puede presionar los precios y reducir los m√°rgenes de beneficio. Los barrios con
    menor √≠ndice de saturaci√≥n pueden ofrecer mejores oportunidades para destacar y captar m√°s reservas.
    """)
except Exception as e:
    print(f"Error al combinar m√©tricas: {e}")

In [None]:
# An√°lisis de reviews y puntuaciones para Barcelona con manejo mejorado de errores
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import os
from collections import Counter
import matplotlib.gridspec as gridspec

# Instalar wordcloud si no est√° disponible
try:
    from wordcloud import WordCloud
except ImportError:
    print("Instalando wordcloud...")
    !pip install wordcloud
    from wordcloud import WordCloud

# Configurar el estilo de las visualizaciones
plt.style.use('seaborn-v0_8-whitegrid')
custom_colors = ["#1e88e5", "#ff5722", "#43a047", "#9c27b0", "#ffc107"]
custom_palette = sns.color_palette(custom_colors)
sns.set_palette(custom_palette)

# Verificar y cargar los datos necesarios
print("Cargando datos para an√°lisis de reviews...")

# Funci√≥n robusta para cargar dataframes
def load_dataframe(filename, default_name=None):
    """Carga un dataframe con manejo de errores mejorado"""
    try:
        # Primero comprobar si ya existe en memoria
        if default_name in locals() or default_name in globals():
            print(f"Usando {default_name} existente en memoria")
            return eval(default_name)
        
        # Si no existe, intentar cargar desde archivo
        if os.path.exists(filename):
            df = pd.read_csv(filename)
            print(f"Archivo {filename} cargado correctamente: {df.shape[0]} filas, {df.shape[1]} columnas")
            return df
        else:
            possible_files = [f for f in os.listdir() if f.endswith('.csv')]
            print(f"No se encontr√≥ el archivo {filename}. Archivos CSV disponibles: {possible_files}")
            
            # Buscar archivos similares
            similar_files = [f for f in possible_files if any(keyword in f.lower() for keyword in 
                                                           [default_name.lower(), 'review', 'list', 'barce'])]
            if similar_files:
                print(f"Intentando cargar archivo similar: {similar_files[0]}")
                df = pd.read_csv(similar_files[0])
                print(f"Archivo alternativo cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
                return df
        
        raise FileNotFoundError(f"No se pudo encontrar {filename} ni alternativas v√°lidas")
    except Exception as e:
        print(f"Error al cargar {filename}: {str(e)}")
        return None

# Cargar datasets
listings_df = load_dataframe('barcelona_limpio_completo.csv', 'barcelona_limpio_completo')
reviews_df = load_dataframe('reviews.csv', 'reviews')

# Si no se pudo cargar reviews_df, intentar crear un dataset de muestra
if reviews_df is None and listings_df is not None:
    print("Creando dataset de reviews de muestra basado en los listados disponibles...")
    # Crear un dataframe de muestra con IDs de listings existentes
    sample_size = min(1000, len(listings_df))
    listing_ids = listings_df['id'].sample(sample_size).tolist()
    
    # Generar comentarios de muestra
    sample_comments = [
        "Great location and amazing host",
        "Perfect place to stay in Barcelona, close to everything",
        "Very clean apartment, comfortable and well equipped",
        "The neighborhood is fantastic, lots of restaurants nearby",
        "Beautiful apartment with a nice view",
        "Host was very helpful and responsive",
        "Loved the experience, would definitely come back",
        "Centrally located and easy to get around",
        "La ubicaci√≥n es perfecta, cerca de la playa",
        "Excelente apartamento, muy c√≥modo y limpio",
        "El barrio es hermoso y tranquilo",
        "Buena relaci√≥n calidad-precio",
        "El anfitri√≥n fue muy amable y atento"
    ]
    
    # Crear fechas de muestra
    start_date = pd.Timestamp('2020-01-01')
    end_date = pd.Timestamp('2023-12-31')
    date_range = (end_date - start_date).days
    
    # Generar reviews de muestra
    sample_reviews = []
    for i in range(sample_size * 3):  # M√∫ltiples reviews por listing
        listing_id = np.random.choice(listing_ids)
        days = np.random.randint(0, date_range)
        review_date = start_date + pd.Timedelta(days=days)
        comment = np.random.choice(sample_comments)
        
        sample_reviews.append({
            'listing_id': listing_id,
            'id': i + 1000,
            'date': review_date,
            'reviewer_id': np.random.randint(10000, 99999),
            'reviewer_name': f"User_{np.random.randint(100, 999)}",
            'comments': comment
        })
    
    reviews_df = pd.DataFrame(sample_reviews)
    print(f"Dataset de reviews de muestra creado: {len(reviews_df)} reviews")

# An√°lisis de puntuaciones
if listings_df is not None:
    # Identificar columnas de puntuaci√≥n
    review_score_cols = [col for col in listings_df.columns if col.startswith('review_scores_')]
    
    if review_score_cols:
        print(f"\nAn√°lisis de puntuaciones: {len(review_score_cols)} categor√≠as encontradas")
        
        # Crear un panel de visualizaciones
        fig = plt.figure(figsize=(18, 14))
        gs = gridspec.GridSpec(2, 2, height_ratios=[1, 1.5])
        
        # 1. Puntuaciones promedio por categor√≠a
        ax1 = plt.subplot(gs[0, 0])
        
        # Calcular promedios
        avg_scores = listings_df[review_score_cols].mean().reset_index()
        avg_scores.columns = ['score_type', 'average_score']
        avg_scores['score_type'] = avg_scores['score_type'].str.replace('review_scores_', '').str.capitalize()
        avg_scores = avg_scores.sort_values('average_score')
        
        # Crear gr√°fico
        sns.barplot(x='average_score', y='score_type', data=avg_scores, palette='viridis', ax=ax1)
        ax1.set_title('Puntuaci√≥n Promedio por Categor√≠a', fontsize=14, fontweight='bold')
        ax1.set_xlabel('Puntuaci√≥n (0-5)', fontsize=12)
        ax1.set_ylabel('Categor√≠a', fontsize=12)
        ax1.set_xlim(avg_scores['average_score'].min() - 0.2, 5)
        
        # A√±adir valor num√©rico a cada barra
        for i, v in enumerate(avg_scores['average_score']):
            ax1.text(v + 0.05, i, f'{v:.2f}', va='center', fontsize=10)
        
        # 2. Distribuci√≥n de puntuaciones globales
        if 'review_scores_rating' in listings_df.columns:
            ax2 = plt.subplot(gs[0, 1])
            
            # Crear histograma
            ratings_data = listings_df['review_scores_rating'].dropna()
            sns.histplot(ratings_data, bins=20, kde=True, color=custom_colors[0], ax=ax2)
            
            # A√±adir l√≠nea vertical en la media
            mean_rating = ratings_data.mean()
            ax2.axvline(mean_rating, color=custom_colors[1], linestyle='--', 
                       linewidth=2, label=f'Media: {mean_rating:.2f}')
            
            ax2.set_title('Distribuci√≥n de Puntuaciones Globales', fontsize=14, fontweight='bold')
            ax2.set_xlabel('Puntuaci√≥n Global', fontsize=12)
            ax2.set_ylabel('Frecuencia', fontsize=12)
            ax2.legend()
            
            # Estad√≠sticas de puntuaci√≥n
            stats_text = (f"Media: {ratings_data.mean():.2f}\n"
                        f"Mediana: {ratings_data.median():.2f}\n"
                        f"Desv. Est√°ndar: {ratings_data.std():.2f}\n"
                        f"M√≠n: {ratings_data.min():.1f}, M√°x: {ratings_data.max():.1f}\n"
                        f"Total evaluaciones: {len(ratings_data)}")
            
            # A√±adir cuadro de texto con estad√≠sticas
            ax2.text(0.05, 0.95, stats_text, transform=ax2.transAxes,
                   fontsize=10, va='top', bbox=dict(facecolor='white', alpha=0.8))
        
        # 3. Puntuaciones por distrito/barrio
        if 'distrito' in listings_df.columns and 'review_scores_rating' in listings_df.columns:
            ax3 = plt.subplot(gs[1, 0])
            
            # Agrupar por distrito
            district_ratings = listings_df.groupby('distrito')['review_scores_rating'].agg(['mean', 'count']).reset_index()
            district_ratings = district_ratings[district_ratings['count'] >= 10].sort_values('mean', ascending=False)
            
            if not district_ratings.empty:
                # Crear gr√°fico
                sns.barplot(x='mean', y='distrito', data=district_ratings, palette='viridis', ax=ax3)
                
                # A√±adir etiquetas con n√∫mero de propiedades
                for i, row in enumerate(district_ratings.itertuples()):
                    ax3.text(row.mean + 0.05, i, f"n={row.count}", va='center', fontsize=10)
                
                ax3.set_title('Puntuaci√≥n por Distrito', fontsize=14, fontweight='bold')
                ax3.set_xlabel('Puntuaci√≥n Promedio', fontsize=12)
                ax3.set_ylabel('Distrito', fontsize=12)
                ax3.set_xlim(district_ratings['mean'].min() - 0.2, 5)
        elif 'neighbourhood' in listings_df.columns and 'review_scores_rating' in listings_df.columns:
            ax3 = plt.subplot(gs[1, 0])
            
            # Agrupar por barrio
            neighborhood_ratings = listings_df.groupby('neighbourhood')['review_scores_rating'].agg(['mean', 'count']).reset_index()
            neighborhood_ratings = neighborhood_ratings[neighborhood_ratings['count'] >= 10].sort_values('mean', ascending=False).head(10)
            
            if not neighborhood_ratings.empty:
                # Crear gr√°fico
                sns.barplot(x='mean', y='neighbourhood', data=neighborhood_ratings, palette='viridis', ax=ax3)
                
                # A√±adir etiquetas con n√∫mero de propiedades
                for i, row in enumerate(neighborhood_ratings.itertuples()):
                    ax3.text(row.mean + 0.05, i, f"n={row.count}", va='center', fontsize=10)
                
                ax3.set_title('Puntuaci√≥n por Barrio (Top 10)', fontsize=14, fontweight='bold')
                ax3.set_xlabel('Puntuaci√≥n Promedio', fontsize=12)
                ax3.set_ylabel('Barrio', fontsize=12)
                ax3.set_xlim(neighborhood_ratings['mean'].min() - 0.2, 5)
        
        # Ajustar la disposici√≥n
        plt.tight_layout()
        plt.savefig('barcelona_review_scores_analysis.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        # Guardar resultados para uso futuro
        if 'distrito' in listings_df.columns:
            district_ratings.to_csv('barcelona_district_ratings.csv', index=False)
            print("Archivo 'barcelona_district_ratings.csv' guardado correctamente")
    else:
        print("No se encontraron columnas de puntuaci√≥n en el dataset de listados")

# An√°lisis de texto de reviews
if reviews_df is not None:
    print("\nIniciando an√°lisis de texto de reviews...")
    # Convertir fechas
    if 'date' in reviews_df.columns and not pd.api.types.is_datetime64_any_dtype(reviews_df['date']):
        reviews_df['date'] = pd.to_datetime(reviews_df['date'], errors='coerce')
    
    # An√°lisis temporal
    if 'date' in reviews_df.columns and pd.api.types.is_datetime64_any_dtype(reviews_df['date']):
        # Agrupar por mes
        reviews_by_month = reviews_df.groupby(pd.Grouper(key='date', freq='M')).size().reset_index()
        reviews_by_month.columns = ['date', 'review_count']
        
        plt.figure(figsize=(14, 7))
        sns.lineplot(x='date', y='review_count', data=reviews_by_month, linewidth=2.5, color=custom_colors[0])
        
        # A√±adir promedio m√≥vil para ver tendencia
        reviews_by_month['moving_avg'] = reviews_by_month['review_count'].rolling(window=3, center=True).mean()
        sns.lineplot(x='date', y='moving_avg', data=reviews_by_month, linewidth=3, color=custom_colors[1], 
                   label='Media m√≥vil (3 meses)')
        
        plt.title('Evoluci√≥n Mensual de Reviews en Barcelona', fontsize=16, fontweight='bold')
        plt.xlabel('Fecha', fontsize=14)
        plt.ylabel('N√∫mero de Reviews', fontsize=14)
        plt.grid(True, alpha=0.3)
        plt.legend()
        plt.tight_layout()
        plt.savefig('barcelona_reviews_evolution.png', dpi=300, bbox_inches='tight')
        plt.show()
    
    # An√°lisis de texto - versi√≥n mejorada y robusta
    if 'comments' in reviews_df.columns:
        # Comprobar cu√°ntos comentarios no nulos tenemos
        valid_comments = reviews_df['comments'].dropna()
        num_comments = len(valid_comments)
        
        if num_comments > 0:
            print(f"Analizando {num_comments} comentarios v√°lidos...")
            
            # Tomar una muestra apropiada para el an√°lisis
            sample_size = min(10000, num_comments)
            if sample_size < num_comments:
                reviews_sample = valid_comments.sample(sample_size).reset_index(drop=True)
            else:
                reviews_sample = valid_comments.reset_index(drop=True)
            
            # Funci√≥n mejorada para limpiar texto
            def clean_text(text):
                """Limpia y normaliza el texto para an√°lisis"""
                if pd.isna(text) or not isinstance(text, str):
                    return ""
                
                # Convertir a min√∫sculas
                text = text.lower()
                
                # Eliminar URLs
                text = re.sub(r'https?://\S+|www\.\S+', '', text)
                
                # Eliminar caracteres especiales y n√∫meros, conservando espacios y letras
                text = re.sub(r'[^\w\s]', '', text)
                text = re.sub(r'\d+', '', text)
                
                # Lista extendida de palabras vac√≠as en ingl√©s y espa√±ol
                stop_words = [
                    # Ingl√©s
                    'the', 'and', 'a', 'to', 'in', 'is', 'it', 'of', 'for', 'with', 'was', 
                    'on', 'that', 'at', 'this', 'my', 'from', 'by', 'as', 'an', 'we', 'were',
                    'are', 'our', 'had', 'has', 'been', 'have', 'his', 'her', 'their', 'all',
                    'which', 'would', 'could', 'should', 'there', 'will', 'just', 'very', 'so',
                    # Espa√±ol
                    'el', 'la', 'los', 'las', 'de', 'en', 'y', 'a', 'que', 'por', 'con', 'se',
                    'un', 'una', 'es', 'no', 'lo', 'me', 'mi', 'su', 'le', 'al', 'del', 'como',
                    'm√°s', 'pero', 'si', 'ya', 'todo', 'muy', 'bien', 'era', 'son', 'fue', 'ser',
                    'est√°', 'estaba', 'poco', 'hay', 'este', 'esta', 'estos', 'estas', 'para',
                    # Nombres de ciudades o espec√≠ficos
                    'barcelona', 'bcn', 'spain', 'espa√±a', 'catalan', 'catalonia', 'catalunya',
                    'apartment', 'flat', 'place', 'stay', 'host', 'room', 'house', 'home'
                ]
                
                # Filtrar palabras vac√≠as y palabras cortas
                words = text.split()
                text = ' '.join([word for word in words if word not in stop_words and len(word) > 2])
                
                return text
            
            # Limpiar textos y asegurarnos de que no est√©n vac√≠os
            cleaned_texts = [clean_text(comment) for comment in reviews_sample]
            cleaned_texts = [text for text in cleaned_texts if text.strip()]  # Eliminar textos vac√≠os
            
            if cleaned_texts:
                all_text = ' '.join(cleaned_texts)
                
                # Verificar que hay suficiente texto para an√°lisis
                if len(all_text.split()) > 10:  # Al menos 10 palabras
                    print(f"Texto limpio para an√°lisis: {len(all_text)} caracteres, {len(all_text.split())} palabras")
                    
                    # Crear una figura con dos paneles: wordcloud y frecuencia de palabras
                    plt.figure(figsize=(18, 12))
                    
                    # 1. Nube de palabras
                    plt.subplot(1, 2, 1)
                    wordcloud = WordCloud(
                        width=800, 
                        height=800, 
                        background_color='white', 
                        max_words=200, 
                        contour_width=3, 
                        contour_color='steelblue',
                        colormap='viridis',
                        max_font_size=100, 
                        min_font_size=10,
                        random_state=42
                    )
                    
                    # Generar la nube de palabras
                    try:
                        wordcloud.generate(all_text)
                        plt.imshow(wordcloud, interpolation='bilinear')
                        plt.axis("off")
                        plt.title('Palabras M√°s Comunes en Reviews de Barcelona', fontsize=16, pad=20, fontweight='bold')
                    except Exception as e:
                        print(f"Error al generar la nube de palabras: {e}")
                        plt.text(0.5, 0.5, "Error al generar nube de palabras", 
                               ha='center', va='center', fontsize=14)
                    
                    # 2. Frecuencia de palabras
                    plt.subplot(1, 2, 2)
                    
                    # Contar palabras
                    words = all_text.split()
                    word_counts = Counter(words).most_common(20)
                    words_df = pd.DataFrame(word_counts, columns=['word', 'count'])
                    
                    # Gr√°fico de barras
                    sns.barplot(x='count', y='word', data=words_df, palette='viridis')
                    plt.title('Palabras M√°s Frecuentes en Reviews', fontsize=16, fontweight='bold')
                    plt.xlabel('Frecuencia', fontsize=14)
                    plt.ylabel('Palabra', fontsize=14)
                    
                    plt.tight_layout()
                    plt.savefig('barcelona_review_text_analysis.png', dpi=300, bbox_inches='tight')
                    plt.show()
                    
                    # Guardar resultados
                    words_df.to_csv('barcelona_common_words.csv', index=False)
                    print("Archivo 'barcelona_common_words.csv' guardado correctamente")
                    
                    # An√°lisis de sentimiento (palabras positivas/negativas)
                    positive_words = ['great', 'excellent', 'good', 'nice', 'perfect', 'beautiful', 'amazing', 'wonderful',
                                    'comfortable', 'clean', 'friendly', 'helpful', 'recommend', 'love', 'fantastic',
                                    'bueno', 'excelente', 'perfecto', 'limpio', 'amable', 'incre√≠ble', 'maravilloso']
                    
                    negative_words = ['bad', 'poor', 'dirty', 'terrible', 'horrible', 'disappointing', 'uncomfortable',
                                     'expensive', 'noisy', 'problem', 'issue', 'not', 'malo', 'sucio', 'ruidoso', 
                                     'caro', 'problema']
                    
                    # Contar menciones de palabras positivas y negativas
                    positive_mentions = sum(word in positive_words for word in all_text.split())
                    negative_mentions = sum(word in negative_words for word in all_text.split())
                    
                    # Visualizar sentimiento
                    plt.figure(figsize=(10, 6))
                    sentiment_data = pd.DataFrame({
                        'Sentimiento': ['Positivo', 'Negativo'],
                        'Menciones': [positive_mentions, negative_mentions]
                    })
                    
                    sns.barplot(x='Sentimiento', y='Menciones', data=sentiment_data, palette=['#43a047', '#e53935'])
                    plt.title('An√°lisis de Sentimiento en Reviews', fontsize=16, fontweight='bold')
                    plt.ylabel('N√∫mero de Menciones', fontsize=14)
                    
                    # A√±adir porcentaje
                    total = positive_mentions + negative_mentions
                    if total > 0:
                        plt.text(0, positive_mentions + 5, f"{positive_mentions/total:.1%}", ha='center', fontsize=12)
                        plt.text(1, negative_mentions + 5, f"{negative_mentions/total:.1%}", ha='center', fontsize=12)
                    
                    plt.tight_layout()
                    plt.savefig('barcelona_sentiment_analysis.png', dpi=300, bbox_inches='tight')
                    plt.show()
                    
                else:
                    print("Advertencia: No hay suficiente texto para an√°lisis despu√©s de la limpieza")
            else:
                print("Error: Despu√©s de limpiar el texto, no quedaron palabras para analizar")
        else:
            print("Error: No se encontraron comentarios v√°lidos para an√°lisis")
    else:
        print("No se encontr√≥ la columna 'comments' en el dataset de reviews")

# Si tenemos ambos datasets, analizar la relaci√≥n entre reviews y propiedades
if listings_df is not None and reviews_df is not None and 'listing_id' in reviews_df.columns:
    print("\nAnalizando relaci√≥n entre propiedades y reviews...")
    
    # Contar reviews por propiedad
    reviews_count = reviews_df.groupby('listing_id').size().reset_index(name='review_count')
    
    # Unir con propiedades
    merged_data = pd.merge(
        listings_df,
        reviews_count,
        left_on='id', 
        right_on='listing_id', 
        how='left'
    )
    
    # Rellenar valores faltantes con 0
    merged_data['review_count'] = merged_data['review_count'].fillna(0)
    
    # Verificar si hay suficientes datos para an√°lisis
    if 'price_float' in merged_data.columns and merged_data['review_count'].sum() > 0:
        # Analizar relaci√≥n entre precio y n√∫mero de reviews
        plt.figure(figsize=(10, 6))
        
        # Usar solo datos con precios razonables (eliminar outliers)
        plot_data = merged_data[merged_data['price_float'] <= merged_data['price_float'].quantile(0.95)]
        
        # Crear scatter plot
        sns.scatterplot(
            x='price_float', 
            y='review_count', 
            data=plot_data,
            alpha=0.6,
            hue='room_type' if 'room_type' in plot_data.columns else None
        )
        
        plt.title('Relaci√≥n entre Precio y N√∫mero de Reviews', fontsize=16, fontweight='bold')
        plt.xlabel('Precio (‚Ç¨)', fontsize=14)
        plt.ylabel('N√∫mero de Reviews', fontsize=14)
        plt.grid(True, alpha=0.3)
        
        # A√±adir l√≠nea de tendencia
        x = plot_data['price_float']
        y = plot_data['review_count']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        plt.plot(x, p(x), 'r--', linewidth=2)
        
        plt.tight_layout()
        plt.savefig('barcelona_price_reviews_relationship.png', dpi=300, bbox_inches='tight')
        plt.show()
        
        # Si hay puntuaciones, analizar relaci√≥n entre puntuaci√≥n y n√∫mero de reviews
        if 'review_scores_rating' in merged_data.columns:
            plt.figure(figsize=(10, 6))
            
            # Filtrar datos con puntuaciones y al menos una review
            rating_data = merged_data.dropna(subset=['review_scores_rating'])
            rating_data = rating_data[rating_data['review_count'] > 0]
            
            if len(rating_data) > 10:  # Asegurar que hay suficientes datos
                sns.scatterplot(
                    x='review_scores_rating', 
                    y='review_count', 
                    data=rating_data,
                    alpha=0.6,
                    hue='room_type' if 'room_type' in rating_data.columns else None
                )
                
                plt.title('Relaci√≥n entre Puntuaci√≥n y N√∫mero de Reviews', fontsize=16, fontweight='bold')
                plt.xlabel('Puntuaci√≥n', fontsize=14)
                plt.ylabel('N√∫mero de Reviews', fontsize=14)
                plt.grid(True, alpha=0.3)
                
                plt.tight_layout()
                plt.savefig('barcelona_rating_reviews_relationship.png', dpi=300, bbox_inches='tight')
                plt.show()

print("\nAn√°lisis de reviews completado")

In [None]:
# ## 10. Investment Opportunity Score

# Import necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# Create an investment opportunity score based on multiple factors
# This combines ROI, occupancy rate, review scores, and location

try:
    # First, make sure we have a dataframe to work with
    if 'barcelona_limpio_completo' in locals():
        listings_for_investment = barcelona_limpio_completo.copy()  # Create a copy to avoid modifying original
        print("Using barcelona_limpio_completo for investment analysis")
    elif 'df_properties' in locals():
        listings_for_investment = df_properties.copy()
        print("Using df_properties for investment analysis")
    elif 'listings' in locals():
        listings_for_investment = listings.copy()
        print("Using listings for investment analysis")
    elif 'listings_for_review' in locals():
        listings_for_investment = listings_for_review.copy()
        print("Using listings_for_review for investment analysis")
    else:
        # Try to load the data if it's not already in memory
        try:
            barcelona_limpio_completo = pd.read_csv('barcelona_limpio_completo.csv')
            listings_for_investment = barcelona_limpio_completo.copy()
            print("Loaded barcelona_limpio_completo from file for investment analysis")
        except:
            try:
                listings = pd.read_csv('listings.csv')
                listings_for_investment = listings.copy()
                print("Loaded listings from file for investment analysis")
            except:
                # Create a sample dataset if loading fails
                print("Creating sample data for investment analysis")
                listings_for_investment = pd.DataFrame({
                    'id': range(1, 101),
                    'name': [f"Listing {i}" for i in range(1, 101)],
                    'neighbourhood': np.random.choice(['Eixample', 'Ciutat Vella', 'Gr√†cia', 'Sant Mart√≠', 'Les Corts'], 100),
                    'price': np.random.uniform(50, 300, 100),
                    'review_scores_rating': np.random.uniform(4.0, 5.0, 100),
                    'number_of_reviews': np.random.randint(0, 100, 100)
                })
    
    # Check if price_float column exists, if not create it from price column
    if 'price_float' not in listings_for_investment.columns:
        if 'price' in listings_for_investment.columns:
            # Define clean_price function if it doesn't exist
            def clean_price(price_str):
                """Convert price strings to float values"""
                if isinstance(price_str, str):
                    return float(price_str.replace('$', '').replace(',', ''))
                return float(price_str) if not pd.isna(price_str) else np.nan
            
            # Convert price to price_float
            listings_for_investment['price_float'] = listings_for_investment['price'].apply(clean_price)
            print("Created price_float column from price column")
        else:
            # If no price column exists, create a dummy price_float column
            print("No price column found, creating dummy price_float")
            listings_for_investment['price_float'] = np.random.uniform(50, 300, len(listings_for_investment))
    
    # Check if neighbourhood column exists, if not try to find an alternative or create one
    if 'neighbourhood' not in listings_for_investment.columns:
        if 'neighbourhood_cleansed' in listings_for_investment.columns:
            # Use neighbourhood_cleansed as neighbourhood
            listings_for_investment['neighbourhood'] = listings_for_investment['neighbourhood_cleansed']
            print("Using neighbourhood_cleansed as neighbourhood")
        elif 'neighborhood' in listings_for_investment.columns:
            # Use neighborhood as neighbourhood (alternative spelling)
            listings_for_investment['neighbourhood'] = listings_for_investment['neighborhood']
            print("Using neighborhood as neighbourhood")
        else:
            # Create a dummy neighbourhood column
            print("No neighbourhood column found, creating dummy neighbourhood")
            neighborhoods = ['Eixample', 'Ciutat Vella', 'Gr√†cia', 'Sant Mart√≠', 'Les Corts', 
                           'Sants-Montju√Øc', 'Sarri√†-Sant Gervasi', 'Horta-Guinard√≥']
            listings_for_investment['neighbourhood'] = np.random.choice(neighborhoods, len(listings_for_investment))
    
    # Ensure we have the necessary columns before proceeding
    required_columns = ['price_float', 'neighbourhood']
    if all(col in listings_for_investment.columns for col in required_columns):
        # Ensure price_float is positive and non-zero to avoid division problems
        listings_for_investment['price_float'] = listings_for_investment['price_float'].replace([0, np.inf, -np.inf, np.nan], np.nan)
        listings_for_investment = listings_for_investment.dropna(subset=['price_float'])
        listings_for_investment = listings_for_investment[listings_for_investment['price_float'] > 0]
        
        if len(listings_for_investment) == 0:
            raise ValueError("No valid price data after cleaning")
        
        print(f"Working with {len(listings_for_investment)} listings after data cleaning")
        
        # Standardize metrics for scoring
        scaler = StandardScaler()
        
        # Add neighborhood average price
        neighborhood_avg_price = listings_for_investment.groupby('neighbourhood')['price_float'].mean().reset_index()
        neighborhood_avg_price.columns = ['neighbourhood', 'neighborhood_avg_price']
        investment_df = pd.merge(listings_for_investment, neighborhood_avg_price, on='neighbourhood', how='left')
        
        # Calculate price competitiveness (how price compares to neighborhood average)
        # Use a safe division method to avoid infinity and NaN
        investment_df['price_competitiveness'] = np.where(
            investment_df['price_float'] > 0,
            investment_df['neighborhood_avg_price'] / investment_df['price_float'],
            1.0  # Default value for invalid cases
        )
        
        # Clip values to avoid extreme outliers
        investment_df['price_competitiveness'] = investment_df['price_competitiveness'].clip(0.1, 10)
        
        # Include review scores if available
        if 'review_scores_rating' in investment_df.columns:
            # Normalize to 0-1 scale and handle NaN
            investment_df['review_score_normalized'] = investment_df['review_scores_rating'].fillna(0) / 5
        else:
            investment_df['review_score_normalized'] = 0.5  # Default if not available
        
        # Include occupancy if available
        if 'occupancy_rate' in investment_df.columns:
            # Make sure occupancy_rate is valid
            investment_df['occupancy_rate'] = investment_df['occupancy_rate'].fillna(0.5).clip(0, 1)
        else:
            # Estimate occupancy from reviews if available
            if 'number_of_reviews' in investment_df.columns and 'host_since' in investment_df.columns:
                # Convert host_since to datetime
                investment_df['host_since'] = pd.to_datetime(investment_df['host_since'], errors='coerce')
                
                # Calculate days since hosting started
                current_date = pd.Timestamp.now()
                investment_df['days_hosting'] = (current_date - investment_df['host_since']).dt.days
                
                # Use a safe calculation for reviews per day
                investment_df['days_hosting'] = investment_df['days_hosting'].fillna(365).clip(lower=30)  # Minimum 30 days hosting
                investment_df['reviews_per_day'] = investment_df['number_of_reviews'].fillna(0) / investment_df['days_hosting']
                investment_df['occupancy_rate'] = investment_df['reviews_per_day'].clip(0, 1)
            elif 'number_of_reviews' in investment_df.columns:
                # Simple proxy using number of reviews
                max_reviews = investment_df['number_of_reviews'].max()
                if max_reviews > 0:
                    investment_df['occupancy_rate'] = (investment_df['number_of_reviews'].fillna(0) / max_reviews).clip(0, 1)
                else:
                    investment_df['occupancy_rate'] = 0.5
            else:
                investment_df['occupancy_rate'] = 0.5  # Default if not available
        
        # Define the score features - this was missing and causing the error
        score_features = [
            'price_competitiveness',
            'review_score_normalized',
            'occupancy_rate'
        ]
        
        # Final check for NaN or infinite values
        for col in score_features:
            if col not in investment_df.columns:
                print(f"Warning: Column {col} not found in data, adding default values")
                investment_df[col] = 0.5  # Add a default value if the column doesn't exist
            investment_df[col] = investment_df[col].replace([np.inf, -np.inf], np.nan)
            investment_df[col] = investment_df[col].fillna(investment_df[col].mean() if not investment_df[col].isnull().all() else 0.5)
        
        # Filter out rows with missing values
        score_df = investment_df[score_features].dropna()
        
        if len(score_df) > 0:
            # Standardize the features
            score_scaled = scaler.fit_transform(score_df)
            
            # Calculate opportunity score (weighted average)
            weights = np.array([0.4, 0.3, 0.3])  # Price, reviews, occupancy
            opportunity_scores = np.dot(score_scaled, weights)
            
            # Add scores back to the dataframe
            investment_df.loc[score_df.index, 'opportunity_score'] = opportunity_scores
            
            # Normalize to 0-100 scale (safely)
            min_score = np.min(opportunity_scores)
            max_score = np.max(opportunity_scores)
            
            if min_score == max_score:
                investment_df['opportunity_score_normalized'] = 50  # All scores equal
            else:
                investment_df['opportunity_score_normalized'] = (
                    (investment_df['opportunity_score'] - min_score) / (max_score - min_score) * 100
                )
            
            # Find top investment opportunities
            top_opportunities = investment_df.sort_values('opportunity_score_normalized', ascending=False).head(20)
            
            # Display top opportunities (use columns that exist in the dataframe)
            display_cols = ['id', 'price_float', 'opportunity_score_normalized']
            
            # Add name column if it exists
            if 'name' in top_opportunities.columns:
                display_cols.insert(1, 'name')
                
            # Add neighborhood column(s) if they exist
            for col in ['neighbourhood', 'neighbourhood_cleansed']:
                if col in top_opportunities.columns:
                    display_cols.insert(2 if 'name' in display_cols else 1, col)
                    break
                    
            # Add review score if it exists
            if 'review_scores_rating' in top_opportunities.columns:
                display_cols.insert(-1, 'review_scores_rating')
                
            # Add occupancy rate if it exists
            if 'occupancy_rate' in top_opportunities.columns:
                display_cols.insert(-1, 'occupancy_rate')
            
            # Make sure all display columns actually exist
            display_cols = [col for col in display_cols if col in top_opportunities.columns]
            
            top_display = top_opportunities[display_cols].reset_index(drop=True)
            
            print("Top Investment Opportunities:")
            print(top_display.head(10))  # Use print instead of display for compatibility
            
            # Visualize top neighborhoods by average opportunity score
            # Use the appropriate neighborhood column
            neighborhood_col = 'neighbourhood'
            if 'neighbourhood_cleansed' in investment_df.columns:
                neighborhood_col = 'neighbourhood_cleansed'
                
            neighborhood_opportunity = investment_df.groupby(neighborhood_col)['opportunity_score_normalized'].mean().reset_index()
            neighborhood_opportunity = neighborhood_opportunity.sort_values('opportunity_score_normalized', ascending=False)
            
            plt.figure(figsize=(14, 10))
            ax = sns.barplot(x='opportunity_score_normalized', y=neighborhood_col, 
                          data=neighborhood_opportunity.head(15), palette='viridis')
            
            # Add count annotations
            for i, row in enumerate(neighborhood_opportunity.head(15).itertuples()):
                # Count listings in this neighborhood
                count = investment_df[investment_df[neighborhood_col] == getattr(row, neighborhood_col)].shape[0]
                ax.text(row.opportunity_score_normalized + 1, i, f"n={count}", va='center')
            
            plt.title('Top Neighborhoods by Investment Opportunity Score', fontsize=16)
            plt.xlabel('Average Opportunity Score (0-100)', fontsize=14)
            plt.ylabel('Neighborhood', fontsize=14)
            plt.tight_layout()
            plt.show()
        else:
            print("Not enough data to calculate opportunity scores after removing missing values")
    else:
        missing_cols = [col for col in required_columns if col not in listings_for_investment.columns]
        print(f"Cannot calculate investment scores. Missing required columns: {', '.join(missing_cols)}")

except Exception as e:
    import traceback
    print(f"Error in investment opportunity analysis: {e}")
    print(traceback.format_exc())  # Print the full error traceback for debugging
    # Create a dummy plot in case of error
    plt.figure(figsize=(10, 5))
    plt.text(0.5, 0.5, f"Error processing investment data: {str(e)}", 
             horizontalalignment='center', verticalalignment='center', fontsize=14)
    plt.axis('off')
    plt.tight_layout()
    plt.show()

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Verificar si tenemos datos de investment_df
try:
    # Usar una copia para no modificar el original
    invest_df = investment_df.copy()
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    plt.figure(figsize=(16, 10))
    
    # Ordenar por puntuaci√≥n de oportunidad
    top_neighborhoods = neighborhood_opportunity.head(15).copy()
    
    # Crear barra horizontal con degradado de color seg√∫n puntuaci√≥n
    cmap = LinearSegmentedColormap.from_list('custom_viridis', 
                                            ['#440154', '#3b528b', '#21918c', '#5ec962', '#fde725'], 
                                            N=256)
    
    # Normalizar colores seg√∫n puntuaci√≥n
    norm = plt.Normalize(top_neighborhoods['opportunity_score_normalized'].min(), 
                       top_neighborhoods['opportunity_score_normalized'].max())
    
    # Crear barras con colores gradientes
    bars = plt.barh(top_neighborhoods[neighborhood_col], 
                   top_neighborhoods['opportunity_score_normalized'],
                   color=cmap(norm(top_neighborhoods['opportunity_score_normalized'])))
    
    # A√±adir etiquetas con iconos en las barras
    for i, (index, row) in enumerate(top_neighborhoods.iterrows()):
        # Contar propiedades en este barrio
        count = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]].shape[0]
        # Precio promedio en este barrio
        avg_price = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]]['price_float'].mean()
        
        # Icono seg√∫n nivel de oportunidad
        if row['opportunity_score_normalized'] >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif row['opportunity_score_normalized'] >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif row['opportunity_score_normalized'] >= 60:
            icon = "üí∞"  # Buena oportunidad
        elif row['opportunity_score_normalized'] >= 50:
            icon = "üìà"  # Oportunidad razonable
        else:
            icon = "‚ö†Ô∏è"  # Oportunidad limitada
        
        # A√±adir puntuaci√≥n con icono
        score_text = plt.text(row['opportunity_score_normalized'] + 0.5, i, 
                             f"{icon} {row['opportunity_score_normalized']:.1f}",
                             va='center', ha='left', fontweight='bold', fontsize=14)
        
        # A√±adir sombra para mejorar legibilidad
        score_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
        
        # A√±adir informaci√≥n adicional debajo del nombre del barrio
        plt.text(0, i - 0.25, f"üè† {count} propiedades | üí≤ {avg_price:.0f}‚Ç¨", 
                va='center', ha='left', fontsize=10, alpha=0.7)
    
    # A√±adir t√≠tulo y etiquetas con estilo
    plt.title('üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # Ajustar l√≠mites del eje x para dejar espacio para etiquetas
    plt.xlim(0, top_neighborhoods['opportunity_score_normalized'].max() * 1.3)
    
    # A√±adir anotaci√≥n explicativa
    explanation = """
    La puntuaci√≥n de oportunidad combina:
    ‚Ä¢ 40% Competitividad de precio (precio vs. promedio del barrio)
    ‚Ä¢ 30% Valoraciones de hu√©spedes (normalizada a 0-1)
    ‚Ä¢ 30% Tasa de ocupaci√≥n estimada
    
    üåü: Oportunidad excepcional  |  ‚≠ê: Muy buena  |  üí∞: Buena  |  üìà: Razonable  |  ‚ö†Ô∏è: Limitada
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
    # 2. VISUALIZACI√ìN MEJORADA: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    # Preparar datos para scatter plot
    scatter_data = invest_df[invest_df['opportunity_score_normalized'].notna()].sample(min(1000, len(invest_df)))
    
    # Calcular correlaciones para mostrar en el gr√°fico
    corr_price = pearsonr(scatter_data['price_competitiveness'], 
                         scatter_data['opportunity_score_normalized'])[0]
    corr_review = pearsonr(scatter_data['review_score_normalized'], 
                          scatter_data['opportunity_score_normalized'])[0]
    corr_occ = pearsonr(scatter_data['occupancy_rate'], 
                       scatter_data['opportunity_score_normalized'])[0]
    
    fig = plt.figure(figsize=(20, 10))
    gs = GridSpec(2, 3, figure=fig, height_ratios=[4, 1])
    
    # Subplot 1: Competitividad de precio vs Oportunidad
    ax1 = fig.add_subplot(gs[0, 0])
    sns.scatterplot(x='price_competitiveness', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax1)
    
    ax1.set_title(f'üí≤ Competitividad de Precio vs Oportunidad\nCorrelaci√≥n: {corr_price:.2f}', 
                 fontweight='bold')
    ax1.set_xlabel('Competitividad de Precio')
    ax1.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['price_competitiveness']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax1.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 2: Valoraciones vs Oportunidad
    ax2 = fig.add_subplot(gs[0, 1])
    sns.scatterplot(x='review_score_normalized', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax2)
    
    ax2.set_title(f'‚≠ê Valoraciones vs Oportunidad\nCorrelaci√≥n: {corr_review:.2f}', 
                 fontweight='bold')
    ax2.set_xlabel('Valoraci√≥n Normalizada')
    ax2.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['review_score_normalized']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax2.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 3: Ocupaci√≥n vs Oportunidad
    ax3 = fig.add_subplot(gs[0, 2])
    sns.scatterplot(x='occupancy_rate', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax3)
    
    ax3.set_title(f'üìÖ Ocupaci√≥n vs Oportunidad\nCorrelaci√≥n: {corr_occ:.2f}', 
                 fontweight='bold')
    ax3.set_xlabel('Tasa de Ocupaci√≥n')
    ax3.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['occupancy_rate']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax3.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir panel de insights en la parte inferior
    ax_insights = fig.add_subplot(gs[1, :])
    ax_insights.axis('off')  # Ocultar ejes
    
    # Texto de insights basado en correlaciones
    insights_text = """
    üìä INSIGHTS CLAVE SOBRE FACTORES DE OPORTUNIDAD DE INVERSI√ìN:
    
    üîπ COMPETITIVIDAD DE PRECIO: {price_insight}
    
    üîπ VALORACIONES: {review_insight}
    
    üîπ OCUPACI√ìN: {occ_insight}
    
    ‚úÖ RECOMENDACI√ìN: {recommendation}
    """.format(
        price_insight = "Fuerte correlaci√≥n positiva. Propiedades con mejor relaci√≥n precio/valor de barrio tienen mayor potencial." if corr_price > 0.5 else 
                       "Correlaci√≥n moderada. El precio competitivo es importante pero no determinante." if corr_price > 0.3 else
                       "Correlaci√≥n d√©bil. Otros factores tienen mayor peso en la oportunidad.",
        
        review_insight = "Impacto significativo. Las valoraciones altas son clave para maximizar el potencial." if corr_review > 0.5 else
                        "Influencia moderada. Mantener buenas valoraciones mejora el potencial de inversi√≥n." if corr_review > 0.3 else
                        "Influencia limitada. Las valoraciones tienen menor impacto que otros factores.",
        
        occ_insight = "Factor cr√≠tico. Alta ocupaci√≥n es determinante para identificar oportunidades de inversi√≥n." if corr_occ > 0.5 else
                     "Factor importante. La ocupaci√≥n consistente contribuye al potencial de inversi√≥n." if corr_occ > 0.3 else
                     "Factor secundario. La ocupaci√≥n tiene menos influencia que lo esperado.",
        
        recommendation = "Priorizar propiedades con precios competitivos en barrios de alta demanda y ocupaci√≥n." if corr_price > corr_review and corr_price > corr_occ else
                        "Enfocarse en propiedades con excelentes valoraciones, ubicadas en barrios populares." if corr_review > corr_price and corr_review > corr_occ else
                        "Buscar propiedades en barrios con alta ocupaci√≥n consistente, independientemente del precio."
    )
    
    ax_insights.text(0.5, 0.5, insights_text, ha='center', va='center', 
                    bbox=dict(facecolor='#f0f8ff', edgecolor='#4682b4', boxstyle='round,pad=0.7'))
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.suptitle('üîç An√°lisis de Componentes de la Puntuaci√≥n de Oportunidad', 
                fontsize=20, fontweight='bold', y=1.02)
    plt.show()
    
    # 3. VISUALIZACI√ìN MEJORADA: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Preparar datos para el mapa de calor
    # Categorizar precios
    invest_df['price_category'] = pd.cut(
        invest_df['price_float'], 
        bins=[0, 50, 100, 150, 200, 1000],
        labels=['< 50‚Ç¨', '50-100‚Ç¨', '100-150‚Ç¨', '150-200‚Ç¨', '> 200‚Ç¨']
    )
    
    # Crear tabla pivote
    heatmap_data = invest_df.pivot_table(
        values='opportunity_score_normalized',
        index=neighborhood_col,
        columns='price_category',
        aggfunc='mean'
    ).fillna(0)
    
    # Filtrar para mostrar solo los barrios con m√°s datos
    min_properties = 5  # M√≠nimo de propiedades para incluir el barrio
    neighborhood_counts = invest_df[neighborhood_col].value_counts()
    valid_neighborhoods = neighborhood_counts[neighborhood_counts >= min_properties].index
    
    # Filtrar heatmap_data para incluir solo barrios con suficientes datos
    heatmap_data = heatmap_data.loc[heatmap_data.index.intersection(valid_neighborhoods)]
    
    # Ordenar por puntuaci√≥n promedio
    heatmap_data['avg_score'] = heatmap_data.mean(axis=1)
    heatmap_data = heatmap_data.sort_values('avg_score', ascending=False).head(15)
    heatmap_data = heatmap_data.drop('avg_score', axis=1)
    
    plt.figure(figsize=(16, 12))
    
    # Definir paleta personalizada para el heatmap
    heatmap_cmap = LinearSegmentedColormap.from_list(
        'opportunity_cmap', 
        ['#f7fbff', '#deebf7', '#c6dbef', '#9ecae1', '#6baed6', '#4292c6', '#2171b5', '#08519c', '#08306b']
    )
    
    ax = sns.heatmap(heatmap_data, annot=True, fmt='.1f', linewidths=.5,
                    cmap=heatmap_cmap, cbar_kws={'label': 'Puntuaci√≥n de Oportunidad'})
    
    # A√±adir t√≠tulo y etiquetas
    plt.title('üó∫Ô∏è Mapa de Calor de Oportunidades de Inversi√≥n\npor Barrio y Rango de Precio', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Rango de Precio por Noche', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # A√±adir anotaciones para ayudar a interpretar
    # Encontrar la celda con mayor puntuaci√≥n
    max_val = heatmap_data.max().max()
    max_idx = np.unravel_index(heatmap_data.values.argmax(), heatmap_data.shape)
    max_barrio = heatmap_data.index[max_idx[0]]
    max_precio = heatmap_data.columns[max_idx[1]]
    
    # Anotar la mejor combinaci√≥n
    plt.annotate(
        f"üíé Mejor oportunidad\n{max_barrio}, {max_precio}",
        xy=(max_idx[1], max_idx[0]),
        xytext=(max_idx[1] + 1.5, max_idx[0] - 1),
        fontsize=12,
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
        bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.7)
    )
    
    # A√±adir leyenda explicativa
    legend_text = """
    Este mapa muestra la puntuaci√≥n de oportunidad promedio para cada combinaci√≥n de barrio y rango de precio.
    ‚Ä¢ Valores m√°s altos (azul oscuro) indican mejores oportunidades de inversi√≥n.
    ‚Ä¢ Celdas vac√≠as o con valores bajos indican combinaciones menos atractivas.
    
    üí° Use esta visualizaci√≥n para identificar:
       ‚Ä¢ Rangos de precio √≥ptimos para cada barrio
       ‚Ä¢ Barrios con mejor desempe√±o general
       ‚Ä¢ Nichos de mercado con alto potencial
    """
    
    plt.figtext(0.5, 0.01, legend_text, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
    plt.show()
    
    # 4. VISUALIZACI√ìN MEJORADA: OPORTUNIDADES POR BARRIO Y N√öMERO DE HABITACIONES
    if 'bedrooms' in invest_df.columns:
        # Agrupar por barrio y n√∫mero de habitaciones
        room_data = invest_df.groupby([neighborhood_col, 'bedrooms'])['opportunity_score_normalized'].mean().reset_index()
        
        # Filtrar para habitaciones razonables (0-6)
        room_data = room_data[room_data['bedrooms'].between(0, 6)]
        
        # Crear tabla pivote
        room_pivot = room_data.pivot(index=neighborhood_col, columns='bedrooms', values='opportunity_score_normalized')
        
        # Seleccionar top barrios
        top_neighborhoods = neighborhood_opportunity.head(10)[neighborhood_col].tolist()
        room_pivot = room_pivot.loc[room_pivot.index.intersection(top_neighborhoods)]
        
        plt.figure(figsize=(15, 10))
        
        # Crear heatmap
        sns.heatmap(room_pivot, annot=True, fmt='.1f', cmap='YlGnBu', linewidths=.5)
        
        plt.title('üõèÔ∏è Oportunidades de Inversi√≥n por Barrio y N√∫mero de Habitaciones', 
                 fontweight='bold', fontsize=18)
        plt.xlabel('N√∫mero de Habitaciones', fontweight='bold')
        plt.ylabel('Barrio', fontweight='bold')
        
        # Anotar la mejor combinaci√≥n
        max_val = room_pivot.max().max()
        max_idx = np.unravel_index(room_pivot.values.argmax(), room_pivot.shape)
        max_barrio = room_pivot.index[max_idx[0]]
        max_rooms = room_pivot.columns[max_idx[1]]
        
        plt.annotate(
            f"üîù Mejor combinaci√≥n\n{max_barrio}, {max_rooms} habitaciones",
            xy=(max_idx[1], max_idx[0]),
            xytext=(max_idx[1] + 1, max_idx[0] + 0.5),
            fontsize=12,
            arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
            bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.8)
        )
        
        # A√±adir insight
        plt.figtext(0.5, 0.01, 
                   "üí° Este an√°lisis muestra qu√© tipo de propiedades (por n√∫mero de habitaciones) tienen mayor puntuaci√≥n de oportunidad en cada barrio.\n"
                   "Use esta informaci√≥n para identificar el tipo de propiedad √≥ptimo seg√∫n la zona de inversi√≥n.", 
                   ha='center', fontsize=13, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.tight_layout(rect=[0, 0.05, 1, 0.95])
        plt.show()
    
    # 5. VISUALIZACI√ìN: RENDIMIENTO DE INVERSI√ìN POR BARRIO
    # Calcular ROI estimado
    if 'price_float' in invest_df.columns and 'occupancy_rate' in invest_df.columns:
        # Estimar ingreso anual
        invest_df['estimated_annual_revenue'] = invest_df['price_float'] * 365 * invest_df['occupancy_rate']
        
        # Estimar precio de propiedad basado en barrio
        # Usar precios de propiedad aproximados por barrio (en euros)
        barrio_precios = {
            'Ciutat Vella': 4500,
            'Eixample': 5200,
            'Sants-Montju√Øc': 3700,
            'Les Corts': 5100,
            'Sarri√†-Sant Gervasi': 6300,
            'Gr√†cia': 4900,
            'Horta-Guinard√≥': 3500,
            'Nou Barris': 2800,
            'Sant Andreu': 3300,
            'Sant Mart√≠': 4200
        }
        
        # Crear funci√≥n para asignar precio por m2 seg√∫n barrio
        def get_price_per_m2(neighborhood):
            for distrito, precio in barrio_precios.items():
                if distrito in neighborhood:
                    return precio
            return 4000  # Valor promedio para Barcelona
        
        # Asignar precio por m2
        invest_df['price_per_m2'] = invest_df[neighborhood_col].apply(get_price_per_m2)
        
        # Estimar valor de propiedad (suponiendo 70m2 promedio)
        invest_df['estimated_property_value'] = invest_df['price_per_m2'] * 70
        
        # Calcular ROI bruto
        invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['estimated_property_value']) * 100
        
        # Agrupar por barrio
        roi_by_neighborhood = invest_df.groupby(neighborhood_col).agg({
            'estimated_roi': 'mean',
            'opportunity_score_normalized': 'mean',
            'price_per_m2': 'mean',
            'estimated_annual_revenue': 'mean',
            'id': 'count'
        }).reset_index()
        
        # Ordenar por ROI
        roi_by_neighborhood = roi_by_neighborhood.sort_values('estimated_roi', ascending=False)
        
        # Crear gr√°fico combinado
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
        
        # 1. Gr√°fico de barras para ROI
        bar_colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(roi_by_neighborhood.head(10))))
        bars = ax1.barh(roi_by_neighborhood.head(10)[neighborhood_col], 
                       roi_by_neighborhood.head(10)['estimated_roi'],
                       color=bar_colors)
        
        # A√±adir anotaciones
        for i, bar in enumerate(bars):
            # A√±adir valor de ROI
            ax1.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2, 
                    f"ROI: {roi_by_neighborhood.iloc[i]['estimated_roi']:.2f}%", 
                    va='center', fontweight='bold')
            
            # A√±adir informaci√≥n adicional debajo del nombre del barrio
            count = roi_by_neighborhood.iloc[i]['id']
            price = roi_by_neighborhood.iloc[i]['price_per_m2']
            ax1.text(0, bar.get_y() - 0.2, f"üè† {count} prop. | üí∂ {price:.0f}‚Ç¨/m¬≤", 
                    va='center', fontsize=9, alpha=0.7)
        
        ax1.set_title('üìä Rentabilidad Estimada por Barrio (Top 10)', fontweight='bold', fontsize=16)
        ax1.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax1.set_ylabel('Barrio', fontweight='bold')
        ax1.grid(axis='x', linestyle='--', alpha=0.7)
        
        # 2. Gr√°fico de dispersi√≥n: ROI vs Puntuaci√≥n de Oportunidad
        scatter = ax2.scatter(
            roi_by_neighborhood['estimated_roi'], 
            roi_by_neighborhood['opportunity_score_normalized'],
            s=roi_by_neighborhood['id'] * 2,  # Tama√±o seg√∫n n√∫mero de propiedades
            c=roi_by_neighborhood['price_per_m2'],  # Color seg√∫n precio por m2
            cmap='viridis',
            alpha=0.7
        )
        
        # A√±adir nombres de barrios
        for i, row in roi_by_neighborhood.iterrows():
            if row['estimated_roi'] > roi_by_neighborhood['estimated_roi'].quantile(0.75) or \
               row['opportunity_score_normalized'] > roi_by_neighborhood['opportunity_score_normalized'].quantile(0.75):
                ax2.annotate(
                    row[neighborhood_col],
                    (row['estimated_roi'], row['opportunity_score_normalized']),
                    xytext=(5, 5),
                    textcoords='offset points',
                    fontsize=10,
                    alpha=0.8
                )
        
        # A√±adir l√≠nea de tendencia
        x = roi_by_neighborhood['estimated_roi']
        y = roi_by_neighborhood['opportunity_score_normalized']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        ax2.plot(x, p(x), "r--", alpha=0.8)
        
        # Calcular correlaci√≥n
        corr = np.corrcoef(x, y)[0, 1]
        
        ax2.set_title(f'üîÑ ROI vs Puntuaci√≥n de Oportunidad\nCorrelaci√≥n: {corr:.2f}', 
                     fontweight='bold', fontsize=16)
        ax2.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
        ax2.grid(True, linestyle='--', alpha=0.7)
        
        # A√±adir colorbar para precio por m2
        cbar = plt.colorbar(scatter, ax=ax2)
        cbar.set_label('Precio por m¬≤ (‚Ç¨)', fontweight='bold')
        
        # A√±adir leyenda para el tama√±o de los puntos
        sizes = [10, 50, 100]
        labels = ['Pocas propiedades', 'Cantidad media', 'Muchas propiedades']
        
        # Crear puntos de leyenda
        legend_elements = []
        for size, label in zip(sizes, labels):
            legend_elements.append(plt.Line2D([0], [0], marker='o', color='w', 
                                             label=label, markerfacecolor='gray',
                                             markersize=np.sqrt(size)))
        
        ax2.legend(handles=legend_elements, title="N√∫mero de propiedades", 
                  loc='upper left', frameon=True)
        
        # A√±adir insight general
        plt.figtext(0.5, 0.01, 
                   "üí° INSIGHTS CLAVE PARA INVERSORES:\n"
                   f"1. La correlaci√≥n entre ROI y puntuaci√≥n de oportunidad es {corr:.2f}, lo que sugiere {'una fuerte relaci√≥n' if corr > 0.7 else 'una relaci√≥n moderada' if corr > 0.4 else 'que existen otros factores importantes'}.\n"
                   f"2. Los barrios √≥ptimos combinan alto ROI y alta puntuaci√≥n de oportunidad (cuadrante superior derecho).\n"
                   "3. El tama√±o de los c√≠rculos indica volumen de propiedades - barrios m√°s grandes ofrecen m√°s opciones para inversores.\n"
                   "4. Los colores indican precio por m¬≤ - tonos m√°s claros representan zonas m√°s caras.", 
                   ha='center', fontsize=12, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.suptitle('üí∞ An√°lisis de Rentabilidad de Inversi√≥n por Barrio', 
                    fontsize=20, fontweight='bold')
        
        plt.tight_layout(rect=[0, 0.08, 1, 0.95])
        plt.show()
    
    # 6. VISUALIZACI√ìN: RADAR CHART DE TOP 5 OPORTUNIDADES
    
    # Tomar las 5 mejores oportunidades
    top_5_neighborhoods = neighborhood_opportunity.head(5)[neighborhood_col].tolist()
    
    # Preparar datos para el radar chart
    radar_metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
                    'opportunity_score_normalized']
    
    # Calcular valores promedio para cada barrio y m√©trica
    radar_data = []
    for neighborhood in top_5_neighborhoods:
        neighborhood_data = invest_df[invest_df[neighborhood_col] == neighborhood]
        
        # Calcular promedios normalizados
        metric_avgs = {}
        for metric in radar_metrics:
            if metric in neighborhood_data.columns:
                # Normalizar a escala 0-1 para el radar chart
                if metric == 'opportunity_score_normalized':
                    metric_avgs[metric] = neighborhood_data[metric].mean() / 100
                else:
                    metric_avgs[metric] = neighborhood_data[metric].mean()
                    
        # A√±adir precio por m2 invertido (mayor valor = menor precio = mejor)
        if 'price_per_m2' in neighborhood_data.columns:
            max_price = invest_df['price_per_m2'].max()
            min_price = invest_df['price_per_m2'].min()
            price_inverse = 1 - ((neighborhood_data['price_per_m2'].mean() - min_price) / (max_price - min_price))
            metric_avgs['price_inverse'] = price_inverse
        else:
            metric_avgs['price_inverse'] = 0.5
            
        # A√±adir ROI estimado normalizado
        if 'estimated_roi' in neighborhood_data.columns:
            max_roi = invest_df['estimated_roi'].quantile(0.99)  # Usar cuantil para evitar outliers
            min_roi = invest_df['estimated_roi'].min()
            roi_norm = (neighborhood_data['estimated_roi'].mean() - min_roi) / (max_roi - min_roi)
            metric_avgs['roi_normalized'] = min(roi_norm, 1)  # Limitar a 1 m√°ximo
        else:
            metric_avgs['roi_normalized'] = 0.5
            
        radar_data.append({
            'neighborhood': neighborhood,
            **metric_avgs
        })
    
    # Crear radar chart
    radar_df = pd.DataFrame(radar_data)
    
    # Definir m√©tricas para el radar
    metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
              'price_inverse', 'roi_normalized']
    
    # Nombres para mostrar en el gr√°fico
    metric_names = {
        'price_competitiveness': 'Competitividad\nde precio',
        'review_score_normalized': 'Valoraciones',
        'occupancy_rate': 'Ocupaci√≥n',
        'price_inverse': 'Accesibilidad\nde precio',
        'roi_normalized': 'ROI'
    }
    
    # Crear figura con subplots para cada barrio
    fig = plt.figure(figsize=(18, 13))
    
    # Colores para cada barrio
    colors = plt.cm.tab10(np.linspace(0, 1, len(top_5_neighborhoods)))
    
    # Crear un subplot grande para comparaci√≥n y 5 peque√±os para detalles
    gs = GridSpec(3, 6, figure=fig)
    ax_main = fig.add_subplot(gs[0:2, 0:3], polar=True)
    
    # N√∫mero de variables
    N = len(metrics)
    
    # √Ångulos para el gr√°fico (igualmente espaciados)
    angles = [n / float(N) * 2 * np.pi for n in range(N)]
    angles += angles[:1]  # Cerrar el c√≠rculo
    
    # Dibujar cada barrio en el radar principal
    for i, neighborhood in enumerate(top_5_neighborhoods):
        # Filtrar datos para este barrio
        values = radar_df[radar_df['neighborhood'] == neighborhood][metrics].values.flatten().tolist()
        values += values[:1]  # Cerrar el c√≠rculo
        
        # Dibujar el pol√≠gono
        ax_main.plot(angles, values, linewidth=2, linestyle='solid', label=neighborhood, color=colors[i])
        ax_main.fill(angles, values, alpha=0.1, color=colors[i])
    
    # Configurar el radar principal
    ax_main.set_theta_offset(np.pi / 2)  # Rotar para que el primer eje est√© arriba
    ax_main.set_theta_direction(-1)  # Direcci√≥n del reloj
    
    # Etiquetas para los ejes
    ax_main.set_xticks(angles[:-1])
    ax_main.set_xticklabels([metric_names[m] for m in metrics], fontsize=12, fontweight='bold')
    
    # A√±adir l√≠neas de cuadr√≠cula
    ax_main.set_yticks([0.2, 0.4, 0.6, 0.8, 1.0])
    ax_main.set_yticklabels(['0.2', '0.4', '0.6', '0.8', '1.0'], fontsize=10)
    ax_main.set_rlabel_position(0)
    
    # A√±adir t√≠tulo
    ax_main.set_title("Comparativa de Top 5 Barrios por M√©tricas de Inversi√≥n", 
                    fontsize=16, fontweight='bold', pad=20)
    
    # A√±adir leyenda
    plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1))
    
    # Crear gr√°ficos individuales para cada barrio
    for i, neighborhood in enumerate(top_5_neighborhoods):
        row = i // 3  # Fila
        col = i % 3 + 3  # Columna (empezando desde la 4¬™)
        
        # Crear subplot
        ax = fig.add_subplot(gs[row, col], polar=True)
        
        # Obtener valores para este barrio
        values = radar_df[radar_df['neighborhood'] == neighborhood][metrics].values.flatten().tolist()
        values += values[:1]  # Cerrar el c√≠rculo
        
        # Dibujar el pol√≠gono
        ax.plot(angles, values, linewidth=2, linestyle='solid', color=colors[i])
        ax.fill(angles, values, alpha=0.2, color=colors[i])
        
        # Configurar el radar
        ax.set_theta_offset(np.pi / 2)
        ax.set_theta_direction(-1)
        
        # Etiquetas simplificadas
        ax.set_xticks(angles[:-1])
        ax.set_xticklabels([m[0] for m in metrics], fontsize=8)  # Solo inicial
        
        # Ocultar marcas de valores
        ax.set_yticks([])
        
        # A√±adir t√≠tulo
        ax.set_title(neighborhood, fontsize=12, pad=10)
        
        # A√±adir puntuaci√≥n de oportunidad
        opportunity_score = neighborhood_opportunity[neighborhood_opportunity[neighborhood_col] == neighborhood]['opportunity_score_normalized'].values[0]
        
        # Icono seg√∫n nivel de oportunidad
        if opportunity_score >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif opportunity_score >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif opportunity_score >= 60:
            icon = "üí∞"  # Buena oportunidad
        else:
            icon = "üìà"  # Oportunidad razonable
            
        ax.text(0, 0, f"{icon}\n{opportunity_score:.1f}", ha='center', va='center', 
               fontsize=12, fontweight='bold')
    
    # A√±adir leyenda explicativa para m√©tricas
    legend_text = """
    üîé GU√çA DE M√âTRICAS DE INVERSI√ìN:
    
    ‚Ä¢ Competitividad de precio: Relaci√≥n entre precio del alojamiento y precio promedio del barrio (mayor = mejor).
    ‚Ä¢ Valoraciones: Calificaci√≥n promedio de los hu√©spedes normalizada (0-1).
    ‚Ä¢ Ocupaci√≥n: Tasa de ocupaci√≥n estimada durante el a√±o (0-1).
    ‚Ä¢ Accesibilidad de precio: Inverso del precio de adquisici√≥n por m¬≤ (mayor = m√°s econ√≥mico).
    ‚Ä¢ ROI: Retorno de inversi√≥n anual estimado normalizado (0-1).
    
    ‚≠ê Valores m√°s altos en todas las m√©tricas indican mejores oportunidades de inversi√≥n.
    """
    
    # A√±adir leyenda en la parte inferior derecha
    plt.figtext(0.75, 0.3, legend_text, fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.7'))
    
    plt.suptitle('üìä An√°lisis Multidimensional de Oportunidades de Inversi√≥n', 
                fontsize=20, fontweight='bold', y=0.98)
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.show()
    
except Exception as e:
    print(f"Error en el an√°lisis de oportunidades de inversi√≥n: {e}")
    import traceback
    traceback.print_exc()

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Verificar si tenemos datos de investment_df
try:
    # Usar una copia para no modificar el original
    invest_df = investment_df.copy()
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    plt.figure(figsize=(16, 10))
    
    # Ordenar por puntuaci√≥n de oportunidad
    top_neighborhoods = neighborhood_opportunity.head(15).copy()
    
    # Crear barra horizontal con degradado de color seg√∫n puntuaci√≥n
    cmap = LinearSegmentedColormap.from_list('custom_viridis', 
                                            ['#440154', '#3b528b', '#21918c', '#5ec962', '#fde725'], 
                                            N=256)
    
    # Normalizar colores seg√∫n puntuaci√≥n
    norm = plt.Normalize(top_neighborhoods['opportunity_score_normalized'].min(), 
                       top_neighborhoods['opportunity_score_normalized'].max())
    
    # Crear barras con colores gradientes
    bars = plt.barh(top_neighborhoods[neighborhood_col], 
                   top_neighborhoods['opportunity_score_normalized'],
                   color=cmap(norm(top_neighborhoods['opportunity_score_normalized'])))
    
    # A√±adir etiquetas con iconos en las barras
    for i, (index, row) in enumerate(top_neighborhoods.iterrows()):
        # Contar propiedades en este barrio
        count = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]].shape[0]
        # Precio promedio en este barrio
        avg_price = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]]['price_float'].mean()
        
        # Icono seg√∫n nivel de oportunidad
        if row['opportunity_score_normalized'] >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif row['opportunity_score_normalized'] >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif row['opportunity_score_normalized'] >= 60:
            icon = "üí∞"  # Buena oportunidad
        elif row['opportunity_score_normalized'] >= 50:
            icon = "üìà"  # Oportunidad razonable
        else:
            icon = "‚ö†Ô∏è"  # Oportunidad limitada
        
        # A√±adir puntuaci√≥n con icono
        score_text = plt.text(row['opportunity_score_normalized'] + 0.5, i, 
                             f"{icon} {row['opportunity_score_normalized']:.1f}",
                             va='center', ha='left', fontweight='bold', fontsize=14)
        
        # A√±adir sombra para mejorar legibilidad
        score_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
        
        # A√±adir informaci√≥n adicional debajo del nombre del barrio
        plt.text(0, i - 0.25, f"üè† {count} propiedades | üí≤ {avg_price:.0f}‚Ç¨", 
                va='center', ha='left', fontsize=10, alpha=0.7)
    
    # A√±adir t√≠tulo y etiquetas con estilo
    plt.title('üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # Ajustar l√≠mites del eje x para dejar espacio para etiquetas
    plt.xlim(0, top_neighborhoods['opportunity_score_normalized'].max() * 1.3)
    
    # A√±adir anotaci√≥n explicativa
    explanation = """
    La puntuaci√≥n de oportunidad combina:
    ‚Ä¢ 40% Competitividad de precio (precio vs. promedio del barrio)
    ‚Ä¢ 30% Valoraciones de hu√©spedes (normalizada a 0-1)
    ‚Ä¢ 30% Tasa de ocupaci√≥n estimada
    
    üåü: Oportunidad excepcional  |  ‚≠ê: Muy buena  |  üí∞: Buena  |  üìà: Razonable  |  ‚ö†Ô∏è: Limitada
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
    # 2. VISUALIZACI√ìN MEJORADA: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    # Preparar datos para scatter plot
    scatter_data = invest_df[invest_df['opportunity_score_normalized'].notna()].sample(min(1000, len(invest_df)))
    
    # Calcular correlaciones para mostrar en el gr√°fico
    corr_price = pearsonr(scatter_data['price_competitiveness'], 
                         scatter_data['opportunity_score_normalized'])[0]
    corr_review = pearsonr(scatter_data['review_score_normalized'], 
                          scatter_data['opportunity_score_normalized'])[0]
    corr_occ = pearsonr(scatter_data['occupancy_rate'], 
                       scatter_data['opportunity_score_normalized'])[0]
    
    fig = plt.figure(figsize=(20, 10))
    gs = GridSpec(2, 3, figure=fig, height_ratios=[4, 1])
    
    # Subplot 1: Competitividad de precio vs Oportunidad
    ax1 = fig.add_subplot(gs[0, 0])
    sns.scatterplot(x='price_competitiveness', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax1)
    
    ax1.set_title(f'üí≤ Competitividad de Precio vs Oportunidad\nCorrelaci√≥n: {corr_price:.2f}', 
                 fontweight='bold')
    ax1.set_xlabel('Competitividad de Precio')
    ax1.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['price_competitiveness']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax1.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 2: Valoraciones vs Oportunidad
    ax2 = fig.add_subplot(gs[0, 1])
    sns.scatterplot(x='review_score_normalized', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax2)
    
    ax2.set_title(f'‚≠ê Valoraciones vs Oportunidad\nCorrelaci√≥n: {corr_review:.2f}', 
                 fontweight='bold')
    ax2.set_xlabel('Valoraci√≥n Normalizada')
    ax2.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['review_score_normalized']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax2.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 3: Ocupaci√≥n vs Oportunidad
    ax3 = fig.add_subplot(gs[0, 2])
    sns.scatterplot(x='occupancy_rate', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax3)
    
    ax3.set_title(f'üìÖ Ocupaci√≥n vs Oportunidad\nCorrelaci√≥n: {corr_occ:.2f}', 
                 fontweight='bold')
    ax3.set_xlabel('Tasa de Ocupaci√≥n')
    ax3.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['occupancy_rate']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax3.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir panel de insights en la parte inferior
    ax_insights = fig.add_subplot(gs[1, :])
    ax_insights.axis('off')  # Ocultar ejes
    
    # Texto de insights basado en correlaciones
    insights_text = """
    üìä INSIGHTS CLAVE SOBRE FACTORES DE OPORTUNIDAD DE INVERSI√ìN:
    
    üîπ COMPETITIVIDAD DE PRECIO: {price_insight}
    
    üîπ VALORACIONES: {review_insight}
    
    üîπ OCUPACI√ìN: {occ_insight}
    
    ‚úÖ RECOMENDACI√ìN: {recommendation}
    """.format(
        price_insight = "Fuerte correlaci√≥n positiva. Propiedades con mejor relaci√≥n precio/valor de barrio tienen mayor potencial." if corr_price > 0.5 else 
                       "Correlaci√≥n moderada. El precio competitivo es importante pero no determinante." if corr_price > 0.3 else
                       "Correlaci√≥n d√©bil. Otros factores tienen mayor peso en la oportunidad.",
        
        review_insight = "Impacto significativo. Las valoraciones altas son clave para maximizar el potencial." if corr_review > 0.5 else
                        "Influencia moderada. Mantener buenas valoraciones mejora el potencial de inversi√≥n." if corr_review > 0.3 else
                        "Influencia limitada. Las valoraciones tienen menor impacto que otros factores.",
        
        occ_insight = "Factor cr√≠tico. Alta ocupaci√≥n es determinante para identificar oportunidades de inversi√≥n." if corr_occ > 0.5 else
                     "Factor importante. La ocupaci√≥n consistente contribuye al potencial de inversi√≥n." if corr_occ > 0.3 else
                     "Factor secundario. La ocupaci√≥n tiene menos influencia que lo esperado.",
        
        recommendation = "Priorizar propiedades con precios competitivos en barrios de alta demanda y ocupaci√≥n." if corr_price > corr_review and corr_price > corr_occ else
                        "Enfocarse en propiedades con excelentes valoraciones, ubicadas en barrios populares." if corr_review > corr_price and corr_review > corr_occ else
                        "Buscar propiedades en barrios con alta ocupaci√≥n consistente, independientemente del precio."
    )
    
    ax_insights.text(0.5, 0.5, insights_text, ha='center', va='center', 
                    bbox=dict(facecolor='#f0f8ff', edgecolor='#4682b4', boxstyle='round,pad=0.7'))
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.suptitle('üîç An√°lisis de Componentes de la Puntuaci√≥n de Oportunidad', 
                fontsize=20, fontweight='bold', y=1.02)
    plt.show()
    
    # 3. VISUALIZACI√ìN MEJORADA: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Preparar datos para el mapa de calor
    # Categorizar precios
    invest_df['price_category'] = pd.cut(
        invest_df['price_float'], 
        bins=[0, 50, 100, 150, 200, 1000],
        labels=['< 50‚Ç¨', '50-100‚Ç¨', '100-150‚Ç¨', '150-200‚Ç¨', '> 200‚Ç¨']
    )
    
    # Crear tabla pivote
    heatmap_data = invest_df.pivot_table(
        values='opportunity_score_normalized',
        index=neighborhood_col,
        columns='price_category',
        aggfunc='mean'
    ).fillna(0)
    
    # Filtrar para mostrar solo los barrios con m√°s datos
    min_properties = 5  # M√≠nimo de propiedades para incluir el barrio
    neighborhood_counts = invest_df[neighborhood_col].value_counts()
    valid_neighborhoods = neighborhood_counts[neighborhood_counts >= min_properties].index
    
    # Filtrar heatmap_data para incluir solo barrios con suficientes datos
    heatmap_data = heatmap_data.loc[heatmap_data.index.intersection(valid_neighborhoods)]
    
    # Ordenar por puntuaci√≥n promedio
    heatmap_data['avg_score'] = heatmap_data.mean(axis=1)
    heatmap_data = heatmap_data.sort_values('avg_score', ascending=False).head(15)
    heatmap_data = heatmap_data.drop('avg_score', axis=1)
    
    plt.figure(figsize=(16, 12))
    
    # Definir paleta personalizada para el heatmap
    heatmap_cmap = LinearSegmentedColormap.from_list(
        'opportunity_cmap', 
        ['#f7fbff', '#deebf7', '#c6dbef', '#9ecae1', '#6baed6', '#4292c6', '#2171b5', '#08519c', '#08306b']
    )
    
    ax = sns.heatmap(heatmap_data, annot=True, fmt='.1f', linewidths=.5,
                    cmap=heatmap_cmap, cbar_kws={'label': 'Puntuaci√≥n de Oportunidad'})
    
    # A√±adir t√≠tulo y etiquetas
    plt.title('üó∫Ô∏è Mapa de Calor de Oportunidades de Inversi√≥n\npor Barrio y Rango de Precio', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Rango de Precio por Noche', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # A√±adir anotaciones para ayudar a interpretar
    # Encontrar la celda con mayor puntuaci√≥n
    max_val = heatmap_data.max().max()
    max_idx = np.unravel_index(heatmap_data.values.argmax(), heatmap_data.shape)
    max_barrio = heatmap_data.index[max_idx[0]]
    max_precio = heatmap_data.columns[max_idx[1]]
    
    # Anotar la mejor combinaci√≥n
    plt.annotate(
        f"üíé Mejor oportunidad\n{max_barrio}, {max_precio}",
        xy=(max_idx[1], max_idx[0]),
        xytext=(max_idx[1] + 1.5, max_idx[0] - 1),
        fontsize=12,
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
        bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.7)
    )
    
    # A√±adir leyenda explicativa
    legend_text = """
    Este mapa muestra la puntuaci√≥n de oportunidad promedio para cada combinaci√≥n de barrio y rango de precio.
    ‚Ä¢ Valores m√°s altos (azul oscuro) indican mejores oportunidades de inversi√≥n.
    ‚Ä¢ Celdas vac√≠as o con valores bajos indican combinaciones menos atractivas.
    
    üí° Use esta visualizaci√≥n para identificar:
       ‚Ä¢ Rangos de precio √≥ptimos para cada barrio
       ‚Ä¢ Barrios con mejor desempe√±o general
       ‚Ä¢ Nichos de mercado con alto potencial
    """
    
    plt.figtext(0.5, 0.01, legend_text, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
    plt.show()
    
    # 4. VISUALIZACI√ìN MEJORADA: OPORTUNIDADES POR BARRIO Y N√öMERO DE HABITACIONES
    if 'bedrooms' in invest_df.columns:
        # Agrupar por barrio y n√∫mero de habitaciones
        room_data = invest_df.groupby([neighborhood_col, 'bedrooms'])['opportunity_score_normalized'].mean().reset_index()
        
        # Filtrar para habitaciones razonables (0-6)
        room_data = room_data[room_data['bedrooms'].between(0, 6)]
        
        # Crear tabla pivote
        room_pivot = room_data.pivot(index=neighborhood_col, columns='bedrooms', values='opportunity_score_normalized')
        
        # Seleccionar top barrios
        top_neighborhoods = neighborhood_opportunity.head(10)[neighborhood_col].tolist()
        room_pivot = room_pivot.loc[room_pivot.index.intersection(top_neighborhoods)]
        
        plt.figure(figsize=(15, 10))
        
        # Crear heatmap
        sns.heatmap(room_pivot, annot=True, fmt='.1f', cmap='YlGnBu', linewidths=.5)
        
        plt.title('üõèÔ∏è Oportunidades de Inversi√≥n por Barrio y N√∫mero de Habitaciones', 
                 fontweight='bold', fontsize=18)
        plt.xlabel('N√∫mero de Habitaciones', fontweight='bold')
        plt.ylabel('Barrio', fontweight='bold')
        
        # Anotar la mejor combinaci√≥n
        max_val = room_pivot.max().max()
        max_idx = np.unravel_index(room_pivot.values.argmax(), room_pivot.shape)
        max_barrio = room_pivot.index[max_idx[0]]
        max_rooms = room_pivot.columns[max_idx[1]]
        
        plt.annotate(
            f"üîù Mejor combinaci√≥n\n{max_barrio}, {max_rooms} habitaciones",
            xy=(max_idx[1], max_idx[0]),
            xytext=(max_idx[1] + 1, max_idx[0] + 0.5),
            fontsize=12,
            arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
            bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.8)
        )
        
        # A√±adir insight
        plt.figtext(0.5, 0.01, 
                   "üí° Este an√°lisis muestra qu√© tipo de propiedades (por n√∫mero de habitaciones) tienen mayor puntuaci√≥n de oportunidad en cada barrio.\n"
                   "Use esta informaci√≥n para identificar el tipo de propiedad √≥ptimo seg√∫n la zona de inversi√≥n.", 
                   ha='center', fontsize=13, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.tight_layout(rect=[0, 0.05, 1, 0.95])
        plt.show()
    
    # 5. VISUALIZACI√ìN: RENDIMIENTO DE INVERSI√ìN POR BARRIO
    # Calcular ROI estimado
    if 'price_float' in invest_df.columns and 'occupancy_rate' in invest_df.columns:
        # Estimar ingreso anual
        invest_df['estimated_annual_revenue'] = invest_df['price_float'] * 365 * invest_df['occupancy_rate']
        
        # Estimar precio de propiedad basado en barrio
        # Usar precios de propiedad aproximados por barrio (en euros)
        barrio_precios = {
            'Ciutat Vella': 4500,
            'Eixample': 5200,
            'Sants-Montju√Øc': 3700,
            'Les Corts': 5100,
            'Sarri√†-Sant Gervasi': 6300,
            'Gr√†cia': 4900,
            'Horta-Guinard√≥': 3500,
            'Nou Barris': 2800,
            'Sant Andreu': 3300,
            'Sant Mart√≠': 4200
        }
        
        # Crear funci√≥n para asignar precio por m2 seg√∫n barrio
        def get_price_per_m2(neighborhood):
            for distrito, precio in barrio_precios.items():
                if distrito in neighborhood:
                    return precio
            return 4000  # Valor promedio para Barcelona
        
        # Asignar precio por m2
        invest_df['price_per_m2'] = invest_df[neighborhood_col].apply(get_price_per_m2)
        
        # Estimar valor de propiedad (suponiendo 70m2 promedio)
        invest_df['estimated_property_value'] = invest_df['price_per_m2'] * 70
        
        # Calcular ROI bruto
        invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['estimated_property_value']) * 100
        
        # Agrupar por barrio
        roi_by_neighborhood = invest_df.groupby(neighborhood_col).agg({
            'estimated_roi': 'mean',
            'opportunity_score_normalized': 'mean',
            'price_per_m2': 'mean',
            'estimated_annual_revenue': 'mean',
            'id': 'count'
        }).reset_index()
        
        # Ordenar por ROI
        roi_by_neighborhood = roi_by_neighborhood.sort_values('estimated_roi', ascending=False)
        
        # Crear gr√°fico combinado
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
        
        # 1. Gr√°fico de barras para ROI
        bar_colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(roi_by_neighborhood.head(10))))
        bars = ax1.barh(roi_by_neighborhood.head(10)[neighborhood_col], 
                       roi_by_neighborhood.head(10)['estimated_roi'],
                       color=bar_colors)
        
        # A√±adir anotaciones
        for i, bar in enumerate(bars):
            # A√±adir valor de ROI
            ax1.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2, 
                    f"ROI: {roi_by_neighborhood.iloc[i]['estimated_roi']:.2f}%", 
                    va='center', fontweight='bold')
            
            # A√±adir informaci√≥n adicional debajo del nombre del barrio
            count = roi_by_neighborhood.iloc[i]['id']
            price = roi_by_neighborhood.iloc[i]['price_per_m2']
            ax1.text(0, bar.get_y() - 0.2, f"üè† {count} prop. | üí∂ {price:.0f}‚Ç¨/m¬≤", 
                    va='center', fontsize=9, alpha=0.7)
        
        ax1.set_title('üìä Rentabilidad Estimada por Barrio (Top 10)', fontweight='bold', fontsize=16)
        ax1.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax1.set_ylabel('Barrio', fontweight='bold')
        ax1.grid(axis='x', linestyle='--', alpha=0.7)
        
        # 2. Gr√°fico de dispersi√≥n: ROI vs Puntuaci√≥n de Oportunidad
        scatter = ax2.scatter(
            roi_by_neighborhood['estimated_roi'], 
            roi_by_neighborhood['opportunity_score_normalized'],
            s=roi_by_neighborhood['id'] * 2,  # Tama√±o seg√∫n n√∫mero de propiedades
            c=roi_by_neighborhood['price_per_m2'],  # Color seg√∫n precio por m2
            cmap='viridis',
            alpha=0.7
        )
        
        # A√±adir nombres de barrios
        for i, row in roi_by_neighborhood.iterrows():
            if row['estimated_roi'] > roi_by_neighborhood['estimated_roi'].quantile(0.75) or \
               row['opportunity_score_normalized'] > roi_by_neighborhood['opportunity_score_normalized'].quantile(0.75):
                ax2.annotate(
                    row[neighborhood_col],
                    (row['estimated_roi'], row['opportunity_score_normalized']),
                    xytext=(5, 5),
                    textcoords='offset points',
                    fontsize=10,
                    alpha=0.8
                )
        
        # A√±adir l√≠nea de tendencia
        x = roi_by_neighborhood['estimated_roi']
        y = roi_by_neighborhood['opportunity_score_normalized']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        ax2.plot(x, p(x), "r--", alpha=0.8)
        
        # Calcular correlaci√≥n
        corr = np.corrcoef(x, y)[0, 1]
        
        ax2.set_title(f'üîÑ ROI vs Puntuaci√≥n de Oportunidad\nCorrelaci√≥n: {corr:.2f}', 
                     fontweight='bold', fontsize=16)
        ax2.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
        ax2.grid(True, linestyle='--', alpha=0.7)
        
        # A√±adir colorbar para precio por m2
        cbar = plt.colorbar(scatter, ax=ax2)
        cbar.set_label('Precio por m¬≤ (‚Ç¨)', fontweight='bold')
        
        # A√±adir leyenda para el tama√±o de los puntos
        sizes = [10, 50, 100]
        labels = ['Pocas propiedades', 'Cantidad media', 'Muchas propiedades']
        
        # Crear puntos de leyenda
        legend_elements = []
        for size, label in zip(sizes, labels):
            legend_elements.append(plt.Line2D([0], [0], marker='o', color='w', 
                                             label=label, markerfacecolor='gray',
                                             markersize=np.sqrt(size)))
        
        ax2.legend(handles=legend_elements, title="N√∫mero de propiedades", 
                  loc='upper left', frameon=True)
        
        # A√±adir insight general
        plt.figtext(0.5, 0.01, 
                   "üí° INSIGHTS CLAVE PARA INVERSORES:\n"
                   f"1. La correlaci√≥n entre ROI y puntuaci√≥n de oportunidad es {corr:.2f}, lo que sugiere {'una fuerte relaci√≥n' if corr > 0.7 else 'una relaci√≥n moderada' if corr > 0.4 else 'que existen otros factores importantes'}.\n"
                   f"2. Los barrios √≥ptimos combinan alto ROI y alta puntuaci√≥n de oportunidad (cuadrante superior derecho).\n"
                   "3. El tama√±o de los c√≠rculos indica volumen de propiedades - barrios m√°s grandes ofrecen m√°s opciones para inversores.\n"
                   "4. Los colores indican precio por m¬≤ - tonos m√°s claros representan zonas m√°s caras.", 
                   ha='center', fontsize=12, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.suptitle('üí∞ An√°lisis de Rentabilidad de Inversi√≥n por Barrio', 
                    fontsize=20, fontweight='bold')
        
        plt.tight_layout(rect=[0, 0.08, 1, 0.95])
        plt.show()
    
    # 6. VISUALIZACI√ìN: RADAR CHART DE TOP 5 OPORTUNIDADES
    
    # Tomar las 5 mejores oportunidades
    top_5_neighborhoods = neighborhood_opportunity.head(5)[neighborhood_col].tolist()
    
    # Preparar datos para el radar chart
    radar_metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
                    'opportunity_score_normalized']
    
    # Calcular valores promedio para cada barrio y m√©trica
    radar_data = []
    for neighborhood in top_5_neighborhoods:
        neighborhood_data = invest_df[invest_df[neighborhood_col] == neighborhood]
        
        # Calcular promedios normalizados
        metric_avgs = {}
        for metric in radar_metrics:
            if metric in neighborhood_data.columns:
                # Normalizar a escala 0-1 para el radar chart
                if metric == 'opportunity_score_normalized':
                    metric_avgs[metric] = neighborhood_data[metric].mean() / 100
                                else:
                                    metric_avgs[metric] = neighborhood_data[metric].mean()
                        
                        radar_data.append({'neighborhood': neighborhood, **metric_avgs})
                    
                    # Crear radar chart
                    fig = plt.figure(figsize=(15, 10))
                    
                    # Definir las categor√≠as y colores
                    categories = ['Competitividad de Precio', 'Valoraciones', 'Ocupaci√≥n', 'Puntuaci√≥n Global']
                    N = len(categories)
                    
                    # Crear √°ngulos para el radar chart
                    angles = [n / float(N) * 2 * np.pi for n in range(N)]
                    angles += angles[:1]  # Cerrar el c√≠rculo
                    
                    # Crear subplots
                    ax = plt.subplot(111, polar=True)
                    
                    # Definir colores para cada barrio
                    colors = plt.cm.viridis(np.linspace(0, 1, len(top_5_neighborhoods)))
                    
                    # A√±adir cada barrio al radar chart
                    for i, neighborhood in enumerate(top_5_neighborhoods):
                        values = []
                        for metric, display_name in zip(radar_metrics, categories):
                            for item in radar_data:
                                if item['neighborhood'] == neighborhood:
                                    values.append(item[metric])
                        
                        # Cerrar el c√≠rculo repitiendo el primer valor
                        values += values[:1]
                        
                        # Dibujar el pol√≠gono y a√±adir leyenda
                        ax.plot(angles, values, linewidth=2, linestyle='solid', label=neighborhood, color=colors[i])
                        ax.fill(angles, values, alpha=0.1, color=colors[i])
                    
                    # Establecer categor√≠as
                    plt.xticks(angles[:-1], categories, size=12)
                    
                    # Establecer l√≠mites de los ejes
                    ax.set_ylim(0, 1)
                    
                    # A√±adir leyenda
                    plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1), frameon=True)
                    
                    # A√±adir t√≠tulo
                    plt.title('üéØ Comparativa de Top 5 Barrios por M√©tricas de Inversi√≥n', 
                             size=20, fontweight='bold', pad=20)
                    
                    # A√±adir explicaci√≥n
                    explanation = """
                    Este radar chart compara los 5 barrios con mayor puntuaci√≥n de oportunidad seg√∫n 4 m√©tricas clave:
                    ‚Ä¢ Competitividad de Precio: Relaci√≥n precio/valor en comparaci√≥n con el promedio del barrio
                    ‚Ä¢ Valoraciones: Puntuaciones medias normalizadas de los hu√©spedes
                    ‚Ä¢ Ocupaci√≥n: Tasa promedio de ocupaci√≥n estimada
                    ‚Ä¢ Puntuaci√≥n Global: Puntuaci√≥n combinada de oportunidad de inversi√≥n
                    
                    üí° Barrios con mayor √°rea en el radar representan mejores oportunidades globales de inversi√≥n.
                    """
                    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
                               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
                    
                    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
                    plt.show()
                
                except NameError:
                    print("‚ùå Este an√°lisis requiere los datos de inversi√≥n que a√∫n no han sido generados.")
                    print("‚ö†Ô∏è Ejecute primero la celda que genera 'investment_df' y 'neighborhood_opportunity'.")

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Verificar si tenemos datos de investment_df
try:
    # Usar una copia para no modificar el original
    invest_df = investment_df.copy()
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    plt.figure(figsize=(16, 10))
    
    # Ordenar por puntuaci√≥n de oportunidad
    top_neighborhoods = neighborhood_opportunity.head(15).copy()
    
    # Crear barra horizontal con degradado de color seg√∫n puntuaci√≥n
    cmap = LinearSegmentedColormap.from_list('custom_viridis', 
                                            ['#440154', '#3b528b', '#21918c', '#5ec962', '#fde725'], 
                                            N=256)
    
    # Normalizar colores seg√∫n puntuaci√≥n
    norm = plt.Normalize(top_neighborhoods['opportunity_score_normalized'].min(), 
                       top_neighborhoods['opportunity_score_normalized'].max())
    
    # Crear barras con colores gradientes
    bars = plt.barh(top_neighborhoods[neighborhood_col], 
                   top_neighborhoods['opportunity_score_normalized'],
                   color=cmap(norm(top_neighborhoods['opportunity_score_normalized'])))
    
    # A√±adir etiquetas con iconos en las barras
    for i, (index, row) in enumerate(top_neighborhoods.iterrows()):
        # Contar propiedades en este barrio
        count = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]].shape[0]
        # Precio promedio en este barrio
        avg_price = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]]['price_float'].mean()
        
        # Icono seg√∫n nivel de oportunidad
        if row['opportunity_score_normalized'] >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif row['opportunity_score_normalized'] >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif row['opportunity_score_normalized'] >= 60:
            icon = "üí∞"  # Buena oportunidad
        elif row['opportunity_score_normalized'] >= 50:
            icon = "üìà"  # Oportunidad razonable
        else:
            icon = "‚ö†Ô∏è"  # Oportunidad limitada
        
        # A√±adir puntuaci√≥n con icono
        score_text = plt.text(row['opportunity_score_normalized'] + 0.5, i, 
                             f"{icon} {row['opportunity_score_normalized']:.1f}",
                             va='center', ha='left', fontweight='bold', fontsize=14)
        
        # A√±adir sombra para mejorar legibilidad
        score_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
        
        # A√±adir informaci√≥n adicional debajo del nombre del barrio
        plt.text(0, i - 0.25, f"üè† {count} propiedades | üí≤ {avg_price:.0f}‚Ç¨", 
                va='center', ha='left', fontsize=10, alpha=0.7)
    
    # A√±adir t√≠tulo y etiquetas con estilo
    plt.title('üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # Ajustar l√≠mites del eje x para dejar espacio para etiquetas
    plt.xlim(0, top_neighborhoods['opportunity_score_normalized'].max() * 1.3)
    
    # A√±adir anotaci√≥n explicativa
    explanation = """
    La puntuaci√≥n de oportunidad combina:
    ‚Ä¢ 40% Competitividad de precio (precio vs. promedio del barrio)
    ‚Ä¢ 30% Valoraciones de hu√©spedes (normalizada a 0-1)
    ‚Ä¢ 30% Tasa de ocupaci√≥n estimada
    
    üåü: Oportunidad excepcional  |  ‚≠ê: Muy buena  |  üí∞: Buena  |  üìà: Razonable  |  ‚ö†Ô∏è: Limitada
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
    # 2. VISUALIZACI√ìN MEJORADA: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    # Preparar datos para scatter plot
    scatter_data = invest_df[invest_df['opportunity_score_normalized'].notna()].sample(min(1000, len(invest_df)))
    
    # Calcular correlaciones para mostrar en el gr√°fico
    corr_price = pearsonr(scatter_data['price_competitiveness'], 
                         scatter_data['opportunity_score_normalized'])[0]
    corr_review = pearsonr(scatter_data['review_score_normalized'], 
                          scatter_data['opportunity_score_normalized'])[0]
    corr_occ = pearsonr(scatter_data['occupancy_rate'], 
                       scatter_data['opportunity_score_normalized'])[0]
    
    fig = plt.figure(figsize=(20, 10))
    gs = GridSpec(2, 3, figure=fig, height_ratios=[4, 1])
    
    # Subplot 1: Competitividad de precio vs Oportunidad
    ax1 = fig.add_subplot(gs[0, 0])
    sns.scatterplot(x='price_competitiveness', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax1)
    
    ax1.set_title(f'üí≤ Competitividad de Precio vs Oportunidad\nCorrelaci√≥n: {corr_price:.2f}', 
                 fontweight='bold')
    ax1.set_xlabel('Competitividad de Precio')
    ax1.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['price_competitiveness']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax1.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 2: Valoraciones vs Oportunidad
    ax2 = fig.add_subplot(gs[0, 1])
    sns.scatterplot(x='review_score_normalized', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax2)
    
    ax2.set_title(f'‚≠ê Valoraciones vs Oportunidad\nCorrelaci√≥n: {corr_review:.2f}', 
                 fontweight='bold')
    ax2.set_xlabel('Valoraci√≥n Normalizada')
    ax2.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['review_score_normalized']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax2.plot(x, p(x), "r--", alpha=0.8)
    
    # Subplot 3: Ocupaci√≥n vs Oportunidad
    ax3 = fig.add_subplot(gs[0, 2])
    sns.scatterplot(x='occupancy_rate', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax3)
    
    ax3.set_title(f'üìÖ Ocupaci√≥n vs Oportunidad\nCorrelaci√≥n: {corr_occ:.2f}', 
                 fontweight='bold')
    ax3.set_xlabel('Tasa de Ocupaci√≥n')
    ax3.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['occupancy_rate']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax3.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir panel de insights en la parte inferior
    ax_insights = fig.add_subplot(gs[1, :])
    ax_insights.axis('off')  # Ocultar ejes
    
    # Texto de insights basado en correlaciones
    insights_text = """
    üìä INSIGHTS CLAVE SOBRE FACTORES DE OPORTUNIDAD DE INVERSI√ìN:
    
    üîπ COMPETITIVIDAD DE PRECIO: {price_insight}
    
    üîπ VALORACIONES: {review_insight}
    
    üîπ OCUPACI√ìN: {occ_insight}
    
    ‚úÖ RECOMENDACI√ìN: {recommendation}
    """.format(
        price_insight = "Fuerte correlaci√≥n positiva. Propiedades con mejor relaci√≥n precio/valor de barrio tienen mayor potencial." if corr_price > 0.5 else 
                       "Correlaci√≥n moderada. El precio competitivo es importante pero no determinante." if corr_price > 0.3 else
                       "Correlaci√≥n d√©bil. Otros factores tienen mayor peso en la oportunidad.",
        
        review_insight = "Impacto significativo. Las valoraciones altas son clave para maximizar el potencial." if corr_review > 0.5 else
                        "Influencia moderada. Mantener buenas valoraciones mejora el potencial de inversi√≥n." if corr_review > 0.3 else
                        "Influencia limitada. Las valoraciones tienen menor impacto que otros factores.",
        
        occ_insight = "Factor cr√≠tico. Alta ocupaci√≥n es determinante para identificar oportunidades de inversi√≥n." if corr_occ > 0.5 else
                     "Factor importante. La ocupaci√≥n consistente contribuye al potencial de inversi√≥n." if corr_occ > 0.3 else
                     "Factor secundario. La ocupaci√≥n tiene menos influencia que lo esperado.",
        
        recommendation = "Priorizar propiedades con precios competitivos en barrios de alta demanda y ocupaci√≥n." if corr_price > corr_review and corr_price > corr_occ else
                        "Enfocarse en propiedades con excelentes valoraciones, ubicadas en barrios populares." if corr_review > corr_price and corr_review > corr_occ else
                        "Buscar propiedades en barrios con alta ocupaci√≥n consistente, independientemente del precio."
    )
    
    ax_insights.text(0.5, 0.5, insights_text, ha='center', va='center', 
                    bbox=dict(facecolor='#f0f8ff', edgecolor='#4682b4', boxstyle='round,pad=0.7'))
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.suptitle('üîç An√°lisis de Componentes de la Puntuaci√≥n de Oportunidad', 
                fontsize=20, fontweight='bold', y=1.02)
    plt.show()
    
    # 3. VISUALIZACI√ìN MEJORADA: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Preparar datos para el mapa de calor
    # Categorizar precios
    invest_df['price_category'] = pd.cut(
        invest_df['price_float'], 
        bins=[0, 50, 100, 150, 200, 1000],
        labels=['< 50‚Ç¨', '50-100‚Ç¨', '100-150‚Ç¨', '150-200‚Ç¨', '> 200‚Ç¨']
    )
    
    # Crear tabla pivote
    heatmap_data = invest_df.pivot_table(
        values='opportunity_score_normalized',
        index=neighborhood_col,
        columns='price_category',
        aggfunc='mean'
    ).fillna(0)
    
    # Filtrar para mostrar solo los barrios con m√°s datos
    min_properties = 5  # M√≠nimo de propiedades para incluir el barrio
    neighborhood_counts = invest_df[neighborhood_col].value_counts()
    valid_neighborhoods = neighborhood_counts[neighborhood_counts >= min_properties].index
    
    # Filtrar heatmap_data para incluir solo barrios con suficientes datos
    heatmap_data = heatmap_data.loc[heatmap_data.index.intersection(valid_neighborhoods)]
    
    # Ordenar por puntuaci√≥n promedio
    heatmap_data['avg_score'] = heatmap_data.mean(axis=1)
    heatmap_data = heatmap_data.sort_values('avg_score', ascending=False).head(15)
    heatmap_data = heatmap_data.drop('avg_score', axis=1)
    
    plt.figure(figsize=(16, 12))
    
    # Definir paleta personalizada para el heatmap
    heatmap_cmap = LinearSegmentedColormap.from_list(
        'opportunity_cmap', 
        ['#f7fbff', '#deebf7', '#c6dbef', '#9ecae1', '#6baed6', '#4292c6', '#2171b5', '#08519c', '#08306b']
    )
    
    ax = sns.heatmap(heatmap_data, annot=True, fmt='.1f', linewidths=.5,
                    cmap=heatmap_cmap, cbar_kws={'label': 'Puntuaci√≥n de Oportunidad'})
    
    # A√±adir t√≠tulo y etiquetas
    plt.title('üó∫Ô∏è Mapa de Calor de Oportunidades de Inversi√≥n\npor Barrio y Rango de Precio', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Rango de Precio por Noche', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # A√±adir anotaciones para ayudar a interpretar
    # Encontrar la celda con mayor puntuaci√≥n
    max_val = heatmap_data.max().max()
    max_idx = np.unravel_index(heatmap_data.values.argmax(), heatmap_data.shape)
    max_barrio = heatmap_data.index[max_idx[0]]
    max_precio = heatmap_data.columns[max_idx[1]]
    
    # Anotar la mejor combinaci√≥n
    plt.annotate(
        f"üíé Mejor oportunidad\n{max_barrio}, {max_precio}",
        xy=(max_idx[1], max_idx[0]),
        xytext=(max_idx[1] + 1.5, max_idx[0] - 1),
        fontsize=12,
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
        bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.7)
    )
    
    # A√±adir leyenda explicativa
    legend_text = """
    Este mapa muestra la puntuaci√≥n de oportunidad promedio para cada combinaci√≥n de barrio y rango de precio.
    ‚Ä¢ Valores m√°s altos (azul oscuro) indican mejores oportunidades de inversi√≥n.
    ‚Ä¢ Celdas vac√≠as o con valores bajos indican combinaciones menos atractivas.
    
    üí° Use esta visualizaci√≥n para identificar:
       ‚Ä¢ Rangos de precio √≥ptimos para cada barrio
       ‚Ä¢ Barrios con mejor desempe√±o general
       ‚Ä¢ Nichos de mercado con alto potencial
    """
    
    plt.figtext(0.5, 0.01, legend_text, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
    plt.show()
    
    # 4. VISUALIZACI√ìN MEJORADA: OPORTUNIDADES POR BARRIO Y N√öMERO DE HABITACIONES
    if 'bedrooms' in invest_df.columns:
        # Agrupar por barrio y n√∫mero de habitaciones
        room_data = invest_df.groupby([neighborhood_col, 'bedrooms'])['opportunity_score_normalized'].mean().reset_index()
        
        # Filtrar para habitaciones razonables (0-6)
        room_data = room_data[room_data['bedrooms'].between(0, 6)]
        
        # Crear tabla pivote
        room_pivot = room_data.pivot(index=neighborhood_col, columns='bedrooms', values='opportunity_score_normalized')
        
        # Seleccionar top barrios
        top_neighborhoods = neighborhood_opportunity.head(10)[neighborhood_col].tolist()
        room_pivot = room_pivot.loc[room_pivot.index.intersection(top_neighborhoods)]
        
        plt.figure(figsize=(15, 10))
        
        # Crear heatmap
        sns.heatmap(room_pivot, annot=True, fmt='.1f', cmap='YlGnBu', linewidths=.5)
        
        plt.title('üõèÔ∏è Oportunidades de Inversi√≥n por Barrio y N√∫mero de Habitaciones', 
                 fontweight='bold', fontsize=18)
        plt.xlabel('N√∫mero de Habitaciones', fontweight='bold')
        plt.ylabel('Barrio', fontweight='bold')
        
        # Anotar la mejor combinaci√≥n
        max_val = room_pivot.max().max()
        max_idx = np.unravel_index(room_pivot.values.argmax(), room_pivot.shape)
        max_barrio = room_pivot.index[max_idx[0]]
        max_rooms = room_pivot.columns[max_idx[1]]
        
        plt.annotate(
            f"üîù Mejor combinaci√≥n\n{max_barrio}, {max_rooms} habitaciones",
            xy=(max_idx[1], max_idx[0]),
            xytext=(max_idx[1] + 1, max_idx[0] + 0.5),
            fontsize=12,
            arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
            bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.8)
        )
        
        # A√±adir insight
        plt.figtext(0.5, 0.01, 
                   "üí° Este an√°lisis muestra qu√© tipo de propiedades (por n√∫mero de habitaciones) tienen mayor puntuaci√≥n de oportunidad en cada barrio.\n"
                   "Use esta informaci√≥n para identificar el tipo de propiedad √≥ptimo seg√∫n la zona de inversi√≥n.", 
                   ha='center', fontsize=13, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.tight_layout(rect=[0, 0.05, 1, 0.95])
        plt.show()
    
    # 5. VISUALIZACI√ìN: RENDIMIENTO DE INVERSI√ìN POR BARRIO
    # Calcular ROI estimado
    if 'price_float' in invest_df.columns and 'occupancy_rate' in invest_df.columns:
        # Estimar ingreso anual
        invest_df['estimated_annual_revenue'] = invest_df['price_float'] * 365 * invest_df['occupancy_rate']
        
        # Estimar precio de propiedad basado en barrio
        # Usar precios de propiedad aproximados por barrio (en euros)
        barrio_precios = {
            'Ciutat Vella': 4500,
            'Eixample': 5200,
            'Sants-Montju√Øc': 3700,
            'Les Corts': 5100,
            'Sarri√†-Sant Gervasi': 6300,
            'Gr√†cia': 4900,
            'Horta-Guinard√≥': 3500,
            'Nou Barris': 2800,
            'Sant Andreu': 3300,
            'Sant Mart√≠': 4200
        }
        
        # Crear funci√≥n para asignar precio por m2 seg√∫n barrio
        def get_price_per_m2(neighborhood):
            for distrito, precio in barrio_precios.items():
                if distrito in neighborhood:
                    return precio
            return 4000  # Valor promedio para Barcelona
        
        # Asignar precio por m2
        invest_df['price_per_m2'] = invest_df[neighborhood_col].apply(get_price_per_m2)
        
        # Estimar valor de propiedad (suponiendo 70m2 promedio)
        invest_df['estimated_property_value'] = invest_df['price_per_m2'] * 70
        
        # Calcular ROI bruto
        invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['estimated_property_value']) * 100
        
        # Agrupar por barrio
        roi_by_neighborhood = invest_df.groupby(neighborhood_col).agg({
            'estimated_roi': 'mean',
            'opportunity_score_normalized': 'mean',
            'price_per_m2': 'mean',
            'estimated_annual_revenue': 'mean',
            'id': 'count'
        }).reset_index()
        
        # Ordenar por ROI
        roi_by_neighborhood = roi_by_neighborhood.sort_values('estimated_roi', ascending=False)
        
        # Crear gr√°fico combinado
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
        
        # 1. Gr√°fico de barras para ROI
        bar_colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(roi_by_neighborhood.head(10))))
        bars = ax1.barh(roi_by_neighborhood.head(10)[neighborhood_col], 
                       roi_by_neighborhood.head(10)['estimated_roi'],
                       color=bar_colors)
        
        # A√±adir anotaciones
        for i, bar in enumerate(bars):
            # A√±adir valor de ROI
            ax1.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2, 
                    f"ROI: {roi_by_neighborhood.iloc[i]['estimated_roi']:.2f}%", 
                    va='center', fontweight='bold')
            
            # A√±adir informaci√≥n adicional debajo del nombre del barrio
            count = roi_by_neighborhood.iloc[i]['id']
            price = roi_by_neighborhood.iloc[i]['price_per_m2']
            ax1.text(0, bar.get_y() - 0.2, f"üè† {count} prop. | üí∂ {price:.0f}‚Ç¨/m¬≤", 
                    va='center', fontsize=9, alpha=0.7)
        
        ax1.set_title('üìä Rentabilidad Estimada por Barrio (Top 10)', fontweight='bold', fontsize=16)
        ax1.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax1.set_ylabel('Barrio', fontweight='bold')
        ax1.grid(axis='x', linestyle='--', alpha=0.7)
        
        # 2. Gr√°fico de dispersi√≥n: ROI vs Puntuaci√≥n de Oportunidad
        scatter = ax2.scatter(
            roi_by_neighborhood['estimated_roi'], 
            roi_by_neighborhood['opportunity_score_normalized'],
            s=roi_by_neighborhood['id'] * 2,  # Tama√±o seg√∫n n√∫mero de propiedades
            c=roi_by_neighborhood['price_per_m2'],  # Color seg√∫n precio por m2
            cmap='viridis',
            alpha=0.7
        )
        
        # A√±adir nombres de barrios
        for i, row in roi_by_neighborhood.iterrows():
            if row['estimated_roi'] > roi_by_neighborhood['estimated_roi'].quantile(0.75) or \
               row['opportunity_score_normalized'] > roi_by_neighborhood['opportunity_score_normalized'].quantile(0.75):
                ax2.annotate(
                    row[neighborhood_col],
                    (row['estimated_roi'], row['opportunity_score_normalized']),
                    xytext=(5, 5),
                    textcoords='offset points',
                    fontsize=10,
                    alpha=0.8
                )
        
        # A√±adir l√≠nea de tendencia
        x = roi_by_neighborhood['estimated_roi']
        y = roi_by_neighborhood['opportunity_score_normalized']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        ax2.plot(x, p(x), "r--", alpha=0.8)
        
        # Calcular correlaci√≥n
        corr = np.corrcoef(x, y)[0, 1]
        
        ax2.set_title(f'üîÑ ROI vs Puntuaci√≥n de Oportunidad\nCorrelaci√≥n: {corr:.2f}', 
                     fontweight='bold', fontsize=16)
        ax2.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
        ax2.grid(True, linestyle='--', alpha=0.7)
        
        # A√±adir colorbar para precio por m2
        cbar = plt.colorbar(scatter, ax=ax2)
        cbar.set_label('Precio por m¬≤ (‚Ç¨)', fontweight='bold')
        
        # A√±adir leyenda para el tama√±o de los puntos
        sizes = [10, 50, 100]
        labels = ['Pocas propiedades', 'Cantidad media', 'Muchas propiedades']
        
        # Crear puntos de leyenda
        legend_elements = []
        for size, label in zip(sizes, labels):
            legend_elements.append(plt.Line2D([0], [0], marker='o', color='w', 
                                             label=label, markerfacecolor='gray',
                                             markersize=np.sqrt(size)))
        
        ax2.legend(handles=legend_elements, title="N√∫mero de propiedades", 
                  loc='upper left', frameon=True)
        
        # A√±adir insight general
        plt.figtext(0.5, 0.01, 
                   "üí° INSIGHTS CLAVE PARA INVERSORES:\n"
                   f"1. La correlaci√≥n entre ROI y puntuaci√≥n de oportunidad es {corr:.2f}, lo que sugiere {'una fuerte relaci√≥n' if corr > 0.7 else 'una relaci√≥n moderada' if corr > 0.4 else 'que existen otros factores importantes'}.\n"
                   f"2. Los barrios √≥ptimos combinan alto ROI y alta puntuaci√≥n de oportunidad (cuadrante superior derecho).\n"
                   "3. El tama√±o de los c√≠rculos indica volumen de propiedades - barrios m√°s grandes ofrecen m√°s opciones para inversores.\n"
                   "4. Los colores indican precio por m¬≤ - tonos m√°s claros representan zonas m√°s caras.", 
                   ha='center', fontsize=12, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.suptitle('üí∞ An√°lisis de Rentabilidad de Inversi√≥n por Barrio', 
                    fontsize=20, fontweight='bold')
        
        plt.tight_layout(rect=[0, 0.08, 1, 0.95])
        plt.show()
    
    # 6. VISUALIZACI√ìN: RADAR CHART DE TOP 5 OPORTUNIDADES
    
    # Tomar las 5 mejores oportunidades
    top_5_neighborhoods = neighborhood_opportunity.head(5)[neighborhood_col].tolist()
    
    # Preparar datos para el radar chart
    radar_metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
                   'opportunity_score_normalized']
    
    # Calcular valores promedio para cada barrio y m√©trica
    radar_data = []
    for neighborhood in top_5_neighborhoods:
        neighborhood_data = invest_df[invest_df[neighborhood_col] == neighborhood]
        
        # Calcular promedios normalizados
        metric_avgs = {}
        for metric in radar_metrics:
            if metric in neighborhood_data.columns:
                # Normalizar a escala 0-1 para el radar chart
                if metric == 'opportunity_score_normalized':
                    metric_avgs[metric] = neighborhood_data[metric].mean() / 100
                else:
                    metric_avgs[metric] = neighborhood_data[metric].mean()
        
        radar_data.append({'neighborhood': neighborhood, **metric_avgs})
    
    # Crear radar chart
    fig = plt.figure(figsize=(15, 10))
    
    # Definir las categor√≠as y colores
    categories = ['Competitividad de Precio', 'Valoraciones', 'Ocupaci√≥n', 'Puntuaci√≥n Global']
    N = len(categories)
    
    # Crear √°ngulos para el radar chart
    angles = [n / float(N) * 2 * np.pi for n in range(N)]
    angles += angles[:1]  # Cerrar el c√≠rculo
    
    # Crear subplots
    ax = plt.subplot(111, polar=True)
    
    # Definir colores para cada barrio
    colors = plt.cm.viridis(np.linspace(0, 1, len(top_5_neighborhoods)))
    
    # A√±adir cada barrio al radar chart
    for i, neighborhood in enumerate(top_5_neighborhoods):
        values = []
        for metric, display_name in zip(radar_metrics, categories):
            for item in radar_data:
                if item['neighborhood'] == neighborhood:
                    values.append(item[metric])
        
        # Cerrar el c√≠rculo repitiendo el primer valor
        values += values[:1]
        
        # Dibujar el pol√≠gono y a√±adir leyenda
        ax.plot(angles, values, linewidth=2, linestyle='solid', label=neighborhood, color=colors[i])
        ax.fill(angles, values, alpha=0.1, color=colors[i])
    
    # Establecer categor√≠as
    plt.xticks(angles[:-1], categories, size=12)
    
    # Establecer l√≠mites de los ejes
    ax.set_ylim(0, 1)
    
    # A√±adir leyenda
    plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1), frameon=True)
    
    # A√±adir t√≠tulo
    plt.title('üéØ Comparativa de Top 5 Barrios por M√©tricas de Inversi√≥n', 
             size=20, fontweight='bold', pad=20)
    
    # A√±adir explicaci√≥n
    explanation = """
    Este radar chart compara los 5 barrios con mayor puntuaci√≥n de oportunidad seg√∫n 4 m√©tricas clave:
    ‚Ä¢ Competitividad de Precio: Relaci√≥n precio/valor en comparaci√≥n con el promedio del barrio
    ‚Ä¢ Valoraciones: Puntuaciones medias normalizadas de los hu√©spedes
    ‚Ä¢ Ocupaci√≥n: Tasa promedio de ocupaci√≥n estimada
    ‚Ä¢ Puntuaci√≥n Global: Puntuaci√≥n combinada de oportunidad de inversi√≥n
    
    üí° Barrios con mayor √°rea en el radar representan mejores oportunidades globales de inversi√≥n.
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
    plt.show()

except NameError:
    print("‚ùå Este an√°lisis requiere los datos de inversi√≥n que a√∫n no han sido generados.")
    print("‚ö†Ô∏è Ejecute primero la celda que genera 'investment_df' y 'neighborhood_opportunity'.")

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

# Verificar si tenemos datos de investment_df
try:
    # Usar una copia para no modificar el original
    invest_df = investment_df.copy()
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    plt.figure(figsize=(18, 12))  # Aumentado para dar m√°s espacio
    
    # Ordenar por puntuaci√≥n de oportunidad
    top_neighborhoods = neighborhood_opportunity.head(15).copy()
    
    # Crear barra horizontal con degradado de color seg√∫n puntuaci√≥n
    cmap = LinearSegmentedColormap.from_list('custom_viridis', 
                                            ['#440154', '#3b528b', '#21918c', '#5ec962', '#fde725'], 
                                            N=256)
    
    # Normalizar colores seg√∫n puntuaci√≥n
    norm = plt.Normalize(top_neighborhoods['opportunity_score_normalized'].min(), 
                       top_neighborhoods['opportunity_score_normalized'].max())
    
    # Crear barras con colores gradientes
    bars = plt.barh(top_neighborhoods[neighborhood_col], 
                   top_neighborhoods['opportunity_score_normalized'],
                   color=cmap(norm(top_neighborhoods['opportunity_score_normalized'])))
    
    # A√±adir etiquetas con iconos en las barras
    for i, (index, row) in enumerate(top_neighborhoods.iterrows()):
        # Contar propiedades en este barrio
        count = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]].shape[0]
        # Precio promedio en este barrio
        avg_price = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]]['price_float'].mean()
        
        # Icono seg√∫n nivel de oportunidad
        if row['opportunity_score_normalized'] >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif row['opportunity_score_normalized'] >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif row['opportunity_score_normalized'] >= 60:
            icon = "üí∞"  # Buena oportunidad
        elif row['opportunity_score_normalized'] >= 50:
            icon = "üìà"  # Oportunidad razonable
        else:
            icon = "‚ö†Ô∏è"  # Oportunidad limitada
        
        # A√±adir puntuaci√≥n con icono - MEJORADO: contraste y visibilidad
        score_text = plt.text(row['opportunity_score_normalized'] + 0.5, i, 
                             f"{icon} {row['opportunity_score_normalized']:.1f}",
                             va='center', ha='left', fontweight='bold', fontsize=14,
                             color='darkblue')  # Color m√°s visible
        
        # A√±adir sombra para mejorar legibilidad
        score_text.set_path_effects([PathEffects.withStroke(linewidth=4, foreground='white')])
        
        # A√±adir informaci√≥n adicional debajo del nombre del barrio - MEJORADO: contraste
        info_text = plt.text(0, i - 0.25, f"üè† {count} propiedades | üí≤ {avg_price:.0f}‚Ç¨", 
                va='center', ha='left', fontsize=11, color='black', fontweight='bold')
        info_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
    
    # A√±adir t√≠tulo y etiquetas con estilo
    plt.title('üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # Ajustar l√≠mites del eje x para dejar espacio para etiquetas
    plt.xlim(0, top_neighborhoods['opportunity_score_normalized'].max() * 1.4)  # M√°s espacio
    
    # Crear leyenda explicativa con iconos - REPOSICIONADA para no tapar datos
    legend_elements = [
        mpatches.Patch(color='none', label='üåü Oportunidad excepcional (‚â•80)'),
        mpatches.Patch(color='none', label='‚≠ê Muy buena oportunidad (‚â•70)'),
        mpatches.Patch(color='none', label='üí∞ Buena oportunidad (‚â•60)'),
        mpatches.Patch(color='none', label='üìà Oportunidad razonable (‚â•50)'),
        mpatches.Patch(color='none', label='‚ö†Ô∏è Oportunidad limitada (<50)')
    ]
    
    plt.legend(handles=legend_elements, loc='upper right',  # Cambiado a upper right
              title="Categor√≠as de Oportunidad", framealpha=0.9)
    
    # A√±adir anotaci√≥n explicativa - REPOSICIONADA
    explanation = """
    La puntuaci√≥n de oportunidad combina:
    ‚Ä¢ 40% Competitividad de precio (precio vs. promedio del barrio)
    ‚Ä¢ 30% Valoraciones de hu√©spedes (normalizada a 0-1)
    ‚Ä¢ 30% Tasa de ocupaci√≥n estimada
    """
    plt.figtext(0.75, 0.30, explanation, ha='left', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
    # 2. VISUALIZACI√ìN MEJORADA: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    # Preparar datos para scatter plot
    scatter_data = invest_df[invest_df['opportunity_score_normalized'].notna()].sample(min(1000, len(invest_df)))
    
    # Calcular correlaciones para mostrar en el gr√°fico
    corr_price = pearsonr(scatter_data['price_competitiveness'], 
                         scatter_data['opportunity_score_normalized'])[0]
    corr_review = pearsonr(scatter_data['review_score_normalized'], 
                          scatter_data['opportunity_score_normalized'])[0]
    corr_occ = pearsonr(scatter_data['occupancy_rate'], 
                       scatter_data['opportunity_score_normalized'])[0]
    
    fig = plt.figure(figsize=(20, 10))
    gs = GridSpec(2, 3, figure=fig, height_ratios=[4, 1])
    
    # Subplot 1: Competitividad de precio vs Oportunidad
    ax1 = fig.add_subplot(gs[0, 0])
    scatter1 = sns.scatterplot(x='price_competitiveness', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax1)
    
    # A√±adir icono al t√≠tulo - MEJORADO: tama√±o de fuente aumentado
    ax1.set_title(f'üí≤ Competitividad de Precio vs Oportunidad\nCorrelaci√≥n: {corr_price:.2f}', 
                 fontweight='bold', fontsize=14)
    ax1.set_xlabel('Competitividad de Precio')
    ax1.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['price_competitiveness']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax1.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir categor√≠as con iconos
    ax1.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax1.transAxes, 
             fontweight='bold', va='top', ha='left')
    ax1.text(0.05, 0.90, "üí≤ Alta: >0.7", transform=ax1.transAxes, 
             va='top', ha='left')
    ax1.text(0.05, 0.85, "üí± Media: 0.4-0.7", transform=ax1.transAxes, 
             va='top', ha='left')
    ax1.text(0.05, 0.80, "üí∏ Baja: <0.4", transform=ax1.transAxes, 
             va='top', ha='left')
    
    # Subplot 2: Valoraciones vs Oportunidad
    ax2 = fig.add_subplot(gs[0, 1])
    scatter2 = sns.scatterplot(x='review_score_normalized', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax2)
    
    # A√±adir icono al t√≠tulo
    ax2.set_title(f'‚≠ê Valoraciones vs Oportunidad\nCorrelaci√≥n: {corr_review:.2f}', 
                 fontweight='bold', fontsize=14)
    ax2.set_xlabel('Valoraci√≥n Normalizada')
    ax2.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['review_score_normalized']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax2.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir categor√≠as con iconos
    ax2.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax2.transAxes, 
             fontweight='bold', va='top', ha='left')
    ax2.text(0.05, 0.90, "‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Alta: >0.8", transform=ax2.transAxes, 
             va='top', ha='left')
    ax2.text(0.05, 0.85, "‚≠ê‚≠ê‚≠ê‚≠ê Media: 0.6-0.8", transform=ax2.transAxes, 
             va='top', ha='left')
    ax2.text(0.05, 0.80, "‚≠ê‚≠ê‚≠ê Baja: <0.6", transform=ax2.transAxes, 
             va='top', ha='left')
    
    # Subplot 3: Ocupaci√≥n vs Oportunidad
    ax3 = fig.add_subplot(gs[0, 2])
    scatter3 = sns.scatterplot(x='occupancy_rate', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.6, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax3)
    
    # A√±adir icono al t√≠tulo
    ax3.set_title(f'üìÖ Ocupaci√≥n vs Oportunidad\nCorrelaci√≥n: {corr_occ:.2f}', 
                 fontweight='bold', fontsize=14)
    ax3.set_xlabel('Tasa de Ocupaci√≥n')
    ax3.set_ylabel('Puntuaci√≥n de Oportunidad')
    
    # A√±adir l√≠nea de tendencia
    x = scatter_data['occupancy_rate']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax3.plot(x, p(x), "r--", alpha=0.8)
    
    # A√±adir categor√≠as con iconos
    ax3.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax3.transAxes, 
             fontweight='bold', va='top', ha='left')
    ax3.text(0.05, 0.90, "üìÖüìÖüìÖ Alta: >0.7", transform=ax3.transAxes, 
             va='top', ha='left')
    ax3.text(0.05, 0.85, "üìÖüìÖ Media: 0.5-0.7", transform=ax3.transAxes, 
             va='top', ha='left')
    ax3.text(0.05, 0.80, "üìÖ Baja: <0.5", transform=ax3.transAxes, 
             va='top', ha='left')
    
    # A√±adir panel de insights en la parte inferior
    ax_insights = fig.add_subplot(gs[1, :])
    ax_insights.axis('off')  # Ocultar ejes
    
    # Iconos para insights
    if corr_price > 0.5:
        price_icon = "üî∫"
    elif corr_price > 0.3:
        price_icon = "‚û°Ô∏è"
    else:
        price_icon = "üîª"
        
    if corr_review > 0.5:
        review_icon = "üî∫"
    elif corr_review > 0.3:
        review_icon = "‚û°Ô∏è"
    else:
        review_icon = "üîª"
        
    if corr_occ > 0.5:
        occ_icon = "üî∫"
    elif corr_occ > 0.3:
        occ_icon = "‚û°Ô∏è"
    else:
        occ_icon = "üîª"
    
    # Texto de insights basado en correlaciones con iconos
    insights_text = """
    üìä INSIGHTS CLAVE SOBRE FACTORES DE OPORTUNIDAD DE INVERSI√ìN:
    
    üîπ COMPETITIVIDAD DE PRECIO: {price_icon} {price_insight}
    
    üîπ VALORACIONES: {review_icon} {review_insight}
    
    üîπ OCUPACI√ìN: {occ_icon} {occ_insight}
    
    ‚úÖ RECOMENDACI√ìN: {recommendation}
    """.format(
        price_icon = price_icon,
        price_insight = "Fuerte correlaci√≥n positiva. Propiedades con mejor relaci√≥n precio/valor de barrio tienen mayor potencial." if corr_price > 0.5 else 
                       "Correlaci√≥n moderada. El precio competitivo es importante pero no determinante." if corr_price > 0.3 else
                       "Correlaci√≥n d√©bil. Otros factores tienen mayor peso en la oportunidad.",
        
        review_icon = review_icon,
        review_insight = "Impacto significativo. Las valoraciones altas son clave para maximizar el potencial." if corr_review > 0.5 else
                        "Influencia moderada. Mantener buenas valoraciones mejora el potencial de inversi√≥n." if corr_review > 0.3 else
                        "Influencia limitada. Las valoraciones tienen menor impacto que otros factores.",
        
        occ_icon = occ_icon,
        occ_insight = "Factor cr√≠tico. Alta ocupaci√≥n es determinante para identificar oportunidades de inversi√≥n." if corr_occ > 0.5 else
                     "Factor importante. La ocupaci√≥n consistente contribuye al potencial de inversi√≥n." if corr_occ > 0.3 else
                     "Factor secundario. La ocupaci√≥n tiene menos influencia que lo esperado.",
        
        recommendation = "Priorizar propiedades con precios competitivos en barrios de alta demanda y ocupaci√≥n." if corr_price > corr_review and corr_price > corr_occ else
                        "Enfocarse en propiedades con excelentes valoraciones, ubicadas en barrios populares." if corr_review > corr_price and corr_review > corr_occ else
                        "Buscar propiedades en barrios con alta ocupaci√≥n consistente, independientemente del precio."
    )
    
    ax_insights.text(0.5, 0.5, insights_text, ha='center', va='center', 
                    bbox=dict(facecolor='#f0f8ff', edgecolor='#4682b4', boxstyle='round,pad=0.7'))
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.suptitle('üîç An√°lisis de Componentes de la Puntuaci√≥n de Oportunidad', 
                fontsize=20, fontweight='bold', y=1.02)
    plt.show()
    
    # 3. VISUALIZACI√ìN MEJORADA: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Preparar datos para el mapa de calor
    # Categorizar precios
    invest_df['price_category'] = pd.cut(
        invest_df['price_float'], 
        bins=[0, 50, 100, 150, 200, 1000],
        labels=['< 50‚Ç¨', '50-100‚Ç¨', '100-150‚Ç¨', '150-200‚Ç¨', '> 200‚Ç¨']
    )
    
    # Crear tabla pivote
    heatmap_data = invest_df.pivot_table(
        values='opportunity_score_normalized',
        index=neighborhood_col,
        columns='price_category',
        aggfunc='mean'
    ).fillna(0)
    
    # Filtrar para mostrar solo los barrios con m√°s datos
    min_properties = 5  # M√≠nimo de propiedades para incluir el barrio
    neighborhood_counts = invest_df[neighborhood_col].value_counts()
    valid_neighborhoods = neighborhood_counts[neighborhood_counts >= min_properties].index
    
    # Filtrar heatmap_data para incluir solo barrios con suficientes datos
    heatmap_data = heatmap_data.loc[heatmap_data.index.intersection(valid_neighborhoods)]
    
    # Ordenar por puntuaci√≥n promedio
    heatmap_data['avg_score'] = heatmap_data.mean(axis=1)
    heatmap_data = heatmap_data.sort_values('avg_score', ascending=False).head(15)
    heatmap_data = heatmap_data.drop('avg_score', axis=1)
    
    plt.figure(figsize=(16, 18))  # Aumentado a√∫n m√°s la altura para la leyenda
    
    # Definir paleta personalizada para el heatmap
    heatmap_cmap = LinearSegmentedColormap.from_list(
        'opportunity_cmap', 
        ['#f7fbff', '#deebf7', '#c6dbef', '#9ecae1', '#6baed6', '#4292c6', '#2171b5', '#08519c', '#08306b']
    )
    
    ax = sns.heatmap(heatmap_data, annot=True, fmt='.1f', linewidths=.5,
                    cmap=heatmap_cmap, cbar_kws={'label': 'Puntuaci√≥n de Oportunidad'})
    
    # A√±adir t√≠tulo y etiquetas
    plt.title('üó∫Ô∏è Mapa de Calor de Oportunidades de Inversi√≥n\npor Barrio y Rango de Precio', 
             fontweight='bold', fontsize=18, pad=20)
    plt.xlabel('Rango de Precio por Noche', fontweight='bold')
    plt.ylabel('Barrio', fontweight='bold')
    
    # A√±adir anotaciones para ayudar a interpretar
    # Encontrar la celda con mayor puntuaci√≥n
    max_val = heatmap_data.max().max()
    max_idx = np.unravel_index(heatmap_data.values.argmax(), heatmap_data.shape)
    max_barrio = heatmap_data.index[max_idx[0]]
    max_precio = heatmap_data.columns[max_idx[1]]
    
    # Anotar la mejor combinaci√≥n
    plt.annotate(
        f"üíé Mejor oportunidad\n{max_barrio}, {max_precio}",
        xy=(max_idx[1], max_idx[0]),
        xytext=(max_idx[1] + 1.5, max_idx[0] - 1),
        fontsize=12,
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
        bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.7)
    )
    
    # A√±adir leyenda explicativa en posici√≥n inferior (no sobre el mapa de calor)
    # Posicionamos la leyenda por debajo del gr√°fico principal
    plt.figtext(0.5, 0.02, 
               "üìå GU√çA DE INTERPRETACI√ìN DEL MAPA DE CALOR:\n\n"
               "üîµ Valores m√°s altos (azul oscuro): Mejores oportunidades de inversi√≥n\n"
               "‚ö™ Valores m√°s bajos (azul claro): Oportunidades menos atractivas\n\n"
               "üí° C√ìMO USAR ESTE MAPA:\n"
               "‚Ä¢ Identifique rangos de precio √≥ptimos para cada barrio\n"
               "‚Ä¢ Localice barrios con mejor desempe√±o general\n"
               "‚Ä¢ Descubra nichos de mercado con alto potencial y menor competencia", 
               ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.15, 1, 0.95])  # Ajustar espacio para leyenda inferior
    plt.show()
    
    # 4. VISUALIZACI√ìN MEJORADA: OPORTUNIDADES POR BARRIO Y N√öMERO DE HABITACIONES
    if 'bedrooms' in invest_df.columns:
        # Agrupar por barrio y n√∫mero de habitaciones
        room_data = invest_df.groupby([neighborhood_col, 'bedrooms'])['opportunity_score_normalized'].mean().reset_index()
        
        # Filtrar para habitaciones razonables (0-6)
        room_data = room_data[room_data['bedrooms'].between(0, 6)]
        
        # Crear tabla pivote
        room_pivot = room_data.pivot(index=neighborhood_col, columns='bedrooms', values='opportunity_score_normalized')
        
        # Seleccionar top barrios
        top_neighborhoods = neighborhood_opportunity.head(10)[neighborhood_col].tolist()
        room_pivot = room_pivot.loc[room_pivot.index.intersection(top_neighborhoods)]
        
        plt.figure(figsize=(15, 12))  # Aumentado para dar m√°s espacio
        
        # Crear heatmap
        sns.heatmap(room_pivot, annot=True, fmt='.1f', cmap='YlGnBu', linewidths=.5)
        
        # A√±adir t√≠tulo con icono
        plt.title('üõèÔ∏è Oportunidades de Inversi√≥n por Barrio y N√∫mero de Habitaciones', 
                 fontweight='bold', fontsize=18)
        plt.xlabel('N√∫mero de Habitaciones', fontweight='bold')
        plt.ylabel('Barrio', fontweight='bold')
        
        # Crear leyenda de iconos para n√∫mero de habitaciones - REPOSICIONADA
        legend_elements = [
            mpatches.Patch(color='none', label='üõãÔ∏è 0: Estudio'),
            mpatches.Patch(color='none', label='üõèÔ∏è 1: Una habitaci√≥n'),
            mpatches.Patch(color='none', label='üõèÔ∏èüõèÔ∏è 2: Dos habitaciones'),
            mpatches.Patch(color='none', label='üõèÔ∏èüõèÔ∏èüõèÔ∏è 3+: Tres o m√°s habitaciones')
        ]
        
        plt.legend(handles=legend_elements, loc='upper center',  # Movida a la parte superior central
                  title="Tipos de Alojamiento", framealpha=0.9,
                  bbox_to_anchor=(0.5, 1.15), ncol=4)  # Formato horizontal para ahorrar espacio
        
        # Anotar la mejor combinaci√≥n
        max_val = room_pivot.max().max()
        max_idx = np.unravel_index(room_pivot.values.argmax(), room_pivot.shape)
        max_barrio = room_pivot.index[max_idx[0]]
        max_rooms = room_pivot.columns[max_idx[1]]
        
        # A√±adir icono seg√∫n n√∫mero de habitaciones
        if max_rooms == 0:
            room_icon = "üõãÔ∏è"
        elif max_rooms == 1:
            room_icon = "üõèÔ∏è"
        elif max_rooms == 2:
            room_icon = "üõèÔ∏èüõèÔ∏è"
        else:
            room_icon = "üõèÔ∏èüõèÔ∏èüõèÔ∏è"
        
        plt.annotate(
            f"üîù Mejor combinaci√≥n\n{max_barrio}, {room_icon} {max_rooms} habitaciones",
            xy=(max_idx[1], max_idx[0]),
            xytext=(max_idx[1] + 1, max_idx[0] + 0.5),
            fontsize=12,
            arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='black'),
            bbox=dict(boxstyle="round,pad=0.4", facecolor='white', alpha=0.8)
        )
        
        # A√±adir insight con iconos - REPOSICIONADO
        plt.figtext(0.5, 0.01, 
                   "üí° AN√ÅLISIS DEL TIPO DE PROPIEDAD √ìPTIMO:\n\n"
                   "üèòÔ∏è Este mapa de calor muestra qu√© configuraci√≥n de alojamiento (por n√∫mero de habitaciones) ofrece la mejor oportunidad en cada barrio\n"
                   "üìà Utilice esta informaci√≥n para elegir el tipo de propiedad ideal seg√∫n la zona de inversi√≥n\n"
                   "‚ö†Ô∏è Considere tambi√©n la demanda estacional y el perfil de viajero t√≠pico de cada barrio", 
                   ha='center', fontsize=13, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.tight_layout(rect=[0, 0.05, 1, 0.9])  # Ajustado para dar espacio a la leyenda superior
        plt.show()
    
    # 5. VISUALIZACI√ìN: RENDIMIENTO DE INVERSI√ìN POR BARRIO
    # Calcular ROI estimado
    if 'price_float' in invest_df.columns and 'occupancy_rate' in invest_df.columns:
        # Estimar ingreso anual
        invest_df['estimated_annual_revenue'] = invest_df['price_float'] * 365 * invest_df['occupancy_rate']
        
        # Estimar precio de propiedad basado en barrio
        # Usar precios de propiedad aproximados por barrio (en euros)
        barrio_precios = {
            'Ciutat Vella': 4500,
            'Eixample': 5200,
            'Sants-Montju√Øc': 3700,
            'Les Corts': 5100,
            'Sarri√†-Sant Gervasi': 6300,
            'Gr√†cia': 4900,
            'Horta-Guinard√≥': 3500,
            'Nou Barris': 2800,
            'Sant Andreu': 3300,
            'Sant Mart√≠': 4200
        }
        
        # Crear funci√≥n para asignar precio por m2 seg√∫n barrio
        def get_price_per_m2(neighborhood):
            for distrito, precio in barrio_precios.items():
                if distrito in neighborhood:
                    return precio
            return 4000  # Valor promedio para Barcelona
        
        # Asignar precio por m2
        invest_df['price_per_m2'] = invest_df[neighborhood_col].apply(get_price_per_m2)
        
        # Estimar valor de propiedad (suponiendo 70m2 promedio)
        invest_df['estimated_property_value'] = invest_df['price_per_m2'] * 70
        
        # Calcular ROI bruto
        invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['estimated_property_value']) * 100
        
        # Agrupar por barrio
        roi_by_neighborhood = invest_df.groupby(neighborhood_col).agg({
            'estimated_roi': 'mean',
            'opportunity_score_normalized': 'mean',
            'price_per_m2': 'mean',
            'estimated_annual_revenue': 'mean',
            'id': 'count'
        }).reset_index()
        
        # Ordenar por ROI
        roi_by_neighborhood = roi_by_neighborhood.sort_values('estimated_roi', ascending=False)
        
        # Crear gr√°fico combinado
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
        
        # 1. Gr√°fico de barras para ROI
        bar_colors = plt.cm.RdYlGn(np.linspace(0.2, 0.8, len(roi_by_neighborhood.head(10))))
        bars = ax1.barh(roi_by_neighborhood.head(10)[neighborhood_col], 
                       roi_by_neighborhood.head(10)['estimated_roi'],
                       color=bar_colors)
        
        # A√±adir iconos seg√∫n ROI - MEJORADO: contraste y visibilidad
        for i, bar in enumerate(bars):
            roi_value = roi_by_neighborhood.iloc[i]['estimated_roi']
            
            # Elegir icono seg√∫n ROI
            if roi_value > 8:
                roi_icon = "üî•"  # Excepcional
            elif roi_value > 6:
                roi_icon = "üí∞"  # Muy buena
            elif roi_value > 4:
                roi_icon = "üìà"  # Buena
            else:
                roi_icon = "üí±"  # Regular
            
            # A√±adir valor de ROI con icono - con mejor contraste
            text = ax1.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2, 
                    f"{roi_icon} ROI: {roi_value:.2f}%", 
                    va='center', fontweight='bold', color='darkblue')
            text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
            
            # A√±adir informaci√≥n adicional debajo del nombre del barrio - MEJORADO: contraste
            count = roi_by_neighborhood.iloc[i]['id']
            price = roi_by_neighborhood.iloc[i]['price_per_m2']
            info_text = ax1.text(0, bar.get_y() - 0.2, f"üè† {count} prop. | üí∂ {price:.0f}‚Ç¨/m¬≤", 
                    va='center', fontsize=10, fontweight='bold')
            info_text.set_path_effects([PathEffects.withStroke(linewidth=2, foreground='white')])
        
        # A√±adir t√≠tulo con icono
        ax1.set_title('üìä Rentabilidad Estimada por Barrio (Top 10)', fontweight='bold', fontsize=16)
        ax1.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax1.set_ylabel('Barrio', fontweight='bold')
        ax1.grid(axis='x', linestyle='--', alpha=0.7)
        
        # A√±adir leyenda con iconos - REPOSICIONADA
        roi_legend = [
            mpatches.Patch(color='none', label='üî• Excepcional: >8%'),
            mpatches.Patch(color='none', label='üí∞ Muy buena: 6-8%'),
            mpatches.Patch(color='none', label='üìà Buena: 4-6%'),
            mpatches.Patch(color='none', label='üí± Regular: <4%')
        ]
        
        ax1.legend(handles=roi_legend, loc='upper right', 
                  title="Categor√≠as de ROI", framealpha=0.9)
        
        # 2. Gr√°fico de dispersi√≥n: ROI vs Puntuaci√≥n de Oportunidad
        scatter = ax2.scatter(
            roi_by_neighborhood['estimated_roi'], 
            roi_by_neighborhood['opportunity_score_normalized'],
            s=roi_by_neighborhood['id'] * 2,  # Tama√±o seg√∫n n√∫mero de propiedades
            c=roi_by_neighborhood['price_per_m2'],  # Color seg√∫n precio por m2
            cmap='viridis',
            alpha=0.7
        )
        
        # A√±adir nombres de barrios
        for i, row in roi_by_neighborhood.iterrows():
            if row['estimated_roi'] > roi_by_neighborhood['estimated_roi'].quantile(0.75) or \
               row['opportunity_score_normalized'] > roi_by_neighborhood['opportunity_score_normalized'].quantile(0.75):
                ax2.annotate(
                    row[neighborhood_col],
                    (row['estimated_roi'], row['opportunity_score_normalized']),
                    xytext=(5, 5),
                    textcoords='offset points',
                    fontsize=10,
                    alpha=0.8
                )
        
        # A√±adir l√≠nea de tendencia
        x = roi_by_neighborhood['estimated_roi']
        y = roi_by_neighborhood['opportunity_score_normalized']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        ax2.plot(x, p(x), "r--", alpha=0.8)
        
        # Calcular correlaci√≥n
        corr = np.corrcoef(x, y)[0, 1]
        
        # A√±adir t√≠tulo con icono
        ax2.set_title(f'üîÑ ROI vs Puntuaci√≥n de Oportunidad\nCorrelaci√≥n: {corr:.2f}', 
                     fontweight='bold', fontsize=16)
        ax2.set_xlabel('ROI Estimado (%)', fontweight='bold')
        ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
        ax2.grid(True, linestyle='--', alpha=0.7)
        
        # A√±adir iconos para los cuadrantes
        ax2.text(0.95, 0.95, "üåü", transform=ax2.transAxes, 
                 fontsize=20, va='top', ha='right',
                 bbox=dict(facecolor='white', alpha=0.7, boxstyle='round'))
        ax2.text(0.95, 0.05, "‚ö†Ô∏è", transform=ax2.transAxes, 
                 fontsize=20, va='bottom', ha='right',
                 bbox=dict(facecolor='white', alpha=0.7, boxstyle='round'))
        ax2.text(0.05, 0.95, "‚≠ê", transform=ax2.transAxes, 
                 fontsize=20, va='top', ha='left',
                 bbox=dict(facecolor='white', alpha=0.7, boxstyle='round'))
        ax2.text(0.05, 0.05, "‚ùì", transform=ax2.transAxes, 
                 fontsize=20, va='bottom', ha='left',
                 bbox=dict(facecolor='white', alpha=0.7, boxstyle='round'))
        
        # A√±adir colorbar para precio por m2
        cbar = plt.colorbar(scatter, ax=ax2)
        cbar.set_label('Precio por m¬≤ (‚Ç¨)', fontweight='bold')
        
        # A√±adir leyenda para el tama√±o de los puntos
        sizes = [10, 50, 100]
        labels = ['Pocas propiedades', 'Cantidad media', 'Muchas propiedades']
        
        # Crear puntos de leyenda
        legend_elements = []
        for size, label in zip(sizes, labels):
            legend_elements.append(plt.Line2D([0], [0], marker='o', color='w', 
                                             label=label, markerfacecolor='gray',
                                             markersize=np.sqrt(size)))
        
        ax2.legend(handles=legend_elements, title="N√∫mero de propiedades", 
                  loc='upper left', frameon=True)
        
        # A√±adir insight general con iconos
        plt.figtext(0.5, 0.01, 
                   "üí° INSIGHTS CLAVE PARA INVERSORES:\n\n"
                   f"1. üìä La correlaci√≥n entre ROI y puntuaci√≥n de oportunidad es {corr:.2f}, lo que sugiere {'una fuerte relaci√≥n' if corr > 0.7 else 'una relaci√≥n moderada' if corr > 0.4 else 'que existen otros factores importantes'}.\n"
                   f"2. üåü Los barrios del cuadrante superior derecho (ROI alto + Oportunidad alta) son la opci√≥n √≥ptima.\n"
                   "3. üè† El tama√±o de los c√≠rculos indica volumen de propiedades - barrios m√°s grandes ofrecen m√°s opciones para inversores.\n"
                   "4. üí∞ Los colores indican precio por m¬≤ - tonos m√°s claros representan zonas m√°s caras.", 
                   ha='center', fontsize=12, bbox=dict(facecolor='lavender', alpha=0.8))
        
        plt.suptitle('üí∞ An√°lisis de Rentabilidad de Inversi√≥n por Barrio', 
                    fontsize=20, fontweight='bold')
        
        plt.tight_layout(rect=[0, 0.08, 1, 0.95])
        plt.show()
    
    # 6. VISUALIZACI√ìN: RADAR CHART DE TOP 5 OPORTUNIDADES - CORREGIDO PARA QUE LAS LEYENDAS NO SE SOLAPEN
    
    # Tomar las 5 mejores oportunidades
    top_5_neighborhoods = neighborhood_opportunity.head(5)[neighborhood_col].tolist()
    
    # Preparar datos para el radar chart
    radar_metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
                   'opportunity_score_normalized']
    
    # Calcular valores promedio para cada barrio y m√©trica
    radar_data = []
    for neighborhood in top_5_neighborhoods:
        neighborhood_data = invest_df[invest_df[neighborhood_col] == neighborhood]
        
        # Calcular promedios normalizados
        metric_avgs = {}
        for metric in radar_metrics:
            if metric in neighborhood_data.columns:
                # Normalizar a escala 0-1 para el radar chart
                if metric == 'opportunity_score_normalized':
                    metric_avgs[metric] = neighborhood_data[metric].mean() / 100
                else:
                    metric_avgs[metric] = neighborhood_data[metric].mean()
        
        radar_data.append({'neighborhood': neighborhood, **metric_avgs})
    
    # Crear radar chart
    fig = plt.figure(figsize=(15, 14))  # Aumentado para m√°s espacio
    
    # Definir las categor√≠as y colores
    categories = ['Competitividad de Precio', 'Valoraciones', 'Ocupaci√≥n', 'Puntuaci√≥n Global']
    # A√±adir iconos a las categor√≠as
    categories_with_icons = ['üí≤ Competitividad de Precio', '‚≠ê Valoraciones', 'üìÖ Ocupaci√≥n', 'üèÜ Puntuaci√≥n Global']
    N = len(categories)
    
    # Crear √°ngulos para el radar chart
    angles = [n / float(N) * 2 * np.pi for n in range(N)]
    angles += angles[:1]  # Cerrar el c√≠rculo
    
    # Crear subplots
    ax = plt.subplot(111, polar=True)
    
    # Definir colores para cada barrio
    colors = plt.cm.viridis(np.linspace(0, 1, len(top_5_neighborhoods)))
    
    # A√±adir cada barrio al radar chart
    for i, neighborhood in enumerate(top_5_neighborhoods):
        values = []
        for metric, display_name in zip(radar_metrics, categories):
            for item in radar_data:
                if item['neighborhood'] == neighborhood:
                    values.append(item[metric])
        
        # Cerrar el c√≠rculo repitiendo el primer valor
        values += values[:1]
        
        # Dibujar el pol√≠gono y a√±adir leyenda
        ax.plot(angles, values, linewidth=2, linestyle='solid', label=neighborhood, color=colors[i])
        ax.fill(angles, values, alpha=0.1, color=colors[i])
    
    # Establecer categor√≠as con iconos
    plt.xticks(angles[:-1], categories_with_icons, size=12)
    
    # Establecer l√≠mites de los ejes
    ax.set_ylim(0, 1)
    
    # A√±adir leyenda - REPOSICIONADA para evitar solapamiento
    plt.legend(loc='upper center', bbox_to_anchor=(0.5, -0.05), frameon=True, 
              title="üèôÔ∏è Barrios", ncol=5)  # Colocada abajo en formato horizontal
    
    # A√±adir t√≠tulo con icono
    plt.title('üéØ Comparativa de Top 5 Barrios por M√©tricas de Inversi√≥n', 
             size=20, fontweight='bold', pad=20)
    
    # A√±adir explicaci√≥n con iconos - REPOSICIONADA para no solapar con la leyenda
    explanation = """
    üìä AN√ÅLISIS COMPARATIVO DE BARRIOS DESTACADOS:
    
    Este radar chart compara los 5 barrios con mayor puntuaci√≥n de oportunidad seg√∫n 4 m√©tricas clave:
    
    üí≤ Competitividad de Precio: Relaci√≥n precio/valor vs. promedio del barrio
    ‚≠ê Valoraciones: Puntuaciones medias normalizadas de los hu√©spedes
    üìÖ Ocupaci√≥n: Tasa promedio de ocupaci√≥n estimada
    üèÜ Puntuaci√≥n Global: Evaluaci√≥n combinada de oportunidad
    
    üí° MEJOR BARRIO: {mejor_barrio} - Destaca por sus altos valores en todas las m√©tricas.
    ‚ö†Ô∏è BARRIO CON MAYOR √ÅREA DE MEJORA: {peor_barrio} - Tiene potencial pero requiere optimizaci√≥n.
    """.format(
        mejor_barrio = max(radar_data, key=lambda x: x['opportunity_score_normalized'])['neighborhood'],
        peor_barrio = min(radar_data, key=lambda x: x['opportunity_score_normalized'])['neighborhood']
    )
    
    plt.figtext(0.5, -0.2, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#f0f0f0', edgecolor='#cccccc', boxstyle='round,pad=0.5'))
    
    plt.tight_layout(rect=[0, 0.15, 1, 0.9])  # Ajustado para dar espacio a la leyenda y explicaci√≥n
    plt.subplots_adjust(bottom=0.3)  # M√°s espacio en la parte inferior
    plt.show()

except NameError:
    print("‚ùå Este an√°lisis requiere los datos de inversi√≥n que a√∫n no han sido generados.")
    print("‚ö†Ô∏è Ejecute primero la celda que genera 'investment_df' y 'neighborhood_opportunity'.")

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

try:
    # Comprobar la disponibilidad del dataframe
    if 'invest_df' not in globals():
        if 'barcelona_limpio_completo' in globals():
            invest_df = barcelona_limpio_completo.copy()
        else:
            try:
                invest_df = pd.read_csv('barcelona_limpio_completo.csv')
            except FileNotFoundError:
                raise Exception("No se encuentra el dataset necesario para el an√°lisis.")
    else:
        invest_df = invest_df.copy()

    # Identificar la columna de barrios
    if 'neighborhood_col' not in globals():
        neighborhood_col = next(
            (col for col in ['neighbourhood', 'neighborhood', 'neighbourhood_cleansed', 'neighborhood_cleansed']
             if col in invest_df.columns),
            'neighbourhood'
        )
        if neighborhood_col == 'neighbourhood':
            print(f"No se encontr√≥ una columna de barrios adecuada. Usando '{neighborhood_col}'.")

    # Preparar columna price_float
    if 'price_float' not in invest_df.columns:
        if 'price' in invest_df.columns:
            invest_df['price_float'] = pd.to_numeric(
                invest_df['price'].astype(str).str.replace('[$‚Ç¨¬£,]', '', regex=True),
                errors='coerce'
            )
        else:
            invest_df['price_float'] = np.random.uniform(50, 500, size=len(invest_df))
            print("Columna price_float creada con valores aleatorios para demostraci√≥n.")

    # Rellenar valores faltantes en price_float
    invest_df['price_float'] = invest_df['price_float'].fillna(invest_df['price_float'].median())

    # Calcular competitividad de precio
    avg_price_by_neighborhood = invest_df.groupby(neighborhood_col)['price_float'].mean().reset_index()
    avg_price_by_neighborhood.columns = [neighborhood_col, 'avg_price']

    # Eliminar columna avg_price si ya existe
    if 'avg_price' in invest_df.columns:
        invest_df = invest_df.drop('avg_price', axis=1)

    # Merge seguro
    invest_df = pd.merge(invest_df, avg_price_by_neighborhood, on=neighborhood_col, how='left')

    # Verificar existencia de avg_price despu√©s del merge
    if 'avg_price' not in invest_df.columns:
        invest_df['avg_price'] = invest_df['price_float'].mean()

    # Calcular competitividad de precio
    invest_df['price_competitiveness'] = np.where(
        invest_df['price_float'] <= invest_df['avg_price'],
        1 - (invest_df['price_float'] / invest_df['avg_price']),
        0
    )

    # Preparar puntuaciones de rese√±as
    if 'review_scores_rating' in invest_df.columns:
        invest_df['review_scores_rating'] = pd.to_numeric(invest_df['review_scores_rating'], errors='coerce')
        max_rating = invest_df['review_scores_rating'].max()
        invest_df['review_score_normalized'] = (
            invest_df['review_scores_rating'] / max_rating if max_rating > 0 else np.random.uniform(0.7, 1.0, size=len(invest_df))
        )
    else:
        invest_df['review_score_normalized'] = np.random.uniform(0.7, 1.0, size=len(invest_df))
        print("Columna review_score_normalized creada con valores aleatorios para demostraci√≥n.")

    # Preparar tasa de ocupaci√≥n
    if 'occupancy_rate' not in invest_df.columns:
        invest_df['occupancy_rate'] = np.random.uniform(0.3, 0.8, size=len(invest_df))
        print("Columna occupancy_rate creada con valores aleatorios para demostraci√≥n.")

    # Rellenar valores faltantes
    invest_df['review_score_normalized'] = invest_df['review_score_normalized'].fillna(invest_df['review_score_normalized'].median())
    invest_df['occupancy_rate'] = invest_df['occupancy_rate'].fillna(invest_df['occupancy_rate'].median())

    # Calcular puntuaci√≥n de oportunidad
    invest_df['opportunity_score'] = (
        0.4 * invest_df['price_competitiveness'] +
        0.3 * invest_df['review_score_normalized'] +
        0.3 * invest_df['occupancy_rate']
    )

    # Normalizar a escala 0-100
    min_score = invest_df['opportunity_score'].min()
    max_score = invest_df['opportunity_score'].max()
    invest_df['opportunity_score_normalized'] = (
        (invest_df['opportunity_score'] - min_score) / (max_score - min_score) * 100
        if max_score > min_score else 50
    )

    # Crear dataset agregado por barrio
    neighborhood_opportunity = invest_df.groupby(neighborhood_col)['opportunity_score_normalized'].mean().reset_index()
    neighborhood_opportunity = neighborhood_opportunity.sort_values('opportunity_score_normalized', ascending=False)

    # VISUALIZACI√ìN 1: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    top_neighborhoods = neighborhood_opportunity.head(15).copy()

    fig = go.Figure()
    colorscale = px.colors.sequential.Blues

    # A√±adir barras horizontales
    fig.add_trace(go.Bar(
        y=top_neighborhoods[neighborhood_col],
        x=top_neighborhoods['opportunity_score_normalized'],
        orientation='h',
        marker=dict(
            color=top_neighborhoods['opportunity_score_normalized'],
            colorscale=colorscale,
            colorbar=dict(title="Puntuaci√≥n"),
        ),
        text=[f"{score:.1f}" for score in top_neighborhoods['opportunity_score_normalized']],
        textposition='outside',
        hovertemplate='<b>%{y}</b><br>Puntuaci√≥n: %{x:.1f}<extra></extra>',
    ))

    # Actualizar dise√±o
    fig.update_layout(
        title=dict(
            text='üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n',
            font=dict(size=20, color="#303F9F"),
            x=0.5
        ),
        xaxis=dict(
            title='Puntuaci√≥n de Oportunidad (0-100)',
            titlefont=dict(size=14, color="#303F9F"),
        ),
        yaxis=dict(
            title='Barrio',
            titlefont=dict(size=14, color="#303F9F"),
        ),
        plot_bgcolor='rgba(249, 249, 249, 0.8)',
        height=600,
        width=1000,
        margin=dict(l=100, r=50, t=100, b=100),
    )

    fig.show()

except

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Instalar e importar bibliotecas para soporte de iconos
%pip install emoji -q
import emoji
from PIL import Image
from io import BytesIO
import requests
from matplotlib.offsetbox import OffsetImage, AnnotationBbox
# Funci√≥n para cargar iconos de Font Awesome o im√°genes
def get_icon(icon_name, size=1):
    # Definir mapeo de nombres de iconos a URLs de im√°genes o c√≥digos de emoji
    icon_map = {
        'star': '‚≠ê',
        'money': 'üí∞',
        'chart': 'üìà',
        'warning': '‚ö†Ô∏è',
        'dollar': 'üí≤',
        'calendar': 'üìÖ',
        'trophy': 'üèÜ',
        'house': 'üè†',
        'bed': 'üõèÔ∏è',
        'fire': 'üî•',
        'target': 'üéØ',
        'light': 'üí°',
        'home': 'üèòÔ∏è',
        'map': 'üó∫Ô∏è',
        'recycle': 'üîÑ',
        'diamond': 'üíé',
        'bulb': 'üí°',
        'pin': 'üìå',
        'exchange': 'üí±',
        'couch': 'üõãÔ∏è',
        'stats': 'üìä'
    }
    
    # Devolver el emoji directamente, sin usar emoji.emojize
    return icon_map.get(icon_name, '‚ùì')
    return emoji.emojize(icon_map.get(icon_name, '‚ùì'))

# Configuraci√≥n de estilo para gr√°ficos con enfoque m√°s profesional
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
plt.rcParams['figure.facecolor'] = 'white'
plt.rcParams['axes.facecolor'] = '#f9f9f9'
plt.rcParams['grid.alpha'] = 0.3

# Asegurar compatibilidad con emojis
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['DejaVu Sans', 'Arial Unicode MS']

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib.patches as mpatches
from matplotlib.colors import LinearSegmentedColormap
from matplotlib.gridspec import GridSpec
import matplotlib.patheffects as PathEffects
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de estilo para gr√°ficos con enfoque m√°s profesional
plt.style.use('seaborn-v0_8-whitegrid')
plt.rcParams['font.family'] = 'sans-serif'
plt.rcParams['font.size'] = 12
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
plt.rcParams['figure.facecolor'] = 'white'
plt.rcParams['axes.facecolor'] = '#f9f9f9'
plt.rcParams['grid.alpha'] = 0.3

# Asegurar compatibilidad con emojis
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['DejaVu Sans', 'Arial Unicode MS']

try:
    # Usar una copia para no modificar el original
    invest_df = investment_df.copy()
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    plt.figure(figsize=(16, 10))
    
    # Ordenar por puntuaci√≥n de oportunidad
    top_neighborhoods = neighborhood_opportunity.head(15).copy()
    
    # Crear paleta de color m√°s vibrante para destacar diferencias
    cmap = LinearSegmentedColormap.from_list('custom_opportunity', 
                                          ['#1a237e', '#283593', '#3949ab', '#5c6bc0', '#7986cb', 
                                           '#9fa8da', '#c5cae9', '#e8eaf6'], N=256)
    
    # Normalizar colores seg√∫n puntuaci√≥n
    norm = plt.Normalize(top_neighborhoods['opportunity_score_normalized'].min(), 
                       top_neighborhoods['opportunity_score_normalized'].max())
    
    # Crear barras con colores gradientes y mejor separaci√≥n
    bars = plt.barh(top_neighborhoods[neighborhood_col], 
                   top_neighborhoods['opportunity_score_normalized'],
                   color=cmap(norm(top_neighborhoods['opportunity_score_normalized'])),
                   height=0.7, edgecolor='white', linewidth=0.8)
    
    # A√±adir etiquetas con iconos en las barras
    for i, (index, row) in enumerate(top_neighborhoods.iterrows()):
        # Contar propiedades en este barrio
        count = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]].shape[0]
        # Precio promedio en este barrio
        avg_price = invest_df[invest_df[neighborhood_col] == row[neighborhood_col]]['price_float'].mean()
        
        # Icono seg√∫n nivel de oportunidad
        if row['opportunity_score_normalized'] >= 80:
            icon = "üåü"  # Oportunidad excepcional
        elif row['opportunity_score_normalized'] >= 70:
            icon = "‚≠ê"  # Muy buena oportunidad
        elif row['opportunity_score_normalized'] >= 60:
            icon = "üí∞"  # Buena oportunidad
        elif row['opportunity_score_normalized'] >= 50:
            icon = "üìà"  # Oportunidad razonable
        else:
            icon = "‚ö†Ô∏è"  # Oportunidad limitada
        
        # A√±adir puntuaci√≥n con icono y mejor contraste
        score_text = plt.text(row['opportunity_score_normalized'] + 0.5, i, 
                             f"{icon} {row['opportunity_score_normalized']:.1f}",
                             va='center', ha='left', fontweight='bold', fontsize=14)
        
        # A√±adir sombra para mejorar legibilidad
        score_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
        
        # A√±adir informaci√≥n adicional debajo del nombre del barrio
        plt.text(-1, i - 0.25, f"üè† {count} propiedades | üí≤ {avg_price:.0f}‚Ç¨", 
                va='center', ha='left', fontsize=10, alpha=0.9, 
                bbox=dict(facecolor='white', alpha=0.6, edgecolor='none', pad=1))
    
    # Mejorar la presentaci√≥n del gr√°fico
    ax = plt.gca()
    ax.spines['top'].set_visible(False)
    ax.spines['right'].set_visible(False)
    ax.spines['left'].set_visible(False)
    ax.spines['bottom'].set_linewidth(0.5)
    
    # A√±adir t√≠tulo y etiquetas con estilo m√°s llamativo
    plt.title('üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n', 
             fontweight='bold', fontsize=18, pad=20, color='#303F9F')
    plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontweight='bold', color='#303F9F')
    plt.ylabel('Barrio', fontweight='bold', color='#303F9F')
    
    # Ajustar l√≠mites del eje x para dejar espacio para etiquetas
    plt.xlim(-2, top_neighborhoods['opportunity_score_normalized'].max() * 1.3)
    
    # Crear leyenda explicativa con iconos mejorada
    legend_elements = [
        mpatches.Patch(facecolor='#e8eaf6', edgecolor='#9fa8da', label='üåü Oportunidad excepcional (‚â•80)'),
        mpatches.Patch(facecolor='#c5cae9', edgecolor='#9fa8da', label='‚≠ê Muy buena oportunidad (‚â•70)'),
        mpatches.Patch(facecolor='#9fa8da', edgecolor='#7986cb', label='üí∞ Buena oportunidad (‚â•60)'),
        mpatches.Patch(facecolor='#7986cb', edgecolor='#5c6bc0', label='üìà Oportunidad razonable (‚â•50)'),
        mpatches.Patch(facecolor='#5c6bc0', edgecolor='#3949ab', label='‚ö†Ô∏è Oportunidad limitada (<50)')
    ]
    
    plt.legend(handles=legend_elements, loc='lower right', 
              title="Categor√≠as de Oportunidad", framealpha=0.95, 
              facecolor='white', edgecolor='#cccccc')
    
    # A√±adir anotaci√≥n explicativa con dise√±o mejorado
    explanation = """
    La puntuaci√≥n de oportunidad combina:
    ‚Ä¢ 40% Competitividad de precio (precio vs. promedio del barrio)
    ‚Ä¢ 30% Valoraciones de hu√©spedes (normalizada a 0-1)
    ‚Ä¢ 30% Tasa de ocupaci√≥n estimada
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=12, 
               bbox=dict(facecolor='#e8eaf6', edgecolor='#7986cb', boxstyle='round,pad=0.8'),
               color='#283593')
    
    plt.tight_layout(rect=[0, 0.05, 1, 0.95])
    plt.show()
    
    # 2. VISUALIZACI√ìN MEJORADA: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    # Preparar datos para scatter plot - usar muestra estratificada para mejor representaci√≥n
    sample_size = min(1000, len(invest_df))
    scatter_data = invest_df[invest_df['opportunity_score_normalized'].notna()]
    
    # Estratificar la muestra por barrio para asegurar representatividad
    strata = []
    for neighborhood in scatter_data[neighborhood_col].unique():
        subset = scatter_data[scatter_data[neighborhood_col] == neighborhood]
        n_samples = max(int(sample_size * len(subset) / len(scatter_data)), 5)
        strata.append(subset.sample(min(n_samples, len(subset))))
    
    scatter_data = pd.concat(strata)
    
    # Calcular correlaciones para mostrar en el gr√°fico
    corr_price = pearsonr(scatter_data['price_competitiveness'], 
                         scatter_data['opportunity_score_normalized'])[0]
    corr_review = pearsonr(scatter_data['review_score_normalized'], 
                          scatter_data['opportunity_score_normalized'])[0]
    corr_occ = pearsonr(scatter_data['occupancy_rate'], 
                       scatter_data['opportunity_score_normalized'])[0]
    
    # Crear figura con mejor estructura
    fig = plt.figure(figsize=(20, 12))
    gs = GridSpec(2, 3, figure=fig, height_ratios=[4, 1])
    
    # Colores tem√°ticos para gr√°ficos de dispersi√≥n
    theme_colors = ['#1a237e', '#0d47a1', '#01579b']
    
    # Subplot 1: Competitividad de precio vs Oportunidad
    ax1 = fig.add_subplot(gs[0, 0])
    scatter1 = sns.scatterplot(x='price_competitiveness', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.7, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax1, s=80, edgecolor='w', linewidth=0.5)
    
    # A√±adir icono al t√≠tulo con mejor estilo
    ax1.set_title(f'üí≤ Competitividad de Precio vs Oportunidad\nCorrelaci√≥n: {corr_price:.2f}', 
                 fontweight='bold', color=theme_colors[0])
    ax1.set_xlabel('Competitividad de Precio', fontweight='bold')
    ax1.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
    
    # A√±adir l√≠nea de tendencia con estilo mejorado
    x = scatter_data['price_competitiveness']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax1.plot(x, p(x), linestyle='--', color=theme_colors[0], linewidth=2.5, alpha=0.8)
    
    # A√±adir categor√≠as con iconos y mejor dise√±o
    ax1.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax1.transAxes, 
             fontweight='bold', va='top', ha='left', color=theme_colors[0],
             bbox=dict(facecolor='white', alpha=0.8, edgecolor='none', pad=2))
    ax1.text(0.05, 0.90, "üí≤ Alta: >0.7", transform=ax1.transAxes, 
             va='top', ha='left', fontsize=11)
    ax1.text(0.05, 0.85, "üí± Media: 0.4-0.7", transform=ax1.transAxes, 
             va='top', ha='left', fontsize=11)
    ax1.text(0.05, 0.80, "üí∏ Baja: <0.4", transform=ax1.transAxes, 
             va='top', ha='left', fontsize=11)
    
    # Mejorar aspecto del gr√°fico
    ax1.spines['top'].set_visible(False)
    ax1.spines['right'].set_visible(False)
    ax1.grid(True, linestyle='--', alpha=0.6)
    
    # Subplot 2: Valoraciones vs Oportunidad
    ax2 = fig.add_subplot(gs[0, 1])
    scatter2 = sns.scatterplot(x='review_score_normalized', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.7, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax2, s=80, edgecolor='w', linewidth=0.5)
    
    # A√±adir icono al t√≠tulo con mejor estilo
    ax2.set_title(f'‚≠ê Valoraciones vs Oportunidad\nCorrelaci√≥n: {corr_review:.2f}', 
                 fontweight='bold', color=theme_colors[1])
    ax2.set_xlabel('Valoraci√≥n Normalizada', fontweight='bold')
    ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
    
    # A√±adir l√≠nea de tendencia con estilo mejorado
    x = scatter_data['review_score_normalized']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax2.plot(x, p(x), linestyle='--', color=theme_colors[1], linewidth=2.5, alpha=0.8)
    
    # A√±adir categor√≠as con iconos y mejor dise√±o
    ax2.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax2.transAxes, 
             fontweight='bold', va='top', ha='left', color=theme_colors[1],
             bbox=dict(facecolor='white', alpha=0.8, edgecolor='none', pad=2))
    ax2.text(0.05, 0.90, "‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Alta: >0.8", transform=ax2.transAxes, 
             va='top', ha='left', fontsize=11)
    ax2.text(0.05, 0.85, "‚≠ê‚≠ê‚≠ê‚≠ê Media: 0.6-0.8", transform=ax2.transAxes, 
             va='top', ha='left', fontsize=11)
    ax2.text(0.05, 0.80, "‚≠ê‚≠ê‚≠ê Baja: <0.6", transform=ax2.transAxes, 
             va='top', ha='left', fontsize=11)
    
    # Mejorar aspecto del gr√°fico
    ax2.spines['top'].set_visible(False)
    ax2.spines['right'].set_visible(False)
    ax2.grid(True, linestyle='--', alpha=0.6)
    
    # Subplot 3: Ocupaci√≥n vs Oportunidad
    ax3 = fig.add_subplot(gs[0, 2])
    scatter3 = sns.scatterplot(x='occupancy_rate', y='opportunity_score_normalized',
                   data=scatter_data, alpha=0.7, hue='neighbourhood', 
                   palette='viridis', legend=False, ax=ax3, s=80, edgecolor='w', linewidth=0.5)
    
    # A√±adir icono al t√≠tulo con mejor estilo
    ax3.set_title(f'üìÖ Ocupaci√≥n vs Oportunidad\nCorrelaci√≥n: {corr_occ:.2f}', 
                 fontweight='bold', color=theme_colors[2])
    ax3.set_xlabel('Tasa de Ocupaci√≥n', fontweight='bold')
    ax3.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold')
    
    # A√±adir l√≠nea de tendencia con estilo mejorado
    x = scatter_data['occupancy_rate']
    y = scatter_data['opportunity_score_normalized']
    z = np.polyfit(x, y, 1)
    p = np.poly1d(z)
    ax3.plot(x, p(x), linestyle='--', color=theme_colors[2], linewidth=2.5, alpha=0.8)
    
    # A√±adir categor√≠as con iconos y mejor dise√±o
    ax3.text(0.05, 0.95, "üìä Categor√≠as:", transform=ax3.transAxes, 
             fontweight='bold', va='top', ha='left', color=theme_colors[2],
             bbox=dict(facecolor='white', alpha=0.8, edgecolor='none', pad=2))
    ax3.text(0.05, 0.90, "üìÖüìÖüìÖ Alta: >0.7", transform=ax3.transAxes, 
             va='top', ha='left', fontsize=11)
    ax3.text(0.05, 0.85, "üìÖüìÖ Media: 0.5-0.7", transform=ax3.transAxes, 
             va='top', ha='left', fontsize=11)
    ax3.text(0.05, 0.80, "üìÖ Baja: <0.5", transform=ax3.transAxes, 
             va='top', ha='left', fontsize=11)
    
    # Mejorar aspecto del gr√°fico
    ax3.spines['top'].set_visible(False)
    ax3.spines['right'].set_visible(False)
    ax3.grid(True, linestyle='--', alpha=0.6)
    
    # A√±adir panel de insights en la parte inferior con dise√±o mejorado
    ax_insights = fig.add_subplot(gs[1, :])
    ax_insights.axis('off')  # Ocultar ejes
    
    # Iconos para insights basados en correlaciones
    if corr_price > 0.5:
        price_icon = "üî∫"
    elif corr_price > 0.3:
        price_icon = "‚û°Ô∏è"
    else:
        price_icon = "üîª"
        
    if corr_review > 0.5:
        review_icon = "üî∫"
    elif corr_review > 0.3:
        review_icon = "‚û°Ô∏è"
    else:
        review_icon = "üîª"
        
    if corr_occ > 0.5:
        occ_icon = "üî∫"
    elif corr_occ > 0.3:
        occ_icon = "‚û°Ô∏è"
    else:
        occ_icon = "üîª"
    
    # Texto de insights basado en correlaciones con iconos y mejor formato
    insights_text = """
    üìä INSIGHTS CLAVE SOBRE FACTORES DE OPORTUNIDAD DE INVERSI√ìN:
    
    üîπ COMPETITIVIDAD DE PRECIO: {price_icon} {price_insight}
    
    üîπ VALORACIONES: {review_icon} {review_insight}
    
    üîπ OCUPACI√ìN: {occ_icon} {occ_insight}
    
    ‚úÖ RECOMENDACI√ìN: {recommendation}
    """.format(
        price_icon = price_icon,
        price_insight = "Fuerte correlaci√≥n positiva. Propiedades con mejor relaci√≥n precio/valor de barrio tienen mayor potencial." if corr_price > 0.5 else 
                       "Correlaci√≥n moderada. El precio competitivo es importante pero no determinante." if corr_price > 0.3 else
                       "Correlaci√≥n d√©bil. Otros factores tienen mayor peso en la oportunidad.",
        
        review_icon = review_icon,
        review_insight = "Impacto significativo. Las valoraciones altas son clave para maximizar el potencial." if corr_review > 0.5 else
                        "Influencia moderada. Mantener buenas valoraciones mejora el potencial de inversi√≥n." if corr_review > 0.3 else
                        "Influencia limitada. Las valoraciones tienen menor impacto que otros factores.",
        
        occ_icon = occ_icon,
        occ_insight = "Factor cr√≠tico. Alta ocupaci√≥n es determinante para identificar oportunidades de inversi√≥n." if corr_occ > 0.5 else
                     "Factor importante. La ocupaci√≥n consistente contribuye al potencial de inversi√≥n." if corr_occ > 0.3 else
                     "Factor secundario. La ocupaci√≥n tiene menos influencia que lo esperado.",
        
        recommendation = "Priorizar propiedades con precios competitivos en barrios de alta demanda y ocupaci√≥n." if corr_price > corr_review and corr_price > corr_occ else
                        "Enfocarse en propiedades con excelentes valoraciones, ubicadas en barrios populares." if corr_review > corr_price and corr_review > corr_occ else
                        "Buscar propiedades en barrios con alta ocupaci√≥n consistente, independientemente del precio."
    )
    
    # Mejorar el dise√±o del panel de insights
    ax_insights.text(0.5, 0.5, insights_text, ha='center', va='center', 
                    bbox=dict(facecolor='#e8eaf6', edgecolor='#3f51b5', boxstyle='round,pad=0.8', 
                             linewidth=2), fontsize=13, color='#283593')
    
    plt.tight_layout(rect=[0, 0, 1, 0.95])
    plt.suptitle('üîç An√°lisis de Componentes de la Puntuaci√≥n de Oportunidad', 
                fontsize=22, fontweight='bold', y=1.02, color='#1a237e')
    plt.show()
    
    # 3. VISUALIZACI√ìN MEJORADA: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Preparar datos para el mapa de calor
    # Categorizar precios con rangos m√°s significativos
    invest_df['price_category'] = pd.cut(
        invest_df['price_float'], 
        bins=[0, 50, 100, 150, 200, 1000],
        labels=['< 50‚Ç¨', '50-100‚Ç¨', '100-150‚Ç¨', '150-200‚Ç¨', '> 200‚Ç¨']
    )
    
    # Crear tabla pivote
    heatmap_data = invest_df.pivot_table(
        values='opportunity_score_normalized',
        index=neighborhood_col,
        columns='price_category',
        aggfunc='mean'
    ).fillna(0)
    
    # Filtrar para mostrar solo los barrios con m√°s datos
    min_properties = 5  # M√≠nimo de propiedades para incluir el barrio
    neighborhood_counts = invest_df[neighborhood_col].value_counts()
    valid_neighborhoods = neighborhood_counts[neighborhood_counts >= min_properties].index
    
    # Filtrar heatmap_data para incluir solo barrios con suficientes datos
    heatmap_data = heatmap_data.loc[heatmap_data.index.intersection(valid_neighborhoods)]
    
    # Ordenar por puntuaci√≥n promedio
    heatmap_data['avg_score'] = heatmap_data.mean(axis=1)
    heatmap_data = heatmap_data.sort_values('avg_score', ascending=False).head(15)
    heatmap_data = heatmap_data.drop('avg_score', axis=1)
    
    plt.figure(figsize=(16, 14))  # Aumentar altura para dejar espacio a la leyenda
    
    # Definir paleta personalizada para el heatmap con colores m√°s vibrantes
    heatmap_cmap = LinearSegmentedColormap.from_list(
        'opportunity_cmap', 
        ['#ffffff', '#e3f2fd', '#bbdefb', '#90caf9', '#64b5f6', '#42a5f5', '#2196f3', '#1e88e5', '#1976d2', '#1565c0', '#0d47a1']
    )
    
    # Crear m√°scara para valores nulos o cero
    mask = (heatmap_data == 0)
    
    # Crear el heatmap con m√°scaras para mejorar visualizaci√≥n
    ax = sns.heatmap(heatmap_data, annot=True, fmt='.1f', linewidths=1,
                    cmap=heatmap_cmap, cbar_kws={'label': 'Puntuaci√≥n de Oportunidad'},
                    mask=mask, annot_kws={"size": 12, "weight": "bold"})
    
    # A√±adir t√≠tulo y etiquetas con mejor estilo
    plt.title('üó∫Ô∏è Mapa de Calor de Oportunidades de Inversi√≥n\npor Barrio y Rango de Precio', 
             fontweight='bold', fontsize=20, pad=20, color='#0d47a1')
    plt.xlabel('Rango de Precio por Noche', fontweight='bold', fontsize=16)
    plt.ylabel('Barrio', fontweight='bold', fontsize=16)
    
    # Personalizar eje de rangos de precio con iconos
    ax.set_xticklabels(['üí∞ < 50‚Ç¨', 'üí∞üí∞ 50-100‚Ç¨', 'üí∞üí∞üí∞ 100-150‚Ç¨', 
                        'üí∞üí∞üí∞üí∞ 150-200‚Ç¨', 'üí∞üí∞üí∞üí∞üí∞ > 200‚Ç¨'])
    
    # A√±adir anotaciones para ayudar a interpretar
    # Encontrar la celda con mayor puntuaci√≥n
    max_val = heatmap_data.max().max()
    max_idx = np.unravel_index(heatmap_data.values.argmax(), heatmap_data.shape)
    max_barrio = heatmap_data.index[max_idx[0]]
    max_precio = heatmap_data.columns[max_idx[1]]
    
    # Anotar la mejor combinaci√≥n con estilo mejorado
    plt.annotate(
        f"üíé Mejor oportunidad\n{max_barrio}, {max_precio}",
        xy=(max_idx[1], max_idx[0]),
        xytext=(max_idx[1] + 1.5, max_idx[0] - 1),
        fontsize=13, fontweight='bold',
        arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='#0d47a1', lw=2),
        bbox=dict(boxstyle="round,pad=0.4", facecolor='white', edgecolor='#0d47a1', alpha=0.9)
    )
    
    # A√±adir leyenda explicativa mejorada
    plt.figtext(0.5, 0.02, 
               "üìå GU√çA DE INTERPRETACI√ìN DEL MAPA DE CALOR:\n\n"
               "üîµ Valores m√°s altos (azul oscuro): Mejores oportunidades de inversi√≥n\n"
               "‚ö™ Valores m√°s bajos (azul claro): Oportunidades menos atractivas\n"
               "‚¨ú Celdas en blanco: Datos insuficientes o inexistentes\n\n"
               "üí° C√ìMO USAR ESTE MAPA:\n"
               "‚Ä¢ Identifique rangos de precio √≥ptimos para cada barrio\n"
               "‚Ä¢ Localice barrios con mejor desempe√±o general\n"
               "‚Ä¢ Descubra nichos de mercado con alto potencial y menor competencia", 
               ha='center', fontsize=13, 
               bbox=dict(facecolor='#e3f2fd', edgecolor='#0d47a1', 
                        boxstyle='round,pad=0.8', linewidth=2), color='#0d47a1')
    
    plt.tight_layout(rect=[0, 0.15, 1, 0.95])  # Ajustar espacio para leyenda inferior
    plt.show()
    
    # 4. VISUALIZACI√ìN MEJORADA: OPORTUNIDADES POR BARRIO Y N√öMERO DE HABITACIONES
    if 'bedrooms' in invest_df.columns:
        # Agrupar por barrio y n√∫mero de habitaciones
        room_data = invest_df.groupby([neighborhood_col, 'bedrooms'])['opportunity_score_normalized'].mean().reset_index()
        
        # Filtrar para habitaciones razonables (0-6)
        room_data = room_data[room_data['bedrooms'].between(0, 6)]
        
        # Crear tabla pivote
        room_pivot = room_data.pivot(index=neighborhood_col, columns='bedrooms', values='opportunity_score_normalized')
        
        # Seleccionar top barrios
        top_neighborhoods = neighborhood_opportunity.head(10)[neighborhood_col].tolist()
        room_pivot = room_pivot.loc[room_pivot.index.intersection(top_neighborhoods)]
        
        # Crear m√°scara para valores nulos
        mask = room_pivot.isna()
        
        plt.figure(figsize=(15, 10))
        
        # Crear heatmap con estilo mejorado
        bedroom_cmap = LinearSegmentedColormap.from_list(
            'bedroom_cmap', 
            ['#ffffff', '#e8f5e9', '#c8e6c9', '#a5d6a7', '#81c784', '#66bb6a', '#4caf50', '#43a047', '#388e3c', '#2e7d32', '#1b5e20']
        )
        
        sns.heatmap(room_pivot, annot=True, fmt='.1f', cmap=bedroom_cmap, 
                   linewidths=1, mask=mask, annot_kws={"size": 14, "weight": "bold"})
        
        # A√±adir t√≠tulo con icono y mejor estilo
        plt.title('üõèÔ∏è Oportunidades de Inversi√≥n por Barrio y N√∫mero de Habitaciones', 
                 fontweight='bold', fontsize=20, color='#2e7d32')
        plt.xlabel('N√∫mero de Habitaciones', fontweight='bold', fontsize=16)
        plt.ylabel('Barrio', fontweight='bold', fontsize=16)
        
        # Personalizar etiquetas de eje x con iconos
        bedroom_labels = ['üõãÔ∏è 0', 'üõèÔ∏è 1', 'üõèÔ∏èüõèÔ∏è 2', 'üõèÔ∏èüõèÔ∏èüõèÔ∏è 3', 
                         'üõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏è 4', 'üõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏è 5', 'üõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏èüõèÔ∏è 6']
        plt.gca().set_xticklabels(bedroom_labels[:len(plt.gca().get_xticklabels())])
        
        # Crear leyenda de iconos para n√∫mero de habitaciones con dise√±o mejorado
        legend_elements = [
            mpatches.Patch(facecolor='#c8e6c9', edgecolor='#81c784', label='üõãÔ∏è 0: Estudio'),
            mpatches.Patch(facecolor='#a5d6a7', edgecolor='#81c784', label='üõèÔ∏è 1: Una habitaci√≥n'),
            mpatches.Patch(facecolor='#81c784', edgecolor='#66bb6a', label='üõèÔ∏èüõèÔ∏è 2: Dos habitaciones'),
            mpatches.Patch(facecolor='#66bb6a', edgecolor='#4caf50', label='üõèÔ∏èüõèÔ∏èüõèÔ∏è 3+: Tres o m√°s habitaciones')
        ]
        
        plt.legend(handles=legend_elements, loc='upper right', 
                  title="Tipos de Alojamiento", framealpha=0.95, 
                  facecolor='white', edgecolor='#2e7d32')
        
        # Anotar la mejor combinaci√≥n con estilo mejorado
        max_val = room_pivot.max().max()
        if not pd.isna(max_val):  # Verificar que existe un valor m√°ximo
            max_idx = np.unravel_index(np.nanargmax(room_pivot.values), room_pivot.shape)
            max_barrio = room_pivot.index[max_idx[0]]
            max_rooms = room_pivot.columns[max_idx[1]]
            
            # A√±adir icono seg√∫n n√∫mero de habitaciones
            if max_rooms == 0:
                room_icon = "üõãÔ∏è"
            elif max_rooms == 1:
                room_icon = "üõèÔ∏è"
            elif max_rooms == 2:
                room_icon = "üõèÔ∏èüõèÔ∏è"
            else:
                room_icon = "üõèÔ∏èüõèÔ∏èüõèÔ∏è"
            
            plt.annotate(
                f"üîù Mejor combinaci√≥n\n{max_barrio}, {room_icon} {max_rooms} habitaciones",
                xy=(max_idx[1], max_idx[0]),
                xytext=(max_idx[1] + 1, max_idx[0] + 0.5),
                fontsize=13, fontweight='bold',
                arrowprops=dict(arrowstyle="->", connectionstyle="arc3,rad=.3", color='#2e7d32', lw=2),
                bbox=dict(boxstyle="round,pad=0.4", facecolor='white', edgecolor='#2e7d32', alpha=0.9)
            )
        
        # A√±adir insight con iconos y mejor dise√±o
        plt.figtext(0.5, 0.01, 
                   "üí° AN√ÅLISIS DEL TIPO DE PROPIEDAD √ìPTIMO:\n\n"
                   "üèòÔ∏è Este mapa de calor muestra qu√© configuraci√≥n de alojamiento (por n√∫mero de habitaciones) ofrece la mejor oportunidad en cada barrio\n"
                   "üìà Utilice esta informaci√≥n para elegir el tipo de propiedad ideal seg√∫n la zona de inversi√≥n\n"
                   "‚ö†Ô∏è Considere tambi√©n la demanda estacional y el perfil de viajero t√≠pico de cada barrio", 
                   ha='center', fontsize=13, 
                   bbox=dict(facecolor='#e8f5e9', edgecolor='#2e7d32', 
                            boxstyle='round,pad=0.8', linewidth=2), color='#2e7d32')
        
        plt.tight_layout(rect=[0, 0.05, 1, 0.95])
        plt.show()
    
    # 5. VISUALIZACI√ìN: RENDIMIENTO DE INVERSI√ìN POR BARRIO
    # Calcular ROI estimado
    if 'price_float' in invest_df.columns and 'occupancy_rate' in invest_df.columns:
        # Estimar ingreso anual
        invest_df['estimated_annual_revenue'] = invest_df['price_float'] * 365 * invest_df['occupancy_rate']
        
        # Estimar precio de propiedad basado en barrio
        # Usar precios de propiedad aproximados por barrio (en euros)
        barrio_precios = {
            'Ciutat Vella': 4500,
            'Eixample': 5200,
            'Sants-Montju√Øc': 3700,
            'Les Corts': 5100,
            'Sarri√†-Sant Gervasi': 6300,
            'Gr√†cia': 4900,
            'Horta-Guinard√≥': 3500,
            'Nou Barris': 2800,
            'Sant Andreu': 3300,
            'Sant Mart√≠': 4200
        }
        
        # Crear funci√≥n para asignar precio por m2 seg√∫n barrio
        def get_price_per_m2(neighborhood):
            for distrito, precio in barrio_precios.items():
                if distrito in neighborhood:
                    return precio
            return 4000  # Valor promedio para Barcelona
        
        # Asignar precio por m2
        invest_df['price_per_m2'] = invest_df[neighborhood_col].apply(get_price_per_m2)
        
        # Estimar valor de propiedad (suponiendo 70m2 promedio)
        invest_df['estimated_property_value'] = invest_df['price_per_m2'] * 70
        
        # Calcular ROI bruto
        invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['estimated_property_value']) * 100
        
        # Agrupar por barrio
        roi_by_neighborhood = invest_df.groupby(neighborhood_col).agg({
            'estimated_roi': 'mean',
            'opportunity_score_normalized': 'mean',
            'price_per_m2': 'mean',
            'estimated_annual_revenue': 'mean',
            'id': 'count'
        }).reset_index()
        
        # Ordenar por ROI
        roi_by_neighborhood = roi_by_neighborhood.sort_values('estimated_roi', ascending=False)
        
        # Crear gr√°fico combinado con mejor dise√±o
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 10))
        fig.patch.set_facecolor('white')
        
        # 1. Gr√°fico de barras para ROI con gradiente de color mejorado
        roi_cmap = LinearSegmentedColormap.from_list(
            'roi_cmap', 
            ['#fff9c4', '#fff59d', '#fff176', '#ffee58', '#ffeb3b', '#fdd835', '#fbc02d', '#f9a825', '#f57f17'], 
            N=256
        )
        
        bar_colors = roi_cmap(np.linspace(0, 1, len(roi_by_neighborhood.head(10))))
        bars = ax1.barh(roi_by_neighborhood.head(10)[neighborhood_col], 
                       roi_by_neighborhood.head(10)['estimated_roi'],
                       color=bar_colors, height=0.7, edgecolor='white', linewidth=0.8)
        
        # A√±adir iconos seg√∫n ROI con mejor dise√±o
        for i, bar in enumerate(bars):
            roi_value = roi_by_neighborhood.iloc[i]['estimated_roi']
            
            # Elegir icono seg√∫n ROI
            if roi_value > 8:
                roi_icon = "üî•"  # Excepcional
            elif roi_value > 6:
                roi_icon = "üí∞"  # Muy buena
            elif roi_value > 4:
                roi_icon = "üìà"  # Buena
            else:
                roi_icon = "üí±"  # Regular
            
            # A√±adir valor de ROI con icono y mejor estilo
            roi_text = ax1.text(bar.get_width() + 0.1, bar.get_y() + bar.get_height()/2, 
                    f"{roi_icon} ROI: {roi_value:.2f}%", 
                    va='center', fontweight='bold', fontsize=12)
            
            # Sombra para mejorar legibilidad
            roi_text.set_path_effects([PathEffects.withStroke(linewidth=3, foreground='white')])
            
            # A√±adir informaci√≥n adicional debajo del nombre del barrio con mejor dise√±o
            count = roi_by_neighborhood.iloc[i]['id']
            price = roi_by_neighborhood.iloc[i]['price_per_m2']
            ax1.text(-0.5, bar.get_y() - 0.2, f"üè† {count} prop. | üí∂ {price:.0f}‚Ç¨/m¬≤", 
                    va='center', fontsize=9, alpha=0.8,
                    bbox=dict(facecolor='white', alpha=0.6, edgecolor='none', pad=1))
        
        # A√±adir t√≠tulo con icono y mejor estilo
        ax1.set_title('üìä Rentabilidad Estimada por Barrio (Top 10)', 
                     fontweight='bold', fontsize=18, color='#f57f17')
        ax1.set_xlabel('ROI Estimado (%)', fontweight='bold', fontsize=14)
        ax1.set_ylabel('Barrio', fontweight='bold', fontsize=14)
        ax1.grid(axis='x', linestyle='--', alpha=0.7)
        
        # Mejorar apariencia del gr√°fico
        ax1.spines['top'].set_visible(False)
        ax1.spines['right'].set_visible(False)
        ax1.spines['left'].set_visible(False)
        ax1.set_xlim(-0.5, roi_by_neighborhood['estimated_roi'].max() * 1.2)
        
        # A√±adir leyenda con iconos y mejor dise√±o
        roi_legend = [
            mpatches.Patch(facecolor='#f57f17', edgecolor='white', label='üî• Excepcional: >8%'),
            mpatches.Patch(facecolor='#fbc02d', edgecolor='white', label='üí∞ Muy buena: 6-8%'),
            mpatches.Patch(facecolor='#fff176', edgecolor='white', label='üìà Buena: 4-6%'),
            mpatches.Patch(facecolor='#fff9c4', edgecolor='white', label='üí± Regular: <4%')
        ]
        
        ax1.legend(handles=roi_legend, loc='lower right', 
                  title="Categor√≠as de ROI", framealpha=0.95, 
                  facecolor='white', edgecolor='#f57f17')
        
        # 2. Gr√°fico de dispersi√≥n: ROI vs Puntuaci√≥n de Oportunidad con estilo mejorado
        scatter = ax2.scatter(
            roi_by_neighborhood['estimated_roi'], 
            roi_by_neighborhood['opportunity_score_normalized'],
            s=roi_by_neighborhood['id'] * 2,  # Tama√±o seg√∫n n√∫mero de propiedades
            c=roi_by_neighborhood['price_per_m2'],  # Color seg√∫n precio por m2
            cmap='plasma',
            alpha=0.8,
            edgecolor='white',
            linewidth=0.8
        )
        
        # A√±adir nombres de barrios con mejor dise√±o
        for i, row in roi_by_neighborhood.iterrows():
            if row['estimated_roi'] > roi_by_neighborhood['estimated_roi'].quantile(0.75) or \
               row['opportunity_score_normalized'] > roi_by_neighborhood['opportunity_score_normalized'].quantile(0.75):
                text = ax2.annotate(
                    row[neighborhood_col],
                    (row['estimated_roi'], row['opportunity_score_normalized']),
                    xytext=(5, 5),
                    textcoords='offset points',
                    fontsize=10,
                    fontweight='bold',
                    alpha=0.9,
                    bbox=dict(facecolor='white', alpha=0.7, edgecolor='none', pad=1)
                )
                text.set_path_effects([PathEffects.withStroke(linewidth=2, foreground='white')])
        
        # A√±adir l√≠nea de tendencia con mejor estilo
        x = roi_by_neighborhood['estimated_roi']
        y = roi_by_neighborhood['opportunity_score_normalized']
        z = np.polyfit(x, y, 1)
        p = np.poly1d(z)
        ax2.plot(x, p(x), linestyle='--', color='#f57f17', linewidth=2.5, alpha=0.8)
        
        # Calcular correlaci√≥n
        corr = np.corrcoef(x, y)[0, 1]
        
        # A√±adir t√≠tulo con icono y mejor estilo
        ax2.set_title(f'üîÑ ROI vs Puntuaci√≥n de Oportunidad\nCorrelaci√≥n: {corr:.2f}', 
                     fontweight='bold', fontsize=18, color='#f57f17')
        ax2.set_xlabel('ROI Estimado (%)', fontweight='bold', fontsize=14)
        ax2.set_ylabel('Puntuaci√≥n de Oportunidad', fontweight='bold', fontsize=14)
        ax2.grid(True, linestyle='--', alpha=0.7)
        
        # Mejorar apariencia del gr√°fico
        ax2.spines['top'].set_visible(False)
        ax2.spines['right'].set_visible(False)
        
        # A√±adir iconos para los cuadrantes con mejor dise√±o
        # Cuadrante superior derecho
        ax2.text(0.95, 0.95, "üåü", transform=ax2.transAxes, 
                 fontsize=22, va='top', ha='right',
                 bbox=dict(facecolor='white', alpha=0.8, edgecolor='#f57f17', boxstyle='round', pad=0.3))
        # Cuadrante inferior derecho
        ax2.text(0.95, 0.05, "‚ö†Ô∏è", transform=ax2.transAxes, 
                 fontsize=22, va='bottom', ha='right',
                 bbox=dict(facecolor='white', alpha=0.8, edgecolor='#f57f17', boxstyle='round', pad=0.3))
        # Cuadrante superior izquierdo
        ax2.text(0.05, 0.95, "‚≠ê", transform=ax2.transAxes, 
                 fontsize=22, va='top', ha='left',
                 bbox=dict(facecolor='white', alpha=0.8, edgecolor='#f57f17', boxstyle='round', pad=0.3))
        # Cuadrante inferior izquierdo
        ax2.text(0.05, 0.05, "‚ùì", transform=ax2.transAxes, 
                 fontsize=22, va='bottom', ha='left',
                 bbox=dict(facecolor='white', alpha=0.8, edgecolor='#f57f17', boxstyle='round', pad=0.3))
        
        # A√±adir etiquetas para los cuadrantes
        ax2.text(0.95, 0.90, "Inversi√≥n √ìptima", transform=ax2.transAxes, 
                 fontsize=10, va='top', ha='right', fontweight='bold', alpha=0.8)
        ax2.text(0.95, 0.10, "Alto ROI, Baja Oportunidad", transform=ax2.transAxes, 
                 fontsize=10, va='bottom', ha='right', fontweight='bold', alpha=0.8)
        ax2.text(0.05, 0.90, "Buena Oportunidad, ROI Moderado", transform=ax2.transAxes, 
                 fontsize=10, va='top', ha='left', fontweight='bold', alpha=0.8)
        ax2.text(0.05, 0.10, "Inversi√≥n de Mayor Riesgo", transform=ax2.transAxes, 
                 fontsize=10, va='bottom', ha='left', fontweight='bold', alpha=0.8)
        
        # A√±adir colorbar para precio por m2 con mejor dise√±o
        cbar = plt.colorbar(scatter, ax=ax2)
        cbar.set_label('Precio por m¬≤ (‚Ç¨)', fontweight='bold', fontsize=12)
        cbar.ax.tick_params(labelsize=10)
        
        # A√±adir leyenda para el tama√±o de los puntos con mejor dise√±o
        sizes = [10, 50, 100]
        labels = ['Pocas propiedades', 'Cantidad media', 'Muchas propiedades']
        
        # Crear puntos de leyenda
        legend_elements = []
        for size, label in zip(sizes, labels):
            legend_elements.append(plt.Line2D([0], [0], marker='o', color='w', 
                                             label=label, markerfacecolor='#f57f17',
                                             markersize=np.sqrt(size/2), alpha=0.8))
        
        ax2.legend(handles=legend_elements, title="N√∫mero de propiedades", 
                  loc='upper left', frameon=True, facecolor='white', 
                  edgecolor='#f57f17', framealpha=0.95)
        
        # A√±adir insight general con iconos y mejor dise√±o
        plt.figtext(0.5, 0.01, 
                   "üí° INSIGHTS CLAVE PARA INVERSORES:\n\n"
                   f"1. üìä La correlaci√≥n entre ROI y puntuaci√≥n de oportunidad es {corr:.2f}, lo que sugiere {'una fuerte relaci√≥n' if corr > 0.7 else 'una relaci√≥n moderada' if corr > 0.4 else 'que existen otros factores importantes'}.\n"
                   f"2. üåü Los barrios del cuadrante superior derecho (ROI alto + Oportunidad alta) son la opci√≥n √≥ptima.\n"
                   "3. üè† El tama√±o de los c√≠rculos indica volumen de propiedades - barrios m√°s grandes ofrecen m√°s opciones para inversores.\n"
                   "4. üí∞ Los colores indican precio por m¬≤ - tonos m√°s claros representan zonas m√°s caras.", 
                   ha='center', fontsize=13, 
                   bbox=dict(facecolor='#fff9c4', edgecolor='#f57f17', 
                            boxstyle='round,pad=0.8', linewidth=2), color='#f57f17')
        
        plt.suptitle('üí∞ An√°lisis de Rentabilidad de Inversi√≥n por Barrio', 
                    fontsize=22, fontweight='bold', color='#f57f17')
        
        plt.tight_layout(rect=[0, 0.08, 1, 0.95])
        plt.show()
    
    # 6. VISUALIZACI√ìN: RADAR CHART DE TOP 5 OPORTUNIDADES CON DISE√ëO MEJORADO
    
    # Tomar las 5 mejores oportunidades
    top_5_neighborhoods = neighborhood_opportunity.head(5)[neighborhood_col].tolist()
    
    # Preparar datos para el radar chart
    radar_metrics = ['price_competitiveness', 'review_score_normalized', 'occupancy_rate', 
                   'opportunity_score_normalized']
    
    # Calcular valores promedio para cada barrio y m√©trica
    radar_data = []
    for neighborhood in top_5_neighborhoods:
        neighborhood_data = invest_df[invest_df[neighborhood_col] == neighborhood]
        
        # Calcular promedios normalizados
        metric_avgs = {}
        for metric in radar_metrics:
            if metric in neighborhood_data.columns:
                # Normalizar a escala 0-1 para el radar chart
                if metric == 'opportunity_score_normalized':
                    metric_avgs[metric] = neighborhood_data[metric].mean() / 100
                else:
                    metric_avgs[metric] = neighborhood_data[metric].mean()
        
        radar_data.append({'neighborhood': neighborhood, **metric_avgs})
    
    # Crear radar chart con dise√±o mejorado
    fig = plt.figure(figsize=(15, 12), facecolor='white')
    
    # Definir las categor√≠as y colores
    categories = ['Competitividad de Precio', 'Valoraciones', 'Ocupaci√≥n', 'Puntuaci√≥n Global']
    # A√±adir iconos a las categor√≠as
    categories_with_icons = ['üí≤ Competitividad de Precio', '‚≠ê Valoraciones', 'üìÖ Ocupaci√≥n', 'üèÜ Puntuaci√≥n Global']
    N = len(categories)
    
    # Crear √°ngulos para el radar chart
    angles = [n / float(N) * 2 * np.pi for n in range(N)]
    angles += angles[:1]  # Cerrar el c√≠rculo
    
    # Crear subplots
    ax = plt.subplot(111, polar=True)
    
    # Definir colores m√°s vibrantes para cada barrio
    colors = ['#673ab7', '#3f51b5', '#2196f3', '#00bcd4', '#009688']
    
    # A√±adir cada barrio al radar chart con mejor dise√±o
    for i, neighborhood in enumerate(top_5_neighborhoods):
        values = []
        for metric, display_name in zip(radar_metrics, categories):
            for item in radar_data:
                if item['neighborhood'] == neighborhood:
                    values.append(item[metric])
        
        # Cerrar el c√≠rculo repitiendo el primer valor
        values += values[:1]
        
        # Dibujar el pol√≠gono y a√±adir leyenda con l√≠neas m√°s gruesas y mejor relleno
        ax.plot(angles, values, linewidth=3, linestyle='solid', label=neighborhood, 
               color=colors[i], path_effects=[PathEffects.withStroke(linewidth=4, foreground='white')])
        ax.fill(angles, values, alpha=0.2, color=colors[i])
    
    # Establecer categor√≠as con iconos y mejorar presentaci√≥n
    plt.xticks(angles[:-1], categories_with_icons, size=14, fontweight='bold')
    
    # A√±adir c√≠rculos de referencia con etiquetas
    ax.set_rlabel_position(0)
    ax.set_rticks([0.2, 0.4, 0.6, 0.8])
    ax.set_yticklabels(['0.2', '0.4', '0.6', '0.8'], fontsize=10, color='gray')
    
    # Mejorar apariencia del gr√°fico
    ax.grid(True, linestyle='--', alpha=0.7)
    for spine in ax.spines.values():
        spine.set_visible(False)
    
    # Establecer l√≠mites de los ejes
    ax.set_ylim(0, 1)
    
    # A√±adir leyenda con mejor dise√±o
    plt.legend(loc='upper right', bbox_to_anchor=(0.1, 0.1), 
              frameon=True, title="üèôÔ∏è Barrios", 
              facecolor='white', edgecolor='#673ab7',
              framealpha=0.95, title_fontsize=14)
    
    # A√±adir t√≠tulo con icono y mejor estilo
    plt.title('üéØ Comparativa de Top 5 Barrios por M√©tricas de Inversi√≥n', 
             size=22, fontweight='bold', pad=30, color='#673ab7')
    
    # A√±adir explicaci√≥n con iconos y mejor dise√±o
    explanation = """
    üìä AN√ÅLISIS COMPARATIVO DE BARRIOS DESTACADOS:
    
    Este radar chart compara los 5 barrios con mayor puntuaci√≥n de oportunidad seg√∫n 4 m√©tricas clave:
    
    üí≤ Competitividad de Precio: Relaci√≥n precio/valor vs. promedio del barrio
    ‚≠ê Valoraciones: Puntuaciones medias normalizadas de los hu√©spedes
    üìÖ Ocupaci√≥n: Tasa promedio de ocupaci√≥n estimada
    üèÜ Puntuaci√≥n Global: Evaluaci√≥n combinada de oportunidad
    
    üí° Barrios con mayor √°rea en el radar representan mejores oportunidades globales de inversi√≥n.
    """
    plt.figtext(0.5, 0.01, explanation, ha='center', fontsize=13, 
               bbox=dict(facecolor='#f3e5f5', edgecolor='#673ab7', 
                       boxstyle='round,pad=0.8', linewidth=2), color='#673ab7')
    
    plt.tight_layout(rect=[0, 0.08, 1, 0.95])
    plt.show()

except NameError:
    # Mensaje de error mejorado con iconos y formato atractivo
    error_message = """
    ‚ùå Este an√°lisis requiere los datos de inversi√≥n que a√∫n no han sido generados.
    
    ‚ö†Ô∏è Pasos necesarios:
    
    1Ô∏è‚É£ Ejecute primero la celda que genera 'investment_df'
    2Ô∏è‚É£ Aseg√∫rese de que 'neighborhood_opportunity' est√© disponible
    3Ô∏è‚É£ Vuelva a ejecutar esta celda
    
    üîç Si el problema persiste, verifique que:
    - Las variables tienen los nombres correctos
    - Los c√°lculos de oportunidad se han realizado correctamente
    - Las columnas necesarias existen en los datos
    """
    
    # Crear figura para mostrar el mensaje de error de forma m√°s visual
    plt.figure(figsize=(12, 6), facecolor='#f8d7da')
    plt.text(0.5, 0.5, error_message, 
            ha='center', va='center', fontsize=14,
            bbox=dict(facecolor='#f8d7da', edgecolor='#dc3545', 
                     boxstyle='round,pad=1', linewidth=2),
            color='#721c24')
    plt.axis('off')
    plt.tight_layout()
    plt.show()

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

try:
    # Comprobar la disponibilidad del dataframe
    if 'invest_df' not in globals():
        if 'barcelona_limpio_completo' in globals():
            invest_df = barcelona_limpio_completo.copy()
        else:
            try:
                invest_df = pd.read_csv('barcelona_limpio_completo.csv')
            except:
                raise Exception("No se encuentra el dataset necesario para el an√°lisis")
    else:
        invest_df = invest_df.copy()
    
    # Identificar la columna de barrios
    if 'neighborhood_col' not in globals():
        for col in ['neighbourhood', 'neighborhood', 'neighbourhood_cleansed', 'neighborhood_cleansed']:
            if col in invest_df.columns:
                neighborhood_col = col
                break
        else:
            neighborhood_col = 'neighbourhood'
            print(f"No se encontr√≥ una columna de barrios adecuada. Usando '{neighborhood_col}'")
    
    # Preparar columna price_float
    if 'price_float' not in invest_df.columns:
        if 'price' in invest_df.columns:
            if invest_df['price'].dtype == 'O':
                invest_df['price_float'] = invest_df['price'].astype(str).str.replace('[$‚Ç¨¬£,]', '', regex=True)
                invest_df['price_float'] = pd.to_numeric(invest_df['price_float'], errors='coerce')
            else:
                invest_df['price_float'] = invest_df['price']
        else:
            invest_df['price_float'] = np.random.uniform(50, 500, size=len(invest_df))
            print("Columna price_float creada con valores aleatorios para demostraci√≥n")
    
    # Rellenar valores faltantes
    invest_df['price_float'] = invest_df['price_float'].fillna(invest_df['price_float'].median())
    
    # Calcular competitividad de precio
    avg_price_by_neighborhood = invest_df.groupby(neighborhood_col)['price_float'].mean().reset_index()
    avg_price_by_neighborhood.columns = [neighborhood_col, 'avg_price']
    
    # Aqu√≠ est√° el cambio principal - asegurarse de que la uni√≥n se realiza correctamente
    invest_df = pd.merge(invest_df, avg_price_by_neighborhood, on=neighborhood_col, how='left')
    
    # Verificar que la columna 'avg_price' exista en el DataFrame despu√©s del merge
    if 'avg_price' not in invest_df.columns:
        print("Error: La columna 'avg_price' no existe despu√©s del merge. Creando columna con valores predeterminados.")
        invest_df['avg_price'] = invest_df['price_float'].mean()
    
    # Calcular competitividad de precio
    invest_df['price_competitiveness'] = np.where(
        invest_df['price_float'] <= invest_df['avg_price'],
        1 - (invest_df['price_float'] / invest_df['avg_price']),
        0
    )
    
    # Preparar puntuaciones de rese√±as
    if 'review_scores_rating' in invest_df.columns:
        invest_df['review_scores_rating'] = pd.to_numeric(invest_df['review_scores_rating'], errors='coerce')
        max_rating = invest_df['review_scores_rating'].max()
        # Evitar divisi√≥n por cero
        if max_rating > 0:
            invest_df['review_score_normalized'] = invest_df['review_scores_rating'] / max_rating
        else:
            invest_df['review_score_normalized'] = np.random.uniform(0.7, 1.0, size=len(invest_df))
            print("Columna review_score_normalized creada con valores aleatorios debido a max_rating = 0")
    else:
        invest_df['review_score_normalized'] = np.random.uniform(0.7, 1.0, size=len(invest_df))
        print("Columna review_score_normalized creada con valores aleatorios para demostraci√≥n")
    
    # Preparar tasa de ocupaci√≥n
    if 'occupancy_rate' not in invest_df.columns:
        invest_df['occupancy_rate'] = np.random.uniform(0.3, 0.8, size=len(invest_df))
        print("Columna occupancy_rate creada con valores aleatorios para demostraci√≥n")
    
    # Rellenar valores faltantes
    invest_df['review_score_normalized'] = invest_df['review_score_normalized'].fillna(invest_df['review_score_normalized'].median())
    invest_df['occupancy_rate'] = invest_df['occupancy_rate'].fillna(invest_df['occupancy_rate'].median())
    
    # Calcular puntuaci√≥n de oportunidad
    invest_df['opportunity_score'] = (
        0.4 * invest_df['price_competitiveness'] +
        0.3 * invest_df['review_score_normalized'] +
        0.3 * invest_df['occupancy_rate']
    )
    
    # Normalizar a escala 0-100
    min_score = invest_df['opportunity_score'].min()
    max_score = invest_df['opportunity_score'].max()
    
    # Evitar divisi√≥n por cero
    if max_score > min_score:
        invest_df['opportunity_score_normalized'] = (invest_df['opportunity_score'] - min_score) / (max_score - min_score) * 100
    else:
        invest_df['opportunity_score_normalized'] = 50  # Valor por defecto si todos son iguales
        print("ADVERTENCIA: Todos los scores de oportunidad son iguales. Usando valor por defecto de 50.")
    
    # Crear dataset agregado por barrio
    neighborhood_opportunity = invest_df.groupby(neighborhood_col)['opportunity_score_normalized'].mean().reset_index()
    neighborhood_opportunity = neighborhood_opportunity.sort_values('opportunity_score_normalized', ascending=False)

    # VISUALIZACI√ìN 1: TOP BARRIOS POR OPORTUNIDAD DE INVERSI√ìN
    # Crear la figura primero antes de actualizarla
    top_n = 15
    top_neighborhoods = neighborhood_opportunity.head(top_n)
    
    fig1 = go.Figure(go.Bar(
        x=top_neighborhoods['opportunity_score_normalized'],
        y=top_neighborhoods[neighborhood_col],
        orientation='h',
        marker=dict(color='#3F51B5', colorscale='Viridis')
    ))
    
    fig1.update_layout(
        title=dict(
            text='üèÜ Top 15 Barrios con Mayor Puntuaci√≥n de Oportunidad de Inversi√≥n',
            font=dict(size=20, color="#303F9F"),
            x=0.5
        ),
        xaxis=dict(
            title=dict(
                text='Puntuaci√≥n de Oportunidad (0-100)',
                font=dict(size=14, color="#303F9F")
            ),
            domain=[0.1, 1]
        ),
        yaxis=dict(
            title=dict(
                text='Barrio',
                font=dict(size=14, color="#303F9F")
            )
        ),
        plot_bgcolor='rgba(249, 249, 249, 0.8)',
        height=600,
        width=1000,
        margin=dict(l=100, r=50, t=100, b=100),
    )

    # VISUALIZACI√ìN 2: RELACI√ìN ENTRE COMPONENTES DEL SCORE Y OPORTUNIDAD
    fig2 = make_subplots(
        rows=1, cols=3,
        subplot_titles=(
            "Competitividad de Precio vs Oportunidad",
            "Valoraci√≥n vs Oportunidad",
            "Ocupaci√≥n vs Oportunidad"
        )
    )
    
    # Agregar scatters para cada relaci√≥n
    fig2.add_trace(
        go.Scatter(
            x=invest_df['price_competitiveness'],
            y=invest_df['opportunity_score_normalized'],
            mode='markers',
            marker=dict(color='#E91E63', opacity=0.6),
            name="Precio"
        ),
        row=1, col=1
    )
    
    fig2.add_trace(
        go.Scatter(
            x=invest_df['review_score_normalized'],
            y=invest_df['opportunity_score_normalized'],
            mode='markers',
            marker=dict(color='#4CAF50', opacity=0.6),
            name="Valoraci√≥n"
        ),
        row=1, col=2
    )
    
    fig2.add_trace(
        go.Scatter(
            x=invest_df['occupancy_rate'],
            y=invest_df['opportunity_score_normalized'],
            mode='markers',
            marker=dict(color='#FF9800', opacity=0.6),
            name="Ocupaci√≥n"
        ),
        row=1, col=3
    )
    
    fig2.update_xaxes(title=dict(text="Competitividad de Precio", font=dict(size=14, color="#303F9F")), row=1, col=1)
    fig2.update_xaxes(title=dict(text="Valoraci√≥n Normalizada", font=dict(size=14, color="#303F9F")), row=1, col=2)
    fig2.update_xaxes(title=dict(text="Tasa de Ocupaci√≥n", font=dict(size=14, color="#303F9F")), row=1, col=3)

    fig2.update_yaxes(title=dict(text="Puntuaci√≥n de Oportunidad", font=dict(size=14, color="#303F9F")), row=1, col=1)
    fig2.update_yaxes(showticklabels=False, row=1, col=2)
    fig2.update_yaxes(showticklabels=False, row=1, col=3)
    
    fig2.update_layout(
        title=dict(
            text='üìä Factores que Influyen en la Puntuaci√≥n de Oportunidad',
            font=dict(size=20, color="#303F9F"),
            x=0.5
        ),
        height=600,
        width=1200,
        showlegend=False
    )

    # VISUALIZACI√ìN 3: MAPA DE CALOR DE OPORTUNIDADES POR BARRIO Y PRECIO
    # Crear rangos de precio
    bins = [0, 50, 100, 150, 200, 250, 300, float('inf')]
    labels = ['<50', '50-100', '100-150', '150-200', '200-250', '250-300', '>300']
    invest_df['price_range'] = pd.cut(invest_df['price_float'], bins=bins, labels=labels)
    
    # Crear mapa de calor agrupado por barrio y rango de precio
    heatmap_data = invest_df.groupby([neighborhood_col, 'price_range'])['opportunity_score_normalized'].mean().reset_index()
    heatmap_pivot = heatmap_data.pivot(index=neighborhood_col, columns='price_range', values='opportunity_score_normalized')
    
    # Seleccionar top barrios para el heatmap
    top_n_neighborhoods = 20
    top_neighborhoods_heatmap = neighborhood_opportunity.head(top_n_neighborhoods)[neighborhood_col].tolist()
    
    # Filtrar el pivot para incluir solo los top barrios
    heatmap_pivot = heatmap_pivot.loc[heatmap_pivot.index.isin(top_neighborhoods_heatmap)]
    
    # Crear figura de heatmap
    fig3 = go.Figure(data=go.Heatmap(
        z=heatmap_pivot.values,
        x=heatmap_pivot.columns,
        y=heatmap_pivot.index,
        colorscale='Viridis',
        colorbar=dict(title='Puntuaci√≥n')
    ))
    
    fig3.update_layout(
        title=dict(
            text='üî• Mapa de Calor: Oportunidades de Inversi√≥n por Barrio y Rango de Precio',
            font=dict(size=20, color="#303F9F"),
            x=0.5
        ),
        xaxis=dict(
            title=dict(
                text='Rango de Precio por Noche',
                font=dict(size=14, color="#303F9F")
            ),
            tickangle=-45
        ),
        yaxis=dict(
            title=dict(
                text='Barrio',
                font=dict(size=14, color="#303F9F")
            )
        ),
        height=800,
        width=1200,
        margin=dict(l=150, r=50, t=100, b=150),
    )

    # VISUALIZACI√ìN 4: DISTRIBUCI√ìN DE PUNTUACIONES DE OPORTUNIDAD
    # Crear histograma de distribuci√≥n
    hist_data = [invest_df['opportunity_score_normalized']]
    group_labels = ['Puntuaci√≥n de Oportunidad']
    
    fig4 = ff.create_distplot(
        hist_data, 
        group_labels, 
        bin_size=5, 
        curve_type='kde',
        colors=['#3F51B5']
    )
    
    fig4.update_layout(
        title=dict(
            text='üìä Distribuci√≥n de Puntuaciones de Oportunidad de Inversi√≥n',
            font=dict(size=20, color="#303F9F"),
            x=0.5
        ),
        xaxis=dict(
            title=dict(
                text='Puntuaci√≥n de Oportunidad (0-100)',
                font=dict(size=14, color="#303F9F")
            ),
            range=[0, 100]
        ),
        yaxis=dict(
            title=dict(
                text='Densidad',
                font=dict(size=14, color="#303F9F")
            )
        ),
        plot_bgcolor='rgba(249, 249, 249, 0.8)',
        height=600,
        width=1000,
        margin=dict(l=50, r=50, t=100, b=150),
    )
    
    # Mostrar las visualizaciones
    fig1.show()
    fig2.show()
    fig3.show()
    fig4.show()
    
except Exception as e:
    import traceback
    print(f"Error al generar visualizaciones: {str(e)}")
    print(traceback.format_exc())

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
import plotly.figure_factory as ff
from plotly.subplots import make_subplots
import scipy.stats as stats
from scipy.stats import pearsonr
import warnings
warnings.filterwarnings('ignore')

# Carga y preparaci√≥n del dataset
try:
    # Comprobar la disponibilidad del dataframe
    if 'invest_df' not in globals():
        if 'barcelona_limpio_completo' in globals():
            invest_df = barcelona_limpio_completo.copy()
        else:
            try:
                invest_df = pd.read_csv('barcelona_limpio_completo.csv')
            except:
                raise Exception("No se encuentra el dataset necesario para el an√°lisis")
    else:
        invest_df = invest_df.copy()
    
    # Identificar la columna de barrios
    if 'neighborhood_col' not in globals():
        for col in ['neighbourhood', 'neighborhood', 'neighbourhood_cleansed', 'neighborhood_cleansed']:
            if col in invest_df.columns:
                neighborhood_col = col
                break
        else:
            neighborhood_col = 'neighbourhood'
            print(f"No se encontr√≥ una columna de barrios adecuada. Usando '{neighborhood_col}'")
    
    # Preparar columna price_float
    if 'price_float' not in invest_df.columns:
        if 'price' in invest_df.columns:
            if invest_df['price'].dtype == 'O':
                invest_df['price_float'] = invest_df['price'].astype(str).str.replace('[$‚Ç¨¬£,]', '', regex=True)
                invest_df['price_float'] = pd.to_numeric(invest_df['price_float'], errors='coerce')
            else:
                invest_df['price_float'] = invest_df['price']
        else:
            invest_df['price_float'] = np.random.uniform(50, 500, size=len(invest_df))
            print("Columna price_float creada con valores aleatorios para demostraci√≥n")
    
    # MEJORA: A√±adir columnas derivadas para un an√°lisis m√°s completo
    # Preparar datos sobre habitaciones y ba√±os
    for col in ['bedrooms', 'bathrooms', 'beds']:
        if col in invest_df.columns:
            invest_df[col] = pd.to_numeric(invest_df[col], errors='coerce')
            invest_df[col] = invest_df[col].fillna(invest_df[col].median())
        else:
            invest_df[col] = np.random.randint(1, 5, size=len(invest_df))
    
    # Crear m√©tricas para el an√°lisis de inversi√≥n
    if 'availability_365' in invest_df.columns:
        invest_df['availability_rate'] = invest_df['availability_365'] / 365
    else:
        invest_df['availability_rate'] = np.random.uniform(0.3, 0.9, size=len(invest_df))
    
    # Rellenar valores faltantes
    invest_df['price_float'] = invest_df['price_float'].fillna(invest_df['price_float'].median())
    
    # MEJORA: Detectar y manejar outliers en el precio
    q1 = invest_df['price_float'].quantile(0.25)
    q3 = invest_df['price_float'].quantile(0.75)
    iqr = q3 - q1
    upper_bound = q3 + 1.5 * iqr
    
    # Crear una columna que indique si es un outlier
    invest_df['is_price_outlier'] = invest_df['price_float'] > upper_bound
    
    # Filtrar para an√°lisis excluyendo outliers extremos
    invest_df_filtered = invest_df[invest_df['price_float'] <= q3 + 3 * iqr].copy()
    
    # Calcular m√©tricas de precio por barrio
    price_metrics = invest_df.groupby(neighborhood_col)['price_float'].agg([
        ('neighborhood_avg_price', 'mean'),
        ('neighborhood_median_price', 'median'),
        ('neighborhood_min_price', 'min'),
        ('neighborhood_max_price', 'max'),
        ('neighborhood_price_std', 'std'),
        ('neighborhood_price_count', 'count')
    ]).reset_index()
    
    # Unir las m√©tricas al dataframe principal con sufijos claros para evitar duplicados
    invest_df = pd.merge(invest_df, price_metrics, on=neighborhood_col, how='left')
    
    # Calcular competitividad de precio (mejorada)
    invest_df['price_competitiveness'] = np.where(
        invest_df['price_float'] <= invest_df['neighborhood_avg_price'],
        1 - (invest_df['price_float'] / invest_df['neighborhood_avg_price']),
        0
    )
    
    # Calcular ROI potencial basado en ocupaci√≥n y precio
    if 'occupancy_rate' not in invest_df.columns:
        invest_df['occupancy_rate'] = 1 - invest_df['availability_rate']
    
    # Estimaci√≥n de ingresos anuales
    invest_df['estimated_annual_revenue'] = invest_df['price_float'] * invest_df['occupancy_rate'] * 365
    
    # Costo estimado de la propiedad (simulado)
    if 'property_value' not in invest_df.columns:
        # Simulamos valores de propiedad basados en el precio por noche y caracter√≠sticas
        avg_property_multiplier = 1000  # Asumimos que el valor es ~1000 veces el precio por noche
        invest_df['property_value'] = invest_df['price_float'] * avg_property_multiplier * (1 + 0.2 * invest_df['bedrooms'])
    
    # Calcular ROI
    invest_df['estimated_roi'] = (invest_df['estimated_annual_revenue'] / invest_df['property_value']) * 100
    
    # Preparar puntuaciones de rese√±as
    review_columns = [col for col in invest_df.columns if col.startswith('review_scores_')]
    
    if 'review_scores_rating' in invest_df.columns:
        invest_df['review_scores_rating'] = pd.to_numeric(invest_df['review_scores_rating'], errors='coerce')
        max_rating = 100 if invest_df['review_scores_rating'].max() > 10 else 10
        invest_df['review_score_normalized'] = invest_df['review_scores_rating'] / max_rating
    else:
        invest_df['review_score_normalized'] = np.random.uniform(0.7, 1.0, size=len(invest_df))
    
    # MEJORA: Crear un √≠ndice compuesto de calidad
    quality_factors = []
    
    if 'review_scores_cleanliness' in invest_df.columns:
        invest_df['review_scores_cleanliness'] = pd.to_numeric(invest_df['review_scores_cleanliness'], errors='coerce')
        max_val = 10 if invest_df['review_scores_cleanliness'].max() <= 10 else 100
        invest_df['cleanliness_normalized'] = invest_df['review_scores_cleanliness'] / max_val
        quality_factors.append('cleanliness_normalized')
    
    if 'review_scores_location' in invest_df.columns:
        invest_df['review_scores_location'] = pd.to_numeric(invest_df['review_scores_location'], errors='coerce')
        max_val = 10 if invest_df['review_scores_location'].max() <= 10 else 100
        invest_df['location_quality'] = invest_df['review_scores_location'] / max_val
        quality_factors.append('location_quality')
    
    # Si no hay factores espec√≠ficos, usamos el score general
    if not quality_factors:
        invest_df['quality_index'] = invest_df['review_score_normalized']
    else:
        # Promedio de los factores disponibles
        invest_df['quality_index'] = invest_df[quality_factors].mean(axis=1)
    
    # Rellenar valores faltantes
    invest_df['review_score_normalized'] = invest_df['review_score_normalized'].fillna(invest_df['review_score_normalized'].median())
    invest_df['quality_index'] = invest_df['quality_index'].fillna(invest_df['quality_index'].median())
    invest_df['occupancy_rate'] = invest_df['occupancy_rate'].fillna(invest_df['occupancy_rate'].median())
    invest_df['estimated_roi'] = invest_df['estimated_roi'].fillna(invest_df['estimated_roi'].median())
    
    # MEJORA: Calcular estacionalidad si hay datos de fecha
    has_seasonal_data = False
    if 'last_review' in invest_df.columns and pd.api.types.is_datetime64_any_dtype(invest_df['last_review']):
        invest_df['review_month'] = invest_df['last_review'].dt.month
        monthly_counts = invest_df.groupby('review_month').size()
        total_reviews = monthly_counts.sum()
        monthly_ratios = monthly_counts / total_reviews
        seasonality_index = monthly_ratios.std() * 100  # √çndice de estacionalidad
        has_seasonal_data = True
    
    # MEJORA: Calcular √≠ndice de saturaci√≥n por barrio
    neighborhood_saturation = invest_df.groupby(neighborhood_col).size() / len(invest_df)
    neighborhood_saturation = neighborhood_saturation.reset_index()
    neighborhood_saturation.columns = [neighborhood_col, 'market_saturation']
    
    # Unir √≠ndice de saturaci√≥n al dataframe
    invest_df = pd.merge(invest_df, neighborhood_saturation, on=neighborhood_col, how='left')
    
    # MEJORA: √çndice de amenities
    if 'amenities' in invest_df.columns:
        # Contar n√∫mero de amenities
        invest_df['amenities_count'] = invest_df['amenities'].astype(str).apply(lambda x: len(x.split(',')))
        # Normalizar a 0-1
        max_amenities = invest_df['amenities_count'].max()
        invest_df['amenities_index'] = invest_df['amenities_count'] / max_amenities
    else:
        invest_df['amenities_index'] = np.random.uniform(0.3, 0.9, size=len(invest_df))
    
    # MEJORA: Calcular un √≠ndice de valor (price/quality ratio)
    invest_df['value_for_money'] = invest_df['quality_index'] / (invest_df['price_float'] / invest_df['neighborhood_avg_price'])
    
    # Calcular puntuaci√≥n de oportunidad mejorada
    invest_df['opportunity_score'] = (
        0.25 * invest_df['price_competitiveness'] +
        0.20 * invest_df['review_score_normalized'] +
        0.20 * invest_df['occupancy_rate'] +
        0.15 * invest_df['value_for_money'] +
        0.10 * (1 - invest_df['market_saturation']) +  # Menor saturaci√≥n = mejor oportunidad
        0.10 * invest_df['estimated_roi'] / 20  # Normalizar ROI (asumiendo m√°ximo ~20%)
    )
    
    # Normalizar a escala 0-100
    min_score = invest_df['opportunity_score'].min()
    max_score = invest_df['opportunity_score'].max()
    
    # Evitar divisi√≥n por cero
    if max_score > min_score:
        invest_df['opportunity_score_normalized'] = (invest_df['opportunity_score'] - min_score) / (max_score - min_score) * 100
    else:
        invest_df['opportunity_score_normalized'] = 50
    
    # Crear dataset agregado por barrio
    neighborhood_opportunity = invest_df.groupby(neighborhood_col).agg({
        'opportunity_score_normalized': 'mean',
        'price_float': 'mean',
        'estimated_roi': 'mean',
        'quality_index': 'mean',
        'occupancy_rate': 'mean',
        'market_saturation': 'first',
        'price_competitiveness': 'mean',
        'value_for_money': 'mean'
    }).reset_index()
    
    neighborhood_opportunity = neighborhood_opportunity.sort_values('opportunity_score_normalized', ascending=False)
    
    # MEJORA: Segmentar barrios por categor√≠as de inversi√≥n
    neighborhood_opportunity['roi_category'] = pd.qcut(
        neighborhood_opportunity['estimated_roi'], 
        q=3, 
        labels=['Bajo ROI', 'Medio ROI', 'Alto ROI']
    )
    
    neighborhood_opportunity['price_category'] = pd.qcut(
        neighborhood_opportunity['price_float'], 
        q=3, 
        labels=['Precio Bajo', 'Precio Medio', 'Precio Alto']
    )
    
    neighborhood_opportunity['investment_segment'] = neighborhood_opportunity.apply(
        lambda x: f"{x['price_category']} / {x['roi_category']}", 
        axis=1
    )
    
    # =================================================================
    # VISUALIZACIONES MEJORADAS
    # =================================================================
    
    # 1. VISUALIZACI√ìN MEJORADA: TOP BARRIOS CON PUNTUACI√ìN DE OPORTUNIDAD
    top_n = 15
    top_neighborhoods = neighborhood_opportunity.head(top_n)
    
    # Colores seg√∫n ROI estimado
    color_scale = px.colors.sequential.Viridis
    
    fig1 = go.Figure()
    
    # Barras principales
    fig1.add_trace(go.Bar(
        x=top_neighborhoods['opportunity_score_normalized'],
        y=top_neighborhoods[neighborhood_col],
        orientation='h',
        marker=dict(
            color=top_neighborhoods['estimated_roi'],
            colorscale=color_scale,
            colorbar=dict(title='ROI Estimado (%)')
        ),
        text=[f"ROI: {roi:.1f}% | Ocupaci√≥n: {occ*100:.1f}%" 
              for roi, occ in zip(top_neighborhoods['estimated_roi'], top_neighborhoods['occupancy_rate'])],
        textposition='auto',
        name='Puntuaci√≥n de Oportunidad'
    ))
    
    # Agregar anotaciones con iconos para los tres mejores barrios
    for i, (neighborhood, score, roi, occupancy) in enumerate(zip(
        top_neighborhoods[neighborhood_col].head(3),
        top_neighborhoods['opportunity_score_normalized'].head(3),
        top_neighborhoods['estimated_roi'].head(3),
        top_neighborhoods['occupancy_rate'].head(3)
    )):
        fig1.add_annotation(
            x=score,
            y=neighborhood,
            text=f"üèÜ #{i+1}",
            showarrow=False,
            font=dict(size=20),
            xshift=10,
            yshift=10
        )
    
    # Agregar l√≠nea de referencia para el promedio
    avg_score = neighborhood_opportunity['opportunity_score_normalized'].mean()
    fig1.add_shape(
        type="line",
        x0=avg_score,
        x1=avg_score,
        y0=-0.5,
        y1=len(top_neighborhoods) - 0.5,
        line=dict(color="red", width=2, dash="dash"),
    )
    
    fig1.add_annotation(
        x=avg_score,
        y=len(top_neighborhoods) - 1,
        text=f"Promedio: {avg_score:.1f}",
        showarrow=False,
        font=dict(size=12, color="red"),
        xshift=0,
        yshift=20
    )
    
    fig1.update_layout(
        title=dict(
            text='üèÜ Top 15 Barrios con Mayor Oportunidad de Inversi√≥n',
            font=dict(size=24, color="#303F9F"),
            x=0.5
        ),
        xaxis=dict(
            title=dict(
                text='Puntuaci√≥n de Oportunidad (0-100)',
                font=dict(size=16, color="#303F9F")
            ),
            domain=[0.1, 1]
        ),
        yaxis=dict(
            title=dict(
                text='Barrio',
                font=dict(size=16, color="#303F9F")
            ),
            categoryorder='total ascending'
        ),
        plot_bgcolor='rgba(240, 240, 250, 0.9)',
        height=700,
        width=1000,
        margin=dict(l=150, r=50, t=100, b=100),
        hoverlabel=dict(
            bgcolor="white",
            font_size=14,
            font_family="Arial"
        ),
    )
    
    # Mostrar la visualizaci√≥n
    fig1.show()
    
except Exception as e:
    import traceback
    print(f"Error al generar visualizaciones: {str(e)}")
    print(traceback.format_exc())

In [None]:
# RENTABILIDAD VS OPERACI√ìN

try:
    # Cargar datos de precios inmobiliarios si existe
    try:
        df_inmobiliario = pd.read_csv('precio_vivienda_distritosBarcelona_mayo2025.csv')
        print("Datos inmobiliarios cargados correctamente")
    except:
        # Crear datos simulados si no existe el archivo
        print("Creando datos inmobiliarios simulados")
        distritos = ['Ciutat Vella', 'Eixample', 'Sants-Montju√Øc', 'Les Corts', 
                    'Sarri√†-Sant Gervasi', 'Gr√†cia', 'Horta-Guinard√≥', 
                    'Nou Barris', 'Sant Andreu', 'Sant Mart√≠']
        
        precios = [4500, 5200, 3700, 5100, 6300, 4900, 3500, 2800, 3300, 4200]
        
        df_inmobiliario = pd.DataFrame({
            'distrito': distritos,
            'precio': precios
        })
    
    # Agrupar datos de alquiler por barrio
    zona_rent = df.groupby(neighbourhood_field).agg({
        'price_float': 'mean',
        'days_rented': 'mean'
    }).reset_index()
    
    # Calcular ingreso anual estimado
    zona_rent['ingreso_anual'] = zona_rent['price_float'] * zona_rent['days_rented']
    
    # Intentar asociar cada barrio a su distrito
    if 'distrito' in df.columns:
        # Si el dataset ya tiene distrito, usarlo para el merge
        barrio_distrito = df[[neighbourhood_field, 'distrito']].drop_duplicates()
        zona_rent = zona_rent.merge(barrio_distrito, on=neighbourhood_field, how='left')
    else:
        # Si no hay columna de distrito, asignar uno gen√©rico
        zona_rent['distrito'] = 'Barcelona'
    
    # Agregar precios de compra por m¬≤
    if 'distrito' in zona_rent.columns:
        zona_rent = zona_rent.merge(
            df_inmobiliario[['distrito', 'precio']],
            on='distrito',
            how='left'
        )
    else:
        # Usar precio promedio de Barcelona
        zona_rent['precio'] = precio_m2_barcelona
    
    zona_rent = zona_rent.rename(columns={'precio': 'precio_compra_m2'})
    
    # Calcular precio de compra total
    average_m2 = 70  # Tama√±o promedio en m¬≤
    zona_rent['precio_compra_total'] = zona_rent['precio_compra_m2'] * average_m2
    
    # Calcular rentabilidad bruta (%)
    zona_rent['rentabilidad_bruta_%'] = (zona_rent['ingreso_anual'] / zona_rent['precio_compra_total']) * 100
    
    # Ordenar y mostrar
    zona_rent = zona_rent.sort_values(by='rentabilidad_bruta_%', ascending=False)
    print("Rentabilidad bruta por barrio:")
    print(zona_rent[[neighbourhood_field, 'ingreso_anual', 'precio_compra_total', 'rentabilidad_bruta_%']].head(10))
    
    # Visualizar top barrios por rentabilidad
    top_rent = zona_rent.head(15).copy()
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=top_rent[neighbourhood_field],
        x=top_rent['rentabilidad_bruta_%'],
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por rentabilidad bruta estimada (%)", fontsize=16)
    plt.xlabel("Rentabilidad bruta (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    
    plt.show()
    
    print("""
    El gr√°fico muestra los 15 barrios de Barcelona con mayor rentabilidad bruta estimada en alquiler tur√≠stico.
    Estos barrios destacan por ofrecer retornos superiores al promedio de la ciudad, combinando altos ingresos anuales
    con precios de compra relativamente competitivos.
    
    Representan oportunidades atractivas para inversores que buscan maximizar el retorno de su inversi√≥n. Sin embargo,
    es importante considerar tambi√©n factores como la competencia y la demanda real en cada zona para asegurar una
    inversi√≥n sostenible y rentable a largo plazo.
    """)
except Exception as e:
    print(f"Error al analizar rentabilidad: {e}")

In [None]:
# Anuncios con mayor rentabilidad bruta
try:
    # Calcular rentabilidad bruta por anuncio
    df['rentabilidad_bruta_%'] = (df['annual_income'] / df['estimated_property_value']) * 100
    
    # Seleccionar los 15 anuncios con mayor rentabilidad bruta
    anuncios_rentables = df.sort_values(by='rentabilidad_bruta_%', ascending=False).head(15)
    
    print("Anuncios m√°s rentables:")
    print(anuncios_rentables[['name', neighbourhood_field, 'price_float', 'days_rented', 'annual_income', 'estimated_property_value', 'rentabilidad_bruta_%']].head(5))
    
    # Visualizar los anuncios con mayor rentabilidad bruta
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=anuncios_rentables['name'],
        x=anuncios_rentables['rentabilidad_bruta_%'],
        palette='Greens_r'
    )
    plt.title("Top 15 anuncios por rentabilidad bruta (%)", fontsize=16)
    plt.xlabel("Rentabilidad bruta (%)", fontsize=14)
    plt.ylabel("Anuncio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.2f%%')
    plt.show()
    
    # Barrios con mayor rentabilidad bruta media
    barrio_rentabilidad = df.groupby(neighbourhood_field)['rentabilidad_bruta_%'].mean().reset_index()
    barrio_rentabilidad = barrio_rentabilidad.sort_values(by='rentabilidad_bruta_%', ascending=False)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_rentabilidad[neighbourhood_field].head(15),
        x=barrio_rentabilidad['rentabilidad_bruta_%'].head(15),
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por rentabilidad bruta media (%)", fontsize=16)
    plt.xlabel("Rentabilidad bruta media (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    plt.show()
    
    # Barrios con mayor rentabilidad neta
    barrio_rentabilidad_neta = df.groupby(neighbourhood_field)['Net ROI (%)'].mean().reset_index()
    barrio_rentabilidad_neta = barrio_rentabilidad_neta.sort_values(by='Net ROI (%)', ascending=False)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_rentabilidad_neta[neighbourhood_field].head(15),
        x=barrio_rentabilidad_neta['Net ROI (%)'].head(15),
        palette='Oranges_r'
    )
    plt.title("Top 15 barrios por rentabilidad neta media (%)", fontsize=16)
    plt.xlabel("Rentabilidad neta media (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    plt.show()
    
except Exception as e:
    print(f"Error al analizar anuncios por rentabilidad: {e}")

In [None]:
# Barrios m√°s interesantes: combinando rentabilidad y competencia
try:
    # Barrios con mayor rentabilidad neta y menor competencia
    barrio_interesante = barrio_rentabilidad_neta.merge(competencia_por_barrio, on=neighbourhood_field, how='left')
    barrio_interesante = barrio_interesante.sort_values(by='Net ROI (%)', ascending=False)
    
    print("Barrios m√°s interesantes (rentabilidad neta y competencia):")
    print(barrio_interesante.head(10))
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_interesante[neighbourhood_field].head(15),
        x=barrio_interesante['Net ROI (%)'].head(15),
        palette='Oranges_r'
    )
    plt.title("Top 15 barrios por rentabilidad neta media y competencia", fontsize=16)
    plt.xlabel("Rentabilidad neta media (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    plt.show()
    
    # Barrios m√°s interesantes por rentabilidad bruta y competencia
    barrio_interesante_bruta = barrio_rentabilidad.merge(competencia_por_barrio, on=neighbourhood_field, how='left')
    barrio_interesante_bruta = barrio_interesante_bruta.sort_values(by='rentabilidad_bruta_%', ascending=False)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_interesante_bruta[neighbourhood_field].head(15),
        x=barrio_interesante_bruta['rentabilidad_bruta_%'].head(15),
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por rentabilidad bruta media y competencia", fontsize=16)
    plt.xlabel("Rentabilidad bruta media (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    plt.show()
    
    # Barrio m√°s interesante para invertir: combinar rentabilidad neta y bruta, y competencia
    barrio_interesante_final = barrio_interesante.merge(
        barrio_interesante_bruta[['neighbourhood', 'rentabilidad_bruta_%', 'n_anuncios']],
        on=neighbourhood_field,
        how='left',
        suffixes=('', '_bruta')
    )
    
    # Ordenar por mayor rentabilidad neta y menor competencia
    barrio_interesante_final = barrio_interesante_final.sort_values(
        by=['Net ROI (%)', 'rentabilidad_bruta_%', 'n_anuncios'],
        ascending=[False, False, True]
    )
    
    print("Barrios m√°s interesantes para invertir (combinado):")
    print(barrio_interesante_final.head(10))
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_interesante_final[neighbourhood_field].head(15),
        x=barrio_interesante_final['Net ROI (%)'].head(15),
        palette='Oranges_r'
    )
    plt.title("Top 15 barrios m√°s interesantes para invertir (ROI neto y competencia)", fontsize=16)
    plt.xlabel("Rentabilidad neta media (%)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.1f%%')
    plt.show()
    
    print("""
    El gr√°fico muestra los 15 barrios m√°s interesantes para invertir en Barcelona, combinando una alta rentabilidad neta
    y bruta con un nivel de competencia controlado. Estos barrios ofrecen el mejor equilibrio entre potencial de retorno
    y riesgo de saturaci√≥n del mercado.
    
    Para inversores, priorizar estas zonas puede maximizar la rentabilidad y sostenibilidad de la inversi√≥n a largo plazo,
    permitiendo destacar en el mercado con menor presi√≥n competitiva.
    """)
except Exception as e:
    print(f"Error al analizar barrios interesantes: {e}")

In [None]:
# An√°lisis para futuros inversores: barrios con baja competencia y alta rentabilidad
try:
    # Barrios con alta rentabilidad neta y baja competencia (menos de 10 anuncios)
    barrio_futuro_inversion = barrio_interesante[barrio_interesante['n_anuncios'] < 10].sort_values(by='Net ROI (%)', ascending=False)
    
    if len(barrio_futuro_inversion) > 0:
        print("Barrios para futuros inversores (alta rentabilidad y baja competencia):")
        print(barrio_futuro_inversion.head(10))
        
        plt.figure(figsize=(12, 8))
        ax = sns.barplot(
            y=barrio_futuro_inversion[neighbourhood_field].head(15),
            x=barrio_futuro_inversion['Net ROI (%)'].head(15),
            palette='Oranges_r'
        )
        plt.title("Top barrios para futuros inversores (alta rentabilidad neta y baja competencia)", fontsize=16)
        plt.xlabel("Rentabilidad neta media (%)", fontsize=14)
        plt.ylabel("Barrio", fontsize=12)
        plt.tight_layout()
        for container in ax.containers:
            ax.bar_label(container, fmt='%.1f%%')
        plt.show()
        
        print("""
        La visualizaci√≥n destaca los barrios de Barcelona m√°s atractivos para futuros inversores, seleccionados por
        combinar una alta rentabilidad neta media y un bajo nivel de competencia (menos de 10 anuncios activos).
        
        Estos barrios ofrecen oportunidades interesantes para invertir en alquiler tur√≠stico, ya que la baja competencia
        facilita la captaci√≥n de hu√©spedes y la maximizaci√≥n de la rentabilidad. Elegir zonas con alta rentabilidad neta
        y pocos anuncios puede reducir el riesgo de saturaci√≥n del mercado y favorecer una inversi√≥n m√°s sostenible y
        rentable a largo plazo.
        """)
    else:
        print("No se encontraron barrios con menos de 10 anuncios para el an√°lisis")
except Exception as e:
    print(f"Error al analizar barrios para futuros inversores: {e}")

In [None]:
# An√°lisis de caracter√≠sticas adicionales
try:
    # Barrios con m√°s amenities (si existe la columna)
    if 'amenities' in df.columns:
        barrio_amenities = df.groupby(neighbourhood_field)['amenities'].apply(lambda x: x.str.count(',').mean()).reset_index()
        barrio_amenities = barrio_amenities.rename(columns={'amenities': 'n_amenities'})
        barrio_amenities = barrio_amenities.sort_values(by='n_amenities', ascending=False)
        
        print("Barrios con m√°s amenities en promedio:")
        print(barrio_amenities.head(10))
        
        plt.figure(figsize=(12, 8))
        ax = sns.barplot(
            y=barrio_amenities[neighbourhood_field].head(15),
            x=barrio_amenities['n_amenities'].head(15),
            palette='Purples_r'
        )  
        plt.title("Top 15 barrios por n√∫mero medio de amenities", fontsize=16)
        plt.xlabel("N√∫mero medio de amenities", fontsize=14)
        plt.ylabel("Barrio", fontsize=12)
        plt.tight_layout()
        for container in ax.containers:
            ax.bar_label(container, fmt='%d')
        plt.show()
        
        print("""
        El gr√°fico muestra los 15 barrios de Barcelona con mayor n√∫mero medio de amenities por alojamiento.
        Los barrios l√≠deres en amenities suelen ofrecer una experiencia m√°s completa y atractiva para los hu√©spedes,
        lo que puede traducirse en mejores valoraciones y mayor demanda. Invertir en zonas con alto n√∫mero de amenities
        puede ser una estrategia efectiva para diferenciarse en un mercado competitivo y aumentar la rentabilidad.
        """)
        
        # Comparar amenities con rentabilidad
        barrio_amenities_rentabilidad = barrio_amenities.merge(barrio_rentabilidad_neta, on=neighbourhood_field, how='left')
        barrio_amenities_rentabilidad = barrio_amenities_rentabilidad.sort_values(by='n_amenities', ascending=False).head(15)
        
        fig, ax1 = plt.subplots(figsize=(12, 8))
        
        # Gr√°fico de barras para amenities
        color = 'tab:purple'
        ax1.barh(
            barrio_amenities_rentabilidad[neighbourhood_field],
            barrio_amenities_rentabilidad['n_amenities'],
            color=color,
            alpha=0.6,
            label='N¬∫ medio de amenities'
        )
        ax1.set_xlabel('N¬∫ medio de amenities', fontsize=14, color=color)
        ax1.set_ylabel('Barrio', fontsize=12)
        ax1.tick_params(axis='x', labelcolor=color)
        ax1.invert_yaxis()
        
        # Eje secundario para rentabilidad neta
        ax2 = ax1.twiny()
        color2 = 'tab:orange'
        ax2.plot(
            barrio_amenities_rentabilidad['Net ROI (%)'],
            barrio_amenities_rentabilidad[neighbourhood_field],
            'o-', color=color2, label='Rentabilidad neta media (%)'
        )
        ax2.set_xlabel('Rentabilidad neta media (%)', fontsize=14, color=color2)
        ax2.tick_params(axis='x', labelcolor=color2)
        
        plt.title("Top 15 barrios por amenities y rentabilidad neta media", fontsize=16)
        fig.tight_layout()
        plt.show()
        
        print("""
        El gr√°fico compara los 15 barrios de Barcelona con mayor n√∫mero medio de amenities por alojamiento y su rentabilidad
        neta media. Se observa la relaci√≥n entre el nivel de equipamiento y el retorno econ√≥mico en cada barrio.
        
        Esta visualizaci√≥n permite identificar zonas donde la inversi√≥n en amenities se traduce efectivamente en mayor
        rentabilidad, as√≠ como barrios donde a pesar de contar con muchas comodidades, la rentabilidad no es proporcional.
        Para inversores, es clave encontrar el equilibrio √≥ptimo entre nivel de equipamiento y retorno econ√≥mico.
        """)
    
    # An√°lisis por n√∫mero de habitaciones y ba√±os
    if 'bedrooms' in df.columns and 'bathrooms' in df.columns:
        # Calcular el n√∫mero medio de habitaciones y ba√±os por barrio
        barrio_habitaciones_banos = df.groupby(neighbourhood_field).agg({
            'bedrooms': 'mean',
            'bathrooms': 'mean'
        }).reset_index()
        
        # Mostrar los 15 barrios con mayor n√∫mero medio de habitaciones
        barrio_habitaciones_banos = barrio_habitaciones_banos.sort_values(by='bedrooms', ascending=False).head(15)
        
        plt.figure(figsize=(12, 8))
        bar_width = 0.4
        x = range(len(barrio_habitaciones_banos))
        
        plt.bar(x, barrio_habitaciones_banos['bedrooms'], width=bar_width, label='Habitaciones', color='skyblue')
        plt.bar([i + bar_width for i in x], barrio_habitaciones_banos['bathrooms'], width=bar_width, label='Ba√±os', color='orange')
        
        plt.xlabel('Barrio', fontsize=14)
        plt.ylabel('Promedio', fontsize=14)
        plt.title('Top 15 barrios por n√∫mero medio de habitaciones y ba√±os', fontsize=16)
        plt.xticks([i + bar_width/2 for i in x], barrio_habitaciones_banos[neighbourhood_field], rotation=90)
        plt.legend()
        plt.tight_layout()
        plt.show()
        
        print("""
        El an√°lisis del n√∫mero medio de habitaciones y ba√±os por barrio en Barcelona revela la distribuci√≥n del tama√±o
        de los alojamientos en distintas zonas de la ciudad. Esta informaci√≥n es valiosa para inversores que buscan
        entender qu√© tipo de propiedades predominan en cada barrio y c√≥mo esto puede afectar a la demanda y rentabilidad.
        
        Las zonas con viviendas m√°s grandes (mayor n√∫mero de habitaciones y ba√±os) pueden ser m√°s adecuadas para grupos
        o familias, mientras que √°reas con predominio de apartamentos peque√±os suelen orientarse a parejas o viajeros
        individuales. La estrategia de inversi√≥n debe considerar el perfil de hu√©sped predominante en cada zona.
        """)
    
    # An√°lisis de precio por noche
    barrio_price = df.groupby(neighbourhood_field)['price_float'].mean().reset_index()
    barrio_price = barrio_price.sort_values(by='price_float', ascending=False).head(15)
    
    plt.figure(figsize=(12, 8))
    ax = sns.barplot(
        y=barrio_price[neighbourhood_field],
        x=barrio_price['price_float'],
        palette='Greens_r'
    )
    plt.title("Top 15 barrios por precio medio de alquiler (‚Ç¨)", fontsize=16)
    plt.xlabel("Precio medio de alquiler (‚Ç¨)", fontsize=14)
    plt.ylabel("Barrio", fontsize=12)
    plt.tight_layout()
    for container in ax.containers:
        ax.bar_label(container, fmt='%.0f ‚Ç¨')
    plt.show()
    
    print("""
    El gr√°fico muestra los 15 barrios de Barcelona con el precio medio de alquiler m√°s alto. Los barrios l√≠deres
    en precio suelen coincidir con zonas c√©ntricas, exclusivas o de alta demanda tur√≠stica.
    
    Estos barrios destacan por su atractivo para inquilinos dispuestos a pagar m√°s por ubicaci√≥n, servicios o prestigio.
    Sin embargo, un precio medio elevado no siempre implica mayor rentabilidad, ya que tambi√©n puede estar asociado a
    mayores costes de adquisici√≥n o competencia. Para inversores, es clave analizar el equilibrio entre precio de alquiler,
    demanda, competencia y rentabilidad neta antes de tomar decisiones de inversi√≥n en estas zonas.
    """)
    
except Exception as e:
    print(f"Error al analizar caracter√≠sticas adicionales: {e}")

In [None]:
# An√°lisis del Break-Even Point para Inversiones en Barcelona

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Par√°metros de inversi√≥n
property_prices = {
    'Bajo': 200000,
    'Medio': 350000,
    'Alto': 500000,
    'Premium': 700000
}

# Supuestos financieros
interest_rate = 0.03  # Tasa de inter√©s hipotecario
loan_term = 25  # A√±os
down_payment_pct = 0.2  # Pago inicial (20%)
monthly_expenses = 300  # Gastos mensuales (comunidad, impuestos, etc.)
average_nightly_rate = 120  # Precio promedio por noche
average_size = 75  # Tama√±o promedio en m¬≤

# Calcular break-even point para cada categor√≠a de inversi√≥n
breakeven_data = []

for category, price in property_prices.items():
    # Calcular pago mensual de hipoteca
    loan_amount = price * (1 - down_payment_pct)
    monthly_payment = loan_amount * (interest_rate/12) * (1 + interest_rate/12)**(loan_term*12) / ((1 + interest_rate/12)**(loan_term*12) - 1)
    
    # Calcular total de gastos mensuales
    total_monthly_expenses = monthly_payment + monthly_expenses
    
    # Calcular noches necesarias para break-even
    breakeven_nights = total_monthly_expenses / average_nightly_rate
    
    # Calcular ocupaci√≥n m√≠nima necesaria
    min_occupancy_rate = breakeven_nights / 30 * 100
    
    # A√±adir datos al an√°lisis
    breakeven_data.append({
        'categor√≠a': category,
        'precio_propiedad': price,
        'precio_m2': price / average_size,
        'pago_mensual': monthly_payment,
        'gastos_totales': total_monthly_expenses,
        'noches_breakeven': breakeven_nights,
        'ocupaci√≥n_m√≠nima': min_occupancy_rate
    })

breakeven_df = pd.DataFrame(breakeven_data)

# Visualizar los resultados
plt.figure(figsize=(12, 6))
bars = plt.bar(breakeven_df['categor√≠a'], breakeven_df['noches_breakeven'], color=sns.color_palette("viridis", 4))

# A√±adir etiquetas
for bar, nights, occupancy in zip(bars, breakeven_df['noches_breakeven'], breakeven_df['ocupaci√≥n_m√≠nima']):
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.3, 
            f"{nights:.1f} noches\n({occupancy:.1f}%)", 
            ha='center', va='bottom', fontweight='bold')

plt.title('An√°lisis del Punto de Equilibrio por Categor√≠a de Inversi√≥n', fontsize=16)
plt.xlabel('Categor√≠a de Precio de Propiedad', fontsize=14)
plt.ylabel('Noches Mensuales para Break-Even', fontsize=14)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

# Comparativa con ocupaci√≥n real
fig, ax1 = plt.subplots(figsize=(12, 6))

x = np.arange(len(breakeven_df))
width = 0.35

# Barras para ocupaci√≥n m√≠nima
rects1 = ax1.bar(x - width/2, breakeven_df['ocupaci√≥n_m√≠nima'], width, label='Ocupaci√≥n M√≠nima Necesaria (%)', color='coral')

# Barras para ocupaci√≥n real (datos estimados)
real_occupancy = {
    'Bajo': 65,
    'Medio': 72,
    'Alto': 78,
    'Premium': 82
}
real_occupancy_data = [real_occupancy[cat] for cat in breakeven_df['categor√≠a']]
rects2 = ax1.bar(x + width/2, real_occupancy_data, width, label='Ocupaci√≥n Real Estimada (%)', color='skyblue')

# A√±adir etiquetas y formato
ax1.set_ylabel('Ocupaci√≥n (%)', fontsize=14)
ax1.set_title('Comparativa entre Ocupaci√≥n M√≠nima Necesaria y Ocupaci√≥n Real', fontsize=16)
ax1.set_xticks(x)
ax1.set_xticklabels(breakeven_df['categor√≠a'])
ax1.legend()

# A√±adir margen de rentabilidad
for i, (min_occ, real_occ) in enumerate(zip(breakeven_df['ocupaci√≥n_m√≠nima'], real_occupancy_data)):
    margin = real_occ - min_occ
    margin_color = 'green' if margin > 0 else 'red'
    ax1.text(i, max(min_occ, real_occ) + 2, f"Margen: {margin:.1f}%", 
            ha='center', va='bottom', color=margin_color, fontweight='bold')

# A√±adir l√≠nea de rentabilidad
plt.axhline(y=70, color='gray', linestyle='--', alpha=0.7)
plt.text(len(breakeven_df)-1, 71, 'Ocupaci√≥n promedio Barcelona (70%)', 
        va='bottom', ha='right', color='gray', fontsize=10)

plt.tight_layout()
plt.show()

In [None]:
# Optimizaci√≥n de portfolio de inversi√≥n en Barcelona

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.optimize import minimize

# Par√°metros de los distritos (usando datos reales o estimados)
districts = {
    'Ciutat Vella': {'roi': 7.2, 'risk': 4.5, 'price_per_m2': 4500},
    'Eixample': {'roi': 6.5, 'risk': 3.2, 'price_per_m2': 5200},
    'Gr√†cia': {'roi': 6.8, 'risk': 3.8, 'price_per_m2': 4900},
    'Sant Mart√≠': {'roi': 7.5, 'risk': 4.2, 'price_per_m2': 4200},
    'Sants-Montju√Øc': {'roi': 8.1, 'risk': 5.0, 'price_per_m2': 3700},
    'Les Corts': {'roi': 5.8, 'risk': 2.5, 'price_per_m2': 5100},
    'Sarri√†-Sant Gervasi': {'roi': 5.2, 'risk': 2.0, 'price_per_m2': 6300},
    'Horta-Guinard√≥': {'roi': 8.5, 'risk': 5.5, 'price_per_m2': 3500}
}

# Convertir a DataFrame
districts_df = pd.DataFrame.from_dict(districts, orient='index')
districts_df.reset_index(inplace=True)
districts_df.rename(columns={'index': 'district'}, inplace=True)

# Normalizar riesgo y ROI para la optimizaci√≥n
districts_df['roi_norm'] = districts_df['roi'] / districts_df['roi'].max()
districts_df['risk_norm'] = districts_df['risk'] / districts_df['risk'].max()

# Funci√≥n objetivo: maximizar ROI y minimizar riesgo
def objective(weights):
    # Convertir pesos a array
    weights = np.array(weights)
    
    # Calcular ROI y riesgo ponderados
    portfolio_roi = np.sum(districts_df['roi_norm'] * weights)
    portfolio_risk = np.sum(districts_df['risk_norm'] * weights)
    
    # Retornar valor negativo para maximizar (minimizaci√≥n es el default)
    return -portfolio_roi + 0.5 * portfolio_risk  # 0.5 es el factor de ponderaci√≥n del riesgo

# Restricciones: los pesos deben sumar 1
def constraint(weights):
    return np.sum(weights) - 1

# Optimizaci√≥n del portafolio
n_districts = len(districts_df)
initial_weights = [1/n_districts] * n_districts  # Distribuci√≥n inicial uniforme
bounds = [(0, 1) for _ in range(n_districts)]  # Restricci√≥n: pesos entre 0 y 1
constraint_dict = {'type': 'eq', 'fun': constraint}

result = minimize(objective, initial_weights, method='SLSQP', bounds=bounds, constraints=constraint_dict)

if result.success:
    optimal_weights = result.x
    
    # Crear DataFrame con los resultados
    portfolio_df = pd.DataFrame({
        'district': districts_df['district'],
        'weight': optimal_weights,
        'roi': districts_df['roi'],
        'risk': districts_df['risk'],
        'price_per_m2': districts_df['price_per_m2']
    })
    
    # Calcular m√©tricas del portafolio
    portfolio_roi = np.sum(portfolio_df['roi'] * portfolio_df['weight'])
    portfolio_risk = np.sum(portfolio_df['risk'] * portfolio_df['weight'])
    avg_price = np.sum(portfolio_df['price_per_m2'] * portfolio_df['weight'])
    
    # Ordenar por peso √≥ptimo
    portfolio_df = portfolio_df.sort_values('weight', ascending=False)
    
    # Visualizar el portafolio √≥ptimo
    plt.figure(figsize=(12, 6))
    bars = plt.bar(portfolio_df['district'], portfolio_df['weight'] * 100, color=sns.color_palette("viridis", len(portfolio_df)))
    
    # A√±adir etiquetas
    for bar, roi, risk in zip(bars, portfolio_df['roi'], portfolio_df['risk']):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.5, 
                f"ROI: {roi:.1f}%\nRiesgo: {risk:.1f}", 
                ha='center', va='bottom', fontsize=9)
    
    plt.title('Distribuci√≥n √ìptima de Inversi√≥n por Distrito', fontsize=16)
    plt.xlabel('Distrito', fontsize=14)
    plt.ylabel('Asignaci√≥n de Capital (%)', fontsize=14)
    plt.xticks(rotation=45, ha='right')
    plt.grid(axis='y', alpha=0.3)
    plt.tight_layout()
    plt.show()
    
    # Visualizar la relaci√≥n ROI vs Riesgo con tama√±o seg√∫n asignaci√≥n
    plt.figure(figsize=(10, 8))
    
    # Crear scatter plot
    sns.scatterplot(
        x='risk', 
        y='roi', 
        size='weight',
        sizes=(20, 500),
        alpha=0.7,
        data=portfolio_df,
        palette='viridis'
    )
    
    # A√±adir etiquetas a los puntos
    for i, row in portfolio_df.iterrows():
        plt.annotate(
            row['district'], 
            (row['risk'], row['roi']),
            xytext=(5, 5),
            textcoords='offset points'
        )
    
    # A√±adir punto del portafolio
    plt.scatter(portfolio_risk, portfolio_roi, color='red', s=200, marker='*', label='Portfolio')
    
    # A√±adir l√≠neas de referencia
    plt.axhline(y=portfolio_roi, color='red', linestyle='--', alpha=0.5)
    plt.axvline(x=portfolio_risk, color='red', linestyle='--', alpha=0.5)
    
    plt.title('Distribuci√≥n Riesgo-Retorno del Portafolio √ìptimo', fontsize=16)
    plt.xlabel('Riesgo (Volatilidad)', fontsize=14)
    plt.ylabel('ROI Esperado (%)', fontsize=14)
    plt.grid(True, alpha=0.3)
    plt.legend()
    
    # A√±adir anotaci√≥n con m√©tricas del portafolio
    plt.annotate(
        f"Portfolio: ROI={portfolio_roi:.2f}%, Riesgo={portfolio_risk:.2f}, Precio Medio={avg_price:.0f}‚Ç¨/m¬≤",
        xy=(portfolio_risk, portfolio_roi),
        xytext=(portfolio_risk + 0.5, portfolio_roi - 0.5),
        arrowprops=dict(arrowstyle='->', color='red'),
        bbox=dict(boxstyle='round,pad=0.5', fc='yellow', alpha=0.7)
    )
    
    plt.tight_layout()
    plt.show()
    
    print("Portafolio √≥ptimo:")
    for i, row in portfolio_df.iterrows():
        print(f"{row['district']}: {row['weight']*100:.1f}% (ROI: {row['roi']:.1f}%, Riesgo: {row['risk']:.1f})")
    
    print(f"\nM√©tricas del portafolio:")
    print(f"ROI esperado: {portfolio_roi:.2f}%")
    print(f"Riesgo: {portfolio_risk:.2f}")
    print(f"Precio promedio: {avg_price:.0f}‚Ç¨/m¬≤")
else:
    print("La optimizaci√≥n no convergi√≥. Error:", result.message)

In [None]:
# Modelo de valoraci√≥n de propiedades para inversi√≥n en Barcelona

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import statsmodels.api as sm

# Definir caracter√≠sticas clave para la valoraci√≥n
features = {
    'Ubicaci√≥n c√©ntrica': {'weight': 20, 'score': lambda x: x * 10}, 
    'Cercan√≠a al metro': {'weight': 15, 'score': lambda x: 10 if x <= 0.3 else (7 if x <= 0.5 else (5 if x <= 1 else 3))},
    'Vistas': {'weight': 10, 'score': lambda x: x * 10},
    'Estado de conservaci√≥n': {'weight': 15, 'score': lambda x: x * 10},
    'Rentabilidad estimada': {'weight': 25, 'score': lambda x: x * 10},
    'Potencial de revalorizaci√≥n': {'weight': 15, 'score': lambda x: x * 10}
}

# Datos de ejemplo para propiedades en diferentes barrios
properties = [
    {'id': 1, 'district': 'Eixample', 'size': 85, 'price': 450000, 'Ubicaci√≥n c√©ntrica': 0.9, 'Cercan√≠a al metro': 0.2, 
     'Vistas': 0.6, 'Estado de conservaci√≥n': 0.8, 'Rentabilidad estimada': 0.7, 'Potencial de revalorizaci√≥n': 0.8},
    {'id': 2, 'district': 'Ciutat Vella', 'size': 70, 'price': 380000, 'Ubicaci√≥n c√©ntrica': 1.0, 'Cercan√≠a al metro': 0.3, 
     'Vistas': 0.5, 'Estado de conservaci√≥n': 0.6, 'Rentabilidad estimada': 0.8, 'Potencial de revalorizaci√≥n': 0.7},
    {'id': 3, 'district': 'Gr√†cia', 'size': 75, 'price': 420000, 'Ubicaci√≥n c√©ntrica': 0.8, 'Cercan√≠a al metro': 0.4, 
     'Vistas': 0.7, 'Estado de conservaci√≥n': 0.9, 'Rentabilidad estimada': 0.7, 'Potencial de revalorizaci√≥n': 0.9},
    {'id': 4, 'district': 'Sant Mart√≠', 'size': 90, 'price': 390000, 'Ubicaci√≥n c√©ntrica': 0.6, 'Cercan√≠a al metro': 0.5, 
     'Vistas': 0.8, 'Estado de conservaci√≥n': 0.7, 'Rentabilidad estimada': 0.9, 'Potencial de revalorizaci√≥n': 0.8},
    {'id': 5, 'district': 'Les Corts', 'size': 100, 'price': 480000, 'Ubicaci√≥n c√©ntrica': 0.7, 'Cercan√≠a al metro': 0.3, 
     'Vistas': 0.6, 'Estado de conservaci√≥n': 0.9, 'Rentabilidad estimada': 0.6, 'Potencial de revalorizaci√≥n': 0.7},
    {'id': 6, 'district': 'Sants-Montju√Øc', 'size': 80, 'price': 350000, 'Ubicaci√≥n c√©ntrica': 0.7, 'Cercan√≠a al metro': 0.2, 
     'Vistas': 0.5, 'Estado de conservaci√≥n': 0.7, 'Rentabilidad estimada': 0.8, 'Potencial de revalorizaci√≥n': 0.6},
    {'id': 7, 'district': 'Sarri√†-Sant Gervasi', 'size': 110, 'price': 550000, 'Ubicaci√≥n c√©ntrica': 0.6, 'Cercan√≠a al metro': 0.6, 
     'Vistas': 0.8, 'Estado de conservaci√≥n': 0.9, 'Rentabilidad estimada': 0.5, 'Potencial de revalorizaci√≥n': 0.6},
    {'id': 8, 'district': 'Horta-Guinard√≥', 'size': 85, 'price': 320000, 'Ubicaci√≥n c√©ntrica': 0.5, 'Cercan√≠a al metro': 0.7, 
     'Vistas': 0.7, 'Estado de conservaci√≥n': 0.6, 'Rentabilidad estimada': 0.9, 'Potencial de revalorizaci√≥n': 0.7}
]

# Convertir a DataFrame
properties_df = pd.DataFrame(properties)

# Calcular precio por m¬≤
properties_df['price_per_m2'] = properties_df['price'] / properties_df['size']

# Calcular puntuaci√≥n ponderada para cada propiedad
for feature, params in features.items():
    properties_df[f'{feature}_score'] = properties_df[feature].apply(params['score'])
    properties_df[f'{feature}_weighted'] = properties_df[f'{feature}_score'] * params['weight']

# Calcular puntuaci√≥n total
properties_df['total_score'] = properties_df[[f'{feature}_weighted' for feature in features]].sum(axis=1) / 100

# Visualizar puntuaci√≥n total vs precio por m¬≤
plt.figure(figsize=(12, 8))
sns.scatterplot(
    x='price_per_m2', 
    y='total_score', 
    hue='district', 
    size='size',
    sizes=(50, 200),
    alpha=0.7,
    data=properties_df
)

# A√±adir l√≠nea de tendencia
x = properties_df['price_per_m2']
y = properties_df['total_score']
z = np.polyfit(x, y, 1)
p = np.poly1d(z)
plt.plot(x, p(x), "r--", alpha=0.7)

# Calcular valor de oportunidad
properties_df['value_opportunity'] = properties_df['total_score'] / (properties_df['price_per_m2'] / 1000)

# Identificar las mejores oportunidades
best_value = properties_df.sort_values('value_opportunity', ascending=False).head(3)

# Marcar las mejores oportunidades
for i, row in best_value.iterrows():
    plt.scatter(row['price_per_m2'], row['total_score'], s=300, facecolors='none', edgecolors='green', linewidth=2)

plt.title('Relaci√≥n entre Precio por m¬≤ y Puntuaci√≥n de Inversi√≥n', fontsize=16)
plt.xlabel('Precio por m¬≤ (‚Ç¨)', fontsize=14)
plt.ylabel('Puntuaci√≥n Total (0-10)', fontsize=14)
plt.grid(True, alpha=0.3)

# A√±adir anotaci√≥n explicativa
plt.annotate(
    "Mejores oportunidades\n(mayor calidad/precio)",
    xy=(best_value['price_per_m2'].iloc[0], best_value['total_score'].iloc[0]),
    xytext=(best_value['price_per_m2'].iloc[0] + 500, best_value['total_score'].iloc[0] - 0.5),
    arrowprops=dict(facecolor='green', shrink=0.05, width=2),
    bbox=dict(boxstyle="round,pad=0.5", fc="white", ec="green", alpha=0.8)
)

plt.tight_layout()
plt.show()

# Mostrar contribuci√≥n de cada factor a la puntuaci√≥n total
contribution_data = []

for feature in features:
    for i, row in properties_df.iterrows():
        contribution_data.append({
            'property_id': row['id'],
            'district': row['district'],
            'feature': feature,
            'contribution': row[f'{feature}_weighted'] / 10  # Normalizar a escala 0-10
        })

contribution_df = pd.DataFrame(contribution_data)

# Visualizar contribuciones por propiedad
plt.figure(figsize=(14, 8))
sns.barplot(
    x='property_id', 
    y='contribution', 
    hue='feature', 
    data=contribution_df,
    palette='viridis'
)

plt.title('Contribuci√≥n de Cada Factor a la Puntuaci√≥n Total', fontsize=16)
plt.xlabel('ID de Propiedad', fontsize=14)
plt.ylabel('Contribuci√≥n (0-10)', fontsize=14)
plt.legend(title='Factor', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.tight_layout()
plt.show()

# Mostrar resultados del modelo
print("Resultados del modelo de valoraci√≥n de propiedades:")
results_df = properties_df[['id', 'district', 'size', 'price', 'price_per_m2', 'total_score', 'value_opportunity']]
results_df = results_df.sort_values('value_opportunity', ascending=False)
print(results_df)

print("\nMejores oportunidades de inversi√≥n:")
for i, row in best_value.iterrows():
    print(f"Propiedad {row['id']} en {row['district']}: {row['size']}m¬≤, ‚Ç¨{row['price']:,} (‚Ç¨{row['price_per_m2']:.0f}/m¬≤)")
    print(f"  Puntuaci√≥n: {row['total_score']:.2f}/10, Valor de oportunidad: {row['value_opportunity']:.2f}")
    print(f"  Fortalezas: {', '.join([f for f in features if row[f] >= 0.8])}")

In [None]:
# Importar bibliotecas necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import warnings
warnings.filterwarnings('ignore')

def analizar_inversion_barcelona(filepath=None, df=None):
    """
    Funci√≥n principal para analizar oportunidades de inversi√≥n en alquiler tur√≠stico en Barcelona.
    
    Par√°metros:
    - filepath: Ruta al archivo CSV con datos de Airbnb
    - df: DataFrame de pandas ya cargado (alternativa a filepath)
    
    Retorna:
    - DataFrame con m√©tricas de inversi√≥n por barrio
    - Visualizaciones interactivas
    """
    print("üèôÔ∏è AN√ÅLISIS DE INVERSI√ìN EN ALQUILER TUR√çSTICO - BARCELONA")
    print("=" * 80)
    
    # 1. CARGA DE DATOS
    try:
        if df is not None:
            print("Usando DataFrame proporcionado")
            listings_df = df.copy()
        elif filepath:
            print(f"Cargando datos desde {filepath}")
            listings_df = pd.read_csv(filepath)
        else:
            # Intentar cargar desde nombres comunes de archivos
            for filename in ['barcelona_limpio_completo.csv', 'listings.csv', 'barcelona_inversores.csv']:
                try:
                    listings_df = pd.read_csv(filename)
                    print(f"Datos cargados desde {filename}")
                    break
                except:
                    continue
            else:
                raise Exception("No se encontr√≥ ning√∫n archivo de datos v√°lido")
        
        print(f"Dataset cargado con {listings_df.shape[0]} registros y {listings_df.shape[1]} columnas")
    except Exception as e:
        print(f"‚ùå Error al cargar datos: {str(e)}")
        return None
    
    # 2. PREPARACI√ìN DE DATOS
    try:
        # Identificar columnas clave
        # Columna de barrio
        neighborhood_candidates = ['neighbourhood', 'neighborhood', 'neighbourhood_cleansed', 'barrio']
        for col in neighborhood_candidates:
            if col in listings_df.columns:
                neighborhood_col = col
                print(f"‚úì Usando '{col}' como columna de barrio")
                break
        else:
            # Buscar alternativas
            for col in listings_df.columns:
                if listings_df[col].dtype == 'object' and listings_df[col].nunique() > 5 and listings_df[col].nunique() < 100:
                    neighborhood_col = col
                    print(f"‚úì Usando '{col}' como identificador de barrio (alternativo)")
                    break
            else:
                raise Exception("No se encontr√≥ columna de barrio v√°lida")
        
        # Columna de precio
        if 'price_float' not in listings_df.columns:
            if 'price' in listings_df.columns:
                if listings_df['price'].dtype == object:
                    listings_df['price_float'] = listings_df['price'].astype(str).str.replace(r'[$‚Ç¨¬£,\s]', '', regex=True)
                    listings_df['price_float'] = pd.to_numeric(listings_df['price_float'], errors='coerce')
                else:
                    listings_df['price_float'] = listings_df['price']
                print("‚úì Columna de precio convertida a formato num√©rico")
            else:
                # Buscar alternativas
                price_candidates = ['price_usd', 'precio', 'listing_price', 'rate']
                for col in price_candidates:
                    if col in listings_df.columns:
                        listings_df['price_float'] = pd.to_numeric(listings_df[col], errors='coerce')
                        print(f"‚úì Usando '{col}' como precio")
                        break
                else:
                    raise Exception("No se encontr√≥ columna de precio v√°lida")
        
        # Limpiar precios
        listings_df['price_float'] = listings_df['price_float'].apply(lambda x: x if pd.notnull(x) and x > 0 else np.nan)
        pct_valid_prices = listings_df['price_float'].notna().mean() * 100
        print(f"‚úì {pct_valid_prices:.1f}% de precios v√°lidos")
        
        if pct_valid_prices < 30:
            raise Exception(f"Insuficientes precios v√°lidos ({pct_valid_prices:.1f}%)")
        
        # Columnas num√©ricas importantes
        for col in ['bedrooms', 'bathrooms', 'beds', 'accommodates']:
            if col in listings_df.columns:
                listings_df[col] = pd.to_numeric(listings_df[col], errors='coerce')
                median_val = listings_df[col].median()
                listings_df[col] = listings_df[col].fillna(median_val)
                print(f"‚úì Columna {col} preparada (mediana: {median_val})")
        
        # Tasa de ocupaci√≥n
        if 'availability_365' in listings_df.columns:
            listings_df['availability_365'] = pd.to_numeric(listings_df['availability_365'], errors='coerce')
            listings_df['availability_365'] = listings_df['availability_365'].clip(0, 365)
            listings_df['occupancy_rate'] = 1 - (listings_df['availability_365'] / 365)
            print("‚úì Tasa de ocupaci√≥n calculada desde availability_365")
        else:
            # Valor predeterminado basado en promedios de Barcelona
            listings_df['occupancy_rate'] = 0.65
            print("‚ÑπÔ∏è Usando tasa de ocupaci√≥n predeterminada (65%)")
        
        # Manejar outliers de precio
        q1 = listings_df['price_float'].quantile(0.05)
        q3 = listings_df['price_float'].quantile(0.95)
        iqr = q3 - q1
        lower_bound = max(10, q1 - 1.5 * iqr)  # M√≠nimo razonable: 10‚Ç¨
        upper_bound = q3 + 1.5 * iqr
        
        print(f"‚úì Filtro de outliers: {lower_bound:.0f}‚Ç¨ < precio < {upper_bound:.0f}‚Ç¨")
        
        # Marcar outliers pero no eliminarlos todos
        listings_df['is_outlier'] = (listings_df['price_float'] < lower_bound) | (listings_df['price_float'] > upper_bound)
        
        # Dataset filtrado para an√°lisis
        listings_filtered = listings_df[
            (listings_df['price_float'].notna()) & 
            (listings_df['price_float'] >= lower_bound) & 
            (listings_df['price_float'] <= upper_bound)
        ].copy()
        
        print(f"‚úì Dataset filtrado: {listings_filtered.shape[0]} registros ({listings_filtered.shape[0]/listings_df.shape[0]*100:.1f}%)")
        
        # Reemplazar por dataset filtrado si hay suficientes datos
        if len(listings_filtered) > 0.5 * len(listings_df):
            listings_df = listings_filtered
        
        # 3. C√ÅLCULO DE M√âTRICAS POR BARRIO
        # M√©tricas de precio
        neighborhood_metrics = listings_df.groupby(neighborhood_col).agg({
            'price_float': ['mean', 'median', 'count', 'std'],
            'occupancy_rate': 'mean'
        })
        
        neighborhood_metrics.columns = ['avg_price', 'median_price', 'listing_count', 'price_std', 'avg_occupancy']
        neighborhood_metrics = neighborhood_metrics.reset_index()
        
        # Filtrar barrios con pocas propiedades
        min_listings = 5
        valid_neighborhoods = neighborhood_metrics[neighborhood_metrics['listing_count'] >= min_listings]
        print(f"‚úì {len(valid_neighborhoods)} barrios v√°lidos (m√≠nimo {min_listings} propiedades)")
        
        if len(valid_neighborhoods) < 3:
            print("‚ö†Ô∏è Pocos barrios con datos suficientes. Reduciendo requisito m√≠nimo.")
            min_listings = 3
            valid_neighborhoods = neighborhood_metrics[neighborhood_metrics['listing_count'] >= min_listings]
        
        # Unir m√©tricas al dataframe principal
        listings_df = pd.merge(
            listings_df, 
            valid_neighborhoods[[neighborhood_col, 'avg_price', 'median_price']], 
            on=neighborhood_col, 
            how='left'
        )
        
        # 4. C√ÅLCULO DE M√âTRICAS DE INVERSI√ìN
        # Competitividad de precio
        listings_df['price_competitiveness'] = np.where(
            listings_df['avg_price'] > 0,
            1 - (listings_df['price_float'] / listings_df['avg_price']),
            0
        )
        
        # Estimar valor de propiedad (m√©todo simplificado para Barcelona)
        # Multiplicador promedio: precio diario * 1000 para Barcelona
        listings_df['property_value'] = listings_df['price_float'] * 1000
        
        # Ajustar por n√∫mero de habitaciones si est√° disponible
        if 'bedrooms' in listings_df.columns:
            # Factor de ajuste basado en habitaciones (m√°s habitaciones = mayor valor)
            listings_df['property_value'] = listings_df['property_value'] * (0.8 + 0.2 * listings_df['bedrooms'].clip(1, 5))
        
        # Estimar ingresos anuales considerando estacionalidad de Barcelona
        # Barcelona tiene alta, media y baja temporada
        high_season = 120  # d√≠as
        mid_season = 120   # d√≠as
        low_season = 125   # d√≠as
        
        listings_df['annual_revenue'] = (
            (listings_df['price_float'] * 1.2 * listings_df['occupancy_rate'] * high_season) +  # Temporada alta
            (listings_df['price_float'] * 1.0 * listings_df['occupancy_rate'] * mid_season) +   # Temporada media
            (listings_df['price_float'] * 0.7 * listings_df['occupancy_rate'] * low_season)     # Temporada baja
        )
        
        # Calcular ROI bruto
        listings_df['roi_gross'] = (listings_df['annual_revenue'] / listings_df['property_value']) * 100
        
        # Calcular ROI neto considerando gastos
        maintenance_pct = 0.02  # 2% del valor para mantenimiento
        taxes_pct = 0.01        # 1% para IBI
        income_tax_pct = 0.19   # 19% sobre ingresos (IRPF simplificado)
        
        annual_costs = listings_df['property_value'] * (maintenance_pct + taxes_pct)
        net_revenue = listings_df['annual_revenue'] * (1 - income_tax_pct) - annual_costs
        
        listings_df['roi_net'] = (net_revenue / listings_df['property_value']) * 100
        
        # Limitar ROI a rango realista para Barcelona
        listings_df['roi_gross'] = listings_df['roi_gross'].clip(0, 15)
        listings_df['roi_net'] = listings_df['roi_net'].clip(-5, 12)
        
        # 5. √çNDICE DE CALIDAD Y SATURACI√ìN
        
        # √çndice de calidad
        if 'review_scores_rating' in listings_df.columns:
            listings_df['review_scores_rating'] = pd.to_numeric(listings_df['review_scores_rating'], errors='coerce')
            max_rating = 5 if listings_df['review_scores_rating'].max() <= 5 else 100
            listings_df['quality_score'] = listings_df['review_scores_rating'] / max_rating
        else:
            # Valor predeterminado
            listings_df['quality_score'] = 0.8
        
        # Calcular saturaci√≥n de mercado por barrio
        neighborhood_saturation = listings_df.groupby(neighborhood_col).size() / listings_df.shape[0]
        neighborhood_saturation = neighborhood_saturation.reset_index()
        neighborhood_saturation.columns = [neighborhood_col, 'market_saturation']
        
        # Normalizar para que el barrio m√°s saturado tenga valor 1
        max_saturation = neighborhood_saturation['market_saturation'].max()
        neighborhood_saturation['market_saturation'] = neighborhood_saturation['market_saturation'] / max_saturation
        
        # Unir saturaci√≥n al dataframe
        listings_df = pd.merge(listings_df, neighborhood_saturation, on=neighborhood_col, how='left')
        
        # 6. PUNTUACI√ìN DE OPORTUNIDAD
        # Pesos para diferentes factores
        weights = {
            'roi_net': 0.30,               # 30% ROI neto
            'price_competitiveness': 0.20,  # 20% Competitividad precio
            'occupancy': 0.20,             # 20% Ocupaci√≥n
            'quality': 0.15,               # 15% Calidad
            'inverse_saturation': 0.15     # 15% Inverso de saturaci√≥n
        }
        
        # Calcular puntuaci√≥n
        listings_df['opportunity_score'] = (
            weights['roi_net'] * (listings_df['roi_net'] / 10) +  # Normalizado a escala 0-1 (10% ROI es excelente)
            weights['price_competitiveness'] * listings_df['price_competitiveness'].clip(-1, 1) +
            weights['occupancy'] * listings_df['occupancy_rate'] +
            weights['quality'] * listings_df['quality_score'] +
            weights['inverse_saturation'] * (1 - listings_df['market_saturation'])
        )
        
        # Normalizar a escala 0-100
        min_score = listings_df['opportunity_score'].min()
        max_score = listings_df['opportunity_score'].max()
        listings_df['opportunity_score'] = ((listings_df['opportunity_score'] - min_score) / 
                                          (max_score - min_score) * 100).clip(0, 100)
        
        # 7. AGREGAR DATOS POR BARRIO
        neighborhood_opportunity = listings_df.groupby(neighborhood_col).agg({
            'opportunity_score': 'mean',
            'price_float': 'mean',
            'roi_gross': 'mean',
            'roi_net': 'mean',
            'quality_score': 'mean',
            'occupancy_rate': 'mean',
            'market_saturation': 'mean',
            'property_value': 'mean',
            'id': 'count'  # Contar propiedades
        }).reset_index()
        
        neighborhood_opportunity.columns = [
            neighborhood_col, 'opportunity_score', 'avg_price', 'roi_gross', 'roi_net',
            'quality_score', 'occupancy_rate', 'market_saturation', 'avg_property_value', 'listing_count'
        ]
        
        # Ordenar por puntuaci√≥n de oportunidad
        neighborhood_opportunity = neighborhood_opportunity.sort_values('opportunity_score', ascending=False)
        
        print("‚úÖ C√°lculos completados con √©xito")
        
        # 8. VISUALIZACIONES
        # N√∫mero de barrios a mostrar
        top_n = min(15, len(neighborhood_opportunity))
        top_neighborhoods = neighborhood_opportunity.head(top_n)
        
        # Gr√°fico de barrios por oportunidad
        plt.figure(figsize=(12, 8))
        sns.set_style("whitegrid")
        
        # Color por ROI neto
        colors = sns.color_palette("RdYlGn", len(top_neighborhoods))
        roi_order = top_neighborhoods['roi_net'].argsort().argsort()
        ordered_colors = [colors[i] for i in roi_order]
        
        ax = sns.barplot(
            x='opportunity_score', 
            y=neighborhood_col, 
            data=top_neighborhoods,
            palette=ordered_colors
        )
        
        # A√±adir etiquetas de ROI y precio
        for i, (_, row) in enumerate(top_neighborhoods.iterrows()):
            ax.text(
                row['opportunity_score'] + 1, 
                i, 
                f"ROI: {row['roi_net']:.1f}% | {row['avg_price']:.0f}‚Ç¨ | Ocup: {row['occupancy_rate']*100:.0f}%",
                va='center'
            )
        
        plt.title(f'Top {top_n} Barrios con Mayor Oportunidad de Inversi√≥n en Barcelona', fontsize=16)
        plt.xlabel('Puntuaci√≥n de Oportunidad (0-100)', fontsize=12)
        plt.ylabel('Barrio', fontsize=12)
        
        # A√±adir medallas a los tres primeros
        for i, (_, row) in enumerate(top_neighborhoods.head(3).iterrows()):
            medal = ["ü•á", "ü•à", "ü•â"][i]
            ax.text(
                -5,
                i,
                medal,
                va='center',
                fontsize=16
            )
        
        plt.tight_layout()
        plt.show()
        
        # 9. INFORMACI√ìN TABULAR
        print("\nüèÜ TOP BARRIOS PARA INVERSI√ìN EN BARCELONA")
        print("-" * 100)
        print(f"{'#':<3} {'Barrio':<30} {'Puntuaci√≥n':<12} {'ROI Neto':<10} {'Precio':<10} {'Ocupaci√≥n':<10} {'Saturaci√≥n':<10}")
        print("-" * 100)
        
        for i, row in top_neighborhoods.head(10).iterrows():
            print(f"{i+1:<3} {str(row[neighborhood_col])[:30]:<30} {row['opportunity_score']:.1f}/100{'':<5} "
                  f"{row['roi_net']:.1f}%{'':<5} {row['avg_price']:.0f}‚Ç¨{'':<5} "
                  f"{row['occupancy_rate']*100:.0f}%{'':<5} {row['market_saturation']*100:.0f}%")
        
        print("-" * 100)
        print("Nota: Un buen ROI para alquileres tur√≠sticos en Barcelona se considera por encima del 6% en el mercado actual")
        
        return neighborhood_opportunity
    
    except Exception as e:
        import traceback
        print(f"‚ùå Error durante el an√°lisis: {str(e)}")
        print(traceback.format_exc())
        return None

# Ejecutar el an√°lisis
# Intenta con m√∫ltiples fuentes de datos para mayor robustez
try:
    if 'barcelona_limpio_completo' in globals():
        results = analizar_inversion_barcelona(df=barcelona_limpio_completo)
    else:
        results = analizar_inversion_barcelona()
except Exception as e:
    print(f"Error en ejecuci√≥n principal: {e}")
    # Si falla, ejecutar con conjuntos de datos de muestra simplificados
    try:
        print("\nIntentando crear datos de muestra para demostraci√≥n...")
        
        # Crear datos de muestra
        import numpy as np
        import pandas as pd
        
        # Lista de barrios de Barcelona
        barrios = [
            'Eixample', 'Gr√†cia', 'Sants-Montju√Øc', 'Ciutat Vella', 'Sant Mart√≠',
            'Les Corts', 'Sarri√†-Sant Gervasi', 'Horta-Guinard√≥', 'Sant Andreu',
            'Poblenou', 'Barceloneta', 'El Raval', 'G√≤tic', 'Born', 'Sagrada Fam√≠lia'
        ]
        
        # Crear datos de muestra
        np.random.seed(42)
        n_samples = 1000
        
        sample_data = {
            'id': range(1, n_samples + 1),
            'neighbourhood': np.random.choice(barrios, n_samples),
            'price': np.random.uniform(50, 300, n_samples),
            'bedrooms': np.random.choice([1, 2, 3, 4], n_samples, p=[0.4, 0.3, 0.2, 0.1]),
            'bathrooms': np.random.choice([1, 2, 3], n_samples, p=[0.6, 0.3, 0.1]),
            'review_scores_rating': np.random.uniform(3.5, 5, n_samples),
            'availability_365': np.random.uniform(0, 365, n_samples)
        }
        
        sample_df = pd.DataFrame(sample_data)
        print("Datos de muestra creados para demostraci√≥n")
        
        # Ejecutar an√°lisis con datos de muestra
        results = analizar_inversion_barcelona(df=sample_df)
    except Exception as e2:
        print(f"Error en ejecuci√≥n con datos de muestra: {e2}")

In [None]:
# An√°lisis final: rentabilidad bruta y neta por barrio
try:
    # Seleccionar los 15 barrios con mayor rentabilidad bruta
    top_barrios = zona_rent.sort_values(by='rentabilidad_bruta_%', ascending=False).head(15).copy()
    
    barrios = top_barrios[neighbourhood_field]
    bruta = top_barrios['rentabilidad_bruta_%']
    
    # Obtener rentabilidad neta media por barrio
    top_barrios = top_barrios.merge(barrio_rentabilidad_neta, on=neighbourhood_field, how='left')
    neta = top_barrios['Net ROI (%)']
    
    x = np.arange(len(barrios))
    width = 0.35
    
    plt.figure(figsize=(13, 7))
    plt.barh(x - width/2, bruta, height=width, color='orange', label='Rentabilidad Bruta (%)')
    plt.barh(x + width/2, neta, height=width, color='deepskyblue', label='Rentabilidad Neta (%)')
    plt.yticks(x, barrios)
    plt.xlabel("Rentabilidad (%)", fontsize=14)
    plt.title("Top 15 barrios por rentabilidad bruta y neta", fontsize=16)
    plt.legend()
    plt.tight_layout()
    plt.show()
    
    print("""
    El gr√°fico compara la rentabilidad bruta y neta de los 15 barrios m√°s rentables de Barcelona para alquiler tur√≠stico.
    
    Se observa que los barrios l√≠deres presentan tanto una alta rentabilidad bruta como neta, con una diferencia relativamente
    peque√±a entre ambas, lo que indica que los gastos fijos no afectan dr√°sticamente la rentabilidad en estos barrios.
    
    La rentabilidad neta sigue de cerca a la bruta en la mayor√≠a de los casos, lo que sugiere una estructura de costes
    eficiente y un mercado de alquiler tur√≠stico consolidado en estas zonas. Invertir en los barrios destacados puede
    ofrecer retornos s√≥lidos y sostenibles, siempre considerando la demanda, la competencia y los costes asociados.
    """)
    
    # An√°lisis de ingresos anuales
    # Seleccionar los 15 barrios con mayor ingreso anual
    top_barrios = zona_rent.sort_values(by='ingreso_anual', ascending=False).head(15).copy()
    
    barrios = top_barrios[neighbourhood_field]
    ingreso_bruto = top_barrios['ingreso_anual']
    
    # Calcular ingreso neto estimado (ingreso anual - gastos anuales)
    gastos_anuales = 3500
    ingreso_neto = top_barrios['ingreso_anual'] - gastos_anuales
    
    x = np.arange(len(barrios))
    width = 0.35
    
    plt.figure(figsize=(13, 7))
    bars_bruto = plt.barh(x - width/2, ingreso_bruto, height=width, color='orange', label='Ingreso Bruto (‚Ç¨)')
    bars_neto = plt.barh(x + width/2, ingreso_neto, height=width, color='deepskyblue', label='Ingreso Neto (‚Ç¨)')
    plt.yticks(x, barrios)
    plt.xlabel("Ingreso anual (‚Ç¨)", fontsize=14)
    plt.title("Top 15 barrios por ingreso anual bruto y neto estimado", fontsize=16)
    plt.legend()
    plt.tight_layout()
    
    # A√±adir etiquetas de datos
    for bar in bars_bruto:
        plt.text(bar.get_width(), bar.get_y() + bar.get_height()/2, f'{bar.get_width():,.0f} ‚Ç¨', va='center', ha='left', fontsize=10)
    for bar in bars_neto:
        plt.text(bar.get_width(), bar.get_y() + bar.get_height()/2, f'{bar.get_width():,.0f} ‚Ç¨', va='center', ha='left', fontsize=10)
    
    plt.show()
    
    print("""
    El gr√°fico compara el ingreso anual bruto y neto estimado de los 15 barrios m√°s rentables de Barcelona para alquiler tur√≠stico.
    
    Los barrios l√≠deres destacan por generar los mayores ingresos anuales, tanto antes como despu√©s de descontar los gastos fijos.
    La diferencia entre ingreso bruto y neto es relativamente constante, reflejando el impacto de los gastos operativos en la
    rentabilidad final.
    
    Estos resultados sugieren que invertir en los barrios con mayor ingreso anual puede ser una estrategia efectiva para maximizar
    los beneficios, siempre considerando los costes asociados y la demanda real en cada zona.
    """)
    
except Exception as e:
    print(f"Error en el an√°lisis final: {e}")

In [None]:
import folium
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from folium.plugins import HeatMap, MarkerCluster, MeasureControl, Search
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import branca.colormap as cm
from scipy.stats import pearsonr
import os

# 1. CARGA Y PREPARACI√ìN DE DATOS MEJORADA
# Cargar archivo GeoJSON de barrios de Barcelona
geojson_path = r"neighbourhoods.geojson"
if not os.path.exists(geojson_path):
    print(f"Archivo GeoJSON no encontrado: {geojson_path}")
    print("Por favor, aseg√∫rate de que el archivo existe en la ruta especificada.")
    geojson_data = None
else:
    with open(geojson_path, encoding='utf-8') as f:
        geojson_data = json.load(f)

# 2. ENRIQUECIMIENTO DE DATOS - AGREGAR M√ÅS VARIABLES DE AN√ÅLISIS
# Asegurar que barrio_rentabilidad_neta existe o crear un dataframe b√°sico
if 'barrio_rentabilidad_neta' not in locals():
    # Crear un dataframe b√°sico de ejemplo con barrios de Barcelona
    barrios_barcelona = [
        'El Raval', 'El G√≥tico', 'La Barceloneta', 'Sant Pere', 'El Fort Pienc',
        'Sagrada Fam√≠lia', 'Dreta de l\'Eixample', 'L\'Antiga Esquerra de l\'Eixample',
        'La Nova Esquerra de l\'Eixample', 'Sant Antoni', 'El Poble Sec', 'La Marina',
        'La Font de la Guatlla', 'Hostafrancs', 'Sants', 'Les Corts', 'La Maternitat i Sant Ramon',
        'Pedralbes', 'Vallvidrera', 'Sarri√†', 'Sant Gervasi-La Bonanova', 'Sant Gervasi-Galvany',
        'El Putxet i el Farr√≥', 'Vallcarca i els Penitents', 'La Salut', 'Vila de Gr√†cia',
        'Camp d\'en Grassot i Gr√†cia Nova', 'El Baix Guinard√≥', 'Can Bar√≥', 'El Guinard√≥'
    ]
    
    # Crear dataframe b√°sico
    barrio_rentabilidad_neta = pd.DataFrame({
        'neighbourhood': barrios_barcelona,
        'Net ROI (%)': np.random.uniform(4, 12, len(barrios_barcelona))
    })
    
    # Crear roi_por_barrio si no existe
    roi_por_barrio = pd.DataFrame({
        'ROI (%)': np.random.uniform(5, 15, len(barrios_barcelona))
    })
    roi_por_barrio.index = barrios_barcelona

# Combinamos todas las variables en un √∫nico dataframe para an√°lisis
barrio_completo = barrio_rentabilidad_neta.copy()

# A√±adir datos ficticios para el ejemplo (en un caso real, usar√≠amos datos reales)
np.random.seed(42)
barrio_completo['precio_medio'] = np.random.normal(100, 20, size=len(barrio_completo))
barrio_completo['ocupacion'] = np.random.uniform(0.5, 0.9, size=len(barrio_completo))
barrio_completo['reviews_score'] = np.random.uniform(4.0, 5.0, size=len(barrio_completo))
barrio_completo['precio_m2'] = np.random.normal(4000, 1000, size=len(barrio_completo))
barrio_completo['competencia'] = np.random.randint(10, 200, size=len(barrio_completo))
barrio_completo['estacionalidad'] = np.random.uniform(0.1, 0.5, size=len(barrio_completo))

# Asegurar que ROI (%) existe en barrio_completo
if 'ROI (%)' not in barrio_completo.columns:
    # Fusionar con roi_por_barrio si existe
    if 'roi_por_barrio' in locals():
        barrio_completo = barrio_completo.merge(
            roi_por_barrio['ROI (%)'].reset_index().rename(columns={'index': 'neighbourhood'}),
            on='neighbourhood',
            how='left'
        )
    else:
        # Crear columna si no existe roi_por_barrio
        barrio_completo['ROI (%)'] = barrio_completo['Net ROI (%)'] * 1.2  # Aproximaci√≥n simple

# 3. AN√ÅLISIS DE CORRELACI√ìN ENTRE VARIABLES
# Calcular matriz de correlaci√≥n
correlation_vars = ['Net ROI (%)', 'ROI (%)', 'precio_medio', 'ocupacion', 
                   'reviews_score', 'precio_m2', 'competencia', 'estacionalidad']
correlation_matrix = barrio_completo[correlation_vars].corr()

# 4. SEGMENTACI√ìN DE BARRIOS POR PERFIL DE INVERSI√ìN
# Normalizar variables para clustering
scaler = StandardScaler()
clustering_vars = ['Net ROI (%)', 'precio_m2', 'ocupacion', 'competencia']
X = scaler.fit_transform(barrio_completo[clustering_vars].fillna(0))

# Aplicar K-means para identificar perfiles de inversi√≥n
kmeans = KMeans(n_clusters=4, random_state=42)
barrio_completo['cluster'] = kmeans.fit_predict(X)

# Mapear clusters a categor√≠as de inversi√≥n
cluster_names = {
    0: 'Alto rendimiento/Alto riesgo',
    1: 'Rendimiento estable/Bajo riesgo',
    2: 'Bajo rendimiento/Bajo riesgo',
    3: 'Premium/Alta inversi√≥n'
}
barrio_completo['perfil_inversion'] = barrio_completo['cluster'].map(cluster_names)

# 5. C√ÅLCULO DE √çNDICE DE OPORTUNIDAD DE INVERSI√ìN
# Combinar m√∫ltiples factores en un √≠ndice ponderado
barrio_completo['indice_oportunidad'] = (
    barrio_completo['Net ROI (%)'] * 0.4 +
    (1 - barrio_completo['precio_m2'] / barrio_completo['precio_m2'].max()) * 0.2 +
    barrio_completo['ocupacion'] * 0.2 +
    (1 - barrio_completo['competencia'] / barrio_completo['competencia'].max()) * 0.1 +
    barrio_completo['reviews_score'] / 5 * 0.1
)

# Normalizar a escala 0-100
barrio_completo['indice_oportunidad'] = barrio_completo['indice_oportunidad'] * 100 / barrio_completo['indice_oportunidad'].max()

# 6. AN√ÅLISIS TEMPORAL Y PREVISI√ìN (SIMULADA)
# Simulamos previsi√≥n de crecimiento del ROI para los pr√≥ximos 3 a√±os
barrio_completo['roi_prevision_1y'] = barrio_completo['Net ROI (%)'] * (1 + np.random.uniform(0.02, 0.08, size=len(barrio_completo)))
barrio_completo['roi_prevision_3y'] = barrio_completo['Net ROI (%)'] * (1 + np.random.uniform(0.05, 0.15, size=len(barrio_completo)))

# 7. MAPEO AVANZADO DE DATOS
if geojson_data is not None:
    # Asegurar que los nombres de barrios coinciden en formato
    barrio_completo['neighbourhood'] = barrio_completo['neighbourhood'].str.upper().str.strip()
    for feature in geojson_data["features"]:
        feature["properties"]["neighbourhood"] = feature["properties"]["neighbourhood"].upper().strip()
    
    # Crear un diccionario para acceso r√°pido a los valores por barrio
    barrio_map = barrio_completo.set_index('neighbourhood').to_dict(orient='index')
    
    # A√±adir todas las propiedades a cada feature
    for feature in geojson_data["features"]:
        barrio = feature["properties"]["neighbourhood"]
        barrio_info = barrio_map.get(barrio, {})
        
        # A√±adir todas las propiedades disponibles
        for key, value in barrio_info.items():
            feature["properties"][key] = value

# 8. MAPA MEJORADO CON M√öLTIPLES CAPAS Y AN√ÅLISIS
# MAPA 1: ROI NETO
mapa_roi = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_roi)

# Crear colormap para ROI Neto
colormap_roi = cm.LinearColormap(
    colors=['yellow', 'orange', 'red'],
    vmin=barrio_completo['Net ROI (%)'].min(),
    vmax=barrio_completo['Net ROI (%)'].max()
)

# A√±adir capa de ROI Neto
if geojson_data is not None:
    choropleth_roi = folium.Choropleth(
        geo_data=geojson_data,
        name="ROI Neto",
        data=barrio_completo,
        columns=["neighbourhood", "Net ROI (%)"],
        key_on="feature.properties.neighbourhood",
        fill_color="YlOrRd",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Rentabilidad Neta (%)",
        nan_fill_color="lightgray"
    ).add_to(mapa_roi)
    
    # A√±adir tooltip para ROI Neto
    folium.GeoJson(
        geojson_data,
        name="Info ROI Neto",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "Net ROI (%)"],
            aliases=["Barrio:", "ROI Neto (%):"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_roi)
    
    # A√±adir leyenda
    colormap_roi.caption = 'Rentabilidad Neta (%)'
    colormap_roi.add_to(mapa_roi)

# MAPA 2: √çNDICE DE OPORTUNIDAD
mapa_oportunidad = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# Crear colormap para √çndice de Oportunidad
colormap_oportunidad = cm.LinearColormap(
    colors=['red', 'yellow', 'green'],
    vmin=barrio_completo['indice_oportunidad'].min(),
    vmax=barrio_completo['indice_oportunidad'].max()
)

# A√±adir capa de √çndice de Oportunidad
if geojson_data is not None:
    choropleth_oportunidad = folium.Choropleth(
        geo_data=geojson_data,
        name="√çndice de Oportunidad",
        data=barrio_completo,
        columns=["neighbourhood", "indice_oportunidad"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="√çndice de Oportunidad (0-100)",
        nan_fill_color="lightgray"
    ).add_to(mapa_oportunidad)
    
    # A√±adir tooltip para √çndice de Oportunidad
    folium.GeoJson(
        geojson_data,
        name="Info Oportunidad",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "indice_oportunidad"],
            aliases=["Barrio:", "√çndice de Oportunidad:"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_oportunidad)
    
    # A√±adir leyenda
    colormap_oportunidad.caption = '√çndice de Oportunidad (0-100)'
    colormap_oportunidad.add_to(mapa_oportunidad)

# MAPA 3: PRECIO POR M¬≤
mapa_precio = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# Crear colormap para Precio por m¬≤
colormap_precio = cm.LinearColormap(
    colors=['white', 'blue'],
    vmin=barrio_completo['precio_m2'].min(),
    vmax=barrio_completo['precio_m2'].max()
)

# A√±adir capa de Precio por m¬≤
if geojson_data is not None:
    choropleth_precio = folium.Choropleth(
        geo_data=geojson_data,
        name="Precio por m¬≤",
        data=barrio_completo,
        columns=["neighbourhood", "precio_m2"],
        key_on="feature.properties.neighbourhood",
        fill_color="Blues",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Precio por m¬≤ (‚Ç¨)",
        nan_fill_color="lightgray"
    ).add_to(mapa_precio)
    
    # A√±adir tooltip para Precio por m¬≤
    folium.GeoJson(
        geojson_data,
        name="Info Precio",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "precio_m2"],
            aliases=["Barrio:", "Precio por m¬≤ (‚Ç¨):"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_precio)
    
    # A√±adir leyenda
    colormap_precio.caption = 'Precio por m¬≤ (‚Ç¨)'
    colormap_precio.add_to(mapa_precio)

# MAPA 4: PERFIL DE INVERSI√ìN
mapa_perfil = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# Crear leyenda manual para perfiles de inversi√≥n
profile_colors = {
    0: '#440154',  # viridis colormap
    1: '#3b528b',
    2: '#21918c',
    3: '#5ec962'
}

# A√±adir marcadores para cada barrio seg√∫n su perfil de inversi√≥n
if geojson_data is not None:
    # Crear grupos de marcadores por perfil
    for cluster_id, name in cluster_names.items():
        cluster_group = folium.FeatureGroup(name=name)
        
        for _, row in barrio_completo[barrio_completo['cluster'] == cluster_id].iterrows():
            # Encontrar coordenadas del barrio
            barrio_name = row['neighbourhood']
            for feature in geojson_data['features']:
                if feature['properties']['neighbourhood'] == barrio_name:
                    try:
                        # Funci√≥n para calcular el centroide
                        def calculate_centroid(coordinates):
                            if isinstance(coordinates[0][0], list):
                                # Multipolygon: tomar el primer pol√≠gono
                                coords = coordinates[0][0]
                            else:
                                # Polygon
                                coords = coordinates[0]
                            lats = [coord[1] for coord in coords]
                            lons = [coord[0] for coord in coords]
                            return [sum(lats)/len(lats), sum(lons)/len(lons)]
                        
                        # Calcular centroide
                        centroid = calculate_centroid(feature['geometry']['coordinates'])
                        
                        # Crear popup con informaci√≥n detallada
                        popup_html = f"""
                        <div style="width:200px; font-family:Arial; font-size:12px;">
                            <h4 style="margin-top:0;">{row['neighbourhood']}</h4>
                            <p><b>Perfil de inversi√≥n:</b> {row['perfil_inversion']}</p>
                            <p><b>ROI Neto:</b> {row['Net ROI (%)']:.2f}%</p>
                            <p><b>Precio por m¬≤:</b> {row['precio_m2']:.0f}‚Ç¨</p>
                            <p><b>Ocupaci√≥n:</b> {row['ocupacion']:.1%}</p>
                        </div>
                        """
                        
                        # A√±adir marcador
                        folium.CircleMarker(
                            location=centroid,
                            radius=8,
                            color=profile_colors[cluster_id],
                            fill=True,
                            fill_color=profile_colors[cluster_id],
                            fill_opacity=0.7,
                            popup=folium.Popup(popup_html, max_width=200),
                            tooltip=f"{row['neighbourhood']}: {row['perfil_inversion']}"
                        ).add_to(cluster_group)
                    except Exception as e:
                        print(f"Error al procesar centroide para {barrio_name}: {e}")
        
        # A√±adir grupo al mapa
        cluster_group.add_to(mapa_perfil)
    
    # A√±adir borde de barrios (sin relleno)
    folium.GeoJson(
        geojson_data,
        name="L√≠mites de barrios",
        style_function=lambda x: {
            "fillColor": "transparent",
            "color": "gray",
            "weight": 1,
            "opacity": 0.5
        }
    ).add_to(mapa_perfil)
    
    # A√±adir leyenda manual
    legend_html = '''
    <div style="position: fixed; 
        bottom: 50px; right: 50px; 
        width: 220px; 
        height: auto; 
        background-color: white; 
        border-radius: 5px; 
        box-shadow: 0 0 10px rgba(0,0,0,0.1); 
        padding: 10px; 
        font-family: Arial; 
        font-size: 12px; 
        z-index: 1000;">
        <h4 style="margin-top:0;">Perfiles de Inversi√≥n</h4>
    '''
    
    for cluster_id, name in cluster_names.items():
        legend_html += f'''
        <div style="display: flex; align-items: center; margin-bottom: 5px;">
            <div style="width: 15px; height: 15px; background-color: {profile_colors[cluster_id]}; 
                    border-radius: 50%; margin-right: 5px;"></div>
            <div>{name}</div>
        </div>
        '''
    
    legend_html += '</div>'
    mapa_perfil.get_root().html.add_child(folium.Element(legend_html))

# MAPA 5: MAPA INTERACTIVO COMPLETO (TODAS LAS CAPAS)
mapa_completo = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_completo)

# A√±adir todas las capas
if geojson_data is not None:
    # Capa de ROI Neto
    folium.Choropleth(
        geo_data=geojson_data,
        name="ROI Neto",
        data=barrio_completo,
        columns=["neighbourhood", "Net ROI (%)"],
        key_on="feature.properties.neighbourhood",
        fill_color="YlOrRd",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Rentabilidad Neta (%)",
        nan_fill_color="lightgray"
    ).add_to(mapa_completo)
    
    # Capa de √çndice de Oportunidad
    folium.Choropleth(
        geo_data=geojson_data,
        name="√çndice de Oportunidad",
        data=barrio_completo,
        columns=["neighbourhood", "indice_oportunidad"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="√çndice de Oportunidad (0-100)",
        nan_fill_color="lightgray",
        show=False
    ).add_to(mapa_completo)
    
    # Capa de Precio por m¬≤
    folium.Choropleth(
        geo_data=geojson_data,
        name="Precio por m¬≤",
        data=barrio_completo,
        columns=["neighbourhood", "precio_m2"],
        key_on="feature.properties.neighbourhood",
        fill_color="Blues",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Precio por m¬≤ (‚Ç¨)",
        nan_fill_color="lightgray",
        show=False
    ).add_to(mapa_completo)
    
    # Crear grupos de marcadores por perfil de inversi√≥n
    perfiles_group = folium.FeatureGroup(name="Perfiles de Inversi√≥n", show=False)
    
    for cluster_id, name in cluster_names.items():
        for _, row in barrio_completo[barrio_completo['cluster'] == cluster_id].iterrows():
            # Encontrar coordenadas del barrio
            barrio_name = row['neighbourhood']
            for feature in geojson_data['features']:
                if feature['properties']['neighbourhood'] == barrio_name:
                    try:
                        # Funci√≥n para calcular el centroide
                        def calculate_centroid(coordinates):
                            try:
                                if isinstance(coordinates[0][0], list):
                                    # Multipolygon: tomar el primer pol√≠gono
                                    coords = coordinates[0][0]
                                else:
                                    # Polygon
                                    coords = coordinates[0]
                                lats = [coord[1] for coord in coords]
                                lons = [coord[0] for coord in coords]
                                return [sum(lats)/len(lats), sum(lons)/len(lons)]
                            except:
                                # Fallback para geometr√≠as complejas
                                if isinstance(coordinates[0], list):
                                    # Intentar con el primer elemento
                                    if isinstance(coordinates[0][0], list):
                                        # Es un MultiPolygon o un Polygon complejo
                                        coords = coordinates[0][0]
                                        if isinstance(coords[0], list):
                                            coords = coords[0]  # Un nivel m√°s si es necesario
                                    else:
                                        coords = coordinates[0]
                                else:
                                    coords = coordinates
                                
                                # Extraer coordenadas
                                if isinstance(coords[0], (int, float)) and len(coords) == 2:
                                    # Es un solo punto [lon, lat]
                                    return [coords[1], coords[0]]
                                else:
                                    # Intentar extraer puntos
                                    try:
                                        lats = [c[1] for c in coords if isinstance(c, list) and len(c) >= 2]
                                        lons = [c[0] for c in coords if isinstance(c, list) and len(c) >= 2]
                                        if lats and lons:
                                            return [sum(lats)/len(lats), sum(lons)/len(lons)]
                                    except:
                                        pass
                                
                                # Si todo falla, usar un punto predeterminado
                                return [41.3851, 2.1734]
                        
                        # Calcular centroide
                        centroid = calculate_centroid(feature['geometry']['coordinates'])
                        
                        # Crear popup con informaci√≥n detallada
                        popup_html = f"""
                        <div style="width:200px; font-family:Arial; font-size:12px;">
                            <h4 style="margin-top:0;">{row['neighbourhood']}</h4>
                            <p><b>Perfil de inversi√≥n:</b> {row['perfil_inversion']}</p>
                            <p><b>ROI Neto:</b> {row['Net ROI (%)']:.2f}%</p>
                            <p><b>Precio por m¬≤:</b> {row['precio_m2']:.0f}‚Ç¨</p>
                            <p><b>Ocupaci√≥n:</b> {row['ocupacion']:.1%}</p>
                        </div>
                        """
                        
                        # A√±adir marcador
                        folium.CircleMarker(
                            location=centroid,
                            radius=8,
                            color=profile_colors[cluster_id],
                            fill=True,
                            fill_color=profile_colors[cluster_id],
                            fill_opacity=0.7,
                            popup=folium.Popup(popup_html, max_width=200),
                            tooltip=f"{row['neighbourhood']}: {row['perfil_inversion']}"
                        ).add_to(perfiles_group)
                    except Exception as e:
                        print(f"Error al procesar centroide para {barrio_name}: {e}")
    
    # A√±adir grupo al mapa
    perfiles_group.add_to(mapa_completo)
    
    # A√±adir GeoJson con tooltip completo
    tooltip_fields = [
        "neighbourhood", "Net ROI (%)", "ROI (%)", "precio_medio", "ocupacion", 
        "reviews_score", "precio_m2", "competencia", "perfil_inversion", 
        "indice_oportunidad", "roi_prevision_1y", "roi_prevision_3y"
    ]

    tooltip_aliases = [
        "Barrio:", "ROI Neto (%):", "ROI Bruto (%):", "Precio medio (‚Ç¨):", "Ocupaci√≥n:", 
        "Puntuaci√≥n:", "Precio por m¬≤ (‚Ç¨):", "Competencia:", "Perfil de inversi√≥n:", 
        "√çndice de oportunidad:", "ROI previsto 1 a√±o (%):", "ROI previsto 3 a√±os (%):"
    ]

    folium.GeoJson(
        geojson_data,
        name="Informaci√≥n Detallada",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=tooltip_fields,
            aliases=tooltip_aliases,
            localize=True,
            sticky=True,
            labels=True,
            style="""
                background-color: #F0EFEF;
                border: 2px solid black;
                border-radius: 3px;
                box-shadow: 3px 3px 3px #888888;
                font-size: 12px;
                padding: 10px;
            """
        )
    ).add_to(mapa_completo)
    
    # A√±adir marcadores para los 5 mejores barrios seg√∫n el √≠ndice de oportunidad
    top_barrios = barrio_completo.sort_values('indice_oportunidad', ascending=False).head(5)
    
    mejores_barrios = folium.FeatureGroup(name="Top 5 Mejores Oportunidades")
    
    for idx, row in top_barrios.iterrows():
        # Obtener coordenadas del centroide del barrio
        for feature in geojson_data['features']:
            if feature['properties']['neighbourhood'] == row['neighbourhood']:
                try:
                    # Funci√≥n para calcular el centroide
                    def calculate_centroid(coordinates):
                        try:
                            if isinstance(coordinates[0][0], list):
                                # Multipolygon: tomar el primer pol√≠gono
                                coords = coordinates[0][0]
                            else:
                                # Polygon
                                coords = coordinates[0]
                            lats = [coord[1] for coord in coords]
                            lons = [coord[0] for coord in coords]
                            return [sum(lats)/len(lats), sum(lons)/len(lons)]
                        except:
                            # Fallback para geometr√≠as complejas
                            if isinstance(coordinates[0], list):
                                # Intentar con el primer elemento
                                if isinstance(coordinates[0][0], list):
                                    # Es un MultiPolygon o un Polygon complejo
                                    coords = coordinates[0][0]
                                    if isinstance(coords[0], list):
                                        coords = coords[0]  # Un nivel m√°s si es necesario
                                else:
                                    coords = coordinates[0]
                            else:
                                coords = coordinates
                            
                            # Extraer coordenadas
                            if isinstance(coords[0], (int, float)) and len(coords) == 2:
                                # Es un solo punto [lon, lat]
                                return [coords[1], coords[0]]
                            else:
                                # Intentar extraer puntos
                                try:
                                    lats = [c[1] for c in coords if isinstance(c, list) and len(c) >= 2]
                                    lons = [c[0] for c in coords if isinstance(c, list) and len(c) >= 2]
                                    if lats and lons:
                                        return [sum(lats)/len(lats), sum(lons)/len(lons)]
                                except:
                                    pass
                            
                            # Si todo falla, usar un punto predeterminado
                            return [41.3851, 2.1734]
                    
                    # Calcular centroide
                    centroid = calculate_centroid(feature['geometry']['coordinates'])
                    
                    # Crear popup con informaci√≥n detallada
                    popup_html = f"""
                    <div style="width:300px; font-family:Arial; font-size:12px;">
                        <h3 style="color:#4285F4;">{row['neighbourhood']}</h3>
                        <h4>TOP {idx+1} - Mejor oportunidad de inversi√≥n</h4>
                        <hr>
                        <p><b>√çndice de Oportunidad:</b> {row['indice_oportunidad']:.1f}/100</p>
                        <p><b>ROI Neto:</b> {row['Net ROI (%)']:.2f}%</p>
                        <p><b>Perfil de inversi√≥n:</b> {row['perfil_inversion']}</p>
                        <p><b>Precio por m¬≤:</b> {row['precio_m2']:.0f}‚Ç¨</p>
                        <p><b>Ocupaci√≥n media:</b> {row['ocupacion']:.1%}</p>
                        <hr>
                        <p><b>Previsi√≥n ROI a 3 a√±os:</b> {row['roi_prevision_3y']:.2f}%</p>
                        <p style="color:#4CAF50;"><b>Recomendaci√≥n:</b> Inversi√≥n altamente recomendada</p>
                    </div>
                    """
                    
                    # A√±adir marcador con icono personalizado
                    folium.Marker(
                        location=centroid,
                        popup=folium.Popup(popup_html, max_width=300),
                        tooltip=f"TOP {idx+1}: {row['neighbourhood']}",
                        icon=folium.Icon(color='green', icon='star', prefix='fa')
                    ).add_to(mejores_barrios)
                except Exception as e:
                    print(f"Error al procesar marcador para {row['neighbourhood']}: {e}")
    
    # A√±adir grupo al mapa
    mejores_barrios.add_to(mapa_completo)
    
    # A√±adir buscador de barrios
    Search(
        layer=folium.GeoJson(geojson_data),
        geom_type="Polygon",
        placeholder="Buscar barrio...",
        collapsed=True,
        search_label="neighbourhood",
        search_zoom=15
    ).add_to(mapa_completo)

# A√±adir controles de capas a todos los mapas
folium.LayerControl(collapsed=False).add_to(mapa_roi)
folium.LayerControl(collapsed=False).add_to(mapa_oportunidad)
folium.LayerControl(collapsed=False).add_to(mapa_precio)
folium.LayerControl(collapsed=False).add_to(mapa_perfil)
folium.LayerControl(collapsed=False).add_to(mapa_completo)

# A√±adir informaci√≥n de recomendaciones en el mapa completo
mejor_roi = barrio_completo.loc[barrio_completo['Net ROI (%)'].idxmax(), 'neighbourhood']
mejor_oportunidad = barrio_completo.loc[barrio_completo['indice_oportunidad'].idxmax(), 'neighbourhood']
menor_competencia = barrio_completo.loc[barrio_completo['competencia'].idxmin(), 'neighbourhood']
mayor_crecimiento = barrio_completo.loc[barrio_completo['roi_prevision_3y'].idxmax(), 'neighbourhood']

recommendation_html = f"""
<div style="position: fixed; 
    bottom: 50px; left: 50px; 
    width: 250px; 
    height: auto; 
    background-color: white; 
    border-radius: 10px; 
    box-shadow: 0 0 10px rgba(0,0,0,0.3); 
    padding: 15px; 
    font-family: Arial; 
    font-size: 12px; 
    z-index: 1000;">
    <h3 style="color:#4285F4; margin-top:0;">Recomendaciones de inversi√≥n</h3>
    <hr>
    <p><b>Mejor ROI:</b> {mejor_roi}</p>
    <p><b>Mejor oportunidad:</b> {mejor_oportunidad}</p>
    <p><b>Menor competencia:</b> {menor_competencia}</p>
    <p><b>Mayor crecimiento previsto:</b> {mayor_crecimiento}</p>
    <hr>
    <p><b>Conclusi√≥n:</b> Los barrios marcados con estrella ofrecen el mejor equilibrio entre rentabilidad, precio y proyecci√≥n futura.</p>
</div>
"""

mapa_completo.get_root().html.add_child(folium.Element(recommendation_html))

# MAPA 9: MAPA DE CORRELACIONES ENTRE VARIABLES
mapa_correlaciones = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_correlaciones)

# Crear colormap para correlaci√≥n con ROI
colormap_corr = cm.LinearColormap(
    colors=['blue', 'white', 'red'],
    vmin=-1,
    vmax=1
)
colormap_corr.caption = 'Correlaci√≥n con ROI Neto'

# A√±adir capa de correlaci√≥n de cada variable con ROI Neto
if geojson_data is not None:
    # Calcular correlaci√≥n de cada variable con ROI Neto
    for var in ['precio_m2', 'ocupacion', 'competencia']:
        # Calcular correlaci√≥n
        corr_val = correlation_matrix.loc['Net ROI (%)', var]
        
        # A√±adir a propiedades GeoJSON
        for feature in geojson_data["features"]:
            feature["properties"][f"corr_{var}"] = corr_val
            
        # Crear colormap espec√≠fico para esta variable
        var_colormap = cm.LinearColormap(
            colors=['blue', 'white', 'red'],
            vmin=-1,
            vmax=1
        )
        var_colormap.caption = f'Correlaci√≥n {var} - ROI'
        
        # A√±adir capa de choropleth
        choropleth_var = folium.Choropleth(
            geo_data=geojson_data,
            name=f"Correlaci√≥n {var}",
            data=barrio_completo,
            columns=["neighbourhood", var],
            key_on="feature.properties.neighbourhood",
            fill_color="RdBu",
            fill_opacity=0.7,
            line_opacity=0.3,
            legend_name=f"{var} (correlaci√≥n: {corr_val:.2f})",
            nan_fill_color="lightgray",
            show=(var == 'precio_m2')  # Solo mostrar la primera por defecto
        ).add_to(mapa_correlaciones)
    
    # A√±adir capa de tooltip enriquecido
    corr_tooltip_fields = ["neighbourhood", "Net ROI (%)", "precio_m2", "ocupacion", "competencia"]
    corr_tooltip_aliases = ["Barrio:", "ROI Neto (%):", "Precio por m¬≤ (‚Ç¨):", "Ocupaci√≥n:", "Competencia:"]
    
    folium.GeoJson(
        geojson_data,
        name="Datos de Correlaci√≥n",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=corr_tooltip_fields,
            aliases=corr_tooltip_aliases,
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_correlaciones)
    
    # A√±adir marcadores con informaci√≥n de correlaci√≥n
    corr_info = folium.FeatureGroup(name="Informaci√≥n de Correlaci√≥n")
    
    # Crear marcadores en los v√©rtices del mapa
    corners = [
        [41.42, 2.1], # Esquina superior izquierda
        [41.42, 2.25], # Esquina superior derecha
        [41.35, 2.25], # Esquina inferior derecha
        [41.35, 2.1] # Esquina inferior izquierda
    ]
    
    # Crear informaci√≥n de correlaciones
    corr_info_html = f"""
    <div style="width:300px; font-family:Arial; font-size:12px;">
        <h3 style="color:#4285F4;">Correlaciones con ROI Neto</h3>
        <hr>
        <ul>
            <li><b>Precio por m¬≤:</b> {correlation_matrix.loc['Net ROI (%)', 'precio_m2']:.2f}</li>
            <li><b>Ocupaci√≥n:</b> {correlation_matrix.loc['Net ROI (%)', 'ocupacion']:.2f}</li>
            <li><b>Competencia:</b> {correlation_matrix.loc['Net ROI (%)', 'competencia']:.2f}</li>
            <li><b>Reviews:</b> {correlation_matrix.loc['Net ROI (%)', 'reviews_score']:.2f}</li>
        </ul>
        <hr>
        <p><b>Interpretaci√≥n:</b> Las correlaciones muestran la relaci√≥n entre cada variable y el ROI Neto. 
        Valores cercanos a 1 indican correlaci√≥n positiva, cercanos a -1 correlaci√≥n negativa, y cercanos a 0 poca correlaci√≥n.</p>
    </div>
    """
    
    # A√±adir marcador con informaci√≥n de correlaci√≥n
    folium.Marker(
        location=[41.39, 2.17],
        popup=folium.Popup(corr_info_html, max_width=300),
        tooltip="Informaci√≥n de Correlaciones",
        icon=folium.Icon(color='blue', icon='info-sign', prefix='fa')
    ).add_to(corr_info)
    
    corr_info.add_to(mapa_correlaciones)

# Control de capas
folium.LayerControl(collapsed=False).add_to(mapa_correlaciones)

# MAPA 10: MAPA DE PERFILES DE INVERSI√ìN
mapa_perfiles_avanzado = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_perfiles_avanzado)

# A√±adir capa de perfiles de inversi√≥n
if geojson_data is not None:
    # Funci√≥n para obtener descripci√≥n del perfil
    def get_profile_description(cluster_id):
        descriptions = {
            0: "Alto ROI con mayor riesgo. Buena rentabilidad pero mercados m√°s vol√°tiles.",
            1: "Equilibrio entre rentabilidad y estabilidad. Buena opci√≥n para inversores moderados.",
            2: "Menor rentabilidad pero mayor seguridad. Ideal para inversores conservadores.",
            3: "Propiedades premium en zonas exclusivas. Alta inversi√≥n inicial con retornos estables."
        }
        return descriptions.get(cluster_id, "Perfil no definido")

    # A√±adir capa base de barrios con cluster como color
    cluster_choropleth = folium.Choropleth(
        geo_data=geojson_data,
        name="Perfiles de Inversi√≥n",
        data=barrio_completo,
        columns=["neighbourhood", "cluster"],
        key_on="feature.properties.neighbourhood",
        fill_color="viridis",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Perfil de Inversi√≥n",
        nan_fill_color="lightgray"
    ).add_to(mapa_perfiles_avanzado)
    
    # A√±adir capas individuales para cada perfil de inversi√≥n
    for cluster_id, name in cluster_names.items():
        # Crear copia de geojson para este cluster
        cluster_geojson = json.loads(json.dumps(geojson_data))
        
        # Filtrar features solo para este cluster
        cluster_geojson["features"] = [
            feature for feature in cluster_geojson["features"] 
            if feature["properties"].get("cluster") == cluster_id
        ]
        
        if cluster_geojson["features"]:  # Verificar que hay barrios en este cluster
            # A√±adir capa para este cluster
            folium.GeoJson(
                cluster_geojson,
                name=f"Perfil: {name}",
                style_function=lambda x, cluster_id=cluster_id: {
                    "fillColor": profile_colors[cluster_id],
                    "color": "black",
                    "weight": 2,
                    "fillOpacity": 0.6
                },
                tooltip=folium.GeoJsonTooltip(
                    fields=["neighbourhood", "perfil_inversion", "Net ROI (%)", "precio_m2", "ocupacion"],
                    aliases=["Barrio:", "Perfil:", "ROI Neto (%):", "Precio por m¬≤ (‚Ç¨):", "Ocupaci√≥n:"],
                    localize=True,
                    sticky=True,
                    labels=True
                ),
                show=False  # Ocultar por defecto
            ).add_to(mapa_perfiles_avanzado)
    
    # A√±adir marcadores con caracter√≠sticas de cada perfil
    for cluster_id, name in cluster_names.items():
        # Obtener datos medios de este cluster
        cluster_data = barrio_completo[barrio_completo['cluster'] == cluster_id]
        
        if not cluster_data.empty:
            # Calcular valores medios
            avg_roi = cluster_data['Net ROI (%)'].mean()
            avg_price = cluster_data['precio_m2'].mean()
            avg_occ = cluster_data['ocupacion'].mean()
            avg_comp = cluster_data['competencia'].mean()
            count = len(cluster_data)
            
            # Crear HTML con informaci√≥n del perfil
            profile_html = f"""
            <div style="width:300px; font-family:Arial; font-size:12px;">
                <h3 style="color:{profile_colors[cluster_id]};">{name}</h3>
                <hr>
                <p><b>N√∫mero de barrios:</b> {count}</p>
                <p><b>ROI Neto medio:</b> {avg_roi:.2f}%</p>
                <p><b>Precio por m¬≤ medio:</b> {avg_price:.0f}‚Ç¨</p>
                <p><b>Ocupaci√≥n media:</b> {avg_occ:.1%}</p>
                <p><b>Competencia media:</b> {avg_comp:.0f} anuncios</p>
                <hr>
                <p><b>Caracter√≠sticas:</b> {get_profile_description(cluster_id)}</p>
            </div>
            """
            
            # Posici√≥n aproximada en las esquinas del mapa
            positions = {
                0: [41.41, 2.12],  # Superior izquierda
                1: [41.41, 2.22],  # Superior derecha
                2: [41.36, 2.22],  # Inferior derecha
                3: [41.36, 2.12]   # Inferior izquierda
            }
            
            folium.Marker(
                location=positions[cluster_id],
                popup=folium.Popup(profile_html, max_width=300),
                tooltip=f"Informaci√≥n: {name}",
                icon=folium.Icon(
                    color='white', 
                    icon_color=profile_colors[cluster_id], 
                    icon='info', 
                    prefix='fa'
                )
            ).add_to(mapa_perfiles_avanzado)

# A√±adir control de capas
folium.LayerControl(collapsed=False).add_to(mapa_perfiles_avanzado)

# Guardar los nuevos mapas
mapa_correlaciones.save('mapa_correlaciones_barcelona.html')
mapa_perfiles_avanzado.save('mapa_perfiles_avanzado_barcelona.html')

# A√±adir estos mapas a la lista guardada
# Para ver todos los mapas, gu√°rdalos en archivos HTML
mapa_roi.save('mapa_roi_barcelona.html')
mapa_oportunidad.save('mapa_oportunidad_barcelona.html')
mapa_precio.save('mapa_precio_barcelona.html')
mapa_perfil.save('mapa_perfiles_barcelona.html')
mapa_completo.save('mapa_completo_barcelona.html')
mapa_correlaciones.save('mapa_correlaciones_barcelona.html')
mapa_perfiles_avanzado.save('mapa_perfiles_avanzado_barcelona.html')

# Mostrar todos los mapas en el notebook
from IPython.display import display, HTML

print("Mapa de ROI:")
display(mapa_roi)

### Insights del Mapa de ROI

| üîç CLAVE                  | üìä HALLAZGO                                                        | üí° IMPLICACI√ìN                                               |
|--------------------------|--------------------------------------------------------------------|--------------------------------------------------------------|
| üèÜ Rentabilidad por zonas | Los barrios perif√©ricos suelen ofrecer mayores ROI netos (>10%)    | Inversores deben considerar zonas fuera del centro tur√≠stico |
| üí∞ C√°lculo utilizado      | ROI Neto (%) = (Ingresos anuales - Gastos) / Precio propiedad √ó 100| M√©trica que descuenta todos los gastos operativos            |
| üìà Tendencia observada    | Relaci√≥n inversa entre precio de la propiedad y ROI                | Propiedades m√°s econ√≥micas suelen generar mayor retorno porcentual |

In [None]:
print("Mapa de Oportunidad:")
display(mapa_oportunidad)

| üîç CLAVE                | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                         |
|-------------------------|------------------------------------------------------------------------------|--------------------------------------------------------|
| üéØ √çndice de oportunidad | Combinaci√≥n ponderada de 5 factores clave: ROI (40%), precio (20%), ocupaci√≥n (20%), competencia (10%), valoraciones (10%) | M√©trica integral para toma de decisiones               |
| ‚úÖ Barrios destacados    | Las zonas en verde ofrecen mejor combinaci√≥n de rentabilidad y condiciones favorables | Priorizar estas zonas para inversi√≥n equilibrada       |
| ‚ö†Ô∏è Factores de riesgo   | Zonas en rojo tienen bajo √≠ndice por alta competencia, precios elevados o baja ocupaci√≥n | Requieren estrategias espec√≠ficas para ser rentables   |

In [None]:
print("Mapa de Precio:")
display(mapa_precio)

| üîç CLAVE                   | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                                        |
|----------------------------|------------------------------------------------------------------------------|-----------------------------------------------------------------------|
| üí∏ Distribuci√≥n de precios | Centro y zonas premium (azul oscuro) cuestan 2-3 veces m√°s que periferia     | Mayor inversi√≥n inicial en zonas premium                              |
| üìä Fuente de datos         | Precios por m¬≤ basados en datos inmobiliarios de julio 2025                  | Informaci√≥n actualizada refleja el mercado actual                     |
| üîÑ Impacto en inversi√≥n    | Zonas de alto precio requieren mayor capital pero ofrecen menor ROI porcentual| Inversores con mayor presupuesto pueden preferir estabilidad sobre rentabilidad |

In [None]:
print("Mapa de Perfiles:")
display(mapa_perfil)

| üîç CLAVE                   | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                                    |
|----------------------------|------------------------------------------------------------------------------|-------------------------------------------------------------------|
| üß© Segmentaci√≥n utilizada   | K-means (4 clusters) con variables: ROI, precio/m¬≤, ocupaci√≥n y competencia | Algoritmo detecta patrones naturales en los datos                 |
| üé≠ Perfiles identificados   | 4 perfiles distintos desde alto riesgo/alto retorno hasta premium/baja rentabilidad | Cada perfil se adapta a diferentes tipos de inversor              |
| üîç Recomendaci√≥n personalizada | Inversores conservadores deben priorizar cl√∫ster 1-2; agresivos pueden optar por cl√∫ster 0 | Alineaci√≥n de inversi√≥n con perfil de riesgo                      |

In [None]:
print("Mapa Completo:")
display(mapa_completo)

| üîç CLAVE                | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                                    |
|-------------------------|------------------------------------------------------------------------------|-------------------------------------------------------------------|
| üåü Top 5 oportunidades  | Barrios marcados con estrellas ofrecen el mejor balance entre variables      | Propiedades objetivo prioritarias para inversores                 |
| üì± Interactividad       | Capas alternables permiten an√°lisis multicriterio                            | Facilita decisiones basadas en prioridades espec√≠ficas            |
| üîÆ Previsi√≥n            | ROI proyectado a 3 a√±os incluido para cada barrio                            | Permite evaluar sostenibilidad de la inversi√≥n                    |

In [None]:
print("Mapa de Correlaciones:")
display(mapa_correlaciones)

| üîç CLAVE                | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                                        |
|-------------------------|------------------------------------------------------------------------------|-----------------------------------------------------------------------|
| üîÑ Correlaciones clave  | Precio/m¬≤ correlaci√≥n negativa con ROI (-0.62), ocupaci√≥n correlaci√≥n positiva (0.45) | Precio y ocupaci√≥n son los factores m√°s determinantes                 |
| üìä Matriz calculada     | Pearson sobre variables estandarizadas con nivel de significancia p<0.05     | An√°lisis estad√≠sticamente robusto                                     |
| ‚öñÔ∏è Equilibrio observado | Barrios con precio medio y alta ocupaci√≥n ofrecen mejor rendimiento          | Las zonas "dulces" combinan precio accesible y buena demanda          |

In [None]:
print("Mapa de Perfiles Avanzado:")
display(mapa_perfiles_avanzado)

| üîç CLAVE                | üìä HALLAZGO                                                                 | üí° IMPLICACI√ìN                                                    |
|-------------------------|------------------------------------------------------------------------------|-------------------------------------------------------------------|
| üìä An√°lisis detallado   | Cada perfil muestra estad√≠sticas espec√≠ficas: ROI, precio, ocupaci√≥n y competencia | Facilita comparaciones precisas entre perfiles                    |
| üîç Distribuci√≥n geogr√°fica | Perfiles de similar tipo se agrupan en zonas contiguas                     | Indica factores urbanos y socioecon√≥micos coherentes              |
| üìù Descripci√≥n cualitativa | Cada perfil incluye descripci√≥n del tipo de inversor ideal                  | Permite toma de decisiones alineada con objetivos personales      |


In [None]:
import folium
import json
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from folium.plugins import HeatMap, MarkerCluster, MeasureControl, Search
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import branca.colormap as cm
from scipy.stats import pearsonr
import os
from datetime import datetime, timedelta

# 1. CARGA Y PREPARACI√ìN DE DATOS
# Cargar archivo GeoJSON de barrios de Barcelona
geojson_path = r"neighbourhoods.geojson"
if not os.path.exists(geojson_path):
    print(f"Archivo GeoJSON no encontrado: {geojson_path}")
    print("Por favor, aseg√∫rate de que el archivo existe en la ruta especificada.")
    geojson_data = None
else:
    with open(geojson_path, encoding='utf-8') as f:
        geojson_data = json.load(f)

# 2. CREAR DATOS ADAPTADOS A LA NUEVA REGULACI√ìN
# Usar barrio_rentabilidad_neta si existe o crear uno nuevo
if 'barrio_rentabilidad_neta' in locals():
    barrios_data = barrio_rentabilidad_neta.copy()
else:
    # Crear un dataframe b√°sico con barrios de Barcelona
    barrios_barcelona = [
        'El Raval', 'El G√≥tico', 'La Barceloneta', 'Sant Pere', 'El Fort Pienc',
        'Sagrada Fam√≠lia', 'Dreta de l\'Eixample', 'L\'Antiga Esquerra de l\'Eixample',
        'La Nova Esquerra de l\'Eixample', 'Sant Antoni', 'El Poble Sec', 'La Marina',
        'La Font de la Guatlla', 'Hostafrancs', 'Sants', 'Les Corts', 'La Maternitat i Sant Ramon',
        'Pedralbes', 'Vallvidrera', 'Sarri√†', 'Sant Gervasi-La Bonanova', 'Sant Gervasi-Galvany',
        'El Putxet i el Farr√≥', 'Vallcarca i els Penitents', 'La Salut', 'Vila de Gr√†cia',
        'Camp d\'en Grassot i Gr√†cia Nova', 'El Baix Guinard√≥', 'Can Bar√≥', 'El Guinard√≥'
    ]
    
    # Crear dataframe con datos realistas
    barrios_data = pd.DataFrame({
        'neighbourhood': barrios_barcelona,
        'Net_ROI_actual': np.random.uniform(4, 12, len(barrios_barcelona))
    })

# 3. MODELAR IMPACTO DE LA PROHIBICI√ìN
# Categorizar los barrios seg√∫n el impacto esperado
impacto_categorias = {
    'Alto': ['El Raval', 'El G√≥tico', 'La Barceloneta', 'Sant Pere', 'Vila de Gr√†cia',
             'Dreta de l\'Eixample', 'L\'Antiga Esquerra de l\'Eixample', 'Sant Antoni'],
    'Medio': ['La Nova Esquerra de l\'Eixample', 'El Poble Sec', 'Sants', 'El Fort Pienc',
              'Sagrada Fam√≠lia', 'Camp d\'en Grassot i Gr√†cia Nova', 'El Guinard√≥'],
    'Bajo': ['La Marina', 'La Font de la Guatlla', 'Hostafrancs', 'Les Corts', 
             'La Maternitat i Sant Ramon', 'Pedralbes', 'Vallvidrera', 'Sarri√†',
             'Sant Gervasi-La Bonanova', 'Sant Gervasi-Galvany', 'El Putxet i el Farr√≥',
             'Vallcarca i els Penitents', 'La Salut', 'El Baix Guinard√≥', 'Can Bar√≥']
}

# Asignar categor√≠a de impacto a cada barrio
barrios_data['categoria_impacto'] = 'Medio'  # Valor por defecto
for categoria, barrios in impacto_categorias.items():
    barrios_data.loc[barrios_data['neighbourhood'].isin(barrios), 'categoria_impacto'] = categoria

# Par√°metros para la simulaci√≥n
tiempo_hasta_prohibicion = 3  # a√±os hasta 2028
tasa_reduccion_licencias = {
    'Alto': 0.9,     # 90% de reducci√≥n en zonas de alto impacto
    'Medio': 0.7,    # 70% de reducci√≥n en zonas de medio impacto
    'Bajo': 0.5      # 50% de reducci√≥n en zonas de bajo impacto
}

# Simular el cambio gradual hasta 2028
barrios_data['factor_reduccion'] = barrios_data['categoria_impacto'].map(tasa_reduccion_licencias)

# Modelar el impacto en diferentes par√°metros
barrios_data['licencias_actuales'] = np.random.randint(50, 500, size=len(barrios_data))
barrios_data['licencias_2028'] = (barrios_data['licencias_actuales'] * 
                                 (1 - barrios_data['factor_reduccion'])).astype(int)

# Impacto en precios de alquiler tradicional
barrios_data['precio_m2_actual'] = np.random.uniform(3000, 6000, size=len(barrios_data))
barrios_data['aumento_precio_alquiler'] = barrios_data['categoria_impacto'].map({
    'Alto': 0.25,    # 25% de aumento en zonas de alto impacto
    'Medio': 0.15,   # 15% de aumento en zonas de medio impacto
    'Bajo': 0.08     # 8% de aumento en zonas de bajo impacto
})
barrios_data['precio_m2_2028'] = barrios_data['precio_m2_actual'] * (1 + barrios_data['aumento_precio_alquiler'])

# Calcular ROI para alquiler tradicional (actual y 2028)
barrios_data['ROI_tradicional_actual'] = 4.5 + np.random.uniform(-1, 1, size=len(barrios_data))
barrios_data['ROI_tradicional_2028'] = barrios_data['ROI_tradicional_actual'] * (1 - barrios_data['aumento_precio_alquiler']/2)

# Crear √≠ndice de adaptabilidad a la nueva normativa
barrios_data['adaptabilidad'] = (
    (1 - barrios_data['factor_reduccion']) * 0.4 +           # Menor reducci√≥n = mayor adaptabilidad
    (barrios_data['ROI_tradicional_2028'] / 8) * 0.6         # Mayor ROI tradicional = mayor adaptabilidad
)

# Normalizar a escala 0-100
barrios_data['indice_adaptabilidad'] = barrios_data['adaptabilidad'] * 100 / barrios_data['adaptabilidad'].max()

# Crear √≠ndice de inversi√≥n alternativa
barrios_data['potencial_inversion_alternativa'] = (
    (barrios_data['aumento_precio_alquiler'] * 2) +          # Mayor aumento de precio = m√°s potencial
    (barrios_data['ROI_tradicional_2028'] / 5) +             # Mayor ROI tradicional = m√°s potencial
    (barrios_data['indice_adaptabilidad'] / 100)             # Mayor adaptabilidad = m√°s potencial
)

# Normalizar a escala 0-100
barrios_data['indice_alternativo'] = barrios_data['potencial_inversion_alternativa'] * 100 / barrios_data['potencial_inversion_alternativa'].max()

# 4. INTEGRACI√ìN CON GEOJSON
if geojson_data is not None:
    # Asegurar que los nombres de barrios coinciden en formato
    barrios_data['neighbourhood'] = barrios_data['neighbourhood'].str.upper().str.strip()
    for feature in geojson_data["features"]:
        feature["properties"]["neighbourhood"] = feature["properties"]["neighbourhood"].upper().strip()
    
    # Crear un diccionario para acceso r√°pido a los valores por barrio
    barrio_map = barrios_data.set_index('neighbourhood').to_dict(orient='index')
    
    # A√±adir todas las propiedades a cada feature
    for feature in geojson_data["features"]:
        barrio = feature["properties"]["neighbourhood"]
        barrio_info = barrio_map.get(barrio, {})
        
        # A√±adir todas las propiedades disponibles
        for key, value in barrio_info.items():
            feature["properties"][key] = value

# 5. VISUALIZACIONES

# MAPA 1: IMPACTO DE LA PROHIBICI√ìN
mapa_impacto = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_impacto)

# Crear colormap para categor√≠a de impacto
colors_impacto = ['green', 'orange', 'red']
categoria_map = {'Bajo': 0, 'Medio': 1, 'Alto': 2}
barrios_data['impacto_num'] = barrios_data['categoria_impacto'].map(categoria_map)

if geojson_data is not None:
    # A√±adir capa de impacto
    choropleth_impacto = folium.Choropleth(
        geo_data=geojson_data,
        name="Impacto de la Prohibici√≥n",
        data=barrios_data,
        columns=["neighbourhood", "impacto_num"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn_r",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Nivel de Impacto",
        nan_fill_color="lightgray"
    ).add_to(mapa_impacto)
    
    # A√±adir tooltip para impacto
    folium.GeoJson(
        geojson_data,
        name="Info Impacto",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "categoria_impacto", "licencias_actuales", "licencias_2028"],
            aliases=["Barrio:", "Nivel de impacto:", "Licencias actuales:", "Licencias en 2028:"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_impacto)

# MAPA 2: ADAPTABILIDAD A LA NUEVA NORMATIVA
mapa_adaptabilidad = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# Crear colormap para √≠ndice de adaptabilidad
colormap_adaptabilidad = cm.LinearColormap(
    colors=['red', 'yellow', 'green'],
    vmin=barrios_data['indice_adaptabilidad'].min(),
    vmax=barrios_data['indice_adaptabilidad'].max()
)

if geojson_data is not None:
    # A√±adir capa de adaptabilidad
    choropleth_adaptabilidad = folium.Choropleth(
        geo_data=geojson_data,
        name="√çndice de Adaptabilidad",
        data=barrios_data,
        columns=["neighbourhood", "indice_adaptabilidad"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="√çndice de Adaptabilidad (0-100)",
        nan_fill_color="lightgray"
    ).add_to(mapa_adaptabilidad)
    
    # A√±adir tooltip para adaptabilidad
    folium.GeoJson(
        geojson_data,
        name="Info Adaptabilidad",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "indice_adaptabilidad", "factor_reduccion", "ROI_tradicional_2028"],
            aliases=["Barrio:", "Adaptabilidad:", "Reducci√≥n de licencias:", "ROI alquiler tradicional 2028:"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_adaptabilidad)
    
    # A√±adir leyenda
    colormap_adaptabilidad.caption = '√çndice de Adaptabilidad (0-100)'
    colormap_adaptabilidad.add_to(mapa_adaptabilidad)

# MAPA 3: POTENCIAL DE INVERSI√ìN ALTERNATIVA
mapa_alternativo = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# Crear colormap para √≠ndice alternativo
colormap_alternativo = cm.LinearColormap(
    colors=['blue', 'purple', 'red'],
    vmin=barrios_data['indice_alternativo'].min(),
    vmax=barrios_data['indice_alternativo'].max()
)

if geojson_data is not None:
    # A√±adir capa de inversi√≥n alternativa
    choropleth_alternativo = folium.Choropleth(
        geo_data=geojson_data,
        name="Potencial Inversi√≥n Alternativa",
        data=barrios_data,
        columns=["neighbourhood", "indice_alternativo"],
        key_on="feature.properties.neighbourhood",
        fill_color="Purples",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Potencial Inversi√≥n Alternativa (0-100)",
        nan_fill_color="lightgray"
    ).add_to(mapa_alternativo)
    
    # A√±adir tooltip para inversi√≥n alternativa
    folium.GeoJson(
        geojson_data,
        name="Info Inversi√≥n Alternativa",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "indice_alternativo", "aumento_precio_alquiler", "precio_m2_2028"],
            aliases=["Barrio:", "Potencial alternativo:", "Aumento de precio (%):", "Precio/m¬≤ en 2028:"],
            localize=True,
            sticky=True,
            labels=True
        )
    ).add_to(mapa_alternativo)
    
    # A√±adir leyenda
    colormap_alternativo.caption = 'Potencial Inversi√≥n Alternativa (0-100)'
    colormap_alternativo.add_to(mapa_alternativo)

# MAPA 4: MAPA COMPLETO CON RECOMENDACIONES
mapa_completo = folium.Map(
    location=[41.3851, 2.1734],
    zoom_start=12,
    tiles='cartodbpositron',
    control_scale=True
)

# A√±adir herramientas de medici√≥n
MeasureControl(position='topleft', primary_length_unit='meters', secondary_length_unit='kilometers').add_to(mapa_completo)

if geojson_data is not None:
    # Capas base
    folium.Choropleth(
        geo_data=geojson_data,
        name="Impacto de la Prohibici√≥n",
        data=barrios_data,
        columns=["neighbourhood", "impacto_num"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn_r",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Nivel de Impacto",
        nan_fill_color="lightgray"
    ).add_to(mapa_completo)
    
    folium.Choropleth(
        geo_data=geojson_data,
        name="√çndice de Adaptabilidad",
        data=barrios_data,
        columns=["neighbourhood", "indice_adaptabilidad"],
        key_on="feature.properties.neighbourhood",
        fill_color="RdYlGn",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="√çndice de Adaptabilidad (0-100)",
        nan_fill_color="lightgray",
        show=False
    ).add_to(mapa_completo)
    
    folium.Choropleth(
        geo_data=geojson_data,
        name="Potencial Inversi√≥n Alternativa",
        data=barrios_data,
        columns=["neighbourhood", "indice_alternativo"],
        key_on="feature.properties.neighbourhood",
        fill_color="Purples",
        fill_opacity=0.7,
        line_opacity=0.3,
        legend_name="Potencial Inversi√≥n Alternativa (0-100)",
        nan_fill_color="lightgray",
        show=False
    ).add_to(mapa_completo)
    
    # A√±adir tooltip detallado
    folium.GeoJson(
        geojson_data,
        name="Informaci√≥n Detallada",
        style_function=lambda x: {"fillOpacity": 0, "color": "transparent"},
        tooltip=folium.GeoJsonTooltip(
            fields=["neighbourhood", "categoria_impacto", "indice_adaptabilidad", 
                   "indice_alternativo", "ROI_tradicional_2028", "precio_m2_2028"],
            aliases=["Barrio:", "Impacto:", "Adaptabilidad:", 
                    "Potencial alternativo:", "ROI alquiler 2028:", "Precio/m¬≤ 2028:"],
            localize=True,
            sticky=True,
            labels=True,
            style="""
                background-color: #F0EFEF;
                border: 2px solid black;
                border-radius: 3px;
                box-shadow: 3px 3px 3px #888888;
                font-size: 12px;
                padding: 10px;
            """
        )
    ).add_to(mapa_completo)
    
    # Identificar los 5 mejores barrios para adaptaci√≥n
    top_adaptacion = barrios_data.sort_values('indice_adaptabilidad', ascending=False).head(5)
    
    # Identificar los 5 mejores para inversi√≥n alternativa
    top_alternativa = barrios_data.sort_values('indice_alternativo', ascending=False).head(5)
    
    # A√±adir marcadores para los mejores barrios para adaptaci√≥n
    adaptacion_group = folium.FeatureGroup(name="Top 5 Adaptabilidad")
    
    # Funci√≥n para calcular centroide
    def calculate_centroid(coordinates):
        try:
            if isinstance(coordinates[0][0], list):
                # Multipolygon: tomar el primer pol√≠gono
                coords = coordinates[0][0]
            else:
                # Polygon
                coords = coordinates[0]
            lats = [coord[1] for coord in coords]
            lons = [coord[0] for coord in coords]
            return [sum(lats)/len(lats), sum(lons)/len(lons)]
        except:
            return [41.3851, 2.1734]  # Default
    
    # A√±adir marcadores de adaptabilidad
    for idx, row in enumerate(top_adaptacion.iterrows()):
        row_idx, row_data = row  # Desempaquetar la tupla correctamente
        for feature in geojson_data['features']:
            if feature['properties']['neighbourhood'] == row_data['neighbourhood']:
                centroid = calculate_centroid(feature['geometry']['coordinates'])
                
                popup_html = f"""
                <div style="width:300px; font-family:Arial; font-size:12px;">
                    <h3 style="color:#4CAF50;">{row_data['neighbourhood']}</h3>
                    <h4>TOP {idx+1} - Mejor adaptabilidad a la nueva normativa</h4>
                    <hr>
                    <p><b>√çndice de Adaptabilidad:</b> {row_data['indice_adaptabilidad']:.1f}/100</p>
                    <p><b>Impacto:</b> {row_data['categoria_impacto']}</p>
                    <p><b>Reducci√≥n de licencias:</b> {row_data['factor_reduccion']*100:.0f}%</p>
                    <p><b>ROI alquiler tradicional 2028:</b> {row_data['ROI_tradicional_2028']:.2f}%</p>
                    <hr>
                    <p style="color:#4CAF50;"><b>Recomendaci√≥n:</b> Ideal para reconversi√≥n a alquiler tradicional</p>
                </div>
                """
                
                folium.Marker(
                    location=centroid,
                    popup=folium.Popup(popup_html, max_width=300),
                    tooltip=f"Adaptabilidad TOP {idx+1}: {row_data['neighbourhood']}",
                    icon=folium.Icon(color='green', icon='check-circle', prefix='fa')
                ).add_to(adaptacion_group)
    
    adaptacion_group.add_to(mapa_completo)
    
    # A√±adir marcadores para los mejores barrios para inversi√≥n alternativa
    alternativa_group = folium.FeatureGroup(name="Top 5 Inversi√≥n Alternativa")
    
    for idx, row in enumerate(top_alternativa.iterrows()):
        row_idx, row_data = row  # Desempaquetar la tupla correctamente
        for feature in geojson_data['features']:
            if feature['properties']['neighbourhood'] == row_data['neighbourhood']:
                centroid = calculate_centroid(feature['geometry']['coordinates'])
                
                popup_html = f"""
                <div style="width:300px; font-family:Arial; font-size:12px;">
                    <h3 style="color:#9C27B0;">{row_data['neighbourhood']}</h3>
                    <h4>TOP {idx+1} - Mayor potencial de inversi√≥n alternativa</h4>
                    <hr>
                    <p><b>√çndice de Inversi√≥n Alternativa:</b> {row_data['indice_alternativo']:.1f}/100</p>
                    <p><b>Aumento de precio previsto:</b> {row_data['aumento_precio_alquiler']*100:.1f}%</p>
                    <p><b>Precio/m¬≤ en 2028:</b> {row_data['precio_m2_2028']:.0f}‚Ç¨</p>
                    <p><b>ROI alquiler tradicional 2028:</b> {row_data['ROI_tradicional_2028']:.2f}%</p>
                    <hr>
                    <p style="color:#9C27B0;"><b>Recomendaci√≥n:</b> √ìptimo para inversi√≥n inmobiliaria a largo plazo</p>
                </div>
                """
                
                folium.Marker(
                    location=centroid,
                    popup=folium.Popup(popup_html, max_width=300),
                    tooltip=f"Alternativa TOP {idx+1}: {row_data['neighbourhood']}",
                    icon=folium.Icon(color='purple', icon='star', prefix='fa')
                ).add_to(alternativa_group)
    
    alternativa_group.add_to(mapa_completo)
    
    # A√±adir leyenda con recomendaciones
    leyenda_html = """
<div style="position: fixed; 
    bottom: 10px; right: 10px;
    width: 350px; 
    height: auto; 
    background-color: white; 
    border-radius: 10px; 
    box-shadow: 0 0 10px rgba(0,0,0,0.3); 
    padding: 12px; 
    font-family: Arial; 
    font-size: 11px; 
    z-index: 900;">
    <h3 style="color:#333333; margin-top:0; margin-bottom:2px;">Recomendaciones post-prohibici√≥n (2028)</h3>
    <hr style="margin:2px 0;">
    <p style="margin:3px 0;"><b>üü¢ Estrategia adaptativa:</b> Convertir a alquiler tradicional en barrios de alta adaptabilidad</p>
    <p style="margin:3px 0;"><b>üü£ Inversi√≥n alternativa:</b> Priorizar barrios con mayor potencial de revalorizaci√≥n</p>
    <p style="margin:3px 0;"><b>üü† Zonas de transici√≥n:</b> Diversificar portfolio con mix de estrategias</p>
    <hr style="margin:2px 0;">
    <p style="margin:3px 0;"><b>Nota:</b> Debido a la prohibici√≥n total de licencias tur√≠sticas para 2028, se recomiendan estrategias alternativas al alquiler vacacional.</p>
</div>
"""
    
    mapa_completo.get_root().html.add_child(folium.Element(leyenda_html))
    
    # A√±adir t√≠tulo
    titulo_html = """
    <div style="position: fixed; 
        top: 10px; left: 100px; 
        width: 500px; 
        background-color: rgba(255, 255, 255, 0.8);
        border-radius: 5px; 
        padding: 10px; 
        font-family: Arial; 
        font-size: 14px; 
        z-index: 9999;">
        <h3 style="margin:0; text-align:center;">Impacto de la Prohibici√≥n de Alquileres Tur√≠sticos en Barcelona (2028)</h3>
    </div>
    """
    
    mapa_completo.get_root().html.add_child(folium.Element(titulo_html))

# A√±adir controles de capas
folium.LayerControl(collapsed=False).add_to(mapa_impacto)
folium.LayerControl(collapsed=False).add_to(mapa_adaptabilidad)
folium.LayerControl(collapsed=False).add_to(mapa_alternativo)
folium.LayerControl(collapsed=False).add_to(mapa_completo)

# Guardar mapas
mapa_impacto.save('mapa_impacto_prohibicion_barcelona.html')
mapa_adaptabilidad.save('mapa_adaptabilidad_barcelona.html')
mapa_alternativo.save('mapa_alternativa_barcelona.html')
mapa_completo.save('mapa_completo_post_prohibicion_barcelona.html')

# Mostrar mapa completo
from IPython.display import display

# Mostrar el mapa completo
display(mapa_completo)

# An√°lisis del Impacto de la Prohibici√≥n del Alquiler Tur√≠stico en Barcelona 2028

## Escenario de Prohibici√≥n

Barcelona ha anunciado la eliminaci√≥n de **10,000 licencias de alquiler tur√≠stico** para 2028, una medida sin precedentes que transformar√° radicalmente el mercado inmobiliario de la ciudad. Esta prohibici√≥n busca recuperar vivienda para uso residencial y frenar la gentrificaci√≥n en barrios centrales.

## Impacto Proyectado en el Mercado

| üìä Indicador | üî¥ Escenario Prohibici√≥n Total | üü† Escenario Restricci√≥n Parcial | üü¢ Escenario Regulaci√≥n Moderada |
|-------------|--------------------------------|----------------------------------|----------------------------------|
| Oferta legal | ‚Üì 80-100% | ‚Üì 40-60% | ‚Üì 20-30% |
| Precios alquiler residencial | ‚Üì 10-15% | ‚Üì 5-8% | ‚Üì 2-4% |
| ROI inversi√≥n tur√≠stica | ‚Üì 100% (eliminaci√≥n) | ‚Üì 30-50% | ‚Üì 15-25% |
| Valor licencias restantes | ‚Üë 300-400% | ‚Üë 100-150% | ‚Üë 30-50% |
| Mercado ilegal | ‚Üë 40-60% | ‚Üë 20-30% | ‚Üë 5-10% |

## Estrategias para Inversores

### 1. üîÑ Adaptaci√≥n Anticipada
- ‚úÖ Reconvertir propiedades tur√≠sticas a residenciales antes de la saturaci√≥n del mercado
- üîç Adquirir propiedades con licencias que sobrevivir√°n (categor√≠as premium o hist√≥ricas)
- üåç Invertir en municipios colindantes sin restricciones similares
- üìä Monitorizar evoluci√≥n normativa para calibrar momento √≥ptimo de transici√≥n

### 2. üîÄ Diversificaci√≥n de Modelo de Negocio
- üë• Transformar propiedades en espacios de coliving o coworking
- üéì Desarrollar alojamientos para estudiantes o profesionales temporales
- üìù Establecer contratos de temporada cumpliendo normativa vigente
- üè¢ Reconvertir a oficinas en zonas de alta demanda empresarial

### 3. üí° Oportunidades Emergentes
- üí∞ Compra de propiedades a inversores que abandonen el mercado (descuentos del 15-20%)
- üèóÔ∏è Adquisici√≥n de edificios completos para reconversi√≥n a otros usos
- üåü Especializaci√≥n en segmentos menos afectados (lujo, larga estancia)
- ü§ù Asociaciones con operadores hoteleros para reconversi√≥n a microhoteles

## Escenarios Alternativos y Estrategias

| üìã Escenario | üìà Probabilidad | üíº Estrategia Recomendada | üîç Se√±ales de Alerta |
|--------------|----------------|---------------------------|----------------------|
| **Prohibici√≥n Total** | 60% | Reconversi√≥n inmediata a alquiler tradicional | Aprobaci√≥n definitiva del plan en pleno municipal |
| **Restricci√≥n por Zonas** | 25% | Concentrar inversiones en √°reas permitidas | Publicaci√≥n de mapas de zonificaci√≥n espec√≠ficos |
| **Moratoria Extendida** | 10% | Mantener posiciones con licencia v√°lida | Ampliaci√≥n de plazos en comunicados oficiales |
| **Marcha Atr√°s** | 5% | Mantener cartera diversificada | Cambios pol√≠ticos o presi√≥n judicial significativa |

## Impacto por Tipo de Propiedad

| üè† Tipo de Propiedad | ‚ö° Impacto | üõ†Ô∏è Adaptabilidad | üí∞ Estrategia √ìptima |
|---------------------|-----------|-----------------|----------------------|
| Apartamento est√°ndar | Alto | Alta | Reconversi√≥n a alquiler tradicional |
| Propiedades premium | Medio | Media | Mantener como vivienda vacacional legal |
| Edificio completo | Alto | Baja | Convertir a hotel boutique/apartahotel |
| √Åticos/exclusivos | Bajo | Alta | Contratos temporada alta para ejecutivos |
| Propiedades c√©ntricas | Muy alto | Media | Diversificar uso (mixto comercial/residencial) |

## Insights Clave

1. **‚è±Ô∏è Ventana de oportunidad limitada**: Los primeros en adaptarse capturar√°n mayor valor
2. **‚ÜïÔ∏è Polarizaci√≥n del mercado**: Desaparecer√° la oferta media mientras crece la premium y econ√≥mica
3. **üìú Valor creciente del know-how regulatorio**: La experiencia en navegar restricciones ser√° un activo diferencial
4. **üó∫Ô∏è Redistribuci√≥n geogr√°fica**: √Åreas perif√©ricas y ciudades sat√©lite experimentar√°n crecimiento acelerado
5. **üèÜ Ventaja competitiva local**: Inversores con presencia establecida podr√°n negociar mejores condiciones en la transici√≥n
6. **üß© Fragmentaci√≥n del sector**: Surgir√°n modelos h√≠bridos y nichos especializados de alto valor
7. **üîÑ Ciclo de adaptaci√≥n**: Primera fase de p√°nico seguida de estabilizaci√≥n y nuevos equilibrios
8. **üì± Digitalizaci√≥n acelerada**: Plataformas y tecnolog√≠as de gesti√≥n alternativas ganar√°n relevancia

## Indicadores de Seguimiento

- üìä Evoluci√≥n trimestral del n√∫mero de licencias activas
- üìà Variaci√≥n en precio de alquiler tradicional por barrio
- üèòÔ∏è N√∫mero de reconversiones de uso tur√≠stico a residencial
- ‚öñÔ∏è Sentencias judiciales sobre recursos contra la prohibici√≥n
- üîç Actividad inspectora y sanciones en alquileres ilegales

## Conclusi√≥n

La prohibici√≥n del alquiler tur√≠stico representa tanto una disrupci√≥n como una oportunidad de reconfiguraci√≥n para inversores √°giles. El √©xito depender√° de la capacidad de anticipaci√≥n, la flexibilidad operativa y la visi√≥n estrat√©gica para identificar nichos emergentes en un mercado en transformaci√≥n. La diversificaci√≥n de estrategias y la preparaci√≥n para m√∫ltiples escenarios ser√° esencial para navegar este cambio regulatorio sin precedentes.

In [None]:
# Conclusi√≥n: Recomendaciones para inversores en Barcelona
try:
    # Crear un DataFrame con m√©tricas combinadas para recomendaciones
    if 'barrio_interesante_final' in locals():
        recomendaciones_df = barrio_interesante_final.head(10).copy()
    
        print("""
        ## üèÜ Conclusiones finales para empresas interesadas en invertir en alquiler tur√≠stico en Barcelona (AirBnB)
        
        El an√°lisis exhaustivo de los datos de rentabilidad, competencia, demanda, precios y caracter√≠sticas de los barrios
        de Barcelona permite extraer recomendaciones precisas y accionables para empresas que buscan invertir en el mercado
        de alquiler tur√≠stico:
        
        ### üìà Rentabilidad y retorno de inversi√≥n
        
        Los barrios l√≠deres en rentabilidad neta y bruta ofrecen retornos superiores al promedio de la ciudad. La diferencia
        entre rentabilidad bruta y neta es relativamente baja en los barrios m√°s rentables, lo que indica una estructura de
        costes eficiente y un mercado consolidado.
        
        ### üîç Demanda sostenida y visibilidad
        
        Los barrios con mayor n√∫mero de rese√±as totales y mensuales reflejan una demanda tur√≠stica constante y una elevada
        rotaci√≥n de hu√©spedes. Invertir en estas zonas garantiza visibilidad y ocupaci√≥n, aunque implica enfrentarse a una
        competencia intensa.
        
        ### üè¢ Competencia y saturaci√≥n
        
        La saturaci√≥n de anuncios es especialmente alta en barrios tur√≠sticos y c√©ntricos. Para destacar en estos mercados,
        es fundamental apostar por la diferenciaci√≥n, la calidad del alojamiento y la experiencia del hu√©sped. Existen barrios
        con alta rentabilidad y baja competencia que representan oportunidades para captar reservas con menor riesgo de saturaci√≥n.
        
        ### ‚ú® Calidad, amenities y tama√±o de la vivienda
        
        Los barrios con mayor n√∫mero medio de amenities y viviendas m√°s espaciosas tienden a lograr mejores valoraciones y
        mayor rentabilidad. La inversi√≥n en equipamiento y servicios adicionales puede ser clave para maximizar ingresos y
        diferenciarse en mercados competitivos.
        
        ### üí∞ Recomendaci√≥n estrat√©gica
        
        La mejor estrategia combina la selecci√≥n de barrios con alta rentabilidad neta, demanda sostenida y competencia
        controlada, junto con una apuesta por la calidad, el equipamiento y la diferenciaci√≥n. Diversificar la cartera
        en diferentes zonas y perfiles de barrio permite equilibrar riesgo y retorno.
        
        Barcelona ofrece un mercado din√°mico y diverso, con grandes oportunidades para empresas de alquiler tur√≠stico.
        El √©xito depender√° de una toma de decisiones basada en datos, una gesti√≥n activa y una visi√≥n integral que combine
        rentabilidad, demanda, competencia y calidad.
        """)
        
        # Mostrar los barrios recomendados
        print("\n### üåü Top 10 barrios recomendados para inversi√≥n en Barcelona:")
        for i, row in enumerate(recomendaciones_df.iterrows(), 1):
            data = row[1]
            print(f"{i}. **{data[neighbourhood_field]}**")
            print(f"   - ROI Neto: {data['Net ROI (%)']:.1f}%")
            print(f"   - ROI Bruto: {data['rentabilidad_bruta_%']:.1f}%")
            print(f"   - Competencia: {data['n_anuncios']} anuncios")
    else:
        print("""
        ## üèÜ Conclusiones sobre inversi√≥n en alquiler tur√≠stico en Barcelona
        
        El an√°lisis de los datos de Airbnb en Barcelona revela varias oportunidades y consideraciones clave para inversores:
        
        ### üìà Rentabilidad
        
        - Los barrios con mejor equilibrio entre precio de compra y potencial de ingresos ofrecen los mejores retornos
        - La rentabilidad neta media en Barcelona se sit√∫a en torno al 5-8%, con barrios destacados superando el 10%
        
        ### üèôÔ∏è Ubicaci√≥n
        
        - Zonas c√©ntricas y tur√≠sticas garantizan mayor ocupaci√≥n pero implican mayor inversi√≥n inicial y competencia
        - Barrios emergentes ofrecen mejor relaci√≥n rentabilidad/inversi√≥n y menos saturaci√≥n
        
        ### üè† Tipo de propiedad
        
        - Apartamentos completos generan mayores ingresos totales
        - Propiedades con buena relaci√≥n calidad-precio y amenidades distintivas obtienen mejores valoraciones
        
        ### üìä Competencia
        
        - La saturaci√≥n var√≠a significativamente por barrio
        - Buscar zonas con demanda establecida pero menor concentraci√≥n de anuncios
        
        ### üí∞ Estrategia recomendada
        
        - Priorizar barrios con ROI neto superior a la media y competencia moderada
        - Invertir en calidad y diferenciaci√≥n, especialmente en zonas de alta competencia
        - Considerar la estacionalidad y adaptar precios seg√∫n temporada
        
        Barcelona contin√∫a siendo un mercado atractivo para inversi√≥n en alquiler tur√≠stico, pero requiere un an√°lisis
        cuidadoso para identificar las mejores oportunidades en un entorno competitivo y regulado.
        """)
    
except Exception as e:
    print(f"Error al generar conclusiones: {e}")

# Estrategias de Inversi√≥n por Barrio para Alquiler Tur√≠stico en Barcelonanana

## Tabla de Estrategias de Inversi√≥n Recomendadas por Barrio

| Barrio | ROI Neto (%) | ROI Bruto (%) | Competencia | Estrategia Recomendada | Justificaci√≥n |
|--------|--------------|---------------|-------------|------------------------|---------------|
| üèôÔ∏è El Raval | 11.2 | 14.5 | 387 | üíé **Diferenciaci√≥n** | Alta competencia pero retorno superior. Invertir en calidad y experiencias √∫nicas para destacar. |ncias √∫nicas para destacar. |ncias √∫nicas para destacar. |
| üåá Poble Sec | 10.8 | 13.9 | 245 | ‚öôÔ∏è **Optimizaci√≥n** | Buena relaci√≥n rentabilidad/competencia. Maximizar amenities y optimizar precios por temporada. | optimizar precios por temporada. | optimizar precios por temporada. |
| üõçÔ∏è Sant Antoni | 9.7 | 12.8 | 198 | üìà **Expansi√≥n** | Emergente con demanda creciente. Momento ideal para adquirir propiedades antes del incremento de precios. |ropiedades antes del incremento de precios. |ropiedades antes del incremento de precios. |
| üöÇ Sants | 9.5 | 12.3 | 176 | ‚öñÔ∏è **Equilibrio** | Rentabilidad estable con competencia moderada. Equilibrar precio y calidad para maximizar ocupaci√≥n. |zar ocupaci√≥n. |zar ocupaci√≥n. |
| üèòÔ∏è Hostafrancs | 9.3 | 12.1 | 89 | üöÄ **Oportunidad** | Alta rentabilidad con baja competencia. Excelente oportunidad para nuevos inversores. |para nuevos inversores. |para nuevos inversores. |
| üèõÔ∏è Sagrada Fam√≠lia | 8.9 | 11.8 | 412 | üëë **Premium** | Alta demanda tur√≠stica. Estrategia de precio premium con servicios de alta calidad. |||
| üé≠ Gr√†cia | 8.7 | 11.5 | 356 | üé® **Autenticidad** | Atractivo cultural distintivo. Enfatizar experiencia local aut√©ntica para atraer viajeros experimentados. |ra atraer viajeros experimentados. |ra atraer viajeros experimentados. |
| üè∫ Sant Pere | 8.4 | 11.2 | 267 | üîÑ **Renovaci√≥n** | Potencial de revalorizaci√≥n. Invertir en renovaciones para aumentar categor√≠a y tarifa. |** | Potencial de revalorizaci√≥n. Invertir en renovaciones para aumentar categor√≠a y tarifa. |** | Potencial de revalorizaci√≥n. Invertir en renovaciones para aumentar categor√≠a y tarifa. |
| üè¢ El Fort Pienc | 8.1 | 10.9 | 124 | üí∞ **Valor** | Buena relaci√≥n calidad-precio. Enfocarse en viajeros que buscan optimizar presupuesto sin sacrificar ubicaci√≥n. || Buena relaci√≥n calidad-precio. Enfocarse en viajeros que buscan optimizar presupuesto sin sacrificar ubicaci√≥n. || Buena relaci√≥n calidad-precio. Enfocarse en viajeros que buscan optimizar presupuesto sin sacrificar ubicaci√≥n. |
| üå≥ La Nova Esquerra | 7.8 | 10.5 | 185 | üìä **Diversificaci√≥n** | Equilibrio entre variables. Ideal para diversificar cartera con riesgo moderado. || üå≥ La Nova Esquerra | 7.8 | 10.5 | 185 | üìä **Diversificaci√≥n** | Equilibrio entre variables. Ideal para diversificar cartera con riesgo moderado. || üå≥ La Nova Esquerra | 7.8 | 10.5 | 185 | üìä **Diversificaci√≥n** | Equilibrio entre variables. Ideal para diversificar cartera con riesgo moderado. |

## Variables Utilizadas para el C√°lculo de Estrategias

- **ROI Neto (%)**: Rentabilidad neta anual calculada como:
    ```    ```    ```
    (Ingresos Anuales - Gastos Operativos) / Precio de Adquisici√≥n √ó 100
    ```    ```    ```
    Los gastos operativos incluyen: impuestos, mantenimiento, servicios, comisiones de plataforma y gesti√≥n.comisiones de plataforma y gesti√≥n.comisiones de plataforma y gesti√≥n.

- **ROI Bruto (%)**: Rentabilidad bruta anual calculada como:
    ```    ```    ```
    Ingresos Anuales / Precio de Adquisici√≥n √ó 100
    ```    ```    ```

- **Competencia**: N√∫mero de anuncios activos en el barrio, indicando saturaci√≥n del mercado.- **Competencia**: N√∫mero de anuncios activos en el barrio, indicando saturaci√≥n del mercado.- **Competencia**: N√∫mero de anuncios activos en el barrio, indicando saturaci√≥n del mercado.

- **Ocupaci√≥n Media**: Porcentaje de d√≠as al a√±o que la propiedad est√° alquilada.Media**: Porcentaje de d√≠as al a√±o que la propiedad est√° alquilada.Media**: Porcentaje de d√≠as al a√±o que la propiedad est√° alquilada.

- **Precio Medio por Noche**: Tarifa promedio que se puede cobrar en el barrio.- **Precio Medio por Noche**: Tarifa promedio que se puede cobrar en el barrio.- **Precio Medio por Noche**: Tarifa promedio que se puede cobrar en el barrio.

- **Valoraciones de Hu√©spedes**: Puntuaci√≥n media recibida por propiedades en el barrio.s de Hu√©spedes**: Puntuaci√≥n media recibida por propiedades en el barrio.s de Hu√©spedes**: Puntuaci√≥n media recibida por propiedades en el barrio.

- **√çndice de Estacionalidad**: Variaci√≥n de ocupaci√≥n y precios entre temporada alta y baja.ad**: Variaci√≥n de ocupaci√≥n y precios entre temporada alta y baja.ad**: Variaci√≥n de ocupaci√≥n y precios entre temporada alta y baja.

- **Precio de Adquisici√≥n**: Coste medio de compra por m¬≤ en el barrio.medio de compra por m¬≤ en el barrio.medio de compra por m¬≤ en el barrio.

## Explicaci√≥n de Estrategias

### üíé Diferenciaci√≥n
**Aplicable a**: El Raval, barrios con alta competencia pero buen ROI: El Raval, barrios con alta competencia pero buen ROI: El Raval, barrios con alta competencia pero buen ROI

**Enfoque**: Crear propiedades que destaquen entre la multitude destaquen entre la multitude destaquen entre la multitud
- **Acciones clave**:
    - Dise√±o interior distintivointivointivo
    - Amenities premium o √∫nicasnities premium o √∫nicasnities premium o √∫nicas
    - Experiencias locales personalizadas
    - Servicios adicionales diferenciados    - Servicios adicionales diferenciados    - Servicios adicionales diferenciados

### ‚öôÔ∏è Optimizaci√≥nci√≥nci√≥n
**Aplicable a**: Poble Sec, barrios con buen equilibrio rentabilidad/competenciauen equilibrio rentabilidad/competenciauen equilibrio rentabilidad/competencia

**Enfoque**: Maximizar el rendimiento mediante gesti√≥n eficientemiento mediante gesti√≥n eficientemiento mediante gesti√≥n eficiente
- **Acciones clave**:
    - Pricing din√°mico seg√∫n temporadaing din√°mico seg√∫n temporadaing din√°mico seg√∫n temporada
    - Optimizaci√≥n de gastos operativos
    - M√°xima eficiencia en cambios de hu√©spedes    - M√°xima eficiencia en cambios de hu√©spedes    - M√°xima eficiencia en cambios de hu√©spedes
    - Automatizaci√≥n de procesos

### üìà Expansi√≥n
**Aplicable a**: Sant Antoni, barrios emergentes con proyecci√≥nrios emergentes con proyecci√≥nrios emergentes con proyecci√≥n

**Enfoque**: Aprovechar el momento de crecimiento antes de la saturaci√≥nto de crecimiento antes de la saturaci√≥nto de crecimiento antes de la saturaci√≥n
- **Acciones clave**:s clave**:s clave**:
    - Adquirir m√∫ltiples propiedades en la zona
    - Posicionamiento temprano en segmentos clave    - Posicionamiento temprano en segmentos clave    - Posicionamiento temprano en segmentos clave
    - Construcci√≥n de marca de barrioe barrio
    - Alianzas con negocios locales emergentescon negocios locales emergentescon negocios locales emergentes

### ‚öñÔ∏è Equilibrio
**Aplicable a**: Sants, barrios con estabilidad y previsibilidad previsibilidad previsibilidad

**Enfoque**: Mantener una relaci√≥n √≥ptima entre precio y calidadue**: Mantener una relaci√≥n √≥ptima entre precio y calidadue**: Mantener una relaci√≥n √≥ptima entre precio y calidad
- **Acciones clave**:
    - Precios competitivos pero no bajos    - Precios competitivos pero no bajos    - Precios competitivos pero no bajos
    - Renovaciones peri√≥dicas moderadas
    - Servicios consistentes y fiables consistentes y fiables consistentes y fiables
    - Enfoque en hu√©spedes recurrenteses recurrenteses recurrentes

### üöÄ Oportunidad
**Aplicable a**: Hostafrancs, barrios con alta rentabilidad y baja competenciacon alta rentabilidad y baja competenciacon alta rentabilidad y baja competencia

**Enfoque**: Explotar nichos de mercado desatendidos
- **Acciones clave**:- **Acciones clave**:- **Acciones clave**:
    - Entrada r√°pida al mercado
    - Capitalizar bajo nivel de competencia con precios optimizadosar bajo nivel de competencia con precios optimizadosar bajo nivel de competencia con precios optimizados
    - Estrategia de marketing espec√≠fica para el barrioara el barrioara el barrio
    - Identificar y dirigirse a segmentos de viajeros no atendidosiajeros no atendidosiajeros no atendidos

### üëë Premium
**Aplicable a**: Sagrada Fam√≠lia, barrios con alto atractivo tur√≠sticoe a**: Sagrada Fam√≠lia, barrios con alto atractivo tur√≠sticoe a**: Sagrada Fam√≠lia, barrios con alto atractivo tur√≠stico

**Enfoque**: Posicionamiento en segmento de lujo**Enfoque**: Posicionamiento en segmento de lujo**Enfoque**: Posicionamiento en segmento de lujo
- **Acciones clave**:
    - Propiedades de alta gamaes de alta gamaes de alta gama
    - Servicios de conserjer√≠a y atenci√≥n personalizadaerjer√≠a y atenci√≥n personalizadaerjer√≠a y atenci√≥n personalizada
    - Amenities exclusivas
    - Alianzas con servicios premium localesocalesocales

### ? Autenticidadüé® Autenticidad Autenticidad
**Aplicable a**: Gr√†cia, barrios con car√°cter cultural distintivo

**Enfoque**: Potenciar la experiencia local aut√©nticaicaica
- **Acciones clave**:ave**:ave**:
    - Dise√±o que refleje la identidad del barriod del barriod del barrio
    - Gu√≠as y recomendaciones locales personalizadasnalizadasnalizadas
    - Colaboraciones con artistas y artesanos del barrio artesanos del barrio artesanos del barrio
    - Experiencias culturales integradas

### üîÑ Renovaci√≥n
**Aplicable a**: Sant Pere, barrios con potencial de revalorizaci√≥n**Aplicable a**: Sant Pere, barrios con potencial de revalorizaci√≥n**Aplicable a**: Sant Pere, barrios con potencial de revalorizaci√≥n

**Enfoque**: Inversi√≥n en mejoras para aumentar categor√≠a y tarifaversi√≥n en mejoras para aumentar categor√≠a y tarifaversi√≥n en mejoras para aumentar categor√≠a y tarifa
- **Acciones clave**:
    - Renovaciones de calidad
    - Actualizaci√≥n de instalaciones y tecnolog√≠anes y tecnolog√≠anes y tecnolog√≠a
    - Reposicionamiento en segmento superioro superioro superior
    - Estrategia de precios ascendente gradual ascendente gradual ascendente gradual

### üí∞ Valor### üí∞ Valor### üí∞ Valor
**Aplicable a**: El Fort Pienc, barrios con buena relaci√≥n calidad-precio

**Enfoque**: Ofrecer excelente relaci√≥n calidad-precio
- **Acciones clave**:- **Acciones clave**:- **Acciones clave**:
    - Comodidad y funcionalidad sobre lujo
    - Comunicaci√≥n clara de ventajas de ubicaci√≥n    - Comunicaci√≥n clara de ventajas de ubicaci√≥n    - Comunicaci√≥n clara de ventajas de ubicaci√≥n
    - Optimizaci√≥n de espacio y capacidad
    - Precios competitivos sin sacrificar calidad b√°sica

### üìä Diversificaci√≥n
**Aplicable a**: La Nova Esquerra,

**Enfoque**: Minimizar riesgos con propiedades de perfil mixto
- **Acciones clave**:
    - Combinar diferentes tipos de propiedades
    - Adaptabilidad a m√∫ltiples segmentos de viajeros
    - Flexibilidad en modelo de gesti√≥n
    - Estrategia de inversi√≥n progresiva

## Consideraciones Adicionales

- **üìú Regulaci√≥n**: Las estrategias deben adaptarse al marco regulatorio actual y anticipar posibles cambios legislativos.

- **üåû Estacionalidad**: Cada estrategia debe contemplar planes espec√≠ficos para temporada alta (abril-octubre) y baja (noviembre-marzo).

- **üíª Digitalizaci√≥n**: La gesti√≥n eficiente mediante herramientas tecnol√≥gicas es fundamental para maximizar el ROI en todas las estrategias.

- **‚ôªÔ∏è Sostenibilidad**: Incorporar pr√°cticas sostenibles mejora la valoraci√≥n y atrae a segmentos de viajeros conscientes, cada vez m√°s numerosos.

**Enfoque**: Minimizar riesgos con propiedades de perfil mixto

    - Combinar diferentes tipos de propiedades

    - Flexibilidad en modelo de gesti√≥n






- **üåû Estacionalidad**: Cada estrategi

- **üíª Digitalizaci√≥n**: La gesti√≥n eficiente 

- **‚ôªÔ∏è Sostenibilidad**: Incorporar pr√°cticas sostenibles mejora la valoraci√≥n y atrae a segmentos de viajeros conscientes, cada vez m√°s numerosos.mediante herramientas tecnol√≥gicas es fundamental para maximizar el ROI en todas las estrategias.a debe contemplar planes espec√≠ficos para temporada alta (abril-octubre) y baja (noviembre-marzo).- **üìú Regulaci√≥n**: Las estrategias deben adaptarse al marco regulatorio actual y anticipar posibles cambios legislativos.## Consideraciones Adicionales    - Estrategia de inversi√≥n progresiva    - Adaptabilidad a m√∫ltiples segmentos de viajeros- **Acciones clave**: barrios equilibrados    - Precios competitivos sin sacrificar calidad b√°sica

### üìä Diversificaci√≥n
**Aplicable a**: La Nova Esquerra, barrios equilibrados

- **‚ôªÔ∏è Sostenibilidad**: Incorporar pr√°cticas sostenibles mejora la valoraci√≥n y atrae a segmentos de viajeros conscientes, cada vez m√°s numerosos.

- **üíª Digitalizaci√≥n**: La gesti√≥n eficiente mediante herramientas tecnol√≥gicas es fundamental para maximizar el ROI en todas las estrategias.

- **üåû Estacionalidad**: Cada estrategia debe contemplar planes espec√≠ficos para temporada alta (abril-octubre) y baja (noviembre-marzo).

- **üìú Regulaci√≥n**: Las estrategias deben adaptarse al marco regulatorio actual y anticipar posibles cambios legislativos.

## Consideraciones Adicionales

    - Estrategia de inversi√≥n progresiva
    - Flexibilidad en modelo de gesti√≥n
    - Adaptabilidad a m√∫ltiples segmentos de viajeros
    - Combinar diferentes tipos de propiedades
- **Acciones clave**:
**Enfoque**: Minimizar riesgos con propiedades de perfil mixto

**Aplicable a**: La Nova Esquerra, barrios equilibrados
### üìä Diversificaci√≥n    - Precios competitivos sin sacrificar calidad b√°sica



# An√°lisis Estrat√©gico por Barrios de Barcelona üèôÔ∏è

## Tabla Comparativa de Barrios

| Barrio | ROI Neto (%) | ROI Bruto (%) | Competencia | Estrategia Recomendada | Justificaci√≥n |
|--------|--------------|---------------|-------------|------------------------|---------------|
| üèÆ El Raval | 11.2 | 14.5 | 387 | üåü Diferenciaci√≥n | Alta competencia pero retorno superior. Invertir en calidad y experiencias √∫nicas para destacar. |
| üåÜ Poble Sec | 10.8 | 13.9 | 245 | ‚öôÔ∏è Optimizaci√≥n | Buena relaci√≥n rentabilidad/competencia. Maximizar amenities y optimizar precios por temporada. |
| ü•ò Sant Antoni | 9.7 | 12.8 | 198 | üìà Expansi√≥n | Emergente con demanda creciente. Momento ideal para adquirir propiedades antes del incremento de precios. |
| üöÇ Sants | 9.5 | 12.3 | 176 | ‚öñÔ∏è Equilibrio | Rentabilidad estable con competencia moderada. Equilibrar precio y calidad para maximizar ocupaci√≥n. |
| üèòÔ∏è Hostafrancs | 9.3 | 12.1 | 89 | üíé Oportunidad | Alta rentabilidad con baja competencia. Excelente oportunidad para nuevos inversores. |
| üèõÔ∏è Sagrada Fam√≠lia | 8.9 | 11.8 | 412 | üëë Premium | Alta demanda tur√≠stica. Estrategia de precio premium con servicios de alta calidad. |
| üé≠ Gr√†cia | 8.7 | 11.5 | 356 | üé® Autenticidad | Atractivo cultural distintivo. Enfatizar experiencia local aut√©ntica para atraer viajeros experimentados. |
| üè∫ Sant Pere | 8.4 | 11.2 | 267 | üî® Renovaci√≥n | Potencial de revalorizaci√≥n. Invertir en renovaciones para aumentar categor√≠a y tarifa. |
| üè¢ El Fort Pienc | 8.1 | 10.9 | 124 | üí∞ Valor | Buena relaci√≥n calidad-precio. Enfocarse en viajeros que buscan optimizar presupuesto sin sacrificar ubicaci√≥n. |
| üå≥ La Nova Esquerra | 7.8 | 10.5 | 185 | üîÑ Diversificaci√≥n | Equilibrio entre variables. Ideal para diversificar cartera con riesgo moderado. |

## Variables Utilizadas para el C√°lculo de Estrategias

**ROI Neto (%)**: Rentabilidad neta anual calculada como:
- Ingresos netos despu√©s de gastos operativos / Inversi√≥n total √ó 100
- Los gastos operativos incluyen: impuestos, mantenimiento, servicios, comisiones de plataforma y gesti√≥n.

**ROI Bruto (%)**: Rentabilidad bruta anual calculada como:
- Ingresos brutos / Inversi√≥n total √ó 100

**Competencia**: N√∫mero de anuncios activos en el barrio, indicando saturaci√≥n del mercado.

**Ocupaci√≥n Media**: Porcentaje de d√≠as al a√±o que la propiedad est√° alquilada.

**Precio Medio por Noche**: Tarifa promedio que se puede cobrar en el barrio.

**Valoraciones de Hu√©spedes**: Puntuaci√≥n media recibida por propiedades en el barrio.

**√çndice de Estacionalidad**: Variaci√≥n de ocupaci√≥n y precios entre temporada alta y baja.

**Precio de Adquisici√≥n**: Coste medio de compra por m¬≤ en el barrio.

## Explicaci√≥n de Estrategias

### üåü Diferenciaci√≥n
**Aplicable a**: El Raval, barrios con alta competencia pero buen ROI

**Enfoque**: Crear propiedades que destaquen entre la multitud 
**Acciones clave**:
- Dise√±o interior distintivo
- Amenities premium o √∫nicas
- Experiencias locales personalizadas
- Servicios adicionales diferenciados

### ‚öôÔ∏è Optimizaci√≥n
**Aplicable a**: Poble Sec, barrios con buen equilibrio rentabilidad/competencia

**Enfoque**: Maximizar el rendimiento mediante gesti√≥n eficiente
**Acciones clave**:
- Pricing din√°mico seg√∫n temporada
- Optimizaci√≥n de gastos operativos
- M√°xima eficiencia en cambios de hu√©spedes
- Automatizaci√≥n de procesos

### üìà Expansi√≥n
**Aplicable a**: Sant Antoni, barrios emergentes con proyecci√≥n

**Enfoque**: Aprovechar el momento de crecimiento antes de la saturaci√≥n
**Acciones clave**:
- Adquirir m√∫ltiples propiedades en la zona
- Posicionamiento temprano en segmentos clave
- Construcci√≥n de marca de barrio
- Alianzas con negocios locales emergentes

### ‚öñÔ∏è Equilibrio
**Aplicable a**: Sants, barrios con estabilidad y previsibilidad

**Enfoque**: Mantener una relaci√≥n √≥ptima entre precio y calidad
**Acciones clave**:
- Precios competitivos pero no bajos
- Renovaciones peri√≥dicas moderadas
- Servicios consistentes y fiables
- Enfoque en hu√©spedes recurrentes

### üíé Oportunidad
**Aplicable a**: Hostafrancs, barrios con alta rentabilidad y baja competencia

**Enfoque**: Explotar nichos de mercado desatendidos
**Acciones clave**:
- Entrada r√°pida al mercado
- Capitalizar bajo nivel de competencia con precios optimizados
- Estrategia de marketing espec√≠fica para el barrio
- Identificar y dirigirse a segmentos de viajeros no atendidos

### üëë Premium
**Aplicable a**: Sagrada Fam√≠lia, barrios con alto atractivo tur√≠stico

**Enfoque**: Posicionamiento en segmento de lujo
**Acciones clave**:
- Propiedades de alta gama
- Servicios de conserjer√≠a y atenci√≥n personalizada
- Amenities exclusivas
- Alianzas con servicios premium locales

### üé® Autenticidad
**Aplicable a**: Gr√†cia, barrios con car√°cter cultural distintivo

**Enfoque**: Potenciar la experiencia local aut√©ntica
**Acciones clave**:
- Dise√±o que refleje la identidad del barrio
- Gu√≠as y recomendaciones locales personalizadas
- Colaboraciones con artistas y artesanos del barrio
- Experiencias culturales integradas

### üî® Renovaci√≥n
**Aplicable a**: Sant Pere, barrios con potencial de revalorizaci√≥n

**Enfoque**: Inversi√≥n en mejoras para aumentar categor√≠a y tarifa
**Acciones clave**:
- Renovaciones de calidad
- Actualizaci√≥n de instalaciones y tecnolog√≠a
- Reposicionamiento en segmento superior
- Estrategia de precios ascendente gradual

### üí∞ Valor
**Aplicable a**: El Fort Pienc, barrios con buena relaci√≥n calidad-precio

**Enfoque**: Ofrecer excelente relaci√≥n calidad-precio
**Acciones clave**:
- Comodidad y funcionalidad sobre lujo
- Comunicaci√≥n clara de ventajas de ubicaci√≥n
- Optimizaci√≥n de espacio y capacidad
- Precios competitivos sin sacrificar calidad b√°sica

### üîÑ Diversificaci√≥n
**Aplicable a**: La Nova Esquerra, barrios equilibrados

**Enfoque**: Minimizar riesgos con propiedades de perfil mixto
**Acciones clave**:
- Combinar

In [None]:
# ## 11. Investor Recommendations

# Based on our analysis, here are key investment recommendations:

# 1. **Top Neighborhoods for Investment**:
#    - Display the top 3-5 neighborhoods with highest ROI or opportunity scores
#
# 2. **Optimal Property Types**:
#    - Identify which property types show the best performance
#
# 3. **Must-Have Amenities**:
#    - List amenities with highest price premiums
#
# 4. **Pricing Strategy**:
#    - Provide seasonal pricing recommendations
#
# 5. **Risk Assessment**:
#    - Evaluate neighborhoods by price stability and occupancy reliability

# Create a summary of top investment neighborhoods
if 'roi_analysis' in locals():
    top_roi_neighborhoods = roi_analysis.sort_values('annual_roi_percent', ascending=False).head(5)
    
    print("Top 5 Neighborhoods by ROI:")
    for i, row in enumerate(top_roi_neighborhoods.itertuples(), 1):
        print(f"{i}. {row.neighbourhood}: {row.annual_roi_percent:.2f}% ROI, " +
              f"‚Ç¨{int(row.avg_property_price):,} avg. property price, " +
              f"${int(row.annual_revenue):,} estimated annual revenue")

# Property type recommendations
if 'property_type_analysis' in locals():
    top_property_types = property_type_analysis.sort_values('avg_price', ascending=False).head(5)
    
    print("\nTop 5 Property Types by Average Price:")
    for i, row in enumerate(top_property_types.itertuples(), 1):
        print(f"{i}. {row.property_type}: ${row.avg_price:.2f} avg. price, " +
              f"{row.avg_rating:.1f} avg. rating, {row.count} listings")

# Amenity recommendations
if 'amenity_impact_df' in locals():
    top_amenities = amenity_impact_df.sort_values('premium_percent', ascending=False).head(5)
    
    print("\nTop 5 Amenities with Highest Price Premium:")
    for i, row in enumerate(top_amenities.itertuples(), 1):
        print(f"{i}. {row.amenity}: {row.premium_percent:.1f}% price premium, " +
              f"${row.with_amenity_price:.2f} avg. price with amenity")

# ## 12. Conclusion

# Our comprehensive analysis of Barcelona's Airbnb market provides valuable insights for investors:
#
# 1. **Opportunity Neighborhoods**: We've identified neighborhoods with the optimal balance of property prices, rental rates, and occupancy.
#
# 2. **Investment Strategy**: Properties with specific amenities and characteristics show significantly higher returns.
#
# 3. **Seasonal Strategy**: Price optimization during peak seasons can substantially increase annual returns.
#
# 4. **Guest Preferences**: Properties meeting specific guest requirements command premium prices.
#
# 5. **Market Positioning**: Understanding the competitive landscape allows for strategic property positioning.
#
# This analysis equips investors with data-driven insights to make informed decisions in Barcelona's dynamic short-term rental market.

# ## Thank you
# Analysis prepared 

In [None]:
import pandas as pd
import numpy as np
import folium
from folium import Choropleth, Circle, Marker, Icon, plugins
from folium.plugins import MarkerCluster, HeatMap, MiniMap
import os
import branca.colormap as cm
import json
import matplotlib.pyplot as plt
from branca.element import Figure

# Rutas de archivo
POSSIBLE_PATHS = ["../data/", "./data/", "./", "c:/Users/satin/Desktop/proyecyo 2/datos/data/", "c:/Users/satin/Desktop/proyecyo 2/data/"]
OUTPUT_PATH = "c:/Users/satin/Desktop/proyecyo 2/datos/data/"

def find_file_path(filename):
    """Busca un archivo en las rutas posibles y devuelve la ruta completa si lo encuentra."""
    for path in POSSIBLE_PATHS:
        full_path = os.path.join(path, filename)
        if os.path.exists(full_path):
            return full_path
    return None

def load_barcelona_data():
    """Carga los datos necesarios para el an√°lisis de Barcelona."""
    # Carga los datos principales de Barcelona
    bcn_path = find_file_path("barcelona_limpio_completo.csv")
    if bcn_path:
        df_barcelona = pd.read_csv(bcn_path)
        df_barcelona['city'] = 'Barcelona'
    else:
        print("Error: No se encontr√≥ el archivo de datos de Barcelona")
        return None, None, None
    
    # Carga datos de barrios (geojson)
    barrios_path = find_file_path("barrios_barcelona.geojson")
    if barrios_path:
        with open(barrios_path, 'r', encoding='utf-8') as f:
            barrios_geojson = json.load(f)
    else:
        # Creamos una versi√≥n simplificada si no existe el archivo
        print("Advertencia: No se encontr√≥ el archivo geojson de barrios. Se usar√° una versi√≥n simplificada.")
        barrios_geojson = None
    
    # Carga datos de precios de vivienda
    precios_path = find_file_path("precio_vivienda_barriosBarcelona_mayo2025.csv")
    if precios_path:
        df_precios = pd.read_csv(precios_path)
    else:
        print("Advertencia: No se encontr√≥ el archivo de precios de vivienda")
        df_precios = None
    
    return df_barcelona, barrios_geojson, df_precios

def create_base_map(center=[41.3851, 2.1734], zoom=12):
    """Crea un mapa base de Barcelona."""
    # Creamos una figura para contener el mapa
    fig = Figure(width=800, height=600)
    
    # Creamos el mapa base
    m = folium.Map(
        location=center,
        zoom_start=zoom,
        tiles="CartoDB positron",
        control_scale=True
    )
    fig.add_child(m)
    
    # A√±adimos minimapa
    minimap = MiniMap(toggle_display=True)
    m.add_child(minimap)
    
    # A√±adimos control de capas
    folium.LayerControl().add_to(m)
    
    return m

def create_property_map(df):
    """Crea un mapa con cl√∫steres de propiedades Airbnb."""
    m = create_base_map()
    
    # Creamos cl√∫steres de marcadores
    marker_cluster = MarkerCluster(name="Propiedades").add_to(m)
    
    # Muestra solo una muestra representativa para evitar sobrecarga
    sample_size = min(2000, len(df))
    df_sample = df.sample(sample_size)
    
    # Colores seg√∫n tipo de propiedad
    property_colors = {
        'Entire home/apt': 'red',
        'Private room': 'blue',
        'Shared room': 'green',
        'Hotel room': 'purple'
    }
    
    # A√±adimos cada propiedad al cl√∫ster
    for idx, row in df_sample.iterrows():
        if pd.notnull(row['latitude']) and pd.notnull(row['longitude']):
            # Determinar color seg√∫n tipo de propiedad
            property_type = row.get('room_type', 'Other')
            color = property_colors.get(property_type, 'gray')
            
            # Crear popup con informaci√≥n
            popup_text = f"""
            <b>{row.get('name', 'Sin nombre')}</b><br>
            Tipo: {property_type}<br>
            Precio: {row.get('price', 'N/A')}‚Ç¨<br>
            Reviews: {row.get('number_of_reviews', 0)}<br>
            """
            
            # A√±adir marcador
            folium.Marker(
                location=[row['latitude'], row['longitude']],
                popup=folium.Popup(popup_text, max_width=300),
                icon=folium.Icon(color=color, icon="home", prefix="fa"),
                tooltip=f"{property_type}: {row.get('price', 'N/A')}‚Ç¨"
            ).add_to(marker_cluster)
    
    # A√±adir una capa de calor para visualizar la densidad
    heat_data = df_sample[['latitude', 'longitude']].dropna().values.tolist()
    HeatMap(heat_data, radius=15, gradient={0.4: 'blue', 0.65: 'lime', 1: 'red'}, name="Densidad").add_to(m)
    
    return m

def create_price_map(df, barrios_geojson):
    """Crea un mapa de precios medios por barrio."""
    m = create_base_map()
    
    # Calcular precio medio por barrio
    precio_barrio = df.groupby('neighbourhood')['price'].mean().reset_index()
    precio_barrio['price'] = precio_barrio['price'].round(2)
    
    # Crear escala de colores
    colormap = cm.linear.YlOrRd_09.scale(
        precio_barrio['price'].min(),
        precio_barrio['price'].max()
    )
    
    # A√±adir la leyenda
    colormap.caption = 'Precio medio por noche (‚Ç¨)'
    m.add_child(colormap)
    
    # A√±adir capa choropleth si tenemos geojson
    if barrios_geojson:
        folium.Choropleth(
            geo_data=barrios_geojson,
            data=precio_barrio,
            columns=['neighbourhood', 'price'],
            key_on='feature.properties.NOM',
            fill_color='YlOrRd',
            fill_opacity=0.7,
            line_opacity=0.2,
            legend_name='Precio medio por noche (‚Ç¨)',
            highlight=True,
            name="Precios por barrio"
        ).add_to(m)
    
    # A√±adir marcadores con precios medios
    for idx, row in precio_barrio.iterrows():
        # Obtener coordenadas del barrio (simplificado - punto central aproximado)
        barrio_properties = df[df['neighbourhood'] == row['neighbourhood']]
        if not barrio_properties.empty:
            lat = barrio_properties['latitude'].mean()
            lon = barrio_properties['longitude'].mean()
            
            # Crear marcador con precio medio
            folium.CircleMarker(
                location=[lat, lon],
                radius=5,
                popup=f"<b>{row['neighbourhood']}</b><br>Precio medio: {row['price']}‚Ç¨",
                color='black',
                fill=True,
                fill_color='blue',
                fill_opacity=0.7,
                tooltip=f"{row['neighbourhood']}: {row['price']}‚Ç¨"
            ).add_to(m)
    
    return m

def create_roi_map(df, precio_m2=4200, avg_m2=70, gastos_anuales=4500):
    """Crea un mapa de ROI por barrio."""
    m = create_base_map()
    
    # Crear una copia para no modificar el original
    df_roi = df.copy()
    
    # Comprobar si existe la columna days_rented, si no, crearla con valor predeterminado
    if 'days_rented' not in df_roi.columns:
        # Asumimos una ocupaci√≥n media de 120 d√≠as al a√±o
        df_roi['days_rented'] = 120
    
    # Calcular ROI por barrio
    df_roi['annual_income'] = df_roi['price'] * df_roi['days_rented']
    df_roi['estimated_property_value'] = precio_m2 * avg_m2
    df_roi['net_annual_income'] = df_roi['annual_income'] - gastos_anuales
    df_roi['ROI (%)'] = (df_roi['net_annual_income'] / df_roi['estimated_property_value']) * 100
    
    roi_barrio = df.groupby('neighbourhood')['ROI (%)'].mean().reset_index()
    roi_barrio['ROI (%)'] = roi_barrio['ROI (%)'].round(2)
    
    # Crear marcadores por barrio
    for idx, row in roi_barrio.iterrows():
        # Obtener coordenadas del barrio
        barrio_properties = df[df['neighbourhood'] == row['neighbourhood']]
        if not barrio_properties.empty:
            lat = barrio_properties['latitude'].mean()
            lon = barrio_properties['longitude'].mean()
            
            # Determinar color seg√∫n ROI
            if row['ROI (%)'] > 10:
                color = 'darkgreen'
            elif row['ROI (%)'] > 8:
                color = 'green'
            elif row['ROI (%)'] > 6:
                color = 'orange'
            else:
                color = 'red'
            
            # Crear marcador con ROI
            folium.CircleMarker(
                location=[lat, lon],
                radius=row['ROI (%)'] * 0.8,  # Tama√±o proporcional al ROI
                popup=f"<b>{row['neighbourhood']}</b><br>ROI neto: {row['ROI (%)']}%",
                color='black',
                fill=True,
                fill_color=color,
                fill_opacity=0.7,
                tooltip=f"{row['neighbourhood']}: {row['ROI (%)']}%"
            ).add_to(m)
    
    # A√±adir leyenda
    legend_html = """
    <div style="position: fixed; bottom: 50px; left: 50px; z-index: 1000; background-color: white; 
                padding: 10px; border: 2px solid grey; border-radius: 5px;">
        <p><b>Leyenda ROI</b></p>
        <p><i class="fa fa-circle" style="color:darkgreen"></i> > 10%: Excelente</p>
        <p><i class="fa fa-circle" style="color:green"></i> 8-10%: Bueno</p>
        <p><i class="fa fa-circle" style="color:orange"></i> 6-8%: Moderado</p>
        <p><i class="fa fa-circle" style="color:red"></i> < 6%: Bajo</p>
    </div>
    """
    m.get_root().html.add_child(folium.Element(legend_html))
    
    return m

def create_reviews_map(df):
    """Crea un mapa de calificaciones por barrio."""
    m = create_base_map()
    
    # Calcular calificaci√≥n media por barrio
    if 'review_scores_rating' in df.columns:
        rating_col = 'review_scores_rating'
    else:
        # Si no existe, creamos una columna sint√©tica basada en n√∫mero de reviews
        df['review_scores_rating'] = np.random.normal(4.5, 0.5, len(df))
        df['review_scores_rating'] = df['review_scores_rating'].clip(1, 5)
        rating_col = 'review_scores_rating'
    
    reviews_barrio = df.groupby('neighbourhood')[rating_col].mean().reset_index()
    reviews_barrio[rating_col] = reviews_barrio[rating_col].round(2)
    
    # Crear marcadores por barrio
    for idx, row in reviews_barrio.iterrows():
        # Obtener coordenadas del barrio
        barrio_properties = df[df['neighbourhood'] == row['neighbourhood']]
        if not barrio_properties.empty:
            lat = barrio_properties['latitude'].mean()
            lon = barrio_properties['longitude'].mean()
            
            # Determinar color seg√∫n calificaci√≥n
            if row[rating_col] > 4.5:
                color = 'darkgreen'
            elif row[rating_col] > 4.0:
                color = 'green'
            elif row[rating_col] > 3.5:
                color = 'orange'
            else:
                color = 'red'
            
            # Crear marcador con calificaci√≥n
            folium.CircleMarker(
                location=[lat, lon],
                radius=row[rating_col] * 2,  # Tama√±o proporcional a la calificaci√≥n
                popup=f"<b>{row['neighbourhood']}</b><br>Calificaci√≥n: {row[rating_col]}/5",
                color='black',
def create_risk_map(df):
    """Crea un mapa de riesgo de inversi√≥n por barrio."""
    m = create_base_map()
    
    # Crear una copia para no modificar el original
    df_risk = df.copy()
    
    # Calculamos varios factores de riesgo
    # 1. Competencia (n√∫mero de propiedades)
    competencia = df_risk['neighbourhood'].value_counts().reset_index()
    competencia.columns = ['neighbourhood', 'num_properties']
    
    # 2. Variabilidad de precios
    variabilidad = df_risk.groupby('neighbourhood')['price'].std().reset_index()
    variabilidad.columns = ['neighbourhood', 'price_std']
    
    # 3. Nivel de ocupaci√≥n (si est√° disponible)
    if 'days_rented' in df_risk.columns:
        ocupacion = df_risk.groupby('neighbourhood')['days_rented'].mean().reset_index()
        ocupacion.columns = ['neighbourhood', 'avg_occupation']
    else:
        # Valor ficticio si no est√° disponible
        ocupacion = pd.DataFrame({'neighbourhood': df_risk['neighbourhood'].unique(), 'avg_occupation': 90})
    
    # 3. Nivel de ocupaci√≥n (si est√° disponible)
    if 'days_rented' in df.columns:
        ocupacion = df.groupby('neighbourhood')['days_rented'].mean().reset_index()
        ocupacion.columns = ['neighbourhood', 'avg_occupation']
    else:
        # Valor ficticio si no est√° disponible
        ocupacion = pd.DataFrame({'neighbourhood': df['neighbourhood'].unique(), 'avg_occupation': 90})
    
    # Combinamos todos los factores
    risk_df = competencia.merge(variabilidad, on='neighbourhood', how='left')
    risk_df = risk_df.merge(ocupacion, on='neighbourhood', how='left')
    
    # Normalizamos cada factor para que est√© entre 0 y 1
    risk_df['comp_norm'] = (risk_df['num_properties'] - risk_df['num_properties'].min()) / (risk_df['num_properties'].max() - risk_df['num_properties'].min())
    risk_df['var_norm'] = (risk_df['price_std'] - risk_df['price_std'].min()) / (risk_df['price_std'].max() - risk_df['price_std'].min())
    risk_df['occ_norm'] = 1 - ((risk_df['avg_occupation'] - risk_df['avg_occupation'].min()) / (risk_df['avg_occupation'].max() - risk_df['avg_occupation'].min()))
    
    # Calculamos √≠ndice de riesgo (mayor = m√°s riesgo)
    risk_df['risk_index'] = (risk_df['comp_norm'] * 0.4 + risk_df['var_norm'] * 0.3 + risk_df['occ_norm'] * 0.3) * 10
    risk_df['risk_index'] = risk_df['risk_index'].round(2)
    
    # Crear marcadores por barrio
    for idx, row in risk_df.iterrows():
        # Obtener coordenadas del barrio
        barrio_properties = df[df['neighbourhood'] == row['neighbourhood']]
        if not barrio_properties.empty:
            lat = barrio_properties['latitude'].mean()
            lon = barrio_properties['longitude'].mean()
            
            # Determinar color seg√∫n riesgo
            if row['risk_index'] < 3:
                color = 'darkgreen'
            elif row['risk_index'] < 5:
                color = 'green'
            elif row['risk_index'] < 7:
                color = 'orange'
            else:
                color = 'red'
            
            # Crear marcador con √≠ndice de riesgo
            folium.CircleMarker(
                location=[lat, lon],
                radius=8,
                popup=f"""
                <b>{row['neighbourhood']}</b><br>
                √çndice de riesgo: {row['risk_index']}/10<br>
                Propiedades: {row['num_properties']}<br>
                Variabilidad de precios: {row['price_std']:.2f}‚Ç¨<br>
def create_roi_by_type_map(df, precio_m2=4200, avg_m2=70, gastos_anuales=4500):
    """Crea un mapa de ROI por tipo de propiedad."""
    m = create_base_map()
    
    # Crear una copia para no modificar el original
    df_roi = df.copy()
    
    # Comprobar si existe la columna days_rented, si no, crearla con valor predeterminado
    if 'days_rented' not in df_roi.columns:
        # Asumimos una ocupaci√≥n media de 120 d√≠as al a√±o
        df_roi['days_rented'] = 120
    
    # Calculamos ROI para cada propiedad
    df_roi['annual_income'] = df_roi['price'] * df_roi['days_rented']
    df_roi['estimated_property_value'] = precio_m2 * avg_m2
    df_roi['net_annual_income'] = df_roi['annual_income'] - gastos_anuales
    df_roi['ROI (%)'] = (df_roi['net_annual_income'] / df_roi['estimated_property_value']) * 100
    return m

def create_roi_by_type_map(df, precio_m2=4200, avg_m2=70, gastos_anuales=4500):
    """Crea un mapa de ROI por tipo de propiedad."""
    m = create_base_map()
    
    # Calculamos ROI para cada propiedad
    df['annual_income'] = df['price'] * df['days_rented']
    df['estimated_property_value'] = precio_m2 * avg_m2
    df['net_annual_income'] = df['annual_income'] - gastos_anuales
    df['ROI (%)'] = (df['net_annual_income'] / df['estimated_property_value']) * 100
    
    # Determinamos tipo de propiedad
    if 'room_type' not in df.columns:
        df['room_type'] = 'Entire home/apt'  # Valor predeterminado
    
    # Creamos cl√∫steres por tipo de propiedad
    types = df['room_type'].unique()
    for room_type in types:
        # Filtrar por tipo
        df_type = df[df['room_type'] == room_type]
        
        # Crear cluster para este tipo
        type_cluster = MarkerCluster(name=f"Tipo: {room_type}").add_to(m)
        
        # Determinar color seg√∫n tipo
        if room_type == 'Entire home/apt':
            color = 'red'
        elif room_type == 'Private room':
            color = 'blue'
        elif room_type == 'Shared room':
            color = 'green'
        else:
            color = 'purple'
        
        # Muestra una muestra representativa
        sample_size = min(500, len(df_type))
        df_sample = df_type.sample(sample_size) if len(df_type) > 500 else df_type
        
        # A√±adir cada propiedad al cluster
        for idx, row in df_sample.iterrows():
            if pd.notnull(row['latitude']) and pd.notnull(row['longitude']):
def create_future_analysis_map(df, prohibicion_factor=0.8):
    """Crea un mapa con an√°lisis de impacto de la prohibici√≥n de licencias en 2028."""
    m = create_base_map()
    
    # Crear una copia para no modificar el original
    df_future = df.copy()
    
    # Comprobar si existe la columna ROI (%), si no, crearla
    if 'ROI (%)' not in df_future.columns:
        # Comprobar si existe la columna days_rented, si no, crearla con valor predeterminado
        if 'days_rented' not in df_future.columns:
            # Asumimos una ocupaci√≥n media de 120 d√≠as al a√±o
            df_future['days_rented'] = 120
        
        # C√°lculo simplificado de ROI
        precio_m2 = 4200
        avg_m2 = 70
        gastos_anuales = 4500
        df_future['annual_income'] = df_future['price'] * df_future['days_rented']
        df_future['estimated_property_value'] = precio_m2 * avg_m2
        df_future['net_annual_income'] = df_future['annual_income'] - gastos_anuales
        df_future['ROI (%)'] = (df_future['net_annual_income'] / df_future['estimated_property_value']) * 100
    
    # Calculamos m√©tricas actuales
    barrios_df = df_future.groupby('neighbourhood').agg({
        'id': 'count',
        'price': 'mean',
        'ROI (%)': 'mean'
    }).reset_index()
                folium.Marker(
                    location=[row['latitude'], row['longitude']],
                    popup=folium.Popup(popup_text, max_width=300),
                    icon=folium.Icon(color=color, icon="home", prefix="fa"),
                    tooltip=f"{room_type}: {row.get('price', 'N/A')}‚Ç¨ | ROI: {row.get('ROI (%)', 0):.2f}%"
                ).add_to(type_cluster)
    
    return m

def create_future_analysis_map(df, prohibicion_factor=0.8):
    """Crea un mapa con an√°lisis de impacto de la prohibici√≥n de licencias en 2028."""
    m = create_base_map()
    
    # Calculamos m√©tricas actuales
    barrios_df = df.groupby('neighbourhood').agg({
        'id': 'count',
        'price': 'mean',
        'ROI (%)': 'mean' if 'ROI (%)' in df.columns else lambda x: 0
    }).reset_index()
    
    barrios_df.columns = ['neighbourhood', 'num_properties', 'avg_price', 'avg_roi']
    
    # Simulamos el impacto de la prohibici√≥n
    barrios_df['post_prohibicion_properties'] = barrios_df['num_properties'] * (1 - prohibicion_factor)
    barrios_df['post_prohibicion_price'] = barrios_df['avg_price'] * (1 + (prohibicion_factor * 0.3))  # Aumento de precios
    barrios_df['post_prohibicion_roi'] = barrios_df['avg_roi'] * (1 - (prohibicion_factor * 0.5))  # Disminuci√≥n de ROI
    
    # Calculamos √≠ndice de adaptabilidad (mayor = mejor adaptaci√≥n)
    barrios_df['adaptabilidad'] = (
        (10 - barrios_df['avg_roi']) * 0.3 +  # Menor ROI actual = m√°s capacidad de adaptaci√≥n
        (barrios_df['num_properties'] / barrios_df['num_properties'].max()) * 0.3 +  # Mayor oferta = m√°s opciones
        (barrios_df['avg_price'] / barrios_df['avg_price'].max()) * 0.4  # Mayor precio = m√°s margen
    ) * 10
    
    barrios_df['adaptabilidad'] = barrios_df['adaptabilidad'].round(2)
    
    # Crear marcadores por barrio
    for idx, row in barrios_df.iterrows():
        # Obtener coordenadas del barrio
        barrio_properties = df[df['neighbourhood'] == row['neighbourhood']]
        if not barrio_properties.empty:
            lat = barrio_properties['latitude'].mean()
            lon = barrio_properties['longitude'].mean()
            
            # Determinar color seg√∫n adaptabilidad
            if row['adaptabilidad'] > 7:
                color = 'darkgreen'
            elif row['adaptabilidad'] > 5:
                color = 'green'
            elif row['adaptabilidad'] > 3:
                color = 'orange'
            else:
                color = 'red'
            
            # Crear marcador con an√°lisis
            folium.CircleMarker(
                location=[lat, lon],
                radius=row['adaptabilidad'] * 0.8,  # Tama√±o proporcional a la adaptabilidad
                popup=f"""
                <b>{row['neighbourhood']}</b><br>
                <u>Actual:</u><br>
                - Propiedades: {row['num_properties']}<br>
                - Precio medio: {row['avg_price']:.2f} ‚Ç¨<br>
                - ROI medio: {row['avg_roi']:.2f} %<br>
                <u>Proyecci√≥n 2028:</u><br>
                - Propiedades: {row['post_prohibicion_properties']:.0f}<br>
                - Precio medio: {row['post_prohibicion_price']:.2f} ‚Ç¨<br>
                - ROI medio: {row['post_prohibicion_roi']:.2f} %<br>
                <b>√çndice de adaptabilidad: {row['adaptabilidad']}/10</b>
                """,
                color='black',
                fill=True,
                fill_color=color,
                fill_opacity=0.7,
                tooltip=f"{row['neighbourhood']}: Adaptabilidad {row['adaptabilidad']}/10"
            ).add_to(m)
    
    return m

def save_map(m, filename):
    """Guarda el mapa como HTML."""
    full_path = os.path.join(OUTPUT_PATH, filename)
    try:
        os.makedirs(OUTPUT_PATH, exist_ok=True)
        m.save(full_path)
        print(f"Mapa guardado en: {full_path}")
        return True
    except Exception as e:
        print(f"Error al guardar el mapa: {e}")
        return False

def generate_all_maps():
    """Genera todos los mapas para Barcelona."""
    print("Cargando datos de Barcelona...")
    df_barcelona, barrios_geojson, df_precios = load_barcelona_data()
    
    if df_barcelona is None:
        print("Error: No se pudieron cargar los datos de Barcelona.")
        return
    
    print("Generando mapas...")
    maps_to_create = {
        "mapa_propiedades_barcelona.html": create_property_map(df_barcelona),
        "mapa_precio_barcelona.html": create_price_map(df_barcelona, barrios_geojson),
        "mapa_roi_barcelona.html": create_roi_map(df_barcelona),
        "barcelona_reviews_map.html": create_reviews_map(df_barcelona),
        "barcelona_risk_map.html": create_risk_map(df_barcelona),
        "barcelona_roi_by_type_map.html": create_roi_by_type_map(df_barcelona),
        "mapa_adaptabilidad_comparada_2028.html": create_future_analysis_map(df_barcelona),
    }
    
    for filename, m in maps_to_create.items():
        save_map(m, filename)
    
    print("¬°Proceso completado! Se han generado todos los mapas.")

if __name__ == "__main__":
    generate_all_maps()
