# üìç An√°lisis Geoespacial de Negocios en Madrid

Este notebook presenta un an√°lisis geoespacial interactivo de la distribuci√≥n de negocios en la ciudad de Madrid. Utiliza datos categorizados y shapefiles oficiales para detectar patrones de densidad y realizar visualizaciones sobre un mapa.

---

### üéØ **Objetivos del an√°lisis**

1. Visualizar la distribuci√≥n de negocios por barrio en Madrid.
2. Identificar √°reas de alta densidad mediante clustering espacial.
3. Clasificar negocios en categor√≠as para an√°lisis sectorial.

---

### üóÇÔ∏è **Datos utilizados**

- `locales_todos.csv`: Informaci√≥n de negocios (nombre, latitud, longitud, etc.)
- `BARRIOS.shp`: Shapefile con los l√≠mites geogr√°ficos de los barrios de Madrid.

---

### üìå **Resultados esperados**

- Mapas interactivos con folium.
- Identificaci√≥n de zonas con concentraci√≥n de actividad comercial.
- Dataset etiquetado √∫til para modelos de predicci√≥n o recomendaci√≥n.

## üìÇ Configuraci√≥n del Entorno

En esta secci√≥n se preparan los directorios y archivos necesarios para el correcto funcionamiento del notebook. Esto incluye:

- Identificaci√≥n del directorio ra√≠z del proyecto.
- Creaci√≥n de carpetas si no existen.
- Definici√≥n de rutas a archivos de entrada y salida.

> Esto garantiza la portabilidad y robustez del notebook en diferentes entornos.

In [None]:
from pathlib import Path
import os

# Detectar la ra√≠z del proyecto
project_root = Path.cwd().parent if Path.cwd().name == "notebooks" else Path.cwd()

# Directorios clave
data_dir = project_root / "data"
barrios_dir = data_dir / "Barrios"
outputs_dir = project_root / "outputs"

# Crear carpetas si no existen
data_dir.mkdir(parents=True, exist_ok=True)
barrios_dir.mkdir(parents=True, exist_ok=True)
outputs_dir.mkdir(parents=True, exist_ok=True)

# Rutas de archivo
locales_csv = data_dir / "locales_todos.csv"
procesado_csv = data_dir / "MAPS_locales_procesado.csv"
categorizado_csv = data_dir / "MAPS_locales_categorizados.csv"
shapefile_path = barrios_dir / "BARRIOS.shp"
mapa_html = outputs_dir / "mapa_locales.html"

# Mostrar confirmaci√≥n
print(f"üìÅ Proyecto ra√≠z: {project_root}")
print(f"üìÑ locales_todos.csv ‚Üí {locales_csv}")
print(f"üìÑ BARRIOS.shp ‚Üí {shapefile_path}")
print(f"üíæ Salida HTML ‚Üí {mapa_html}")

## üîë Configuraci√≥n de la clave API de Google

Se carga la clave API de Google almacenada en un archivo `.env`. Esta clave es necesaria para realizar consultas a los servicios de geolocalizaci√≥n (`Geocoding`) y b√∫squeda de lugares (`Places API`) de Google.

> ‚ö†Ô∏è Aseg√∫rate de que el archivo `.env` contenga una clave v√°lida con permisos adecuados.

In [None]:
import os
from dotenv import load_dotenv

# Carga clave desde .env o asignaci√≥n directa temporal
load_dotenv()
API_KEY = os.getenv("GOOGLE_API_KEY")

## ‚öôÔ∏è Definici√≥n de Funciones Auxiliares

Aqu√≠ se definen funciones reutilizables para:

- Obtener coordenadas a partir de c√≥digos postales.
- Consultar negocios cercanos con Google Places.
- Limpiar y transformar los resultados en un DataFrame.

Estas funciones permiten modularizar el c√≥digo y facilitar su reutilizaci√≥n.

In [None]:
import requests
import pandas as pd
import time

def get_coordinates(postal_code):
    url = "https://maps.googleapis.com/maps/api/geocode/json"
    params = {'address': f'{postal_code}, Madrid, Spain', 'key': API_KEY}
    response = requests.get(url, params=params).json()
    
    if response['status'] != 'OK':
        raise ValueError(f"Error al obtener coordenadas para {postal_code}: {response['status']}")
    
    result = response['results'][0]
    
    # Validar que el pa√≠s devuelto sea Espa√±a mediante short_name = 'ES'
    components = result['address_components']
    country_codes = [c['short_name'] for c in components if 'country' in c['types']]
    if 'ES' not in country_codes:
        raise ValueError(f"C√≥digo postal {postal_code} no est√° en Espa√±a (devuelto: {country_codes})")
    
    location = result['geometry']['location']
    return location['lat'], location['lng']

def get_places(lat, lng, radius=2000, business_type=None):
    places = []
    url = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
    params = {
        'location': f'{lat},{lng}',
        'radius': radius,
        'key': API_KEY,
        'type': business_type
    }

    while True:
        res = requests.get(url, params=params).json()
        places.extend(res.get('results', []))
        if 'next_page_token' in res:
            time.sleep(2)
            params['pagetoken'] = res['next_page_token']
        else:
            break

    return places

def clean_data(places, postal_code):
    data = []
    for p in places:
        location = p.get('geometry', {}).get('location', {})
        data.append({
            'nombre': p.get('name'),
            'direccion': p.get('vicinity'),
            'codigo_postal': postal_code,
            'puntuacion_media': p.get('rating'),
            'numero_reviews': p.get('user_ratings_total'),
            'tipo_negocio': ', '.join(p.get('types', [])),
            'latitud': location.get('lat'),
            'longitud': location.get('lng')
        })
    return pd.DataFrame(data)

## üß≠ Extracci√≥n de Negocios por C√≥digo Postal

Se recorre una lista de c√≥digos postales de Madrid y, para cada uno, se:

1. Obtienen las coordenadas del centro del √°rea.
2. Realiza una consulta a Google Places para negocios cercanos.
3. Se transforman los resultados en un DataFrame limpio.
4. Se concatena toda la informaci√≥n en un solo dataset.

> Este proceso puede tardar varios minutos, dependiendo del n√∫mero de c√≥digos postales y los resultados devueltos por la API.

In [None]:
from pathlib import Path
import time
import pandas as pd

codigos_postales = ['28001', '28002', '28003', '28004', '28005', '28006', '28007', '28008', '28009',
                    '28010', '28011', '28012', '28013', '28014', '28015', '28016', '28017', '28018', '28019',
                    '28020', '28021', '28022', '28023', '28024', '28025', '28026', '28027', '28028', '28029',
                    '28030', '28031', '28032', '28033', '28034', '28035', '28036', '28037', '28038', '28039',
                    '28040', '28041', '28042', '28043', '28044', '28045', '28046', '28047', '28048', '28049',
                    '28050', '28051', '28052', '28053', '28054', '28055'
                    ]
tipo_negocio = None  # Puedes especificar un tipo como 'restaurant', 'store', etc.

todos_los_locales = pd.DataFrame()

for cp in codigos_postales:
    try:
        lat, lng = get_coordinates(cp)
        lugares = get_places(lat, lng, business_type=tipo_negocio)
        df = clean_data(lugares, cp)
        todos_los_locales = pd.concat([todos_los_locales, df], ignore_index=True)
        print(f"‚úÖ {len(df)} locales encontrados en {cp}")
        time.sleep(1)
    except ValueError as e:
        print(f"‚ö†Ô∏è Error de validaci√≥n con c√≥digo postal {cp}: {e}")
    except Exception as e:
        print(f"‚ö†Ô∏è Error inesperado con c√≥digo postal {cp}: {e}")


from pathlib import Path
import os

# Subir al directorio ra√≠z del proyecto desde notebooks/
project_root = Path(__file__).resolve().parent.parent if '__file__' in globals() else Path.cwd().parent
data_dir = project_root / "data"
data_dir.mkdir(exist_ok=True)

# Definir nombre y guardar CSV
nombre_tipo = tipo_negocio if tipo_negocio else "todos"
output_file = data_dir / f"locales_{nombre_tipo}.csv"
todos_los_locales.to_csv(output_file, index=False)

print(f"\n‚úÖ Archivo '{output_file.name}' generado exitosamente en '{output_file.parent}'")


## üåç Visualizaci√≥n Interactiva de Negocios

Con ayuda de **Folium**, se genera un mapa interactivo con los siguientes elementos:

- Marcadores con informaci√≥n detallada del negocio.
- Un **MiniMapa** que facilita la navegaci√≥n.
- Estilo de mapa personalizado usando `CartoDB.VoyagerLabels`.

Cada negocio se representa con un icono personalizado, y al hacer clic se despliega un resumen con nombre, direcci√≥n, puntuaci√≥n y tipo.

In [None]:
import folium.plugins as plugins
import folium

df = pd.read_csv(locales_csv)
df = df.dropna(subset=['latitud', 'longitud'])

mapa = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()], 
    zoom_start=13,
    tiles='CartoDB.VoyagerLabelsUnder'  # Estilos --> https://leaflet-extras.github.io/leaflet-providers/preview/
    )

# A√±adir MiniMap
plugins.MiniMap().add_to(mapa)

for _, row in df.iterrows():
    popup_text = f"""
    <b>{row['nombre']}</b><br>
    Direcci√≥n: {row['direccion']}<br>
    Rating: {row['puntuacion_media']} ({row['numero_reviews']} rese√±as)<br>
    Tipo: {row['tipo_negocio']}
    """
    folium.Marker(
        location=[row['latitud'], row['longitud']],
        icon=plugins.BeautifyIcon(
                     icon="home",
                     icon_shape="circle",
                     border_color='green',
                     text_color="green",
                     background_color='white'
                 ),
        popup=folium.Popup(popup_text, max_width=300),
        tooltip=row['nombre']
    ).add_to(mapa)

mapa.save(mapa_html)
mapa

## üè∑Ô∏è Categorizaci√≥n de Tipos de Negocios

En esta secci√≥n se clasifica cada negocio en una categor√≠a general a partir del contenido de su tipo (`tipo_negocio`). Esto permite agrupar los negocios en sectores m√°s amplios y √∫tiles para el an√°lisis.

Se siguen los siguientes pasos:

1. **Cargar el CSV original** con los datos de los negocios.
2. **Definir una funci√≥n de categorizaci√≥n** que analiza palabras clave dentro del tipo de negocio.
3. **Aplicar la funci√≥n** a cada fila del dataset para generar una nueva columna `categoria_negocio`.
4. **Guardar el resultado** en un nuevo archivo CSV.

In [None]:
import pandas as pd

df = pd.read_csv(locales_csv)

def categorizar_negocio(tipo_str):
    tipo_str = str(tipo_str).lower()
    if any(t in tipo_str for t in ['restaurant', 'food', 'bar', 'cafe', 'bakery', 'meal_takeaway']):
        return 'Restauraci√≥n'
    elif any(t in tipo_str for t in ['lodging', 'hotel', 'hostel', 'guest_house']):
        return 'Alojamiento'
    elif any(t in tipo_str for t in ['church', 'place_of_worship', 'mosque', 'synagogue', 'hindu_temple']):
        return 'Religi√≥n / Culto'
    elif any(t in tipo_str for t in ['locality', 'political', 'city_hall', 'post_office', 'courthouse', 'embassy', 'local_government_office']):
        return 'Administraci√≥n / Localidad'
    elif any(t in tipo_str for t in ['store', 'shopping_mall', 'hair_care', 'bank', 'car_repair', 'laundry', 'gym', 'pharmacy', 'doctor', 'real_estate_agency']):
        return 'Comercio / Servicios'
    elif any(t in tipo_str for t in ['school', 'university', 'secondary_school']):
        return 'Educaci√≥n'
    elif any(t in tipo_str for t in ['health']):
        return 'Salud'
    elif any(t in tipo_str for t in ['finance', 'insurance_agency']):
        return 'Finanzas y Seguros'
    elif any(t in tipo_str for t in ['general_contractor']):
        return 'Construcci√≥n / Reformas'
    elif any(t in tipo_str for t in ['park']):
        return 'Naturaleza / Recreaci√≥n'
    elif any(t in tipo_str for t in ['tourist_attraction']):
        return 'Turismo / Atracci√≥n'
    else:
        return 'Otros / No categorizado'

df['categoria_negocio'] = df['tipo_negocio'].apply(categorizar_negocio)
df.to_csv(categorizado_csv, index=False)

## üîç Refinamiento de la Categorizaci√≥n mediante el Nombre del Negocio

Despu√©s de realizar una categorizaci√≥n inicial basada en el tipo (`tipo_negocio`), muchos registros a√∫n quedan clasificados como "Otros / No categorizado". Para mejorar la calidad del etiquetado, se realiza una segunda pasada utilizando el contenido del campo `nombre`.

Esta estrategia permite detectar patrones frecuentes en los nombres (como "bar", "peluquer√≠a", "taller", etc.) y reclasificar adecuadamente esos negocios en categor√≠as m√°s precisas.

Este refinamiento puede mejorar hasta un 20% de los casos inicialmente no categorizados, incrementando as√≠ la utilidad del an√°lisis posterior.

In [None]:
def clasificar_por_nombre(nombre, tipo_actual):
    nombre = str(nombre).lower()
    if tipo_actual == 'Otros / No categorizado':
        if 'bar' in nombre: return 'Restauraci√≥n'
        if 'peluquer√≠a' in nombre or 'hair' in nombre: return 'Comercio / Servicios'
        if 'taller' in nombre or 'auto' in nombre: return 'Comercio / Servicios'
        # ... y as√≠ puedes mejorar hasta un 20% m√°s de casos
    return tipo_actual

df['categoria_negocio'] = df.apply(lambda row: clasificar_por_nombre(row['nombre'], row['categoria_negocio']), axis=1)

## üßπ Filtrado de Negocios seg√∫n Relevancia

Para asegurar que el an√°lisis se base en datos representativos y confiables, se aplican dos criterios de limpieza:

- Se eliminan aquellos negocios que no tienen puntuaci√≥n media (`NaN`).
- Se excluyen los negocios con menos

In [None]:
df = df[df['puntuacion_media'].notna() & (df['numero_reviews'] >= 3)]

In [None]:
df.to_csv(procesado_csv, index=False)

## üöÄ Feature engineering avanzado

En esta secci√≥n enriquecemos el dataset con tres nuevas columnas que capturan se√±al geoespacial:

1. **Distancia al centro de la ciudad**  
2. **Densidad de locales en un radio de 1 km**  
3. **Clusterizaci√≥n espacial (DBSCAN)**

In [None]:
# --- Densidades a varios radios ---
from sklearn.neighbors import BallTree
import numpy as np

coords_rad = np.deg2rad(df[['latitud','longitud']].values)
tree = BallTree(coords_rad, metric='haversine')

# Radios en km
for r_km in [0.5, 1.0, 2.0]:
    col = f'density_{int(r_km*1000)}m'
    df[col] = tree.query_radius(
        coords_rad,
        r=r_km / 6371.0,  # convierte km ‚Üí radianes
        count_only=True
    )

# Ratio competencia cercana vs √°rea m√°s amplia
df['ratio_500m_2km'] = df['density_500m'] / (df['density_2000m'] + 1)

df[['density_500m','density_1000m','density_2000m','ratio_500m_2km']].head()

In [None]:
# --- Transformaciones polin√≥micas e interacciones ---
import pandas as pd
from sklearn.preprocessing import PolynomialFeatures

# Seleccionamos dos features num√©ricas para expandir
poly_feats = ['dist_city_center_km', 'density_1000m']
poly = PolynomialFeatures(degree=2, include_bias=False)

# Generar nuevas features
arr = poly.fit_transform(df[poly_feats])
names = poly.get_feature_names_out(poly_feats)
poly_df = pd.DataFrame(arr, columns=names, index=df.index)

# Concatenar con el DataFrame principal
df = pd.concat([df, poly_df], axis=1)

# Ejemplo de nuevas columnas
df[names].head()

In [None]:
# --- Feature Engineering Avanzado ---
from haversine import haversine
from sklearn.neighbors import BallTree
from sklearn.cluster import DBSCAN
import numpy as np

# Definir centro de ciudad (ejemplo: Madrid centro)
city_center = (40.4168, -3.7038)

# 1) Distancia al centro en km
df['dist_city_center_km'] = df.apply(
    lambda r: haversine((r.latitud, r.longitud), city_center),
    axis=1
)

# 2) Densidad de locales en un radio de 1 km
coords_rad = np.deg2rad(df[['latitud','longitud']].values)
tree = BallTree(coords_rad, metric='haversine')
radius = 1/6371.0  # radio de 1 km en radianes
df['local_density_1km'] = tree.query_radius(coords_rad, r=radius, count_only=True)

# 3) Clusterizaci√≥n geogr√°fica con DBSCAN
db = DBSCAN(eps=0.5/6371.0, min_samples=10, metric='haversine')
df['cluster_zone'] = db.fit_predict(coords_rad).astype(str)

# Revisi√≥n de las nuevas columnas
df[['dist_city_center_km','local_density_1km','cluster_zone']].head()

### üìä Comparativa Antes y Despu√©s del Filtrado

Para entender el impacto del filtrado, es √∫til comparar la cantidad de registros antes y despu√©s de aplicar los criterios de calidad.

```python
total_antes = len(df_original)
total_despues = len(df)
print(f"N√∫mero de negocios antes del filtrado: {total_antes}")
print(f"N√∫mero de negocios despu√©s del filtrado: {total_despues}")
print(f"üîª Registros eliminados: {total_antes - total_despues}")

## ‚≠ê C√°lculo de Valoraci√≥n Ajustada

Para obtener una medida m√°s realista de la calidad de cada negocio, se calcula una **valoraci√≥n ajustada** que tiene en cuenta tanto la puntuaci√≥n media como el n√∫mero de rese√±as.

La f√≥rmula utilizada penaliza a los negocios con pocas valoraciones, reduciendo la confianza en sus puntuaciones altas o bajas. As√≠ se evita sobrevalorar negocios con una √∫nica review excelente, por ejemplo.

La f√≥rmula aplicada es:

In [None]:
import numpy as np

df['valoracion'] = df.apply(
    lambda row: row['puntuacion_media'] * (1 - np.exp(-row['numero_reviews'] / 10)), axis=1
)

## ‚öñÔ∏è Normalizaci√≥n de la Valoraci√≥n por Categor√≠a

Para poder comparar de forma justa las valoraciones entre negocios de una misma categor√≠a, se realiza una **normalizaci√≥n Min-Max** dentro de cada grupo de `categoria_negocio`.

Esto escala los valores de la columna `valoracion` al rango [0, 1], pero de forma **independiente por categor√≠a**, conservando la proporcionalidad interna y permitiendo comparaciones relativas dentro de cada grupo.

> üìà Esta normalizaci√≥n es √∫til para visualizaciones comparativas y para entrenar modelos que se benefician de variables en un mismo rango.

In [None]:
from sklearn.preprocessing import MinMaxScaler

df['valoracion_norm'] = df.groupby('categoria_negocio')['valoracion'].transform(
    lambda x: MinMaxScaler().fit_transform(x.values.reshape(-1, 1)).flatten()
)

import seaborn as sns
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
sns.boxplot(data=df, x='categoria_negocio', y='valoracion_norm')
plt.xticks(rotation=45, ha='right')
plt.title('Distribuci√≥n de Valoraciones Normalizadas por Categor√≠a')
plt.xlabel('Categor√≠a de Negocio')
plt.ylabel('Valoraci√≥n Normalizada')
plt.tight_layout()
plt.show()

## üó∫Ô∏è Mapa Interactivo de Negocios con Valoraci√≥n

Se genera un mapa interactivo con `folium` para visualizar geogr√°ficamente la distribuci√≥n de los negocios, codificados por color seg√∫n su **valoraci√≥n ajustada**.

### Caracter√≠sticas del mapa:

- üü¢ **Color**: El color de cada punto indica la valoraci√≥n (escala de rojo a verde).
- üîç **MiniMap**: Se incluye una vista general secundaria en la esquina inferior derecha para facilitar la navegaci√≥n.
- üìç **Marcadores**: Cada negocio aparece como un punto circular con informaci√≥n emergente (`popup`) mostrando su nombre y valoraci√≥n.
- üé® **Leyenda de color**: Se a√±ade un colormap con la escala de valores (1 a 5) como referencia visual.

> üß≠ Esta visualizaci√≥n permite identificar zonas con mayor o menor concentraci√≥n de negocios bien valorados y puede ayudar en an√°lisis espaciales o decisiones estrat√©gicas.

In [None]:
import folium
from folium import plugins
import branca.colormap as cm

colormap = cm.LinearColormap(['red', 'orange', 'green'], vmin=1, vmax=5)
colormap.caption = 'Valoraci√≥n de los negocios'

mapa = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()], 
    zoom_start=13,
    tiles='CartoDB.VoyagerLabelsUnder'  # Estilos --> https://leaflet-extras.github.io/leaflet-providers/preview/
    )


# A√±adir MiniMap
plugins.MiniMap().add_to(mapa)

# A√±adir marcadores como nube de puntos
for _, row in df.iterrows():
    color = colormap(row['valoracion'])
    folium.CircleMarker(
        location=[row['latitud'], row['longitud']],
        radius=6,
        color=color,
        fill=True,
        fill_color=color,
        fill_opacity=0.6,
        popup=f"{row['nombre']} ({row['valoracion']:.1f})"
    ).add_to(mapa)

colormap.add_to(mapa)

mapa

## üî• Mapa de Calor de Densidad de Negocios

Se crea un **mapa de calor interactivo** para visualizar la densidad de negocios dentro del √°rea analizada. Esta visualizaci√≥n permite identificar zonas con mayor concentraci√≥n de actividad comercial.

### Elementos clave del mapa:

- üåç **Mapa base** centrado en el promedio de coordenadas del dataset.
- üîé **MiniMap** auxiliar en la esquina inferior derecha para facilitar el desplazamiento.
- üî• **Mapa de calor (HeatMap)** generado a partir de las coordenadas geogr√°ficas (`latitud`, `longitud`) de cada negocio.
- üé® **Leyenda de densidad** que representa la concentraci√≥n de negocios desde zonas poco densas (azul claro) hasta zonas muy densas (rojo).

> üìå Esta herramienta resulta √∫til para an√°lisis territoriales, estudios de competencia o identificaci√≥n de oportunidades de localizaci√≥n comercial.

In [None]:
import folium
from folium.plugins import HeatMap, MiniMap
import branca.colormap as cm

# Crear el mapa base
mapa_densidad = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()],
    zoom_start=13,
    tiles='CartoDB.VoyagerLabelsUnder'
)

# A√±adir el MiniMap
MiniMap().add_to(mapa_densidad)

# Preparar datos para el mapa de calor (sin valoraci√≥n)
heat_data = [[row['latitud'], row['longitud']] for index, row in df.iterrows()]

# A√±adir el mapa de calor
HeatMap(
    heat_data,
    radius=15,
    blur=12,
    min_opacity=0.3,
    max_zoom=1
).add_to(mapa_densidad)

# Crear una leyenda simple de densidad
colormap = cm.LinearColormap(
    colors=['lightblue', 'orange', 'red'],
    index=[0, 0.5, 1],
    vmin=0,
    vmax=1
)
colormap.caption = 'Densidad de negocios (baja a alta)'
colormap.add_to(mapa_densidad)

# Mostrar el mapa
mapa_densidad

## üå°Ô∏è Mapa de Calor Ponderado por Valoraci√≥n Ajustada

En esta versi√≥n del mapa de calor, cada punto no solo aporta su ubicaci√≥n, sino tambi√©n una **ponderaci√≥n seg√∫n la valoraci√≥n ajustada** del negocio. Esto permite visualizar no solo d√≥nde hay m√°s negocios, sino d√≥nde se concentran los **mejor valorados**.

### Detalles:

- Los puntos se ponderan utilizando la columna `valoracion`, lo que realza visualmente las √°reas con mejor reputaci√≥n.
- El mapa muestra tanto densidad como calidad percibida, facilitando decisiones estrat√©gicas m√°s informadas.

In [None]:
# Nuevo mapa base para el mapa ponderado
mapa_valorado = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()],
    zoom_start=13,
    tiles='CartoDB.VoyagerLabelsUnder'
)

MiniMap().add_to(mapa_valorado)

# Mapa de calor ponderado por valoraci√≥n
heat_val = [[row['latitud'], row['longitud'], row['valoracion']] for _, row in df.iterrows()]

HeatMap(
    heat_val,
    radius=15,
    blur=12,
    min_opacity=0.3,
    max_zoom=1,
    max_val=5
).add_to(mapa_valorado)

mapa_valorado

## üóÇÔ∏è Mapa Interactivo por Categor√≠a de Negocio

En esta secci√≥n se genera un **mapa interactivo** que representa los negocios agrupados por su categor√≠a. Cada punto se colorea de forma √∫nica en funci√≥n del grupo al que pertenece, permitiendo una lectura r√°pida de la distribuci√≥n sectorial.

### Etapas del proceso:

1. üì• **Carga del dataset** previamente categorizado (`categorizado_csv`).
2. üßπ **Filtrado de registros sin categor√≠a v√°lida** (`NaN`).
3. üìä **Conteo de negocios por categor√≠a** para su uso en la leyenda.
4. üó∫Ô∏è **Generaci√≥n del mapa base** centrado en la zona media del dataset.
5. üé® **Asignaci√≥n de colores √∫nicos** a cada categor√≠a mediante `matplotlib.cm.tab20`.
6. üìç **Marcadores individuales** para cada negocio con `popup` informativo.
7. üßæ **Leyenda personalizada** insertada como HTML flotante, mostrando color, nombre y cantidad por categor√≠a.
8. üíæ **Guardado del resultado** en un archivo HTML para su posterior visualizaci√≥n o despliegue.

> üß≠ Esta visualizaci√≥n resulta ideal para explorar c√≥mo se distribuyen espacialmente los distintos sectores econ√≥micos y analizar posibles patrones de concentraci√≥n por tipo de actividad.

In [None]:
import pandas as pd
import folium
import matplotlib.cm as cm
from folium.plugins import MiniMap
from folium import Element

# 1. Cargar el archivo con categor√≠as
df = pd.read_csv(categorizado_csv)

# 2. Eliminar registros sin categor√≠a v√°lida
df = df.dropna(subset=['categoria_negocio'])

# 3. Agrupar por categor√≠a
categoria_info = (
    df.groupby('categoria_negocio')
    .agg(n_negocios=('nombre', 'count'))
    .to_dict(orient='index')
)

# 4. Crear mapa base
mapa_categorias = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()],
    zoom_start=13,
    tiles='CartoDB.VoyagerLabelsUnder'
)

# A√±adir MiniMap
MiniMap().add_to(mapa_categorias)

# 5. Asignar colores √∫nicos por categor√≠a
categorias = sorted(df['categoria_negocio'].unique())
colormap = cm.get_cmap('tab20', len(categorias))

def get_color_categoria(cat):
    idx = categorias.index(cat)
    rgba = colormap(idx)
    rgb = tuple(int(255 * c) for c in rgba[:3])
    return '#{:02x}{:02x}{:02x}'.format(*rgb)

# 6. A√±adir marcadores
for _, row in df.iterrows():
    color = get_color_categoria(row['categoria_negocio'])
    folium.CircleMarker(
        location=[row['latitud'], row['longitud']],
        radius=5,
        color=color,
        fill=True,
        fill_color=color,
        fill_opacity=0.6,
        popup=f"{row['nombre']}<br>{row['categoria_negocio']}"
    ).add_to(mapa_categorias)

# 7. Leyenda visual por categor√≠a
legend_html = f"""
<div style="
    position: fixed;
    bottom: 50px;
    left: 50px;
    width: 280px;
    background-color: white;
    border:2px solid grey;
    z-index:9999;
    font-size:13px;
    padding: 10px;
    overflow-y: auto;
    max-height: 300px;
">
<b>Tipos de negocio</b><br>
{''.join([
    f"<div style='margin-top:4px;'><span style='background-color:{get_color_categoria(cat)};width:12px;height:12px;display:inline-block;margin-right:6px;'></span>{cat} ({categoria_info[cat]['n_negocios']})</div>"
    for cat in categorias
])}
</div>
"""

mapa_categorias.get_root().html.add_child(Element(legend_html))

# 8. Guardar HTML
mapa_categoria_html = outputs_dir / "mapa_categorias.html"
mapa_categorias.save(mapa_categoria_html)
print(f"‚úÖ Mapa por tipo de negocio guardado en: {mapa_categoria_html}")

## üß≠ Mapa de Densidad de Negocios por Barrio (Shapefile)

Se genera un mapa coropl√©tico basado en un shapefile de barrios de Madrid, que representa la **densidad relativa de negocios por zona**. Este an√°lisis espacial permite detectar patrones geogr√°ficos y desequilibrios en la distribuci√≥n comercial.

### Fases del proceso:

1. üóÇÔ∏è **Carga del shapefile** con geometr√≠as de los barrios (`shapefile_path`).
2. üìç **Conversi√≥n de coordenadas** del dataframe `df` a un `GeoDataFrame`.
3. üîÑ **Unificaci√≥n de sistemas de referencia (CRS)** entre capas geoespaciales.
4. üß© **Uni√≥n espacial (spatial join)** para asignar cada negocio a su barrio.
5. üìä **Conteo de negocios por barrio** y fusi√≥n con el shapefile.
6. üìà **Normalizaci√≥n** de la cantidad de negocios para representar una escala relativa de densidad.
7. üó∫Ô∏è **Creaci√≥n del mapa base** con `folium` y estilos personalizados.
8. üåà **Leyenda de colores** que representa la densidad relativa (de azul claro a rojo).
9. üß± **Dibujo de pol√≠gonos** con `GeoJson`, mostrando nombre del barrio y n√∫mero de negocios.
10. üíæ **Exportaci√≥n del mapa** como archivo HTML interactivo.

> üìå Este tipo de visualizaci√≥n permite realizar an√°lisis territoriales precisos y detectar barrios con mayor o menor concentraci√≥n de actividad comercial.

In [None]:
import geopandas as gpd
import pandas as pd
import folium
from folium.plugins import MiniMap
import branca.colormap as cm
from shapely.geometry import Point

# Funci√≥n auxiliar para asegurar CRS coincidente
def ensure_same_crs(gdf1, gdf2):
    """
    Alinea el CRS de gdf2 al de gdf1 si son distintos.
    Devuelve una copia reproyectada de gdf2 si es necesario.
    """
    if gdf1.crs != gdf2.crs:
        print(f"‚ö†Ô∏è CRS diferente detectado: {gdf1.crs} ‚â† {gdf2.crs}")
        print("üîÑ Reproyectando gdf2 al CRS de gdf1...")
        return gdf2.to_crs(gdf1.crs)
    return gdf2

# 1. Cargar el shapefile de barrios de Madrid (ruta segura desde variable shapefile_path)
gdf_barrios = gpd.read_file(shapefile_path)

# 2. Convertir DataFrame df a GeoDataFrame con puntos
gdf_negocios = gpd.GeoDataFrame(df, geometry=gpd.points_from_xy(df.longitud, df.latitud), crs='EPSG:4326')

# 3. Reproyectar barrios si tienen otro CRS
gdf_barrios = ensure_same_crs(gdf_negocios, gdf_barrios)

# 4. Uni√≥n espacial: asignar barrio a cada negocio
gdf_completo = gpd.sjoin(gdf_negocios, gdf_barrios, how='left', predicate='within')

# 5. Contar negocios por barrio
conteo = gdf_completo.groupby('NOMBRE').size().reset_index(name='num_negocios')
gdf_barrios = gdf_barrios.merge(conteo, on='NOMBRE', how='left')
gdf_barrios['num_negocios'] = gdf_barrios['num_negocios'].fillna(0)

# 6. Normalizar densidad
gdf_barrios['densidad_norm'] = (
    gdf_barrios['num_negocios'] - gdf_barrios['num_negocios'].min()
) / (
    gdf_barrios['num_negocios'].max() - gdf_barrios['num_negocios'].min()
)

# 7. Crear el mapa base
mapa_barrios = folium.Map(
    location=[df['latitud'].mean(), df['longitud'].mean()],
    zoom_start=12,
    tiles='CartoDB.VoyagerLabelsUnder'
)

# 8. A√±adir MiniMap
MiniMap().add_to(mapa_barrios)

# 9. Crear leyenda
colormap = cm.LinearColormap(['lightblue', 'orange', 'red'], vmin=0, vmax=1)
colormap.caption = 'Densidad normalizada de negocios por barrio'
colormap.add_to(mapa_barrios)

# 10. Dibujar los pol√≠gonos
folium.GeoJson(
    gdf_barrios,
    name="Barrios por densidad",
    style_function=lambda feature: {
        'fillColor': colormap(feature['properties']['densidad_norm']),
        'color': 'black',
        'weight': 0.7,
        'fillOpacity': 0.6,
    },
    tooltip=folium.GeoJsonTooltip(
        fields=["NOMBRE", "num_negocios"],
        aliases=["Barrio", "N¬∫ negocios"],
        localize=True
    )
).add_to(mapa_barrios)

# 11. Guardar el mapa de barrios en HTML
mapa_barrios_html = outputs_dir / "mapa_barrios.html"
mapa_barrios.save(mapa_barrios_html)

# 12. Mostrar el mapa interactivo
mapa_barrios


## üó∫Ô∏è Integraci√≥n de las predicciones en el mapa

Cargamos el clasificador entrenado, predecimos la clase y probabilidad para cada local, 
y los representamos en un mapa interactivo con colores seg√∫n la predicci√≥n.

In [None]:
import folium
import joblib

# 1) Cargar el modelo entrenado
clf = joblib.load('models/rf_classifier.pkl')

# 2) Definir columnas de features (incluyendo las nuevas)
feature_cols = [
    'latitud','longitud','categoria_negocio',
    'dist_city_center_km','local_density_1km','cluster_zone'
]

# 3) Predecir clase y probabilidad m√°xima
df['pred_clase'] = clf.predict(df[feature_cols])
df['pred_proba'] = clf.predict_proba(df[feature_cols]).max(axis=1)

# 4) Crear mapa base centrado en city_center
m_pred = folium.Map(location=city_center, zoom_start=12)

# 5) A√±adir marcadores coloreados por predicci√≥n
colors = {'baja':'red','media':'orange','alta':'green'}
for _, r in df.iterrows():
    folium.CircleMarker(
        location=(r.latitud, r.longitud),
        radius=4,
        color=colors.get(r.pred_clase, 'blue'),
        fill=True,
        fill_color=colors.get(r.pred_clase, 'blue'),
        fill_opacity=0.7,
        popup=(
            f"ID: {r.get('id_local','-')}<br>"
            f"Predicci√≥n: {r.pred_clase} ({r.pred_proba:.2f})<br>"
            f"Categor√≠a: {r.categoria_negocio}"
        )
    ).add_to(m_pred)

# 6) Mostrar mapa con predicciones
m_pred