<div class="frontmatter">
    <div style="display: flex; align-items: flex-start; justify-content: space-between;">
        <div>
             <h1 style="font-weight: bold;">Trabajo final: Análisis de delitos y criminalidad en áreas urbanas</h1>
            <h2>Autores: David Cantó, Roberto Rodero</h2>
            <h3>Máster en Tecnologías de la Información Geográfica, UAH</h3>
            <h3>Asignatura: Programación Avanzada</h3>
        </div>
</div>

## **1. Introducción**

### **Contexto**
La criminalidad en entornos urbanos es un fenómeno complejo influenciado por diversos factores socioeconómicos, culturales y espaciales. La interacción de estos elementos genera una distribución desigual de los delitos, lo que plantea desafíos significativos tanto para los responsables de la seguridad pública como para los urbanistas y los encargados de la formulación de políticas. Comprender la distribución geográfica de los delitos es esencial no solo para el diseño de estrategias de prevención y respuesta, sino también para el desarrollo de intervenciones más efectivas y específicas a nivel local. En este contexto, la incorporación de un análisis espacial resulta fundamental, ya que permite identificar patrones geográficos y temporales que no podrían observarse a través de análisis unidimensionales.

Este trabajo tiene como objetivo realizar un análisis exploratorio de los delitos cometidos en los distritos de la ciudad de Madrid, utilizando técnicas de análisis espacial para abordar diversas categorías de delitos, tales como los relacionados con la seguridad ciudadana, el consumo o tenencia de drogas, los atestados y partes de accidentes, el consumo de alcohol en la vía pública,  así como las multas de tráfico. Cada una de estas categorías puede estar influenciada por factores tanto estructurales como contextuales, como la densidad de población, el acceso a servicios, las características demográficas o el comportamiento de las actividades económicas en cada área.

A través de la implementación de métodos de análisis espacial y técnicas estadísticas avanzadas, se buscará no solo identificar áreas de alta incidencia delictiva, sino también examinar posibles correlaciones con variables socioeconómicas y demográficas, como la densidad de población o la extensión de áreas verdes en la zona. Este enfoque permite una visión holística de los fenómenos de criminalidad, lo que puede proporcionar información clave para la toma de decisiones estratégicas en materia de seguridad pública y políticas urbanas.

## **Objetivos**
- Analizar la distribución geográfica de los delitos y las multas de tráfico en los distritos de Madrid y su evolución durante la última década.
- Comprobar si la superficie de zonas verdes de cada distrito influye en la comisión de delitos.
- Evaluar la relación entre la densidad de población y la criminalidad en los distritos de Madrid.
- Comprobar si existe correlación espacial en los delitos por distritos.
- Examinar cómo influye la red de calles en las multas y delitos cometidos.
- Generar cartografía y gráficos estadísticos que ayuden a comprender estos fenómenos.

## **Preguntas clave**
1. ¿Cuáles son los distritos de Madrid con mayor número de delitos?
2. ¿Existe una correlación entre la superficie de zonas verdes y la cantidad de delitos en cada distrito?
3. ¿Las áreas con mayor densidad de población registran una mayor incidencia delictiva?
4. ¿Cuál ha sido la evolución del número y tipo de delitos durante la última década?
5. ¿Existe correlación espacial en los delitos de la Comunidad de Madrid?
6. ¿En el caso de que exista, de que tipo es?
7. ¿Cuáles son las áreas de Madrid con mayor número de multas de tráfico?
8. ¿Si agrupamos los distritos de Madrid según el número de delitos, adquieren una forma similar a las divisiones administrativas reales?

## **2. Conjunto de datos**

Para este estudio, se utilizarán datos públicos proporcionados por el Ayuntamiento de Madrid, a través del Portalde Datos Abiertos del Ayuntamiento de Madrid y se pueden consultar en el siguiente enlace:  [https://datos.madrid.es/sites/v/index.jsp?vgnextoid=bffff1d2a9fdb410VgnVCM2000000c205a0aRCRD&vgnextchannel=20d612b9ace9f310VgnVCM100000171f5a0aRCRD](https://datos.madrid.es/sites/v/index.jsp?vgnextoid=bffff1d2a9fdb410VgnVCM2000000c205a0aRCRD&vgnextchannel=20d612b9ace9f310VgnVCM100000171f5a0aRCRD). Los principales conjuntos de datos incluyen:

- Delitos relacionados con la seguridad ciudadana:
  - Relacionados con las personas
  - Relacionadas con el patrimonio
  - Por tenencia de armas
  - Por tenencia de drogas
  - Por consumo de drogas

- Personas detenidas e imputadas:

- Partes de accidente confeccionados y atestados:

- Consumo de alcohol en la vía pública:

- Intervenciones por protección a los consumidores y usuarios en vía pública:

- Inspecciones y actuaciones en locales de espectáculos públicos y actividades recreativas:

- Capa de distritos de la ciudad de Madrid

Se han utilizado datos de población por distritos, disponibles en el siguiente enlace: https://datos.madrid.es/portal/site/egob/menuitem.c05c1f754a33a9fbe4b2e4b284f1a5a0/?vgnextoid=0cccaebc07c1f710VgnVCM2000001f4a900aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD&vgnextfmt=default.

Estos datos serán analizados en formato geoespacial (SHP, GeoJSON) y tabular (CSV, Excel), considerando su calidad, precisión y confiabilidad para garantizar resultados válidos.

Por su parte, el archivo ráster a analizar es un ráster de zonas verdes de la ciudad de Madrid, disponible en: https://geoportal.madrid.es/IDEAM_WBGEOPORTAL/dataset.iam?id=53896e7f-8b6b-4cbc-a0aa-bfbeee91563e.

En lo relativo a las estadísticas de las multas de tráfico en Madrid utilizadas para el análisis de patrones de puntos, se han obtenido en el siguiente enlace: https://datos.madrid.es/sites/v/index.jsp?vgnextoid=fb9a498a6bdb9410VgnVCM1000000b205a0aRCRD&vgnextchannel=374512b9ace9f310VgnVCM100000171f5a0aRCRD.

## **3. Exploración y procesamiento de datos**

En primer lugar se importaron los módulos y paquetes necesarios para poder explorar y procesar los conjuntos de datos con los que vamos a trabajar.

In [None]:
!pip install rasterio
!pip install rasterstats
!pip install mapclassify
!pip install folium
!pip install mplcursors
!pip install pysal
!pip install libpysal
!pip install adjustText
!pip install contextily
!pip install osmnx
!pip install matplotlib_scalebar

In [None]:
from google.colab import drive
from google.colab import files
import os
import pandas as pd
import geopandas as gpd
import xarray as xr
import matplotlib
import matplotlib.pyplot as plt
import matplotlib_scalebar
from matplotlib_scalebar.scalebar import ScaleBar
import matplotlib.colors as mcolors
from matplotlib.colors import to_hex
import seaborn as sns
import numpy as np
import folium
import rasterio
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score, classification_report
from sklearn.tree import plot_tree
from sklearn.neural_network import MLPClassifier
from sklearn.svm import SVC
from sklearn.neighbors import NearestNeighbors
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
from rasterio.mask import mask
from rasterio.features import geometry_mask
from rasterstats import zonal_stats
import ipywidgets as widgets
from ipywidgets import interact
from IPython.display import display
from IPython.display import clear_output
import branca.colormap as cm
from sklearn.linear_model import LinearRegression
import warnings
import matplotlib.patches as mpatches
from statsmodels.tsa.seasonal import seasonal_decompose
import dask.array as da
import mapclassify
import pysal
import libpysal
import contextily as cx
from pointpats import distance_statistics
from ipywidgets import interact, fixed
from libpysal.weights import Queen
from pysal.lib import weights
from splot.libpysal import plot_spatial_weights
import matplotlib.patches as mpatches
import io
from adjustText import adjust_text
from sklearn.ensemble import AdaBoostClassifier
from sklearn.metrics import accuracy_score
from pysal.explore import esda
from splot.esda import (
    moran_scatterplot, lisa_cluster, plot_local_autocorrelation, plot_moran
)
import osmnx as ox
import networkx as nx
from shapely.geometry import Point
from shapely.geometry import LineString
from shapely.geometry import Polygon
from scipy.spatial import Delaunay, delaunay_plot_2d, Voronoi, voronoi_plot_2d
import spaghetti as sp

Una vez cargados los paquetes necesarios, preparamos la carpeta de google drive desde la que vamos a trabajar. Dentro de ella se encuentran los conjuntos de datos que vamos a utilizar.

In [None]:
# Conectar a Google Drive para enlazar las carpetas almacenadas en Drive con los archivos necesarios
drive.mount('/content/drive')
# Establecer la ruta de la carpeta principal
folder = '/content/drive/My Drive/P1_Avanzada' #Indique aquí el nombre de su carpeta en drive

# Listar las subcarpetas dentro de la carpeta principal
def listar_carpetas(carpeta):
    for name in os.listdir(carpeta):
        if os.path.isdir(os.path.join(carpeta, name)):
            print(name)

listar_carpetas(folder)

In [None]:
# Establecer la ruta que contiene las carpetas con los datos de delitos, distritos y ráster de zonas verdes.
datos_2015 = os.path.join(folder, 'Delitos_2015')
datos_2016 = os.path.join(folder, 'Delitos_2016')
datos_2017 = os.path.join(folder, 'Delitos_2017')
datos_2018 = os.path.join(folder, 'Delitos_2018')
datos_2019 = os.path.join(folder, 'Delitos_2019')
datos_2020 = os.path.join(folder, 'Delitos_2020')
datos_2021 = os.path.join(folder, 'Delitos_2021')
datos_2022 = os.path.join(folder, 'Delitos_2022')
datos_2023 = os.path.join(folder, 'Delitos_2023')
datos_2024 = os.path.join(folder, 'Delitos_2024')
distritos_shp = os.path.join(folder, 'Distritos_shape', 'DISTRITOS.shp')
poblacion = os.path.join(folder, 'Poblacion', 'poblacion_1_enero.csv')
Zonas_verdes_rast = os.path.join(folder, 'Zonas_verdes_rast', 'Zonas_verdes_30m.tif')
multas = os.path.join(folder, 'Multas_5_2024', '202405detalle.csv')

Una vez localizadas y seleccionadas las carpetas que contiene los conjuntos de datos con los que vamos a trabajar, comenzamos a modificar estos conjuntos de datos. Para ello, el primer paso es seleccionar únicamente las hojas dentro de los archivos excel que nos interesan. Después, creamos para cada archivo excel una columna que incluira la fecha del archivo, extrayendola a partir del nombre del mismo. Por último, concatenamos las diferentes hojas y archivos para obtener una base de datos con la que poder trabajar.

In [None]:
# Lista de las hojas a leer de los arcchivos excel
hojas_a_leer = ['SEGURIDAD', 'DETENIDOS X DISTRITOS', 'ACCIDENTES', 'VENTA AMBULANTE', 'CONSUMO ALCOHOL', 'LOCALES']

# Función para obtener los archivos Excel en una carpeta
def obtener_archivos_excel(carpeta):
    return [f for f in os.listdir(carpeta) if f.endswith('.xlsx') or f.endswith('.xls')]

# Obtener los archivos Excel de las carpetas datos_2015 y datos_2024
archivos_2015 = obtener_archivos_excel(datos_2015)
archivos_2016 = obtener_archivos_excel(datos_2016)
archivos_2017 = obtener_archivos_excel(datos_2017)
archivos_2018 = obtener_archivos_excel(datos_2018)
archivos_2019 = obtener_archivos_excel(datos_2019)
archivos_2020 = obtener_archivos_excel(datos_2020)
archivos_2021 = obtener_archivos_excel(datos_2021)
archivos_2022 = obtener_archivos_excel(datos_2022)
archivos_2023 = obtener_archivos_excel(datos_2023)
archivos_2024 = obtener_archivos_excel(datos_2024)

# Lista para almacenar los DataFrames de las hojas seleccionadas
todos_los_datos = []

# Función para procesar los archivos de una carpeta y concatenar las hojas seleccionadas por columnas
def procesar_archivos(carpeta, archivos):
    for archivo in archivos:
        # Leer todas las hojas del archivo Excel
        xls = pd.ExcelFile(os.path.join(carpeta, archivo))

        # Lista temporal para almacenar las hojas que se van a concatenar por columnas
        hojas_temporales = []

        # Obtener el nombre correcto del archivo (sin el sufijo)
        nombre_archivo_correcto = archivo.split('.')[0]

        # Variable para controlar si se está en la primera hoja
        es_primera_hoja = True

        # Iterar sobre las hojas del archivo y leer solo las que están en la lista `hojas_a_leer`
        for nombre_hoja in xls.sheet_names:
            if nombre_hoja in hojas_a_leer:
                # Leer la hoja en un DataFrame, omitiendo las dos primeras filas
                df = pd.read_excel(xls, sheet_name=nombre_hoja, skiprows=2)

                # Si es la primera hoja, añadir la columna 'Fecha' y 'Distritos' con el nombre del archivo
                if es_primera_hoja:
                    df['Fecha'] = nombre_archivo_correcto

                if not es_primera_hoja:
                    df = df.iloc[:, 1:]  # Eliminar la primera columna

                es_primera_hoja = False

                # Añadir el DataFrame de la hoja a la lista temporal
                hojas_temporales.append(df)

        # Si hay hojas seleccionadas para este archivo, concatenarlas por columnas
        if hojas_temporales:
            df_archivo = pd.concat(hojas_temporales, axis=1)
            # Añadir el DataFrame concatenado por columnas a la lista de todos los datos
            todos_los_datos.append(df_archivo)

# Procesar los archivos de las carpetas 2015 y 2024
procesar_archivos(datos_2015, archivos_2015)
procesar_archivos(datos_2016, archivos_2016)
procesar_archivos(datos_2017, archivos_2017)
procesar_archivos(datos_2018, archivos_2018)
procesar_archivos(datos_2019, archivos_2019)
procesar_archivos(datos_2020, archivos_2020)
procesar_archivos(datos_2021, archivos_2021)
procesar_archivos(datos_2022, archivos_2022)
procesar_archivos(datos_2023, archivos_2023)
procesar_archivos(datos_2024, archivos_2024)

# Concatenar todos los DataFrames de diferentes archivos Excel por filas
df_final = pd.concat(todos_los_datos, axis=0, ignore_index=True)

Después de esto, hacemos una primera exploración de los datos, para comprobar que se han unido correctamente las distintas hojas y excels.

In [None]:
df_final.head()

In [None]:
df_final.info()

Algunas variables contienen la misma información pero han recibido nombres diferentes. Por ello, lo primero que tenemos que hacer es concatenar los datos del mismo tipo.

In [None]:
# Selecciona las columnas que quieres combinar
columnas_a_combinar = ['CON HERIDOS', 'CON VICTIMAS']

# Concatena las columnas seleccionadas
nueva_columna = pd.concat([df_final[col] for col in columnas_a_combinar], ignore_index=True)

# Si quieres eliminar valores nulos antes de concatenar, puedes hacerlo así:
nueva_columna = pd.concat([df_final[col].dropna() for col in columnas_a_combinar], ignore_index=True)

# Elimina las columnas originales si ya no las necesitas
df_final = df_final.drop(columns=columnas_a_combinar)

# Luego, añade la nueva columna al GeoDataFrame
df_final['CON HERIDOS'] = nueva_columna

In [None]:
# Selecciona las columnas que quieres combinar
columnas_a_combinar = ['SIN HERIDOS', 'SIN VICTIMAS']

# Concatena las columnas seleccionadas
nueva_columna = pd.concat([df_final[col] for col in columnas_a_combinar], ignore_index=True)

# Si quieres eliminar valores nulos antes de concatenar, puedes hacerlo así:
nueva_columna = pd.concat([df_final[col].dropna() for col in columnas_a_combinar], ignore_index=True)

# Elimina las columnas originales si ya no las necesitas
df_final = df_final.drop(columns=columnas_a_combinar)

# Luego, añade la nueva columna al GeoDataFrame
df_final['SIN HERIDOS'] = nueva_columna

In [None]:
# Selecciona las columnas que quieres combinar
columnas_a_combinar = ['ADULTOS', 'MAYORES DE EDAD']

# Concatena las columnas seleccionadas
nueva_columna = pd.concat([df_final[col] for col in columnas_a_combinar], ignore_index=True)

# Si quieres eliminar valores nulos antes de concatenar, puedes hacerlo así:
nueva_columna = pd.concat([df_final[col].dropna() for col in columnas_a_combinar], ignore_index=True)

# Elimina las columnas originales si ya no las necesitas
df_final = df_final.drop(columns=columnas_a_combinar)

# Luego, añade la nueva columna al GeoDataFrame
df_final['ADULTOS'] = nueva_columna

In [None]:
# Selecciona las columnas que quieres combinar
columnas_a_combinar = ['MENORES', 'MENORES DE 18 AÑOS']

# Concatena las columnas seleccionadas
nueva_columna = pd.concat([df_final[col] for col in columnas_a_combinar], ignore_index=True)

# Si quieres eliminar valores nulos antes de concatenar, puedes hacerlo así:
nueva_columna = pd.concat([df_final[col].dropna() for col in columnas_a_combinar], ignore_index=True)

# Elimina las columnas originales si ya no las necesitas
df_final = df_final.drop(columns=columnas_a_combinar)

# Luego, añade la nueva columna al GeoDataFrame
df_final['MENORES'] = nueva_columna


A continuación asignamos una variable para el shapefile que contiene las geometrías de los distritos. Después exploramos este shapefile para ver a partir de qué columnas podemos unir los datos.

In [None]:
distritos = gpd.read_file(distritos_shp)

In [None]:
print(distritos.head())

In [None]:
print(distritos.columns)

Al comparar los datos del shapefile y la base de datos vemos que hay columnas que comparten información pero no se llaman igual, por lo que cambiamos el nombre de una del shapefile para realizar la unión.

In [None]:
# Renombrar la columna 'shapefile_ID' a 'df_ID' para que coincidan
distritos = distritos.rename(columns={'DISTRI_MT': 'DISTRITOS'})

Nos aseguramos que ambas columnas están en el mismo formato para realizar la unión.

In [None]:
df_final['DISTRITOS'] = df_final['DISTRITOS'].astype(str)
distritos['DISTRITOS'] = distritos['DISTRITOS'].astype(str)

Realizamos la unión a partir de la columna que comparte información.

In [None]:
# Realizar la unión entre el DataFrame y el shapefile
df_union = df_final.merge(distritos[['DISTRITOS', 'geometry']], on='DISTRITOS', how='left')

Una vez realizada la unión, comenzamos a modificar la base de datos para poder trabajar con ella. En primer lugar, generamos una columna de año y otra de mes a partir de la columna generada a partir del nombre de los archivos.

In [None]:
# Separar la columna fecha en dos nuevas columnas, año y mes.
df_union[['Mes', 'Año']] = df_union['Fecha'].str.split('_', expand=True)

# Mostrar las primeras filas del GeoDataFrame con las nuevas columnas
print(df_union[['Fecha', 'Mes', 'Año']])

Después generamos una columna con los meses como variable numérica. Tener la variable de meses de este modo puede llegar a ser útil de cara a algunas representaciones gráficas de los datos.

In [None]:
# Diccionario que mapea los meses en palabras a su respectivo número
mes_a_numero = {
    'Enero': 1, 'Febrero': 2, 'Marzo': 3, 'Abril': 4, 'Mayo': 5, 'Junio': 6,
    'Julio': 7, 'Agosto': 8, 'Septiembre': 9, 'Octubre': 10, 'Noviembre': 11, 'Diciembre': 12
}

# Convertir la columna 'mes' de nombre a número
df_union['mes'] = df_union['Mes'].map(mes_a_numero)

A continuación, convertimos el data frame en un geodataframe.

In [None]:
# Asegurarse de que es un GeoDataFrame
df_union = gpd.GeoDataFrame(df_union, geometry='geometry')

Después añadimos algunas columnas que podrían ser útiles a la hora de estudiar la base de datos, como el área de cada distrito.

In [None]:
df_union['Area'] = df_union.geometry.area # Por defecto se calcula el área en metros cuadrados
df_union['Area_ha'] = df_union['Area'] / 10000 # Área en hectáreas
df_union['Area_km2'] = df_union['Area'] / 1000000 # Área en kilómetros cuadrados


Luego, eliminamos las columnas que no nos interesan de nuestra base de datos.

In [None]:
#He puesto esto como ejemplo, pero se pueden poner otros o ninguno, depende de lo que acabemos haciendo
df_union = df_union.drop(columns=['Fecha','DENUNCIAS','DETENIDOS E IMPUTADOS','DETENIDOS E INVESTIGADOS'])

Después de esto, incorporamos datos de población a nuestro dataframe. Como se puede ver a continuación, dan información sobre la población por distrito, lo cual podría ser una variable interesante a la hora de estudiar los delitos cometidos.

In [None]:
# Leer el archivo CSV y seleccionar las primeras 22 columnas, que son las que contienen los datos que nos interesan
df_poblacion = pd.read_csv(poblacion, sep=";").head(21)

# Mostrar las primeras filas del DataFrame para verificar
df_poblacion.head()
df_poblacion.info()

Después cambiamos el nombre de algunas columnas para que sea más facil trabajar con ellas en el futuro. Además, eliminamos las columnas que no nos interesan.

In [None]:
# Cambiar nombres de algunas columnas para adecuarlos
df_poblacion = df_poblacion.rename(columns={'num_personas': 'poblacion'})
df_poblacion = df_poblacion.rename(columns={'num_personas_hombres': 'pob_hombres'})
df_poblacion = df_poblacion.rename(columns={'num_personas_mujeres': 'pob_mujeres'})
df_poblacion = df_poblacion.rename(columns={'distrito': 'DISTRITOS'})

# Eliminar columnas que no resultan interesantes en el analisis
df_poblacion = df_poblacion.drop(columns=['fecha', 'cod_municipio', 'municipio',
                                          'cod_barrio', 'barrio'])

Antes de poder unir estos datos con el resto necesitamos modificar el nombre de la columna de distritos para que coincidan.

In [None]:
# Poner los nombres de los distritos en mayúsculas, también para manejar la unión
df_poblacion['DISTRITOS'] = df_poblacion['DISTRITOS'].str.upper()
df_poblacion['DISTRITOS'] = df_poblacion['DISTRITOS'].astype(str)

In [None]:
# Eliminar espacios después de los guiones en los nombres de los distritos
# para mantener el mismo nombre y poder realizar la unión correctamente
df_poblacion['DISTRITOS'] = df_poblacion['DISTRITOS'].str.replace(r'\s*-\s*', '-', regex=True)
df_union['DISTRITOS'] = df_union['DISTRITOS'].str.replace(r'\s*-\s*', '-', regex=True)

df_poblacion['DISTRITOS'] = df_poblacion['DISTRITOS'].str.strip().str.upper().str.replace(r'\s*-\s*', '-', regex=True)
df_union['DISTRITOS'] = df_union['DISTRITOS'].str.strip().str.upper().str.replace(r'\s*-\s*', '-', regex=True)

Realizamos la unión y comprobamos que se ha realizado correctamente.

In [None]:
df_union = df_union.merge(df_poblacion, on='DISTRITOS', how='left')

In [None]:
df_union.head()

Después convertimos los datos de población a tipo numérico y calculamos la densidad de población (total, de hombres y de mujeres).

In [None]:
# Convertir la columna 'Poblacion' a tipo numérico (por si tiene valores tipo str)
df_union['poblacion'] = pd.to_numeric(df_union['poblacion'], errors='coerce')
df_union['pob_hombres'] = pd.to_numeric(df_union['pob_hombres'], errors='coerce')
df_union['pob_mujeres'] = pd.to_numeric(df_union['pob_mujeres'], errors='coerce')

# Calcular densidad de población
df_union['densidad_pob_km2'] = df_union['poblacion'] / df_union['Area_km2']
df_union['densidad_pob_ha'] = df_union['poblacion'] / df_union['Area_ha']
df_union['densidad_pob_hombres'] = df_union['pob_hombres'] / df_union['Area_km2']
df_union['densidad_pob_mujeres'] = df_union['pob_mujeres'] / df_union['Area_km2']
df_union['densidad_pob_hombres_ha'] = df_union['pob_hombres'] / df_union['Area_ha']
df_union['densidad_pob_mujeres_ha'] = df_union['pob_mujeres'] / df_union['Area_ha']

Después pasamos a la limpieza de los datos. Para ello primero comprobamos si hay datos duplicados o valores nulos en nuestro dataframe.

In [None]:
#Este código muestra las filas duplicadas.
df_union[df_union.duplicated(keep='first')]

In [None]:
#Esta función nos permite saber si hay datos nulos
df_union.isnull().sum()

Como en las bases de datos originales había información sobre el total de la zona y sabiendo que estos datos no poseen geometrías y tampoco datos de población, aparecen como nulos. Por ello los eliminaremos.

In [None]:
df_union = df_union.dropna()

In [None]:
# Desactivar los warnings
warnings.simplefilter('ignore')

# Nos aseguramos de que las columnas de 'Año' y 'mes' son de tipo string.
df_union['Año'] = df_union['Año'].astype(str)
df_union['mes'] = df_union['mes'].astype(str)

# Crear una nueva columna combinada 'Año-Mes' para la animación.
df_union['Año-mes'] = df_union['Año'] + '-' + df_union['mes']

# Convertir la columna 'Año-Mes' a tipo fecha para ordenar cronológicamente.
df_union['Fecha'] = pd.to_datetime(df_union['Año-mes'], format='%Y-%m')

In [None]:
df_union.head()

Como nos interesa realizar también un análisis de patrones de puntos vamos a cargar otros datos. En este caso de multas en Madrid. Una vez cargados estos datos vamos a limpiarlos y modificarlos para poder trabajar con ellos

Primero establecemos la ruta del archivo y creamos un dataframe con los datos de multas.

In [None]:
# Ruta del archivo CSV con los datos de multas de tráfico en mayo de 2024
multas = os.path.join(folder, 'Multas_5_2024', '202405detalle.csv')

# Cargar el CSV con la codificación correcta
df_multas = pd.read_csv(multas, sep=';', encoding='ISO-8859-1', dtype={'COORDENADA-X': str, 'COORDENADA-Y': str})

Limpiamos los nombres de las columnas eliminando caracteres no deseados y también eliminamos valores nulos. Además convertimos las columnas de coordenadas a valores numéricos para poder trabajar con ellas.

In [None]:
# Limpiar nombres de columnas
df_multas.columns = df_multas.columns.str.strip()

# Eliminar valores nulos o vacíos en 'COORDENADA-X' y 'COORDENADA-Y'
df_multas = df_multas.dropna(subset=['COORDENADA-X', 'COORDENADA-Y'])
df_multas = df_multas[(df_multas['COORDENADA-X'] != '') & (df_multas['COORDENADA-Y'] != '')]

# Convertir coordenadas a tipo numérico
df_multas['COORDENADA-X'] = pd.to_numeric(df_multas['COORDENADA-X'], errors='coerce')
df_multas['COORDENADA-Y'] = pd.to_numeric(df_multas['COORDENADA-Y'], errors='coerce')

# Eliminar posibles valores NaN generados
df_multas = df_multas.dropna(subset=['COORDENADA-X', 'COORDENADA-Y'])

A continuación, creamos las geometrías de los puntos según las coordenadas del dataframe.

In [None]:
# Crear geometría de puntos con CRS 25830
geometry = gpd.points_from_xy(df_multas['COORDENADA-X'], df_multas['COORDENADA-Y'])
gdf_multas = gpd.GeoDataFrame(df_multas, geometry=geometry, crs="EPSG:25830")

Recargamos la capa de distritos para que no cuente con las modificaciones que hemos realizado previamente, nos aseguramos de que el sistema de referencia de multas y distritos coincida y unimos los datos.

In [None]:
# Cargar shapefile de distritos
distritos = gpd.read_file(distritos_shp)

# Establecer mismo SRC para las dos capas (EPSG:4326)
gdf_multas = gdf_multas.to_crs(epsg=4326)
distritos = distritos.to_crs(epsg=4326)

# Unión espacial para seleccionar solo las multas dentro de los distritos
gdf_multas = gpd.sjoin(gdf_multas, distritos, how="inner", predicate="within")

Eliminamos algunas columnas que no nos interesan para el estudio y cambiamos el nombre de otras para facilitarnos el trabajo más adelante. Por último, visualizamos los datos.

In [None]:
# Eliminar las columnas innecesarias
columnas_a_eliminar = ['NOMBRE', 'DISTRI_MT', 'FCH_ALTA', 'FCH_BAJA', 'OBSERVACIO', 'ACUERDO', 'COD_DIS', 'COD_DIS_TX', 'index_right', 'Shape_Leng', 'Shape_Area']
gdf_multas = gdf_multas.drop(columns=columnas_a_eliminar, errors='ignore')

# Cambiar el nombre de la columnas de distritos y coordenadas
gdf_multas = gdf_multas.rename(columns={'DISTRI_MAY': 'DISTRITO'})
gdf_multas = gdf_multas.rename(columns={'COORDENADA-X': 'LONGITUD'})
gdf_multas = gdf_multas.rename(columns={'COORDENADA-Y': 'LATITUD'})

# Cambiar el nombre de la columna 'DISTRI_MAY' a 'DISTRITO' en distritos para que sea igual en ambos casos
distritos = distritos.rename(columns={'DISTRI_MAY': 'DISTRITO'})

gdf_multas.info()
gdf_multas.head()
distritos.info()
distritos.head()

**Ráster zonas verdes**

Después de esto, comenzamos a trabajar con datos ráster. Estos datos contienen información sobre las zonas verdes (jardines, matorral y arbolado) de los distritos de la ciudad de Madrid.

In [None]:
zonas_verdes_rast = os.path.join(folder, 'Zonas_verdes_rast', 'Zonas_verdes_30m.tif')

Lo primero que haremos con estos datos es explorar sus características, como el sistema de referencia o tamaño de píxel, y visualizamos el ráster.

In [None]:
# Verificar si el archivo existe
if os.path.exists(zonas_verdes_rast):
    # Cargar el ráster con rasterio
    with rasterio.open(zonas_verdes_rast) as src:
        print("Ráster cargado correctamente")
        print("Nombre del archivo:", src.name)
        print("Dimensiones (ancho x alto):", src.width, "x", src.height)
        print("Número de bandas:", src.count)
        print("Sistema de coordenadas (SRC):", src.crs)
        print("Tamaño del píxel:", src.res)
else:
    print("El archivo no se encontró en la ruta especificada.")

In [None]:
# Abrir el archivo raster usando rasterio
with rasterio.open(zonas_verdes_rast) as src:
    # Usar dask para cargar los datos del raster en un array de dask
    data = da.from_array(src.read(1), chunks=(1000, 1000))  # "chunks" define el tamaño de los bloques

# Visualizar el array dask
plt.imshow(data.compute(), cmap='gray')  # .compute() realiza el cálculo y obtiene los resultados
plt.colorbar()
plt.title("Raster con Dask")
plt.show()

A continuación mostramos como podríamos hacer lo mismo utilizando xarray. Esta manera de hacerlo sería adecuada en jupyter notebook, pero en google collab da problemas.

In [None]:
## Verificar si el archivo existe
#if os.path.exists(zonas_verdes_rast):
    ## Abrir el ráster con xarray y rasterio
    #zonas_verdes = xr.open_dataarray(zonas_verdes_rast, engine="rasterio")

    ## Mostrar información básica
    #print(zonas_verdes)

    ## Visualizar el ráster
    #zonas_verdes.plot(cmap="Greens")
    #plt.title("Visualización del ráster de zonas verdes con xarray")
    #plt.show()
#else:
    #print("El archivo no se encontró en la ruta especificada.")

Después de esto calculamos la superficie de zonas verdes por cada distrito de Madrid y verificamos que sean congruentes con las áreas de los distritos calculadas previamente.

In [None]:
# Abrir el ráster
with rasterio.open(zonas_verdes_rast) as src:
    # Obtener el CRS del ráster
    raster_crs = src.crs
    transform = src.transform
    raster_array = src.read(1)  # Leer la primera banda
    pixel_area = (src.res[0] * src.res[1]) / 10_000  # Convertir de m² a ha

    # Guardar el CRS original de df_union
    original_crs = df_union.crs

    # Verificar y reproyectar df_union al CRS del ráster si es necesario
    if df_union.crs != raster_crs:
        df_union = df_union.to_crs(raster_crs)  # Reproyectar al CRS del ráster

    superficies = []

    for idx, barrio in df_union.iterrows():
        # Crear una máscara del barrio sobre el ráster
        mask = geometry_mask([barrio.geometry], transform=transform, invert=True, out_shape=raster_array.shape)

        # Extraer solo los píxeles dentro del barrio que contengan zonas verdes
        superficie_verde = np.sum(mask * (raster_array < 12)) * pixel_area

        superficies.append(superficie_verde)

    # Restaurar el CRS original de df_union
    df_union = df_union.to_crs(original_crs)

# Agregar la columna al GeoDataFrame
df_union["superficie_zonas_verdes_ha"] = superficies

# Mostrar los primeros valores para verificar
df_union[["DISTRITOS", "superficie_zonas_verdes_ha", "Area_ha"]].head()

Después representamos los distritos en función del área de zonas verdes que poseen.

In [None]:
# Configurar el tamaño del mapa
fig, ax = plt.subplots(1, 1, figsize=(10, 8))

# Graficar los barrios con clasificación por cuantiles
df_union.plot(column="superficie_zonas_verdes_ha", cmap="YlGn",
              linewidth=0.5, edgecolor="black", legend=True,
              scheme="quantiles", k=5, ax=ax)  # 5 clases por cuantiles

# Añadir títulos y etiquetas
ax.set_title("Superficie de Zonas Verdes por distrito (ha)", fontsize=14)
ax.set_axis_off()  # Ocultar ejes

# Mostrar el mapa
plt.show()

Realizamos esta misma representación con un mapa interactivo.

In [None]:
# Guardar el EPSG original antes de cambiarlo
original_epsg = df_union.crs.to_string()

# Convertir el GeoDataFrame a EPSG:4326 (necesario para Folium)
df_union = df_union.to_crs(epsg=4326)

# Crear un DataFrame temporal sin las columnas de tipo datetime
df_temp = df_union.copy()

# Eliminar o convertir las columnas de tipo datetime a string
for col in df_temp.select_dtypes(include=["datetime"]).columns:
    df_temp[col] = df_temp[col].astype(str)

# Crear un mapa centrado en Madrid
m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

# Añadir capa de fondo de Google Maps (satélite)
folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                 attr="Google", name="Google Satellite").add_to(m)

# Crear un colormap para la superficie de zonas verdes
min_val = df_union["superficie_zonas_verdes_ha"].min()
max_val = df_union["superficie_zonas_verdes_ha"].max()
colormap = cm.linear.YlGn_09.scale(min_val, max_val)
colormap.caption = "Superficie de Zonas Verdes (ha)"
colormap.add_to(m)

# Función para asignar estilo con transparencia
def style_function(feature):
    value = feature["properties"]["superficie_zonas_verdes_ha"]
    return {
        "fillColor": colormap(value),
        "color": "black",
        "weight": 1,
        "fillOpacity": 0.05,  # Ajustar transparencia
    }

# Añadir los distritos como GeoJSON con el estilo definido (usando df_temp)
folium.GeoJson(
    df_temp,  # Usamos el DataFrame temporal
    name="Superficie de Zonas Verdes",
    style_function=style_function,
    tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", "superficie_zonas_verdes_ha"],
                                  aliases=["Distrito:", "Zonas Verdes (ha):"],
                                  localize=True,
                                  labels=True,
                                  sticky=True)
).add_to(m)

# Añadir control de capas
folium.LayerControl().add_to(m)

# Mostrar el mapa
display(m)

# Recuperar el EPSG original
df_union = df_union.to_crs(original_epsg)

Ahora en lugar de representarlo en función del área de zonas verdes hacemos una representación de la proporción de zonas verdes dentro de cada distrito.

In [None]:
# Asegurar que el GeoDataFrame está en un sistema de coordenadas proyectadas para calcular correctamente su área
df_union = df_union.to_crs(epsg=3035)

# Calcular la superficie total del barrio en hectáreas (ahora en metros cuadrados porque estamos usando un CRS proyectado)
df_union["superficie_total_ha"] = df_union.geometry.area / 10_000  # m² a ha

# Reproyectar de nuevo a EPSG:4326 si es necesario para la visualización
df_union = df_union.to_crs(epsg=4326)

# Calcular la proporción de zonas verdes como porcentaje
df_union["proporcion_zonas_verdes"] = (df_union["superficie_zonas_verdes_ha"] / df_union["superficie_total_ha"]) * 100

# Crear un DataFrame temporal sin las columnas de tipo datetime
df_temp = df_union.copy()

# Eliminar o convertir las columnas de tipo datetime a string
for col in df_temp.select_dtypes(include=["datetime"]).columns:
    df_temp[col] = df_temp[col].astype(str)

# Crear un mapa centrado en Madrid
m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

# Añadir capa de fondo de Google Maps (satélite)
folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                 attr="Google", name="Google Satellite").add_to(m)

# Crear un colormap para la proporción de zonas verdes
min_val = df_temp["proporcion_zonas_verdes"].min()
max_val = df_temp["proporcion_zonas_verdes"].max()
colormap = cm.linear.YlGn_09.scale(min_val, max_val)
colormap.caption = "Proporción de Zonas Verdes (%)"
colormap.add_to(m)

# Función para asignar estilo con transparencia
def style_function(feature):
    value = feature["properties"]["proporcion_zonas_verdes"]
    return {
        "fillColor": colormap(value),
        "color": "black",
        "weight": 1,
        "fillOpacity": 0.05,  # Ajustar transparencia
    }

# Añadir los distritos en formato GeoJSON con el estilo definido
folium.GeoJson(
    df_temp,
    name="Proporción de Zonas Verdes",
    style_function=style_function,
    tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", "proporcion_zonas_verdes"],
                                  aliases=["Distrito:", "Proporción Zonas Verdes (%)"],
                                  localize=True,
                                  labels=True,
                                  sticky=False)
).add_to(m)

# Añadir control de capas
folium.LayerControl().add_to(m)

# Mostrar el mapa
display(m)

# Recuperar el EPSG original
df_union = df_union.to_crs(original_epsg)

También hacemos una representación de los distritos por densidad de habitantes.

In [None]:
# Crear un mapa centrado en Madrid
m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

# Añadir capa de fondo de Google Maps (satélite)
folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                 attr="Google", name="Google Satellite").add_to(m)

# Crear un colormap para la densidad de población
min_val = df_temp["densidad_pob_km2"].min()
max_val = df_temp["densidad_pob_km2"].max()
colormap = cm.linear.YlOrRd_09.scale(df_union["densidad_pob_km2"].min(), df_union["densidad_pob_km2"].max())
colormap.caption = "Densidad de Población (hab/km²)"
colormap.add_to(m)

# Función para asignar estilo con transparencia
def style_function(feature):
    value = feature["properties"]["densidad_pob_km2"]
    return {
        "fillColor": colormap(value),
        "color": "black",
        "weight": 1,
        "fillOpacity": 0.01,  # Ajustar transparencia
    }

# Añadir los barrios como GeoJSON con el estilo definido y formatear los valores de densidad de población a 2 decimales
folium.GeoJson(
    df_temp,
    name="Densidad de población en los distritos de Madrid",
    style_function=style_function,
    tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", "densidad_pob_km2", "poblacion"],
                                  aliases=["Distrito:", "Densidad de Población (hab/km²):", "Población:"],
                                  localize=True,
                                  labels=True,
                                  sticky=True)
).add_to(m)

# Añadir control de capas
folium.LayerControl().add_to(m)

# Mostrar el mapa
display(m)

# Recuperar el EPSG original
df_union = df_union.to_crs(original_epsg)

Incluimos también los delitos por año en cada distrito.

In [None]:
# Asegúrate de que las geometrías están en el CRS correcto (WGS84, EPSG:4326)
df_union = df_union.to_crs(epsg=4326)

# Crear un mapa centrado en Madrid
m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

# Lista de columnas relacionadas con delitos que queremos procesar
delitos = [
    'RELACIONADAS CON LAS PERSONAS',
    'RELACIONADAS CON EL PATRIMONIO',
    'POR TENENCIA DE ARMAS',
    'POR TENENCIA DE DROGAS',
    'POR CONSUMO DE DROGAS',
    'PROPIEDAD INTELECTUAL E INDUSTRIAL',
    'INFRACCIONES ALIMENTARIAS',
    'INSPECCIONES Y ACTUACIONES',
    'CON HERIDOS',
    'SIN HERIDOS',
    'ADULTOS',
    'MENORES'
]

# Modificar las fechsa
df_union['Fecha_str'] = df_union['Fecha'].dt.strftime('%Y-%m-%d')


# Crear la lista de fechas disponibles
fechas = sorted(df_union['Fecha_str'].unique())  # Ordenamos las fechas

# Función para actualizar el mapa según el tipo de delito y la fecha seleccionados
def actualizar_mapa(selected_crime, selected_date):
    # Filtrar el DataFrame por el delito y la fecha seleccionados
    df_filtered = df_union[(df_union['Fecha_str'] == selected_date) & (df_union[selected_crime].notna())]

    # Limpiar el mapa antes de añadir nuevas capas
    m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

    # Añadir capa de fondo de Google Maps (satélite)
    folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                     attr="Google", name="Google Satellite").add_to(m)

    # Calcular el rango de los valores del delito seleccionado
    min_val = df_filtered[selected_crime].min()
    max_val = df_filtered[selected_crime].max()
    colormap = cm.linear.YlOrRd_09.scale(min_val, max_val)
    colormap.caption = f"Cantidad de {selected_crime}"
    colormap.add_to(m)

    # Función para asignar estilo con transparencia
    def style_function(feature):
        value = feature["properties"].get(selected_crime, 0)
        return {
            "fillColor": colormap(value),
            "color": "black",
            "weight": 1,
            "fillOpacity": 0.6,  # Ajustar transparencia
        }


    geojson_data = df_filtered[['geometry', 'DISTRITOS', selected_crime]].__geo_interface__

    # Añadir los distritos filtrados como GeoJSON con el estilo definido
    folium.GeoJson(
        geojson_data,
        name=f"{selected_crime} en {selected_date}",
        style_function=style_function,
        tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", selected_crime],
                                      aliases=["Distrito:", f"Cantidad de {selected_crime}:"],
                                      localize=True,
                                      labels=True,
                                      sticky=True)
    ).add_to(m)

    # Añadir control de capas
    folium.LayerControl().add_to(m)

    # Mostrar el mapa directamente en Colab
    display(m)

# Crear los widgets interactivos para seleccionar el delito y la fecha
crime_selector = widgets.Dropdown(
    options=delitos,
    value=delitos[0],
    description='Delito:',
)

date_selector = widgets.Dropdown(
    options=fechas,
    value=fechas[0],
    description='Fecha:',
)

# Usar interact para actualizar el mapa al seleccionar una opción
widgets.interactive(actualizar_mapa, selected_crime=crime_selector, selected_date=date_selector)

También como una animación para poder ver el cambio al ritmo que quieras al mover el slider.

In [None]:
# Función para actualizar el mapa según el tipo de delito y la fecha seleccionados
def actualizar_mapa(selected_crime, selected_date):
    # Filtrar el DataFrame por el delito y la fecha seleccionados
    df_filtered = df_union[(df_union['Fecha_str'] == selected_date) & (df_union[selected_crime].notna())]

    # Limpiar el mapa antes de añadir nuevas capas
    m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

    # Añadir capa de fondo de Google Maps (satélite)
    folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                     attr="Google", name="Google Satellite").add_to(m)

    # Calcular el rango de los valores del delito seleccionado usando todo el conjunto de datos
    min_val = df_union[selected_crime].min()  # Valores mínimos históricos
    max_val = df_union[selected_crime].max()  # Valores máximos históricos
    colormap = cm.linear.YlOrRd_09.scale(min_val, max_val)
    colormap.caption = f"Cantidad de {selected_crime}"
    colormap.add_to(m)

    # Función para asignar estilo con transparencia
    def style_function(feature):
        value = feature["properties"].get(selected_crime, 0)
        return {
            "fillColor": colormap(value),
            "color": "black",
            "weight": 1,
            "fillOpacity": 0.6,  # Ajustar transparencia
        }


    geojson_data = df_filtered[['geometry', 'DISTRITOS', selected_crime]].__geo_interface__

    # Añadir los distritos filtrados como GeoJSON con el estilo definido
    folium.GeoJson(
        geojson_data,
        name=f"{selected_crime} en {selected_date}",
        style_function=style_function,
        tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", selected_crime],
                                      aliases=["Distrito:", f"Cantidad de {selected_crime}:"],
                                      localize=True,
                                      labels=True,
                                      sticky=True)
    ).add_to(m)

    # Agregar título como un texto HTML sobre el mapa
    title_html = f'<h3 align="center" style="font-size: 24px; color: black; font-weight: bold;">Fecha: {selected_date}</h3>'
    m.get_root().html.add_child(folium.Element(title_html))

    # Añadir control de capas
    folium.LayerControl().add_to(m)

    # Mostrar el mapa directamente en Colab
    display(m)

# Crear los widgets interactivos para seleccionar el delito y la fecha
crime_selector = widgets.Dropdown(
    options=delitos,
    value=delitos[0],
    description='Delito:',
)

# Slider de fecha para seleccionar la fecha manualmente
date_slider = widgets.IntSlider(
    value=0,
    min=0,
    max=len(fechas) - 1,
    step=1,
    description="Fecha:",
    style={'description_width': 'initial'},
)

# Función para actualizar el mapa con la fecha seleccionada
def update_map_with_date(selected_crime, date_index):
    selected_date = fechas[date_index]
    actualizar_mapa(selected_crime, selected_date)

# Usar interactive para actualizar el mapa con el slider
widgets.interactive(update_map_with_date, selected_crime=crime_selector, date_index=date_slider)

Y por último mostrando dos capas superpuestas para poder comparar entre dos fechas en concreto más facilmente.

In [None]:
# Función para actualizar el mapa con dos fechas seleccionadas
def actualizar_mapa_comparativo(selected_crime, selected_date1, selected_date2):
    m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

    # Añadir capa de fondo satelital
    folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                     attr="Google", name="Google Satellite").add_to(m)

    # Obtener el rango global del delito
    min_val = df_union[selected_crime].min()
    max_val = df_union[selected_crime].max()
    colormap = cm.linear.YlOrRd_09.scale(min_val, max_val)
    colormap.caption = f"Cantidad de {selected_crime}"
    colormap.add_to(m)

    # Función para el estilo de los polígonos
    def style_function(feature, opacity):
        value = feature["properties"].get(selected_crime, 0)
        return {
            "fillColor": colormap(value),
            "color": "black",
            "weight": 1,
            "fillOpacity": opacity,  # Opacidad ajustable para comparación
        }

    # Filtrar los datos para cada fecha
    df_filtered1 = df_union[(df_union['Fecha_str'] == selected_date1) & (df_union[selected_crime].notna())]
    df_filtered2 = df_union[(df_union['Fecha_str'] == selected_date2) & (df_union[selected_crime].notna())]

    # Agregar la primera capa de GeoJSON con menor opacidad
    geojson_data1 = df_filtered1[['geometry', 'DISTRITOS', selected_crime]].__geo_interface__
    folium.GeoJson(
        geojson_data1,
        name=f"{selected_crime} en {selected_date1}",
        style_function=lambda feature: style_function(feature, opacity=0.4),  # Menos opacidad para comparación
        tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", selected_crime],
                                      aliases=["Distrito:", f"Cantidad de {selected_crime}:"],
                                      localize=True, labels=True, sticky=True)
    ).add_to(m)

    # Agregar la segunda capa de GeoJSON con mayor opacidad
    geojson_data2 = df_filtered2[['geometry', 'DISTRITOS', selected_crime]].__geo_interface__
    folium.GeoJson(
        geojson_data2,
        name=f"{selected_crime} en {selected_date2}",
        style_function=lambda feature: style_function(feature, opacity=0.8),  # Mayor opacidad para destacar
        tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS", selected_crime],
                                      aliases=["Distrito:", f"Cantidad de {selected_crime}:"],
                                      localize=True, labels=True, sticky=True)
    ).add_to(m)

    # Agregar título
    title_html = f'<h3 align="center" style="font-size: 24px; color: black; font-weight: bold;">Comparación de {selected_date1} vs {selected_date2}</h3>'
    m.get_root().html.add_child(folium.Element(title_html))

    # Agregar control de capas
    folium.LayerControl().add_to(m)

    # Mostrar el mapa
    display(m)

# Widgets interactivos para la comparación
crime_selector = widgets.Dropdown(options=delitos, value=delitos[0], description='Delito:')
date_selector1 = widgets.Dropdown(options=fechas, value=fechas[0], description='Fecha 1:')
date_selector2 = widgets.Dropdown(options=fechas, value=fechas[-1], description='Fecha 2:')

# Interfaz interactiva
widgets.interactive(actualizar_mapa_comparativo, selected_crime=crime_selector, selected_date1=date_selector1, selected_date2=date_selector2)

## **4. RESULTADOS**

#4.1 RESULTADOS EDA

Una vez explorados y preparados los datos comenzamos a generar resultados. En primer lugar, generamos histogramas y otro tipo de gráficos para ver la distribución de delitos cometidos. En el siguiente gráfico podemos ver la evolución de los tipos de delitos durante la última década.

In [None]:
# Filtramos el DataFrame para mantener solo las columnas de interés
df_filtered = df_union[['Fecha'] + delitos]

# Número de subgráficos a crear (uno por cada tipo de delito)
n = len(delitos)

# Crear una figura con múltiples subgráficos (ajustamos el tamaño de la figura dependiendo de cuántos gráficos hay)
fig, axes = plt.subplots(n, 1, figsize=(10, 6 * n))

# Si solo hay un gráfico, axes no será un array, así que nos aseguramos de tratarlo como tal
if n == 1:
    axes = [axes]

# Iteramos sobre los delitos y creamos los gráficos
for i, column in enumerate(delitos):
    # Agrupamos por fecha y sumamos los delitos de ese tipo
    daily_crimes = df_filtered.groupby('Fecha')[column].sum()

    # Graficamos
    axes[i].plot(daily_crimes.index, daily_crimes, label=column, color='tab:blue')
    axes[i].set_title(f"Evolución de {column.lower()} por fecha")
    axes[i].set_xlabel('Fecha')
    axes[i].set_ylabel(f'Número de {column.lower()}')
    axes[i].tick_params(axis='x', rotation=45)  # Rotamos las etiquetas de la fecha
    axes[i].legend()
    axes[i].grid(True)

# Ajustamos el layout para evitar solapamiento
plt.tight_layout()
plt.show()

Después comprobamos en qué lugar y fecha se han cometido más delitos de cada tipo.

In [None]:
# Filtramos las filas donde 'DISTRITOS' no es NaN
df_filtered = df_union[df_union['DISTRITOS'].notna()]

# Iteramos solo sobre las columnas de delitos
for columna in delitos:
    if columna in df_filtered.columns and pd.api.types.is_numeric_dtype(df_filtered[columna]):
        max_index = df_filtered[columna].idxmax()  # Obtenemos el índice del valor máximo
        max_distrito = df_filtered.loc[max_index, 'DISTRITOS']  # Distrito correspondiente
        max_fecha = df_filtered.loc[max_index, 'Fecha']  # Fecha correspondiente
        print(f"Distrito con más delitos en '{columna.lower()}': {max_distrito} en la fecha {max_fecha}")

Ahora generamos un gráfico interactivo que permita al usuario introducir el tipo de delito y fecha que desee visualizar, utilizando desplegables.

In [None]:
# Eliminar la columna 'geometry' antes de hacer cualquier operación de agrupamiento ya que da problemas.
df_union_sin_geometry = df_union.drop(columns=['geometry',  'Mes', 'mes', 'Area',
                                               'Area_ha', 'Area_km2', 'cod_distrito', 'poblacion',
                                               'pob_hombres', 'pob_mujeres', 'densidad_pob_km2',
                                               'densidad_pob_ha', 'densidad_pob_hombres',
                                               'densidad_pob_mujeres', 'densidad_pob_hombres_ha',
                                               'densidad_pob_mujeres_ha'])

# Crear el widget desplegable para seleccionar el tipo de delito.
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Crear el widget de opción para seleccionar cómo agrupar los datos (por fecha, distrito o año)
dropdown_agrupacion = widgets.Dropdown(
    options=['Fecha', 'DISTRITOS', 'AÑO'],
    description='Agrupar por:',
    value='Fecha',  # Valor por defecto
    disabled=False
)

# Crear el widget para seleccionar el distrito
dropdown_distrito = widgets.Dropdown(
    options=['Todos'] + list(df_union_sin_geometry['DISTRITOS'].unique()),
    description='Distrito:',
    value='Todos',  # Valor por defecto 'Todos'
    disabled=False
)


# Función para actualizar el gráfico según la selección del usuario
def actualizar_grafico(tipo_delito_seleccionado, agrupacion_seleccionada, distrito_seleccionado):
    # Si se ha seleccionado un distrito específico, filtrar los datos por ese distrito
    if distrito_seleccionado != 'Todos':
        df_filtrado = df_union_sin_geometry[df_union_sin_geometry['DISTRITOS'] == distrito_seleccionado]
    else:
        df_filtrado = df_union_sin_geometry  # Si se selecciona 'Todos', no filtrar por distrito

    # Seleccionar solo las columnas numéricas para realizar la agregación
    columnas_numericas = df_filtrado.select_dtypes(include=['number']).columns

    # Agrupar los datos por la opción seleccionada, asegurándose de no incluir la columna 'geometry'
    if agrupacion_seleccionada == 'Fecha':
        # Agrupar por fecha
        datos_agrupados = df_filtrado.groupby('Fecha')[columnas_numericas].sum()
    elif agrupacion_seleccionada == 'DISTRITOS':
        # Agrupar por distrito
        datos_agrupados = df_filtrado.groupby('DISTRITOS')[columnas_numericas].sum()
    elif agrupacion_seleccionada == 'AÑO':
        # Agrupar por Año
        datos_agrupados = df_filtrado.groupby('Año')[columnas_numericas].sum()

    # Seleccionar la columna de tipo de delito seleccionada
    tipo_delito = datos_agrupados[tipo_delito_seleccionado]

    # Graficar el total de delitos por tipo en el tiempo o distrito
    plt.figure(figsize=(12, 8))

    # Graficar los delitos por fecha, distrito o año, dependiendo de la selección
    tipo_delito.plot(kind='bar', stacked=True, figsize=(12, 8))

    # Personalizar la gráfica
    plt.title(f'Número total de delitos de tipo "{tipo_delito_seleccionado}" agrupados por {agrupacion_seleccionada}')
    plt.xlabel(agrupacion_seleccionada)
    plt.ylabel('Cantidad de delitos')

    # Ajustar las etiquetas del eje X dependiendo de la agrupación
    if agrupacion_seleccionada == 'Fecha':
        # Obtener las posiciones de los ticks en el eje X
        ticks_pos = range(len(tipo_delito))

        # Mostrar solo 1 de cada 6 etiquetas en el eje X porque no entran bien
        plt.xticks(ticks_pos[::6], tipo_delito.index.strftime('%Y-%m')[::6], rotation=90, fontsize=7)
    else:
        # Para otros casos (DISTRITOS o AÑO), no cambiar las etiquetas
        plt.xticks(rotation=90, fontsize=7)

    plt.tight_layout()
    plt.legend(title='Tipo de delito')
    plt.show()

# Mostrar los widgets y vincularlos a la función de actualización
widgets.interactive(actualizar_grafico,
                    tipo_delito_seleccionado=dropdown_tipo_delito,
                    agrupacion_seleccionada=dropdown_agrupacion,
                    distrito_seleccionado=dropdown_distrito)

A continuación creamos un mapa de calor para ver como se relacionan entre sí las distintas variables con las que contamos en nuestra base de datos. Si nos centramos en la relación entre los distintos tipos de delitos y otras variables podemos ver que la presencia de algunos tipos de delitos presenta una correlación positiva con la presencia de otros tipos de delitos. Algunos de estos ejemplos tienen bastante lógica, como la relación positiva que se da entre delitos por tenencia de drogas y delitos por consumo de drogas. También parece existir una correlación positiva entre varios tipos de delitos y la densidad de habitantes. En cambio, no parece haber ningún tipo de relación entre la proporción de superficies verdes y los delitos cometidos.

In [None]:
# Crear mapa de calor para los tipos de delitos
plt.figure(figsize = (14,8))
sns.heatmap(df_union[[ 'RELACIONADAS CON LAS PERSONAS',
       'RELACIONADAS CON EL PATRIMONIO', 'POR TENENCIA DE ARMAS',
       'POR TENENCIA DE DROGAS', 'POR CONSUMO DE DROGAS',
       'PROPIEDAD INTELECTUAL E INDUSTRIAL', 'INFRACCIONES ALIMENTARIAS',
       'INSPECCIONES Y ACTUACIONES', 'CON HERIDOS', 'SIN HERIDOS', 'ADULTOS',
       'MENORES',   'Area',  'densidad_pob_ha',   'superficie_zonas_verdes_ha',
        'proporcion_zonas_verdes']].corr(),annot=True,square=True,
            cmap='RdBu',
            vmax=1,
            vmin=-1)
plt.title('Correlación entre variables',size=18);
plt.xticks(size=12)
plt.yticks(size=12)
plt.show()

Con el siguiente gráfico de bigotes podemos observar datos como la media de un determinado delito para una fecha y lugar en concreto. También podemos ver como muchos de los datos utilizados son interpretados como outlayers, lo cual es importante si en un fututo quisieramos realizar un estudio estadístico más avanzado.

In [None]:
# Crear el widget desplegable para seleccionar el tipo de delito
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Crear el widget de opción para seleccionar cómo agrupar los datos (por fecha, distrito o año)
dropdown_agrupacion = widgets.Dropdown(
    options=['DISTRITOS', 'AÑO'],
    description='Agrupar por:',
    value='AÑO',  # Valor por defecto
    disabled=False
)

# Crear el widget para seleccionar el distrito
dropdown_distrito = widgets.Dropdown(
    options=['Todos'] + list(df_union_sin_geometry['DISTRITOS'].unique()),
    description='Distrito:',
    value='Todos',  # Valor por defecto 'Todos'
    disabled=False
)

# Función para actualizar el gráfico de delitos
def actualizar_grafico(tipo_delito_seleccionado, agrupacion_seleccionada, distrito_seleccionado):
    # Si se ha seleccionado un distrito específico, filtrar los datos por ese distrito
    if distrito_seleccionado != 'Todos':
        df_filtrado = df_union_sin_geometry[df_union_sin_geometry['DISTRITOS'] == distrito_seleccionado]
    else:
        df_filtrado = df_union_sin_geometry  # Si se selecciona 'Todos', no filtrar por distrito

    # Seleccionar solo las columnas numéricas para realizar la agregación
    columnas_numericas = df_filtrado.select_dtypes(include=['number']).columns

    # Seleccionar la columna de tipo de delito
    tipo_delito = df_filtrado[tipo_delito_seleccionado]

    # Graficar el boxplot de los delitos por tipo (por distrito o año)
    plt.figure(figsize=(12, 8))

    # Boxplot sin agrupación, mostrando todos los registros
    if agrupacion_seleccionada == 'DISTRITOS':
        # Boxplot mostrando todos los registros por distrito
        df_filtrado.boxplot(column=tipo_delito_seleccionado, by='DISTRITOS', vert=False, patch_artist=True, figsize=(12, 8))
    elif agrupacion_seleccionada == 'AÑO':
        # Boxplot mostrando todos los registros por año
        df_filtrado.boxplot(column=tipo_delito_seleccionado, by='Año', vert=False, patch_artist=True, figsize=(12, 8))

    # Personalizar la gráfica
    plt.title(f'Distribución de delitos de tipo "{tipo_delito_seleccionado}"')
    plt.suptitle('')  # Eliminar título por defecto de 'by'
    plt.xlabel('Cantidad de delitos')
    plt.ylabel(agrupacion_seleccionada)

    # Ajustar los valores del eje X
    plt.xticks(rotation=90, fontsize=7)

    # Ajustar el tamaño de los valores en el eje Y (sin "Fecha")
    plt.yticks(fontsize=7)

    plt.tight_layout()
    plt.show()

# Mostrar los widgets y vincularlos a la función de actualización
widgets.interactive(actualizar_grafico,
                    tipo_delito_seleccionado=dropdown_tipo_delito,
                    agrupacion_seleccionada=dropdown_agrupacion,
                    distrito_seleccionado=dropdown_distrito)

A continuación generamos gráficos de dispersión para poder ver la distribución de los datos de estudio según la fecha, tipo de delito y distrito. El primero de los gráficos es con los datos agrupados por periodo de tiempo y el siguiente con los datos brutos.

In [None]:
# Crear el widget desplegable para seleccionar el tipo de delito
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Crear el widget de opción para seleccionar cómo agrupar los datos (por fecha, distrito o año)
dropdown_agrupacion = widgets.Dropdown(
    options=['Fecha', 'DISTRITOS', 'AÑO'],  # Agregar la opción 'AÑO'
    description='Agrupar por:',
    value='Fecha',  # Valor por defecto
    disabled=False
)

# Crear el widget para seleccionar el distrito
dropdown_distrito = widgets.Dropdown(
    options=['Todos'] + list(df_union_sin_geometry['DISTRITOS'].unique()),
    description='Distrito:',
    value='Todos',  # Valor por defecto 'Todos'
    disabled=False
)

# Función para actualizar el gráfico de dispersión
def actualizar_grafico(tipo_delito_seleccionado, agrupacion_seleccionada, distrito_seleccionado):
    # Si se ha seleccionado un distrito específico, filtrar los datos por ese distrito
    if distrito_seleccionado != 'Todos':
        df_filtrado = df_union_sin_geometry[df_union_sin_geometry['DISTRITOS'] == distrito_seleccionado]
    else:
        df_filtrado = df_union_sin_geometry  # Si se selecciona 'Todos', no filtrar por distrito

    # Seleccionar solo las columnas numéricas para realizar la agregación
    columnas_numericas = df_filtrado.select_dtypes(include=['number']).columns

    # Agrupar los datos por la opción seleccionada, asegurándose de no incluir la columna 'geometry'
    if agrupacion_seleccionada == 'Fecha':
        # Agrupar por fecha
        datos_agrupados = df_filtrado.groupby('Fecha')[columnas_numericas].sum()
    elif agrupacion_seleccionada == 'DISTRITOS':
        # Agrupar por distrito
        datos_agrupados = df_filtrado.groupby('DISTRITOS')[columnas_numericas].sum()
    elif agrupacion_seleccionada == 'AÑO':
        # Agrupar por Año
        datos_agrupados = df_filtrado.groupby('Año')[columnas_numericas].sum()

    # Seleccionar la columna de tipo de delito seleccionada
    tipo_delito = datos_agrupados[tipo_delito_seleccionado]

    # Graficar el gráfico de dispersión de los delitos por tipo (por fecha, distrito o año)
    plt.figure(figsize=(12, 8))

    # Gráfico de dispersión agrupado por fecha, distrito o año
    if agrupacion_seleccionada == 'Fecha':
        # Dispersión agrupada por fecha
        plt.scatter(datos_agrupados.index, tipo_delito, color='blue', alpha=0.6)
    elif agrupacion_seleccionada == 'DISTRITOS':
        # Dispersión agrupada por distrito
        plt.scatter(datos_agrupados.index, tipo_delito, color='green', alpha=0.6)
    elif agrupacion_seleccionada == 'AÑO':
        # Dispersión agrupada por año
        plt.scatter(datos_agrupados.index, tipo_delito, color='red', alpha=0.6)

    # Personalizar la gráfica
    plt.title(f'Distribución de delitos de tipo "{tipo_delito_seleccionado}" agrupados por {agrupacion_seleccionada}')
    plt.xlabel(agrupacion_seleccionada)
    plt.ylabel(f'Cantidad de delitos de tipo "{tipo_delito_seleccionado}"')

    # Ajustar el tamaño de los valores en el eje X
    plt.xticks(rotation=90, fontsize=7)

    plt.tight_layout()
    plt.show()

# Mostrar los widgets y vincularlos a la función de actualización
widgets.interactive(actualizar_grafico,
                    tipo_delito_seleccionado=dropdown_tipo_delito,
                    agrupacion_seleccionada=dropdown_agrupacion,
                    distrito_seleccionado=dropdown_distrito)

In [None]:
# Crear el widget desplegable para seleccionar el tipo de delito
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Crear el widget de opción para seleccionar cómo agrupar los datos (por fecha, distrito o año)
dropdown_agrupacion = widgets.Dropdown(
    options=['Fecha', 'DISTRITOS', 'AÑO'],  # Agregar la opción 'AÑO'
    description='Agrupar por:',
    value='Fecha',  # Valor por defecto
    disabled=False
)

# Crear el widget para seleccionar el distrito
dropdown_distrito = widgets.Dropdown(
    options=['Todos'] + list(df_union_sin_geometry['DISTRITOS'].unique()),
    description='Distrito:',
    value='Todos',  # Valor por defecto 'Todos'
    disabled=False
)

# Función para actualizar el gráfico de dispersión
def actualizar_grafico(tipo_delito_seleccionado, agrupacion_seleccionada, distrito_seleccionado):
    # Si se ha seleccionado un distrito específico, filtrar los datos por ese distrito
    if distrito_seleccionado != 'Todos':
        df_filtrado = df_union_sin_geometry[df_union_sin_geometry['DISTRITOS'] == distrito_seleccionado]
    else:
        df_filtrado = df_union_sin_geometry  # Si se selecciona 'Todos', no filtrar por distrito

    # Seleccionar solo las columnas numéricas para realizar la agregación
    columnas_numericas = df_filtrado.select_dtypes(include=['number']).columns

    # Seleccionar los registros individuales (sin agrupar)
    tipo_delito = df_filtrado[tipo_delito_seleccionado]

    # Graficar el gráfico de dispersión de los delitos por tipo (sin agrupar por fecha, distrito o año)
    plt.figure(figsize=(12, 8))

    # Dispersión de los delitos individuales
    if agrupacion_seleccionada == 'Fecha':
        plt.scatter(df_filtrado['Fecha'], tipo_delito, color='blue', alpha=0.6, label="Fecha")
    elif agrupacion_seleccionada == 'DISTRITOS':
        plt.scatter(df_filtrado['DISTRITOS'], tipo_delito, color='green', alpha=0.6, label="Distrito")
    elif agrupacion_seleccionada == 'AÑO':
        plt.scatter(df_filtrado['Año'], tipo_delito, color='red', alpha=0.6, label="Año")

    # Personalizar la gráfica
    plt.title(f'Distribución de delitos de tipo "{tipo_delito_seleccionado}" sin agrupar por {agrupacion_seleccionada}')
    plt.xlabel(agrupacion_seleccionada)
    plt.ylabel(f'Cantidad de delitos de tipo "{tipo_delito_seleccionado}"')

    # Ajustar el tamaño de los valores en el eje X
    plt.xticks(rotation=90, fontsize=7)

    # Agregar leyenda
    plt.legend()

    plt.tight_layout()
    plt.show()

# Mostrar los widgets y vincularlos a la función de actualización
widgets.interactive(actualizar_grafico,
                    tipo_delito_seleccionado=dropdown_tipo_delito,
                    agrupacion_seleccionada=dropdown_agrupacion,
                    distrito_seleccionado=dropdown_distrito)

Después, utilizamos la función describe para mostrar algunas estadísticas interesantes en relación a cada tipo de delito.

In [None]:
df_union[[ 'RELACIONADAS CON LAS PERSONAS',
       'RELACIONADAS CON EL PATRIMONIO', 'POR TENENCIA DE ARMAS',
       'POR TENENCIA DE DROGAS', 'POR CONSUMO DE DROGAS',
       'PROPIEDAD INTELECTUAL E INDUSTRIAL', 'INFRACCIONES ALIMENTARIAS',
       'INSPECCIONES Y ACTUACIONES', 'CON HERIDOS', 'SIN HERIDOS', 'ADULTOS',
       'MENORES']].describe()

También creamos una tabla en la que poder ver estas estadísticas en función del tipo de delito y el lugar en el que se cometen.

In [None]:
# Crear el widget desplegable para seleccionar el tipo de delito
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Crear el desplegable para elegir el distrito
dropdown_distrito = widgets.Dropdown(
    options=['Todos'] + list(df_union_sin_geometry['DISTRITOS'].unique()),
    value='Todos',  # Valor por defecto
    description='Distrito:',
    disabled=False
)

# Función para calcular todas las estadísticas y mostrarlas en una tabla
def calcular_estadisticas(tipo_columna, distrito_seleccionado):
    if tipo_columna in df_union_sin_geometry.columns:
        # Filtrar los datos por distrito, si no es 'Todos'
        if distrito_seleccionado != 'Todos':
            df_filtrado = df_union_sin_geometry[df_union_sin_geometry['DISTRITOS'] == distrito_seleccionado]
        else:
            df_filtrado = df_union_sin_geometry  # Si 'Todos', no filtrar por distrito

        # Calcular todas las estadísticas de forma simultánea
        media = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].mean()
        mediana = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].median()
        desviacion_estandar = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].std()
        maximo = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].max()
        minimo = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].min()
        cuartiles = df_filtrado.groupby(['Año', 'DISTRITOS'])[tipo_columna].quantile([0.25, 0.5, 0.75])

        # Crear un DataFrame con todas las estadísticas
        stats_df = pd.DataFrame({
            'Media': media,
            'Mediana': mediana,
            'Desviación Estándar': desviacion_estandar,
            'Máximo': maximo,
            'Mínimo': minimo
        })

        # Convertir los cuartiles en un DataFrame
        cuartiles_df = cuartiles.unstack(level=-1).rename(columns={0.25: 'Q1', 0.5: 'Mediana', 0.75: 'Q3'})

        # Concatenar los cuartiles al DataFrame de estadísticas
        result_df = pd.concat([stats_df, cuartiles_df], axis=1)

        # Mostrar la tabla resultante
        display(result_df)
    else:
        print(f"El tipo de columna '{tipo_columna}' no es válido.")

# Conectar los widgets con la función
widgets.interactive(calcular_estadisticas, tipo_columna=dropdown_tipo_delito, distrito_seleccionado=dropdown_distrito)

También generamos pairplots, para ver la relación entre los distintos tipos de delitos. Debido a que la base de datos maneja varios tipos de delito, la visibilidad de los distintos gráficos no es muy buena pero a pesar de ello se puede apreciar como entre muchos de los delitos no existe relación y en los que si que existe la relación es positiva.

In [None]:
# Crear el pairplot
sns.pairplot(df_union[[ 'RELACIONADAS CON LAS PERSONAS',
       'RELACIONADAS CON EL PATRIMONIO', 'POR TENENCIA DE ARMAS',
       'POR TENENCIA DE DROGAS', 'POR CONSUMO DE DROGAS',
       'PROPIEDAD INTELECTUAL E INDUSTRIAL', 'INFRACCIONES ALIMENTARIAS',
       'INSPECCIONES Y ACTUACIONES', 'CON HERIDOS', 'SIN HERIDOS', 'ADULTOS',
       'MENORES']],
             markers="+",
             diag_kind="kde",
             kind='reg',
             plot_kws={'line_kws': {'color': '#aec6cf'},
                       'scatter_kws': {'alpha': 0.7, 'color': 'red'}},
             corner=True)

También hemos generado un gráfico de sectores, que nos permite estudiar con facilidad que tipo de delito es el más habitual en cada distrito.

In [None]:
# Crear el widget desplegable para seleccionar el tipo de delito
dropdown_tipo_delito = widgets.Dropdown(
    options=delitos,
    description='Tipo de delito:',
    value='MENORES',  # Valor por defecto
    disabled=False
)

# Función para actualizar el gráfico de sectores
def actualizar_grafico(tipo_delito_seleccionado):
    # Filtrar los datos para contar los delitos por distrito
    tipo_delito = df_union_sin_geometry[tipo_delito_seleccionado]

    # Contar los delitos por distrito
    delitos_por_distrito = df_union_sin_geometry.groupby('DISTRITOS')[tipo_delito_seleccionado].sum()

    # Crear el gráfico de sectores
    plt.figure(figsize=(10, 8))
    wedges, texts, autotexts = plt.pie(delitos_por_distrito,
                                       autopct='%1.1f%%',
                                       startangle=90,
                                       colors=plt.cm.Paired.colors,
                                       textprops={'fontsize': 6})  # Ajustar el tamaño de la fuente para los porcentajes

    # Personalizar el gráfico
    plt.title(f'Distribución de delitos de tipo "{tipo_delito_seleccionado}" por distrito')
    plt.axis('equal')  # Aseguramos que el gráfico sea un círculo perfecto

    # Crear la leyenda
    plt.legend(wedges, delitos_por_distrito.index, title="Distritos", loc="center left", bbox_to_anchor=(1, 0.5))

    plt.tight_layout()
    plt.show()

# Mostrar los widgets y vincularlos a la función de actualización
widgets.interactive(actualizar_grafico, tipo_delito_seleccionado=dropdown_tipo_delito)

Después de esto, creamos gráficos en los que se muestre la tendencia a lo largo del tiempo de los delitos en cada distrito. Al igual que en gráficos anteriores el usuario puede seleccionar que tipo de delito quiere estudiar y en que zona o periodo de tiempo. Si observamos los resultados obtenidos podemos ver como en la mayoría de delitos o hay una tendencia negativa (disminución con el paso del tiempo) o no hay ninguna tendencia (los delitos se mantienen relativamente estables con el paso del tiempo). Para saber las causas de esta disminución habría que hacer un estudio más profundo que tenga en cuenta la fecha de implementación de legislación que controle estos delitos, la evolución de los efectivos de las fuerzas de seguridad, el estado socio-económico y otros muchos factores que pueden estar influyendo en estos resultados.

In [None]:
# Obtener los distritos únicos
distritos_2 = df_union['DISTRITOS'].unique()

# Función para graficar los delitos agrupados por año o mes, y distrito con regresión lineal
def graficar_delito(periodo, delito, lugar):
    if lugar == 'Todos los lugares':
        if periodo == 'Año':
            # Agrupar por año (para todos los lugares)
            delitos_por_periodo = df_union.groupby('Año')[delito].sum()
        elif periodo == 'Mes':
            # Agrupar por mes (para todos los lugares)
            delitos_por_periodo = df_union.groupby('mes')[delito].sum()
            # Ordenar los meses numéricamente
            delitos_por_periodo = delitos_por_periodo.sort_index()  # Asegura que los meses estén ordenados
    else:
        if periodo == 'Año':
            # Agrupar por distrito y año (solo para el distrito seleccionado)
            delitos_por_periodo = df_union[df_union['DISTRITOS'] == lugar].groupby('Año')[delito].sum()
        elif periodo == 'Mes':
            # Agrupar por distrito y mes (solo para el distrito seleccionado)
            delitos_por_periodo = df_union[df_union['DISTRITOS'] == lugar].groupby('mes')[delito].sum()
            # Ordenar los meses numéricamente
            delitos_por_periodo = delitos_por_periodo.sort_index()  # Asegura que los meses estén ordenados

    # Aplicar regresión lineal
    X = np.array(delitos_por_periodo.index).reshape(-1, 1)  # Convertir el índice a un formato numérico
    y = delitos_por_periodo.values  # Valores de los delitos

    # Crear y ajustar el modelo de regresión lineal
    model = LinearRegression()
    model.fit(X, y)

    # Predecir los valores ajustados (línea de regresión)
    y_pred = model.predict(X)

    # Obtener la pendiente y el R cuadrado
    pendiente = model.coef_[0]  # Pendiente
    r_cuadrado = model.score(X, y)  # R cuadrado

    # Graficar los datos originales y la regresión lineal
    plt.figure(figsize=(10, 6))
    plt.plot(delitos_por_periodo.index, y, label='Datos originales', marker='o')
    plt.plot(delitos_por_periodo.index, y_pred, label='Tendencia (Regresión lineal)', linestyle='--', color='red')
    plt.title(f'Evolución de los delitos: {delito} por {periodo} en {lugar}')
    plt.xlabel(periodo)
    plt.ylabel('Número de delitos')
    plt.grid(True)
    plt.legend()
    plt.xticks(rotation=45)

    # Si es por mes, cambiamos las etiquetas para los meses
    if periodo == 'Mes':
        plt.xticks(ticks=range(1, 13), labels=['Enero', 'Febrero', 'Marzo', 'Abril', 'Mayo', 'Junio',
                                                'Julio', 'Agosto', 'Septiembre', 'Octubre', 'Noviembre', 'Diciembre'])

    # Mostrar la pendiente y R cuadrado en el gráfico
    plt.text(0.3, 0.95, f'Pendiente: {pendiente:.4f}', transform=plt.gca().transAxes, fontsize=12, color='blue')
    plt.text(0.3, 0.90, f'R²: {r_cuadrado:.4f}', transform=plt.gca().transAxes, fontsize=12, color='blue')

    plt.show()

# Crear el widget para seleccionar el delito
dropdown_delito = widgets.Dropdown(
    options=delitos,
    value=delitos[0],  # Seleccionar el primer delito por defecto
    description='Delito:',
    disabled=False
)

# Crear el widget para seleccionar el periodo (Año o Mes)
dropdown_periodo = widgets.Dropdown(
    options=['Año', 'Mes'],
    value='Año',  # Seleccionar por defecto Año
    description='Período:',
    disabled=False
)

# Crear el widget para seleccionar el lugar (Todos los lugares o uno específico)
dropdown_lugar = widgets.Dropdown(
    options=['Todos los lugares'] + list(distritos_2),  # Agregar la opción de 'Todos los lugares'
    value='Todos los lugares',  # Seleccionar por defecto 'Todos los lugares'
    description='Lugar:',
    disabled=False
)

# Crear la interacción
widgets.interactive(graficar_delito, periodo=dropdown_periodo, delito=dropdown_delito, lugar=dropdown_lugar)

Para facilitar el acceso a varios resultados de manera simultánea a continuación generamos una tabla con los distintos resultados de la pendiente y R cuadrado.

In [None]:
# Desactivar los warnings
warnings.simplefilter('ignore')

# Crear un DataFrame vacío para almacenar los resultados
resultados = pd.DataFrame(columns=["Delito", "Distrito", "Período", "Pendiente", "R²"])

# Función para calcular la pendiente y el R cuadrado
def calcular_resultados(periodo, delito, distrito_seleccionado):
    global resultados

    if delito in df_union.columns:
        if distrito_seleccionado != 'Todos':
            # Filtrar por distrito
            df_filtrado = df_union[df_union['DISTRITOS'] == distrito_seleccionado]
        else:
            df_filtrado = df_union  # Si 'Todos', no filtrar por distrito

        if periodo == 'Año':
            # Agrupar por año (para todos los lugares o para un distrito)
            delitos_por_periodo = df_filtrado.groupby('Año')[delito].sum()
        elif periodo == 'Mes':
            # Agrupar por mes (para todos los lugares o para un distrito)
            delitos_por_periodo = df_filtrado.groupby('mes')[delito].sum()
            delitos_por_periodo = delitos_por_periodo.sort_index()  # Asegura que los meses estén ordenados

        # Aplicar regresión lineal
        X = np.array(delitos_por_periodo.index).reshape(-1, 1)  # Convertir el índice a un formato numérico
        y = delitos_por_periodo.values  # Valores de los delitos

        # Crear y ajustar el modelo de regresión lineal
        model = LinearRegression()
        model.fit(X, y)

        # Obtener la pendiente y el R cuadrado
        pendiente = model.coef_[0]  # Pendiente
        r_cuadrado = model.score(X, y)  # R cuadrado

        # Crear un DataFrame con el resultado actual
        resultado = pd.DataFrame({"Delito": [delito], "Distrito": [distrito_seleccionado], "Período": [periodo],
                                  "Pendiente": [pendiente], "R²": [r_cuadrado]})

        # Concatenar el nuevo resultado con el DataFrame de resultados
        global resultados
        resultados = pd.concat([resultados, resultado], ignore_index=True)

# Función para calcular todos los resultados de una vez
def calcular_todos_los_resultados():
    global resultados
    resultados = pd.DataFrame(columns=["Delito", "Distrito", "Período", "Pendiente", "R²"])

    # Calcular los resultados para todos los delitos, períodos y distritos
    for delito in delitos:
        for periodo in ['Año', 'Mes']:
            for distrito in ['Todos'] + list(distritos_2):
                calcular_resultados(periodo, delito, distrito)

    # Mostrar todos los resultados en la tabla
    display(resultados)

# Crear el botón para calcular todos los resultados de una vez
boton_calcular = widgets.Button(description="Calcular todos los resultados")
boton_calcular.on_click(lambda x: calcular_todos_los_resultados())

# Mostrar el botón en la interfaz
display(boton_calcular)

Para complementar estos resultados, también se ha estudiado la estacionalidad. La estacionalidad representa las variaciones en los datos que ocurren en intervalos regulares y que pueden estar debidos a patrones recorrentes o cíclicos. En los resultados podemos observar como para la mayoría de tipos de delitos existe una estacionalidad clara, es decir, se comenten más delitos de ese tipo en ciertas epocas del año. Por ejemplo, si estudiamos el consumo de drogas en el distrito de Latina podemos ver como cada años existen picos de delitos a mitad de año y final de año, indicando que hay algún factor influenciando estos resultados. Por ejemplo, podría estudiarse si esto está relacionado con el comienzo de periodos vacacionales o con algunas festividades en concreto.

Por otra parte, también se incluye una gráfica de residuos. Los residuos son los componentes de la serie temporal que no pueden explicarse por la tendencia o la estacionalidad, representando variaciones inesperadas o no predecibles en los datos. Como se puede observar en los resultados obtenidos, los residuos varían bastante entre tipo de delitos, indicando que alguno de ellos presentan patrones claramente predecibles con el tiempo y otros no.

In [None]:
# Función para graficar los delitos
def graficar_delito(delito, lugar):
    if lugar == 'Todos los lugares':
        # Filtrar los datos según el delito seleccionado
        datos_delito = df_union[['Fecha', delito]]
    else:
        # Filtrar los datos según el distrito y delito seleccionado
        datos_delito = df_union[df_union['DISTRITOS'] == lugar][['Fecha', delito]]


    # Establecer la columna 'Fecha' como índice
    datos_delito.set_index('Fecha', inplace=True)

    # Resample para asegurarse de que los datos estén en un intervalo consistente
    datos_delito_resampled = datos_delito.resample('ME').sum()  # Resampling mensual

    # Descomposición temporal
    descomposicion = seasonal_decompose(datos_delito_resampled[delito], model='additive', period=12)  # Estacionalidad anual
    tendencia = descomposicion.trend
    estacionalidad = descomposicion.seasonal
    residuos = descomposicion.resid

    # Aplicar regresión lineal a los datos resampleados
    X = np.array(range(len(datos_delito_resampled))).reshape(-1, 1)  # Usamos el índice como variable temporal
    y = datos_delito_resampled[delito].values  # Valores de los delitos

    # Crear y ajustar el modelo de regresión lineal
    model = LinearRegression()
    model.fit(X, y)

    # Predecir los valores ajustados
    y_pred = model.predict(X)

    # Obtener la pendiente y el R cuadrado
    pendiente = model.coef_[0]  # Pendiente
    r_cuadrado = model.score(X, y)  # R cuadrado

    # Graficar los datos originales y la regresión lineal
    plt.figure(figsize=(12, 8))

    # Gráfico de la serie original y la tendencia
    plt.subplot(3, 1, 1)
    plt.plot(datos_delito_resampled.index, y, label='Datos originales', marker='o')
    plt.plot(datos_delito_resampled.index, tendencia, label='Tendencia', linestyle='--', color='red')
    plt.title(f'Evolución de los delitos: {delito} en {lugar}')
    plt.xlabel('Fecha')
    plt.ylabel('Número de delitos')
    plt.grid(True)
    plt.legend()

    # Estacionalidad
    plt.subplot(3, 1, 2)
    plt.plot(datos_delito_resampled.index, estacionalidad, label='Estacionalidad', color='green')
    plt.title(f'Estacionalidad de los delitos: {delito} en {lugar}')
    plt.xlabel('Fecha')
    plt.ylabel('Componente Estacional')
    plt.grid(True)
    plt.legend()

    # Residuos
    plt.subplot(3, 1, 3)
    plt.plot(datos_delito_resampled.index, residuos, label='Residuos', color='orange')
    plt.title(f'Residuos de la descomposición: {delito} en {lugar}')
    plt.xlabel('Fecha')
    plt.ylabel('Residuos')
    plt.grid(True)
    plt.legend()

    plt.tight_layout()
    plt.show()

# Crear el widget para seleccionar el delito
dropdown_delito = widgets.Dropdown(
    options=delitos,
    value=delitos[0],  # Seleccionar el primer delito por defecto
    description='Delito:',
    disabled=False
)

# Crear el widget para seleccionar el lugar (Todos los lugares o uno específico)
dropdown_lugar = widgets.Dropdown(
    options=['Todos los lugares'] + list(distritos_2),  # Agregar la opción de 'Todos los lugares'
    value='Todos los lugares',  # Seleccionar por defecto 'Todos los lugares'
    description='Lugar:',
    disabled=False
)

# Crear la interacción
widgets.interactive(graficar_delito, delito=dropdown_delito, lugar=dropdown_lugar)


**Conclusiones EDA**

Todos estos resultados nos permiten dar respuesta a algunas de las preguntas planteadas al comienzo del proyecto.

**1. ¿Cuáles son los distritos de Madrid con mayor número de delitos?**

Los distritos más céntricos, como el propio Centro o Salamanca, son en los que se cometen un mayor número de delitos.

**2.
¿Existe una correlación entre la superficie de zonas verdes y la cantidad de delitos en cada distrito?**

Los resultados nos indican que en base a los datos utilizados no existe una relación clara entre estas variables.

**3.
¿Las áreas con mayor densidad de población registran una mayor incidencia delictiva?**
La densidad de población es la variable más determinante en los delitos analizados, ya que las zonas con mayor densidad poblacional, como son los distritos del centro de la ciudad, tienen mayor concurrencia de hechos delictivos.

**4.
¿Cuál ha sido la evolución del número y tipo de delitos durante la última década?**

Existe una tendencia negativa (disminución de delitos) con el tiempo y hay un alto componente estacional para la mayoría de ellos lo que por un lado sugiere que las medidas que se hayan tomado para combatir estos delitos han sido efectivas y por otro lado, que existen factores externos que provocan repuntes de ciertos tipos de crímenes en determinadas épocas del año.


En definitiva, a partir de estos primeros resultados podemos extraer varias conclusiones. La primera de ellas es que el número de delitos no parece estar relacionados con las variables que hemos tenido en cuenta. Además, da la impresión de que podría haber algún patron espacial ya que parece haber más delitos en los distritos centrales de la ciudad. Esto lo comprobaremos a continuación en la parte espacial del análisis exploratorio de datos.

# 4.2 RESULTADOS ESDA

 Una vez hechos estos análisis estadísticos y haber sacado algunos resultados al estudiar patrones temporales, el siguiente paso es estudiar espacialmente este conjunto de datos. Dentro de este ESDA los apartados de autocorrelación global y local, clusterización, regionalización y uso de algoritmos de clasificación se realizarán a partir de los datos sobre delitos por distrito de Madrid mientras que el análisis de patrones de puntos se realizará a partir de los datos de multas.

Para comenzar el análisis de autocorrelación espacial calculamos la matriz de pesos. Como los distritos aparecen repetidos para cada fecha y su distribución espacial no cambia con el tiempo solo se calculan estos pesos una vez. En el resultado que mostramos podemos ver cuantos distritos tiene como vecino inmediato cada uno de los distritos de la ciudad de Madrid.

In [None]:
# Eliminar duplicados basados en la columna de 'DISTRITOS'
df_union_unique = df_union.drop_duplicates(subset='DISTRITOS')

# Calcular la matriz de pesos con los distritos únicos
w = weights.Queen.from_dataframe(df_union_unique, ids="DISTRITOS")

# Ver los pesos
print(w.weights)

Por ejemplo, aquí podemos ver los distritos que son vecinos del distrito de Latina.

In [None]:
w['LATINA']

Una vez calculada la matriz de pesos, normalizamos los valores ya que esto mejora los resultados de los cálculos que realizaremos posteriormente.

In [None]:
# Estandarizar la matriz de pesos
w.transform = 'R'

A continuacuón se puede ver como han cambiado los valores de los pesos.

In [None]:
w['LATINA']

Después, mostramos el nombre de los distristos vecinos de cada distrito.

In [None]:
# Verificar los vecinos de cada distrito en la matriz de pesos
print(w.neighbors)

Ahora que tenemos la matriz de pesos, podemos representar de manera gráfica la conectividad entre los distritos.

In [None]:
plot_spatial_weights(w, df_union_unique, indexed_on="DISTRITOS")

Podemos visualizarlo interactivamente para ver mejor las conexiones.

In [None]:
# Contamos los vecinos de cada distrito
vecinos = {distrito: len(w[distrito]) for distrito in df_union_unique['DISTRITOS']}

# Crear un mapa centrado en Madrid
m = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

# Añadir capa de fondo de Google Maps (satélite)
folium.TileLayer(tiles="https://mt1.google.com/vt/lyrs=s&x={x}&y={y}&z={z}",
                 attr="Google", name="Google Satellite").add_to(m)

# Crear un colormap para el número de vecinos
min_val = min(vecinos.values())
max_val = max(vecinos.values())
colormap = cm.linear.YlOrRd_09.scale(min_val, max_val)
colormap.caption = "Número de Vecinos"
colormap.add_to(m)

# Función para asignar estilo con base en el número de vecinos
def funcion_de_estilo(feature):
    id_distrito = feature['properties']['DISTRITOS']
    num_vecinos = vecinos.get(id_distrito, 0)
    return {
        'fillColor': colormap(num_vecinos),
        'color': 'black',
        'weight': 1,
        'fillOpacity': 0.6
    }

# Función para mostrar el número de vecinos en un tooltip
def funcion_tooltip(feature):
    id_distrito = feature['properties']['DISTRITOS']
    num_vecinos = vecinos.get(id_distrito, 0)
    return f"Distrito: {id_distrito}<br>Vecinos: {num_vecinos}"

# Añadir los distritos como GeoJSON con el estilo del número de vecinos
geojson_data = df_union_unique[['geometry', 'DISTRITOS']].__geo_interface__
folium.GeoJson(
    geojson_data,
    name="Número de Vecinos",
    style_function=funcion_de_estilo,
    tooltip=folium.GeoJsonTooltip(fields=["DISTRITOS"],
                                  aliases=["Distrito:"],
                                  localize=True,
                                  sticky=True)
).add_to(m)

# Función para trazar las líneas entre distritos conectados
def trazar_conexiones():
    for distrito, lista_vecinos in w.neighbors.items():
        for vecino in lista_vecinos:
            distrito_geom = df_union_unique[df_union_unique['DISTRITOS'] == distrito].geometry.iloc[0]
            vecino_geom = df_union_unique[df_union_unique['DISTRITOS'] == vecino].geometry.iloc[0]

            # Dibujar una línea entre los dos distritos
            folium.PolyLine(
                locations=[(distrito_geom.centroid.y, distrito_geom.centroid.x),
                           (vecino_geom.centroid.y, vecino_geom.centroid.x)],
                color='blue', weight=1, opacity=0.6
            ).add_to(m)

# Trazar las conexiones entre distritos
trazar_conexiones()

# Añadir control de capas
folium.LayerControl().add_to(m)

# Mostrar el mapa
display(m)

Como en nuestra base de datos contamos con información sobre varios tipos de delitos en diferentes fechas, calculamos los pesos para cada tipo de delito y fecha para poder analizar la autocorrelación espacial de cualquiera de ellos en cualquier momento. También calculamos los valores de la desviación estándar de los delitos y de la desviación estándar de los pesos de los delitos. Estas desviaciones estándar se calculan para que la magnitud de los campos no afecte al cálculo de la autocorrelación espacial. A continuación mostramos los resultados de los pesos según la fecha y el delito para cada distrito para comprobar que el resultado obtenido es coherente.

In [None]:
# Iterar sobre cada fecha única
for fecha in df_union['Fecha'].unique():
    # Filtrar los datos para esa fecha
    df_fecha = df_union[df_union['Fecha'] == fecha].copy()  # Usamos .copy() para evitar el SettingWithCopyWarning

    # Iterar sobre cada campo en la lista de delitos
    for delito in delitos:
        # 1. Calcular la desviación estándar normalizada para el campo
        df_fecha[f'{delito}_std'] = (df_fecha[delito] - df_fecha[delito].mean()) / df_fecha[delito].std()

        # 2. Aplicar el desfase espacial (lag espacial) sobre el campo original
        df_fecha[f'w_{delito}'] = weights.lag_spatial(w, df_fecha[delito].values)

        # 3. Aplicar el desfase espacial (lag espacial) sobre la desviación estándar
        df_fecha[f'w_{delito}_std'] = weights.lag_spatial(w, df_fecha[f'{delito}_std'].values)

        # 4. Usar .loc para actualizar el DataFrame original con las columnas calculadas
        df_union.loc[df_union['Fecha'] == fecha, f'{delito}_std'] = df_fecha[f'{delito}_std']
        df_union.loc[df_union['Fecha'] == fecha, f'w_{delito}'] = df_fecha[f'w_{delito}']
        df_union.loc[df_union['Fecha'] == fecha, f'w_{delito}_std'] = df_fecha[f'w_{delito}_std']

# Ver los resultados
print(df_union[['Fecha', 'DISTRITOS'] + [f'w_{delito}' for delito in delitos] + [f'w_{delito}_std' for delito in delitos]])

Después generamos una gráfica en la que mostramos la desviación estándar de cada delito frente a la desviación estandar de los pesos de cada delito. Esta gráfica se divide en cuatro cuadrantes y en función de en que cuadrante se situe cada dato se indica la relación que tiene con los datos vecinos, si se situa en el cuadrante de arriba a la izquierda quiere decir que es un valor bajo rodeado de valores altos, si se situa en el cuadrante de arriba a la derecha es un valor alto rodeado de valores altos, si se situa en el cuadrante de abajo a la derecha es un valor alto rodeado de valores bajos y si se situa en el cuadrante de abajo a la izquierda es un valor bajo rodeado de valores bajos. Además también aparece un línea que indica si la autocorrelación espacial es positiva (linea creciente hacia la derecha), negativa (linea decreciente hacia la derecha) o inexistente (linea horizontal).

Para ilustrar un ejemplo, vamos a estudiar los resultados obtenidos con el tipo de delito Relacionados con las personas para enero de 2015 (primera fecha que aparece en el selector). Se puede observar que en el caso de que exista autocorrelación espacial estadísticamente significativa en estos datos, será de tipo negativo.

In [None]:
# Formatear las fechas para mostrar solo día, mes y año
df_union['Fecha_formateada'] = df_union['Fecha'].dt.strftime('%d-%m-%Y')

# Obtener las fechas únicas, ordenarlas y quitar duplicados
fechas_unicas = df_union['Fecha_formateada'].unique()
fechas_unicas = sorted(fechas_unicas)

# Crear un desplegable para seleccionar la fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description='Fecha:',
    disabled=False
)

# Crear un desplegable para seleccionar el delito
delito_selector = widgets.Dropdown(
    options=delitos,
    description='Delito:',
    disabled=False
)

# Función para actualizar el gráfico y calcular el índice de Moran
def actualizar_grafico(fecha, delito):
    # Filtrar los datos solo para la fecha seleccionada
    df_fecha = df_union[df_union['Fecha_formateada'] == fecha].copy()  # Usamos .copy() para evitar el SettingWithCopyWarning

    # Calcular la desviación estándar normalizada para el delito seleccionado solo para esa fecha
    df_fecha[f'{delito}_std'] = (df_fecha[delito] - df_fecha[delito].mean()) / df_fecha[delito].std()

    # Crear la figura y el eje para el gráfico
    f, ax = plt.subplots(1, figsize=(9, 9))

    # Graficar los datos
    sns.regplot(x=f'{delito}_std', y=f'w_{delito}_std', data=df_fecha, ci=None, ax=ax)

    # Añadir líneas verticales y horizontales
    ax.axvline(0, c='k', alpha=0.5)
    ax.axhline(0, c='k', alpha=0.5)

    # Etiquetas de las regiones (HH, HL, LH, LL)
    texts = []
    texts.append(ax.text(2, 0.8, "HH", fontsize=25))
    texts.append(ax.text(2, -0.5, "HL", fontsize=25))
    texts.append(ax.text(-1, 0.5, "LH", fontsize=25))
    texts.append(ax.text(-1, -0.5, "LL", fontsize=25))

    # Ajustar las posiciones de las etiquetas para evitar que se solapen con puntos
    adjust_text(texts, ax=ax)

    # Mostrar el gráfico
    plt.title(f'Gráfico de {delito} con fecha {delito}')
    plt.show()

# Mostrar la interacción entre widgets y gráfico
widgets.interactive(actualizar_grafico, fecha=fecha_selector, delito=delito_selector)

Aparte de un gráfico como el anterior, también generamos el valor del índice de Moran. Este índice indica si existe autocorrelación espacial global en los datos que estemos estudiando. Valores cercanos a 1 indican que la autocorrelación espacial es positiva, valores cercanos a -1 indican que la autocorrelación espacial es negativa y valores cercanos a 0 indican que no existe autocorrelación espacial. También se muestra el p-valor, que nos dice si el patrón espacial observado es producto del azar (p-valor > 0,05) o si realmente existe una autocorrelación espacial significativa (p-valor < 0,05).

Continuando con el ejemplo que estamos explicando, podemos observar que la autocorrelación espacial negativa no es estadísticamente significativa.





In [None]:
# Crear un desplegable para seleccionar la fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description='Fecha:',
    disabled=False
)

# Crear un desplegable para seleccionar el delito
delito_selector = widgets.Dropdown(
    options=delitos,
    description='Delito:',
    disabled=False
)

# Función para actualizar el gráfico y calcular el índice de Moran
def actualizar_grafico(fecha, delito):
    # Filtrar los datos para la fecha seleccionada
    df_fecha = df_union[df_union['Fecha_formateada'] == fecha].copy()  # Usamos .copy() para evitar el SettingWithCopyWarning

    # Calcular el índice de Moran para el campo seleccionado
    moran = esda.Moran(df_fecha[delito], w)

    # Mostrar el índice de Moran
    print(f'Índice de Moran para el campo "{delito}" en la fecha {fecha}:')
    print(f'Moran I: {moran.I}')
    print(f'P-valor: {moran.p_sim}')

    plot_moran(moran)

# Mostrar los widgets y actualizar el gráfico en función de la selección
widgets.interactive(actualizar_grafico, fecha=fecha_selector, delito=delito_selector)

Hasta ahora solo hemos estudiado la autocorrelación espacial global, pero también se puede estudiar la autocorrelación espacial local. Para analizar si existe autocorrelación local o no y de que tipo es hay que calcular los valores LISA. Lo calculamos para todos los delitos y todas la fechas asignando cada distrito a un cuadrante (los de las gráficas de autocorrelación espacial global) y si es estadísticamente significativo.

In [None]:
# Iterar sobre cada fecha única
for fecha in df_union['Fecha'].unique():
    # Filtrar los datos para esa fecha
    df_fecha = df_union[df_union['Fecha'] == fecha].copy()

    # Iterar sobre cada delito en la lista de delitos
    for delito in delitos:
        # Calcular el Moran Local para el delito seleccionado
        lisa = esda.Moran_Local(df_fecha[delito], w)

        # Añadir una nueva columna 'significant' que será True si p-valor es menor a 0.05
        df_fecha['significant'] = lisa.p_sim < 0.05

        # Añadir una nueva columna 'quadrant' con los cuadrantes
        df_fecha['quadrant'] = lisa.q

        # Asignar los valores de 'significant' y 'quadrant' al DataFrame original (df_union) usando .loc
        df_union.loc[df_union['Fecha'] == fecha, f'{delito}_significant'] = df_fecha['significant']
        df_union.loc[df_union['Fecha'] == fecha, f'{delito}_quadrant'] = df_fecha['quadrant']

# Verificar los resultados
print(df_union[['Fecha', 'DISTRITOS'] + [f'{delito}_significant' for delito in delitos] + [f'{delito}_quadrant' for delito in delitos]])

Una vez contamos con los datos LISA podemos representarlo gráficamente. En este tipo de gráficos podemos ver los distritos representados según el cuadrante en el que han sido incluidos. Hay varias opciones:

Que los distritos con valores altos se encuentren cerca entre sí, que los distritos con valores bajos se encuentren cerca entre sí, que distritos con valores altos se encuentran cerca de distritos con valores bajos o que distritos con valores bajos se encuentren cerca de distritos con valores altos.

 Para el ejemplo que teníamos en la autocorrelación global, podemos ver como en algunos ditritos existe autocorrelación local, de los tipos alto-alto y bajo-alto. Este resultado podría dar lugar a un estudio más profundo acerca de la causa de esta autocorrelación local. Además, al tener datos para muchas fechas podríamos comparar entre distintos momentos en el tiempo, lo que ayudaría a encontrar las causas de este fenómeno.

In [None]:
# Función para actualizar el gráfico y calcular el índice de Moran
def actualizar_grafico(fecha, delito):
    # Filtrar los datos solo para la fecha seleccionada
    df_fecha = df_union[df_union['Fecha_formateada'] == fecha].copy()

    # Crear el gráfico
    f, ax = plt.subplots(1, figsize=(9, 9))

    # Mostrar los grupos no significativos
    ns = df_fecha.loc[df_fecha[f'{delito}_significant'] == False, 'geometry']
    if not ns.empty:
        ns.plot(ax=ax, color='k', label='No significativo')

    # Mostrar los grupos HH
    hh = df_fecha.loc[(df_fecha[f'{delito}_quadrant'] == 1) & (df_fecha[f'{delito}_significant'] == True), 'geometry']
    if not hh.empty:
        hh.plot(ax=ax, color='red', label='Alto-Alto')

    # Mostrar los grupos LL
    ll = df_fecha.loc[(df_fecha[f'{delito}_quadrant'] == 3) & (df_fecha[f'{delito}_significant'] == True), 'geometry']
    if not ll.empty:
        ll.plot(ax=ax, color='blue', label='Bajo-Bajo')

    # Mostrar los grupos LH
    lh = df_fecha.loc[(df_fecha[f'{delito}_quadrant'] == 2) & (df_fecha[f'{delito}_significant'] == True), 'geometry']
    if not lh.empty:
        lh.plot(ax=ax, color='#83cef4', label='Bajo-Alto')

    # Mostrar los grupos HL
    hl = df_fecha.loc[(df_fecha[f'{delito}_quadrant'] == 4) & (df_fecha[f'{delito}_significant'] == True), 'geometry']
    if not hl.empty:
        hl.plot(ax=ax, color='#e59696', label='Alto-Bajo')

    # Agregar leyenda
    legend_patches = [
        mpatches.Patch(color='red', label='Alto-Alto'),
        mpatches.Patch(color='blue', label='Bajo-Bajo'),
        mpatches.Patch(color='#83cef4', label='Bajo-Alto'),
        mpatches.Patch(color='#e59696', label='Alto-Bajo'),
        mpatches.Patch(color='k', label='No significativo')
    ]
    ax.legend(handles=legend_patches, loc='lower right')

    # Estilo y visualización
    f.suptitle(f'LISA de {delito} en {fecha}', size=16)
    f.set_facecolor('0.75')
    ax.set_axis_off()

    # Ajustar el aspecto del gráfico si hay datos
    ax.set_aspect('auto')

    # Mostrar el gráfico
    plt.show()

# Mostrar la interacción entre widgets y gráfico
widgets.interactive(actualizar_grafico, fecha=fecha_selector, delito=delito_selector)



También podemos representarlo junto al diagrama de dispersión de moran y los valores del delito por distrito en una fecha determinada para tener una visión más completa de los datos.

In [None]:
# Crear un desplegable para seleccionar la fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description='Fecha:',
    disabled=False
)

# Crear un desplegable para seleccionar el delito
campo_selector = widgets.Dropdown(
    options=delitos,
    description='delito:',
    disabled=False
)

# Función para actualizar el gráfico y calcular el índice de Moran
def actualizar_grafico(fecha, delito):
    # Filtrar los datos solo para la fecha seleccionada
    df_fecha = df_union[df_union['Fecha_formateada'] == fecha].copy()  # Usamos .copy() para evitar el SettingWithCopyWarning

    lisa2 = esda.Moran_Local(df_fecha[delito], w)

    plot_local_autocorrelation(lisa2, df_fecha, df_fecha[delito])

# Mostrar la interacción entre widgets y gráfico
widgets.interactive(actualizar_grafico, fecha=fecha_selector, delito=delito_selector)

# Clustering y regionalización.


A continuación, para seguir con el ESDA, en este apartado vamos a agrupar los distritos en clusters y también a regionalizar y comparar la diferencia en las agrupaciones generadas en función de los delitos y las divisiones administrativas reales. Como tenemos datos para cada mes durante una década, permitimos al usuario que elija para que periodo de tiempo desea ver estas agrupaciones.

Para ello en primer lugar vamos a hacer un ejemplo para 5 clusters. Mas adelante veremos un par de métodos para seleccionar el número óptimo de clusters para los datos de estudio pero realizar un primer ejemplo nos parece interesante para una primera visualización de los resultados.

Como resultado del siguiente código podemos ver a que cluster se ha asignado cada distrito para cada fecha.

In [None]:
# Definir el modelo KMeans, determinando el número de clusters y una seed
kmeans5 = KMeans(n_clusters=5, random_state=12345, n_init=10)

# Iterar sobre cada fecha única
for fecha in df_union['Fecha'].unique():
    # Filtrar los datos para esa fecha
    df_fecha = df_union[df_union['Fecha'] == fecha].copy()

    # Ejecutar el algoritmo de clustering
    k5clust = kmeans5.fit(df_fecha[delitos])

    # Guardar los clusters en la columna 'k5clust' en df_union
    df_union.loc[df_union['Fecha'] == fecha, 'k5clust'] = k5clust.labels_

# Ver los primeros resultados
print(df_union[['Fecha', 'k5clust']].head())

Una vez asignamos cada distrito a una grupo o cluster podemos representar gráficamente el resutado. Podemos ver que como los datos de delitos son diferentes para cada fecha, las agrupaciones van cambiando dependiendo del momento en el que estudiemos los grupos.

Tomando como ejemplo la misma fecha que al estudiar la autocorrelación local y global, podemos ver como existe un gran grupo en el norte y Este de la ciudad y el resto de grupos se dividen entre los distritos del centro, sur y oeste.

In [None]:
# Obtener fechas únicas, ordenarlas y formatearlas én formato día, mes y año
fechas_unicas = sorted(df_union['Fecha'].dt.strftime('%Y/%m/%d').unique())

# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

# Función para actualizar el mapa según la fecha seleccionada
def actualizar_mapa(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')


    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Limpiar la figura anterior
    plt.clf()

    # Crear nueva figura
    f, ax = plt.subplots(1, figsize=(18, 9))

    # Graficar mapa
    df_filtrado.plot(
        column='k5clust', categorical=True, legend=True, linewidth=0, ax=ax
    )

    # Quitar ejes y añadir título
    ax.set_axis_off()
    plt.title(f'Clasificación geodemográfica por delitos - {fecha_str}')

    # Mostrar el mapa
    plt.show()

# Usar interact para actualizar dinámicamente
widgets.interactive(actualizar_mapa, fecha_str=fecha_selector)


Mostramos el mismo mapa de manera interactiva.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

# Asignar colores para cada valor único de 'k5clust' (esto puede ajustarse según tu dataset)
colores_k5clust = {
    0: 'blue',
    1: 'red',
    2: 'green',
    3: 'orange',
    4: 'purple',
    5: 'brown'
}

# Función para actualizar el mapa según la fecha seleccionada
def actualizar_mapa(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Crear un mapa base de Folium centrado en Madrid
    mapa = folium.Map(location=[40.4168, -3.7038], zoom_start=11)

    # Agregar los polígonos con colores según 'k5clust'
    for idx, row in df_filtrado.iterrows():
        # Obtener el color según 'k5clust'
        color = colores_k5clust.get(row['k5clust'], 'gray')  # Asignar color según 'k5clust'

        folium.GeoJson(
            row['geometry'],
            name=row['DISTRITOS'],
            tooltip=f"Distrito: {row['DISTRITOS']}, Clasificación: {row['k5clust']}",
            style_function=lambda feature, color=color: {
                'fillColor': color,
                'color': 'black',
                'weight': 1,
                'fillOpacity': 0.4
            }
        ).add_to(mapa)

    # Mostrar el mapa interactivo
    display(mapa)

# Usar interact para actualizar el mapa dinámicamente
widgets.interactive(actualizar_mapa, fecha_str=fecha_selector)

A continuación mostramos el mismo resultado en forma de tabla, permitiendo al usuario seleccionar que fecha quiere ver.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

# Crear un widget de salida para mostrar los resultados
output = widgets.Output()

# Función para calcular el tamaño de los clusters de KMeans por fecha seleccionada
def calcular_tamano_clusters(fecha_str):
    # Limpiar la salida anterior
    with output:
        clear_output(wait=True)
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Calcular el tamaño de los clusters
    kmeans5sizes = df_filtrado.groupby('k5clust').size()

    # Mostrar el resultado
    with output:
        print(f"Tamaño de los clusters para la fecha: {fecha_str}")
        display(kmeans5sizes)

# Usar interactive_output para evitar la firma de la función
widgets.interactive_output(calcular_tamano_clusters, {'fecha_str': fecha_selector})
display(fecha_selector, output)

También mostramos estos resultados como gráfica de barras, permitiendo una vez mas al usuario seleccionar que fecha quiere ver.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)
# Función para actualizar el mapa según la fecha seleccionada
def barras(fecha_str):
  # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')


    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Calcular el tamaño de los clusters
    kmeans5sizes = df_filtrado.groupby('k5clust').size()

    bar_kmeans5 = kmeans5sizes.plot.bar()

    # Mostrar el gráfico actualizado
    plt.show()

# Usar interact para actualizar dinámicamente
widgets.interactive(barras, fecha_str=fecha_selector)

Para terminar con el ejemplo de 5 clusters, mostramos el número de delitos medios cometidos en cada clúster. Ya a partir de este resultado podemos ver como probablemente tomar 5 clústers no es óptimo ya que en algunos de ellos el número medio de delitos es muy similar. Si lo comprobamos para varias fechas podemos ver como este problema se repite.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

# Crear un widget de salida para mostrar los resultados
output = widgets.Output()

# Función para calcular el tamaño de los clusters de KMeans por fecha seleccionada
def tabla(fecha_str):
    # Limpiar la salida anterior
    with output:
        clear_output(wait=True)
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Calcular el número de delitos por tipo de los clusters
    k5meanss = df_filtrado.groupby('k5clust')[delitos].mean()

    # Mostrar el resultado
    with output:
        print(f"Tamaño de los clusters para la fecha: {fecha_str}")
        display(k5meanss.T)

# Usar interactive_output para evitar la firma de la función
widgets.interactive_output(tabla, {'fecha_str': fecha_selector})
display(fecha_selector, output)

Para continuar con la clusterización vamos a utilizar un método diferente, AgglomerativeClustering, que aparte de permitirnos agrupar en el número de cluster que deseemos (al igual que hacía Kmeans), también nos permite generar un dendograma en el que ver si el número de clúster seleccionado es idóneo o no. Para comenzar a utilizar este ejemplo hemos decidido hacerlo en esta ocasion con 8 clusters como punto de partido, generando el mapa que se ve a continuación.

Si comparamos con el ejemplo utilizando 5 clusters podemos ver las diferencias que genera utilizar un número diferente de clusters para hacer la agrupación.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)
# Función para actualizar el mapa según la fecha seleccionada
def agregar(fecha_str):
  # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')


    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    s_agg13 = AgglomerativeClustering(n_clusters=8, connectivity=w.sparse)

    # Ejecutar el algoritmo de clustering
    s_agg13clust = s_agg13.fit(df_filtrado[delitos])
    df_filtrado['sagg13clust'] = s_agg13clust.labels_

    # Crear gráfico
    f, ax = plt.subplots(1, figsize=(9, 9))

    # Mostrar los valores
    df_filtrado.plot(
        column='sagg13clust', categorical=True, legend=True, linewidth=0, ax=ax
    )
    # Quitar los ejes
    ax.set_axis_off()

    # Añadir título
    plt.title(f"Tamaño de los clusters para la fecha: {fecha_str}")

    # Mostrar el mapa
    plt.show()

# Usar interact para actualizar dinámicamente
widgets.interactive(agregar, fecha_str=fecha_selector)

A continuación, generamos el dendograma para ver si hemos seleccionado un número correcto de clusters. Como podemos observar, parece que el número más idóneo independientemente de la fecha son 2 clústers (en algunos casos 3). La fecha que estamos tomando como ejemplo no es una excepción y aparentemente tiene un número ideal de 2 clusters

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

# Función para actualizar el mapa según la fecha seleccionada
def dendro(fecha_str):
  # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Filtrar por delitos
    data = df_filtrado[delitos].values

    # Calcular la matriz de enlace usando el método 'ward'
    Z = linkage(data, method='ward')

    # Crear el dendrograma truncado mostrando sólo los últimos 10 clusters
    plt.figure(figsize=(12, 6))
    dendrogram(Z, truncate_mode='lastp', p=13, leaf_rotation=90, leaf_font_size=10)
    plt.title("Dendrograma (truncado)")
    plt.xlabel("Índice del cluster o muestra")
    plt.ylabel("Distancia")
    plt.show()

# Usar interact para actualizar dinámicamente
widgets.interactive(dendro, fecha_str=fecha_selector)

Aparte de utilizar un dendograma, también existen otros métodos para determinar el número ideal de clústers. En primer lugar tenemos el índice de silueta, que es una medida de evaluación utilizada para determinar la calidad de un agrupamiento (clustering). Se usa para evaluar cuán bien se ha realizado el agrupamiento comparando la distancia dentro de los clusters y la distancia entre los clusters. Su valor ayuda a entender qué tan coherentes y bien separados están los grupos formados. Si valores son cercanos a 1 los puntos están bien agrupados, y los clusters son compactos y bien separados. Si el valor es cercano a 0 los puntos están en la frontera entre clusters, lo que indica que no están claramente asignados a uno u otro cluster. Si el valor es cercano a -1 los puntos están mal asignados, ya que deberían pertenecer a otro cluster.

Con el siguiente código se puede seleccionar el número óptimo de casos según el índice de silueta para cada fecha, que en la mayoría de los casos es 2.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

def indice_silueta_optimo(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Convertir los datos a un array NumPy
    data = df_filtrado[delitos].values

    mejor_silueta = -1  # Valor inicial para el índice de silueta
    mejor_clusters = 2  # Número inicial de clusters

    # Probar varios números de clusters, por ejemplo, de 2 a 10
    for n_clusters in range(2, 11):
        model = AgglomerativeClustering(n_clusters=n_clusters)
        labels = model.fit_predict(data)  # Obtener etiquetas de los clusters
        silhouette_avg = silhouette_score(data, labels)  # Calcular índice de silueta

        print(f"Índice de silueta para {n_clusters} clusters: {silhouette_avg:.4f}")

        # Si encontramos un índice de silueta mayor, actualizamos el mejor número de clusters
        if silhouette_avg > mejor_silueta:
            mejor_silueta = silhouette_avg
            mejor_clusters = n_clusters

    print(f"\nEl mejor número de clusters es: {mejor_clusters} con un índice de silueta de {mejor_silueta:.4f}")

# Crear un selector de fecha
widgets.interactive(indice_silueta_optimo, fecha_str=fecha_selector)

Otra forma de determinar el mejor número de clusters es el método del codo que es una técnica muy utilizada para determinar el número óptimo de clusters (k) en algoritmos de clustering. Se basa en graficar el error cuadrático dentro del cluster en funciónn de los diferentes valores de k.El gráfico generalmente muestra una disminución rápida de WCSS cuando se aumenta k al principio, y luego la disminución se hace más gradual. El "codo" es el punto donde esta disminución empieza a ser más lenta. El número de clusters en este punto (el "codo") es el número óptimo de clusters, ya que después de este punto, añadir más clusters no reduce significativamente la dispersión dentro de los clusters.

Si observamos los resultados obtenidos mediante este método podemos ver como coincide con el indice de silueta, ya que en la mayoría de fechas el mejor numero de clusters es 2.

Tanto en con el índice de silueta como con el método del codo el número óptimo de clusters para la fecha que tomamos como ejemplo es 2.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

def metodo_del_codo(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Convertir los datos a un array NumPy
    data = df_filtrado[delitos].values

    # Probar diferentes números de clusters, por ejemplo, de 1 a 10
    sse = []
    for n_clusters in range(1, 11):
        model = KMeans(n_clusters=n_clusters)
        model.fit(data)
        sse.append(model.inertia_)  # Guardar el SSE para cada número de clusters

    # Graficar el método del codo
    plt.figure(figsize=(8, 6))
    plt.plot(range(1, 11), sse, marker='o')
    plt.title('Método del Codo')
    plt.xlabel('Número de Clusters')
    plt.ylabel('SSE')
    plt.show()

# Crear un selector de fecha
widgets.interactive(metodo_del_codo, fecha_str=fecha_selector)

Una vez que hemos seleccionado la manera de determinar el mejor número de clusters, lo que vamos a hacer es agrupar según ese número de clusters y disolver los distritos que pertenezcan al mismo grupo mediante la función dissolve, definida a continuación.

In [None]:
def dissolve(gs):
    '''
    Toma una serie de polígonos y los une en un solo polígono

    Argumentos:
    ---------
    gs        : GeoSeries
                Secuencia de polígonos a disolver
    Devuelve:
    -------
    disuelto : Polígono
               Un único polígono que contiene todos los polígonos en `gs`
    '''
    return gs.union_all()

A continuación se puede observar el resultado en un mapa de agrupar por el mejor número de clusters.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

def cambio_2(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Convertir los datos a un array NumPy
    data = df_filtrado[delitos].values

    # Variables para determinar el mejor número de clusters (con índice de silueta)
    mejor_silueta = -1
    mejor_clusters = 2

    # Probar varios números de clusters (por ejemplo, de 2 a 10)
    for n_clusters in range(2, 11):
        model = AgglomerativeClustering(n_clusters=n_clusters)
        labels = model.fit_predict(data)  # Obtener etiquetas de los clusters
        silhouette_avg = silhouette_score(data, labels)  # Calcular índice de silueta

        # Actualizar el mejor número de clusters basado en el índice de silueta
        if silhouette_avg > mejor_silueta:
            mejor_silueta = silhouette_avg
            mejor_clusters = n_clusters

    # Ahora usa el mejor número de clusters encontrado
    s_agg13 = AgglomerativeClustering(n_clusters=mejor_clusters, connectivity=w.sparse)

    # Ejecutar el algoritmo de clustering aglomerativo
    s_agg13clust = s_agg13.fit(df_filtrado[delitos])
    df_filtrado['sagg13clust'] = s_agg13clust.labels_

    # Disolver las geometrías basadas en los clusters
    distritos_delitos = gpd.GeoSeries(
        df_filtrado.groupby(df_filtrado['sagg13clust']).apply(dissolve),
        crs=df_filtrado.crs
    )

    # Configurar la figura y el eje para la visualización
    f, ax = plt.subplots(1, figsize=(6, 6))

    # Dibujar el mapa base de OpenStreetMap con contextily
    distritos_delitos = distritos_delitos.to_crs(epsg=3857)  # Cambiar a coordenadas web Mercator
    distritos_delitos.plot(ax=ax, linewidth=0.5, facecolor='white', edgecolor='k', alpha=0.8)  # alpha para opacidad

    # Añadir el mapa base
    cx.add_basemap(ax, crs=distritos_delitos.crs.to_string(), source=cx.providers.OpenStreetMap.Mapnik)

    # Eliminar el eje
    ax.set_axis_off()

    # Añadir el título
    plt.title(f'Distritos basados en delitos para {mejor_clusters} clusters')
    plt.show()

# Crear un selector de fecha
widgets.interactive(cambio_2, fecha_str=fecha_selector)

Por último, podemos ver la diferencia entre la distribución de los distritos real (en azul) y la generada según los delitos (naranja). Para la mayoría de las fechas el resultado es el mismo, generando un grupo para el distrito centro y otro para el resto de los distritos. En algunas fechas, como noviembre de 2021 se generan tres grupos según delito, pero hay algo en común y es que en todos los casos parece haber una diferencia clara entre el centro de la ciudad y el resto de los distritos. Para saber las causas de esta distribución de delitos podría ser interesante incluir más variables, como centros de ocio, números de de comisarías o patrullas de policía, afluencia de turistas.

In [None]:
# Crear un widget de selección de fecha
fecha_selector = widgets.Dropdown(
    options=fechas_unicas,
    description="Fecha:",
    style={'description_width': 'initial'}
)

def cambio_3(fecha_str):
    # Convertir la fecha seleccionada de string a datetime
    fecha = pd.to_datetime(fecha_str, format='%Y/%m/%d')

    # Filtrar el DataFrame por la fecha seleccionada
    df_filtrado = df_union[df_union['Fecha'] == fecha]

    # Convertir los datos a un array NumPy
    data = df_filtrado[delitos].values

    # Variables para determinar el mejor número de clusters (con índice de silueta)
    mejor_silueta = -1
    mejor_clusters = 2

    # Probar varios números de clusters (por ejemplo, de 2 a 10)
    for n_clusters in range(2, 11):
        model = AgglomerativeClustering(n_clusters=n_clusters)
        labels = model.fit_predict(data)  # Obtener etiquetas de los clusters
        silhouette_avg = silhouette_score(data, labels)  # Calcular índice de silueta

        # Actualizar el mejor número de clusters basado en el índice de silueta
        if silhouette_avg > mejor_silueta:
            mejor_silueta = silhouette_avg
            mejor_clusters = n_clusters

    # Ahora usa el mejor número de clusters encontrado
    s_agg13 = AgglomerativeClustering(n_clusters=mejor_clusters, connectivity=w.sparse)

    # Ejecutar el algoritmo de clustering aglomerativo
    s_agg13clust = s_agg13.fit(df_filtrado[delitos])
    df_filtrado['sagg13clust'] = s_agg13clust.labels_

    # Disolver las geometrías basadas en los clusters
    distritos_delitos = gpd.GeoSeries(
        df_filtrado.groupby(df_filtrado['sagg13clust']).apply(dissolve),
        crs=df_filtrado.crs
    )
    # Crear la imagen
    f, ax = plt.subplots(1, figsize=(12, 12))
    f.set_facecolor("w")

    # Añadir los distritos
    df_filtrado.to_crs(
        epsg=25830
    ).plot(
        ax=ax,
        facecolor="none",
        edgecolor="xkcd:salmon",
        linewidth=2
    )

    # Añadir la regionalización
    distritos_delitos.to_crs(
        epsg=25830
    ).plot(
        ax=ax,
        facecolor="none",
        edgecolor="xkcd:blue",
        linewidth=1.5
    )

    # Añadir el mapa base
    cx.add_basemap(
        ax,
        crs="EPSG:25830",
        source=cx.providers.CartoDB.PositronNoLabels
    )

    # Quitar ejes
    ax.set_axis_off()

    # Añadir el título
    plt.title(f'Distritos reales y regionalización')

    # Mostrar la imagen
    plt.show()

# Crear un selector de fecha
widgets.interactive(cambio_3, fecha_str=fecha_selector)

**ANÁLISIS DE PATRONES DE PUNTOS APLICADO A MULTAS DE TRÁFICO EN MADRID**

**Visualización de un patrón de puntos**

Como estos datos no se exploraron en el EDA anterior, realizamos una inspección visual de los mismos a través de varios mapas.

In [None]:
# Plotear puntos
gdf_multas.plot.scatter("LONGITUD", "LATITUD")

In [None]:
# Plotear puntos
ax = gdf_multas.plot.scatter(
    "LONGITUD",
    "LATITUD",
    s=0.25,
    c="xkcd:bright yellow",
    alpha=0.5,
    figsize=(9, 9)
)

# Eliminar ejes
ax.set_axis_off()

# Añadir mapa base con tonalidad oscura
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.DarkMatter
)

In [None]:
# Plotear con la distribución de puntos por latitud y longitud
joint_axes = sns.jointplot(
    x='LONGITUD', y='LATITUD', data=gdf_multas, s=1
)

# Añadir mapa base
cx.add_basemap(
    joint_axes.ax_joint,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

**Unión de puntos en polígonos**

En este punto, se propone visualizar los datos puntuales en forma de polígonos, convirtiéndolos para poder mapear las multas en forma de coropletas. En primer lugar, se representarán como rejillas irregulares con la delimitiación de los distritos de Madrid.

In [None]:
# Convertir los distritos a 25830 para visualizarlo correctamente
distritos = distritos.to_crs(epsg=25830)

# Plotear puntos
ax = gdf_multas.plot.scatter(
    "LONGITUD",
    "LATITUD",
    s=0.25,
    c="xkcd:bright yellow",
    alpha=0.5,
    figsize=(9, 9)
)

# Añadir delimitación de distritos
distritos.plot(
    ax=ax,
    facecolor="none",
    edgecolor="xkcd:pale lavender"
)

# Eliminar ejes
ax.set_axis_off()

# Añadir mapa base con tonalidad oscura
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

Ahora obtendremos cuántas multas hay en cada uno de los distritos de Madrid. Para ello agruparemos los datos por la columna "DISTRITO" y aplicaremos el método size para contar las multas de cada distrito, organizando los datos en la columna "multas_zona" de la nueva tabla "multas_distritos".

In [None]:
# Contar multas por distritos
multas_distritos = gdf_multas.groupby("DISTRITO").size()

# Asignar el número de multas por distrito a la columna "multas_zona" y unir por distritos
areas = distritos.join(
    pd.DataFrame({"multas_zona": multas_distritos}),
    on="DISTRITO"
)

areas.head()

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(9, 9))

# Plotear multas por distrito por el métodos de cuantiles y con transparencia
areas.plot(
    column='multas_zona',
    scheme='quantiles',
    ax=ax,
    legend=True,
    legend_kwds={"loc": 4},
    alpha=0.4
)

# Eliminar los ejes
ax.set_axis_off()

# Título del gráfico
ax.set_title("Multas por distritos de Madrid")

# Añadir mapa base
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

# Mapear
plt.show()

**Densidad de multas por distrito**

También resulta útil conocer la densidad de multas por área, en este caso por kilómetros cuadrados. Para ello, una vez tenemos el área de cada distrito, hacemos el conteo de multas en base al área de cada distrito.

In [None]:
# Obtener el área (en kilómetros cuadrados) de cada distrito
areas["area_km2"] = areas.to_crs(epsg=25830).area * 1e-6
areas.head()

In [None]:
areas["densidad_multas"] = areas["multas_zona"] / areas["area_km2"]

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(9, 9))

# Plotear densidad de multas por distrito por el métodos de cuantiles y con transparencia
areas.plot(
    column='densidad_multas',
    scheme='quantiles',
    ax=ax,
    legend=True,
    legend_kwds={"loc": 4},
    alpha=0.4
)

# Eliminar ejes
ax.set_axis_off()

# Título
ax.set_title("Densidad de multas por km2 en los distritos de Madrid")

# Añadir mapa base con tonalidad oscura
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.DarkMatterNoLabels
)

# Mapear
plt.show()

Evidentemente, los distritos con mayor densidad de multas son las áreas céntricas y más concurridas, como el distrito Centro, Chamberí y Chamartín.

También se puede convertir estos datos puntuales en forma de polígonos, pero en este caso como rejillas regulares, en forma de una cuadrícula de hexágonos, por ejemplo, lo cual tiene la ventaja de proporcionar una topología regular en la que cada polígono tiene el mismo tamaño y forma.

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(16, 12))

# Añadir los datos puntuales de multas en forma de hexágonos
hb = ax.hexbin(
    gdf_multas["LONGITUD"],
    gdf_multas["LATITUD"],
    gridsize=50,
    alpha=0.5,
    edgecolor="none"
)

# Añadir barra de color
plt.colorbar(hb)

# Eliminar ejes
ax.set_axis_off()

# Añadir mapa base
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.DarkMatterNoLabels
)

# Título
ax.set_title("Hex-binning de multas en Madrid")

# Mepear
plt.show()

Gracias a este mapa podemos observar que el punto en el que mayor cantidad de multas hubo en Madrid en mayo de 2024 se ubica en un parking junto al recinto de la Caja Mágica, donde durante este mes tuvieron lugar importantes eventos como el Mutua Madrid Open de tenis o el Festival Tomavistas Madrid, que tuvieron una gran afluencia de público y por tanto dispararon la cifra de multas a su alrededor.

**Estimación de la densidad de kernel**

Para contar el número de multas en Madrid de manera continua en el espacio, emplearemos el método de estimación de densidad de kernel (KDE), en base a una muestra de 1.000 puntos aleatorios de los datos originales.

In [None]:
# Tomar una muestra de 1.000 puntos de manera aleatoria
gdf_multas_sub = gdf_multas.sample(1000, random_state=12345)

In [None]:
sns.kdeplot(
    x="LONGITUD",
    y="LATITUD",
    data=gdf_multas_sub,
    n_levels=50,
    fill=True,
    cmap='BuPu'
)

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(12, 12))

# Añadir el cálculo de la densidad de kernel
sns.kdeplot(
    x='LONGITUD',
    y='LATITUD',
    data=gdf_multas_sub,
    n_levels=50,
    fill=True,
    alpha=0.25,
    cmap="viridis"
)

# Eliminar ejes
ax.set_axis_off()

# Añadir mapa base
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.DarkMatterNoLabels
)

# Título
ax.set_title("KDE de multas en Madrid")

# Mapear
plt.show()

Gráfico KDE bivariado con contornos

In [None]:
joint_axes = sns.jointplot(
    x='LONGITUD', y='LATITUD', data=gdf_multas_sub, kind="kde"
)

cx.add_basemap(
    joint_axes.ax_joint,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

**Análisis estadístico de patrones de puntos con funciones de Ripley**

In [None]:
coordinates = gdf_multas_sub[['LONGITUD','LATITUD']].values
coordinates

**G de Ripley**

In [None]:
g_test = distance_statistics.g_test(
    coordinates, support=40, keep_simulations=True, n_simulations=999
)

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, 2, figsize=(9, 3), gridspec_kw=dict(width_ratios=(6, 3)))

# Graficar todas las simulaciones
ax[0].plot(g_test.support, g_test.simulations.T, color='k', alpha=.01)

# Mostrar la mediana de las simulaciones
ax[0].plot(g_test.support, np.median(g_test.simulations, axis=0), color='cyan',
           label='mediana de simulaciones')

# Graficar la función G observada del patrón
ax[0].plot(g_test.support, g_test.statistic, label='observado', color='red')

# Limpiar etiquetas y ejes
ax[0].set_xlabel('distancia')
ax[0].set_ylabel('% de distancias al vecino más cercano\nmenores')
ax[0].legend()
ax[0].set_xlim(0, 2000)
ax[0].set_title(r"Función $G(d)$ de Ripley")

# Graficar el patrón de puntos en el segundo subgráfico
ax[1].scatter(*coordinates.T)

# Limpiar etiquetas y ejes en el segundo subgráfico
ax[1].set_xticks([])
ax[1].set_yticks([])
ax[1].set_xticklabels([])
ax[1].set_yticklabels([])
ax[1].set_title('Patrón de puntos')
f.tight_layout()
plt.show()

En el gráfico se observa que la función observada aumenta de manera muy rápida en comparación con los patrones simulados, por lo que el patrón observado sí está agrupado, ya que sus puntos están más cerca entre sí de lo que sería esperado en una distribución aleatoria.

**F de Ripley**

In [None]:
f_test = distance_statistics.f_test(
    coordinates, support=40, keep_simulations=True, n_simulations=999
)

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, 2, figsize=(9, 3), gridspec_kw=dict(width_ratios=(6, 3)))

# Graficar todas las simulaciones
ax[0].plot(f_test.support, f_test.simulations.T, color='k', alpha=.01)

# Mostrar la mediana de las simulaciones
ax[0].plot(f_test.support, np.median(f_test.simulations, axis=0), color='cyan',
           label='mediana de simulaciones')

# Graficar la función F observada del patrón
ax[0].plot(f_test.support, f_test.statistic, label='observado', color='red')

# Limpiar etiquetas y ejes
ax[0].set_xlabel('distancia')
ax[0].set_ylabel('% de distancias menores\nal punto más cercano en el patrón')
ax[0].legend()
ax[0].set_xlim(0, 2000)
ax[0].set_title(r"Función $F(d)$ de Ripley")

# Graficar el patrón de puntos en el segundo subgráfico
ax[1].scatter(*coordinates.T)

# Limpiar etiquetas y ejes en el segundo subgráfico
ax[1].set_xticks([])
ax[1].set_yticks([])
ax[1].set_xticklabels([])
ax[1].set_yticklabels([])
ax[1].set_title('Patrón de puntos')
f.tight_layout()
plt.show()

En este caso, la función observada aumenta más lentamente en comparación con los patrones simulados, por lo que el patrón observado sí está agrupado, ya que la cantidad de grandes áreas vacías es superior en el patrón de la simulaciones.

**Agrupaciones o clusters de puntos**

In [None]:
# Configurar el algoritmo DBSCAN
algorit = DBSCAN(eps=100, min_samples=50) # Mínimo 50 multas dentro de un radio de 100 metros

In [None]:
# Ajustar el cluster a los datos de multas
algorit.fit(gdf_multas[["LONGITUD", "LATITUD"]])

In [None]:
# Obtener las etiquetas
algorit.labels_

In [None]:
# Mostrar los primeros 5 valores
algorit.core_sample_indices_[:5]

In [None]:
# Convertir las etiquetas en un objeto Serie
labels = pd.Series(algorit.labels_, index=gdf_multas.index)
labels

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(6, 6))

# Asignar etiquetas a la tabla de multas y seleccionar los puntos que no forman parte de ningún clúster (ruido)
ruido = gdf_multas.assign(
    labels=labels
).query("labels == -1")

# Representar el ruido en color gris
ax.scatter(
    ruido["LONGITUD"],
    ruido["LATITUD"],
    c='grey',
    s=5,
    linewidth=0
)

# Representar todos los puntos que no son ruido en rojo
ax.scatter(
    gdf_multas.loc[gdf_multas.index.difference(ruido.index), "LONGITUD"],
    gdf_multas.loc[gdf_multas.index.difference(ruido.index), "LATITUD"],
    c="red",
    linewidth=0
)

# Añadir mapa base
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

# Mapear
plt.show()

In [None]:
# Configurar el algoritmo DBSCAN
algo = DBSCAN(eps=500, min_samples=10)  # Mínimo 10 multas dentro de un radio de 500 metros

# Ajustar a los puntos de las multas
algorit.fit(gdf_multas[["LONGITUD", "LATITUD"]])

# Almacenar etiquetas
labels = pd.Series(algorit.labels_, index=gdf_multas.index)

In [None]:
# Establecer figura y ejes
f, ax = plt.subplots(1, figsize=(6, 6))

# Asignar etiquetas a la tabla de multas y seleccionar los puntos que no forman parte de ningún clúster (ruido)
noise = gdf_multas.assign(
    labels=labels
).query("labels == -1")

# Representar el ruido en color gris
ax.scatter(
    noise["LONGITUD"],
    noise["LATITUD"],
    c='grey',
    s=5,
    linewidth=0
)
# Representar todos los puntos que no son ruido en rojo
ax.scatter(
    gdf_multas.loc[gdf_multas.index.difference(noise.index), "LONGITUD"],
    gdf_multas.loc[gdf_multas.index.difference(noise.index), "LATITUD"],
    c="red",
    linewidth=0
)

# Añadir mapa base
cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels
)

# Mapear
plt.show()

In [None]:
def clusters(db, eps, min_samples):
    '''
    Calcula y visualiza los clústeres de DBSCAN
    ...

    Argumentos
    ----------
    db          : (Geo)DataFrame
                  Tabla con al menos las columnas `X` y `Y` para las coordenadas de los puntos
    eps         : float
                  Radio máximo para buscar puntos dentro de un clúster
    min_samples : int
                  Número mínimo de puntos en un clúster
    '''
    # Congigurar algoritmo
    algo = DBSCAN(eps=eps, min_samples=min_samples)
    algo.fit(db[['LONGITUD', 'LATITUD']])
    lbls = pd.Series(algo.labels_, index=db.index)

    # Representar todos los puntos según si son ruido o no ruido
    f, ax = plt.subplots(1, figsize=(6, 6))
    noise = db.loc[lbls==-1, ['LONGITUD', 'LATITUD']]
    ax.scatter(noise['LONGITUD'], noise['LATITUD'], c='grey', s=5, linewidth=0)
    ax.scatter(
        db.loc[db.index.difference(noise.index), 'LONGITUD'],
        db.loc[db.index.difference(noise.index), 'LATITUD'],
        c='red',
        linewidth=0
    )

    # Añadir mapa base
    cx.add_basemap(
    ax,
    crs="EPSG:25830",
    source=cx.providers.CartoDB.PositronNoLabels)

    # Mapear
    return plt.show()

In [None]:
clusters(gdf_multas, 20, 700)
# Tras haber realizado varias pruebas, este parece ser el resultado más acertado

In [None]:
interact(
    clusters,                 # Método para hacerlo interactivo
    db=fixed(gdf_multas),     # Datos para pasar a db
    eps=(20, 100, 20),        # Rango de inicio, final y paso de distancia
    min_samples=(100, 700, 100) # Rango inicio, final y paso de muestras mínimas
)

Visualizar gráfica del codo para elegir ϵ óptimo de manera visual

In [None]:
# Definir el número de vecinos (minPts - 1)
minPts = 50  # comenzamos con 50
k = minPts - 1

# Ajustar el modelo a los datos de multas
neigh = NearestNeighbors(n_neighbors=k)
neigh.fit(gdf_multas[['LONGITUD', 'LATITUD']])

# Calcular distancias al k-ésimo vecino más cercano
distances, _ = neigh.kneighbors(gdf_multas[['LONGITUD', 'LATITUD']])
k_distances = np.sort(distances[:, k-1])[::-1]  # Ordenar de mayor a menor

# Filtrar distancias mayores a 0
k_distances = k_distances[k_distances > 0]

# Visualizar la curva del codo en el orden correcto
plt.figure(figsize=(12, 6))
plt.plot(range(1, len(k_distances) + 1), k_distances, marker='.', linestyle='-', label="Distancias ordenadas")

# Configuración del gráfico
plt.xlabel('Índice de puntos ordenados')
plt.ylabel(f'Distancia al {k}-ésimo vecino más cercano')
plt.title('Método del Codo para determinar $\\epsilon$ en DBSCAN')
plt.legend()
plt.grid(True)

# Ajustar los ticks en el eje X para mayor claridad
plt.xticks(np.arange(0, len(k_distances) + 1, step=200))

# Mostrar gráfico
plt.show()

In [None]:
# Cargar datos de multas en Madrid
data = gdf_multas[['LONGITUD', 'LATITUD']].values

# Definir valores de epsilon y minPts
eps_values = [100, 500, 5]
minPts_values = [400, 700, 1000]

fig, axes = plt.subplots(len(minPts_values), len(eps_values), figsize=(15, 8))

for i, minPts in enumerate(minPts_values):
    for j, eps in enumerate(eps_values):
        db = DBSCAN(eps=eps, min_samples=minPts).fit(data)
        labels = db.labels_
        n_clusters = len(set(labels)) - (1 if -1 in labels else 0)  # No cuenta ruido (-1)

        # Usar colores de la paleta "tab10" con color negro para ruido
        unique_labels = set(labels)
        colors = plt.cm.tab10(np.linspace(0, 1, len(unique_labels)))
        color_dict = {label: color for label, color in zip(unique_labels, colors)}
        color_dict[-1] = 'black'  # Ruido en negro

        # Aplicar colores personalizados
        cluster_colors = [color_dict[label] for label in labels]

        # Graficar puntos coloreados por clúster
        axes[i, j].scatter(data[:, 0], data[:, 1], c=cluster_colors, s=5, alpha=0.6, edgecolors='k', linewidth=0.1)
        axes[i, j].set_title(f"ε={eps:.2f}, minPts={minPts}\nClústeres={n_clusters}", fontsize=9, pad=8)
        axes[i, j].set_xticks([])
        axes[i, j].set_yticks([])

# Ajustar espacio entre gráficos para evitar solapamientos
plt.subplots_adjust(hspace=0.4, wspace=0.3)

# Mostrar gráfico
plt.show()

Índice silhouette para comprobar la bondad de la clusterización

In [None]:
# Excluir ruido (-1) de DBSCAN antes de calcular el índice: con epsilon de 170 y con minPts de 70
mask = labels != -1
score = silhouette_score(gdf_multas[['LONGITUD', 'LATITUD']][mask], labels[mask])
print(f"Índice de Silhouette: {score:.3f}")

Al ser valor 1, las observaciones dentro de cada clúster están perfectamente agrupadas y cada grupo está correctamente separado del resto.

**Uso de algoritmos de clasificación.**


Una vez explorados los datos desde distintos puntos de vista, una posibilidad interesante es clasificar los datos. Para ello existen diversos algoritmos que se pueden utilizar como las redes neuronales, las máquinas vector soporte (SVM), los árboles de decisión o random forest. Para generar estas clasificaciones hemos utilizado la documentación oficial de [scikit-learn](https://scikit-learn.org/stable/supervised_learning.html).

En primer lugar vamos a probar a realizar una clasificación mediante árboles de decisión. Para ello tomamos como variables predictoras el distrito, año, mes y número de delitos (serán las mismas variables predictoras en el resto de algoritmos) y como variable objetivo o variable a predecir es el riesgo que presenta la zona, que según el número de delitos que ha presentado una zona respecto a la media se considera de Alto riesgo (33% de los valores más altos), Bajo riesgo (33% de los valores mas bajos) y Riesgo Medio (resto de valores).

Según el tipo de delito, la clasificación cambia, indicando que hay zonas muy seguras en general, otras que son peligras para todo tipo de delitos y algunas en las que ciertos tipos de delitos son predominantes.

In [None]:
# Codificar los distritos como números
le = LabelEncoder()
df_union["distrito_cod"] = le.fit_transform(df_union["DISTRITOS"])
# Añadir variables de mes y año para añadirlas como variables
df_union["año"] = df_union["Fecha"].dt.year
df_union["mes"] = df_union["Fecha"].dt.month

In [None]:
# Función de clasificación con precisión
def clasificar_delito(tipo_delito):

    # Calcular percentiles para el tipo de delito seleccionado
    percentil_bajo = np.percentile(df_union[tipo_delito], 33)  # 33% de los valores más bajos
    percentil_alto = np.percentile(df_union[tipo_delito], 66)  # 33% de los valores más altos

    # Clasificar los distritos en base a los percentiles de delitos
    def clasificar_distrito(row):
        if row[tipo_delito] > percentil_alto:
            return 'Alto riesgo'
        elif row[tipo_delito] > percentil_bajo:
            return 'Riesgo medio'
        else:
            return 'Bajo riesgo'

    # Crear la variable objetivo clasificando los distritos
    df_union['clasificacion'] = df_union.apply(clasificar_distrito, axis=1)

    # Preprocesar la variable objetivo utilizando LabelEncoder
    le = LabelEncoder()
    y = le.fit_transform(df_union['clasificacion'])  # Codificar categorías a números

    # Definir las variables predictoras (X)
    X = df_union[["distrito_cod", "año", "mes", tipo_delito]]

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar el modelo de clasificación
    modelo = DecisionTreeClassifier(max_depth=5, random_state=42)
    modelo.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred = modelo.predict(X_test)

    # Calcular la precisión del modelo
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    # Hacer predicciones en todo el conjunto de datos
    df_union["prediccion"] = modelo.predict(X)

    # Invertir la transformación del LabelEncoder para obtener las etiquetas originales
    df_union["prediccion"] = le.inverse_transform(df_union["prediccion"])

    # Graficar el mapa
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    df_union.plot(column="prediccion", cmap="tab10", legend=True, ax=ax, edgecolor="black")

    # Agregar nombres de los distritos en el mapa
    for x, y, label in zip(df_union.geometry.centroid.x, df_union.geometry.centroid.y, df_union["DISTRITOS"]):
        ax.text(x, y, label, fontsize=8, ha="center", color="black")

    ax.set_title(f"Mapa de clasificación por árboles de decisión para {tipo_delito}\nPrecisión: {precision:.2f}", fontsize=14)
    ax.axis("off")  # Ocultar ejes

    plt.show()

# Crear el widget interactivo para seleccionar el tipo de delito
interact(clasificar_delito, tipo_delito=widgets.Dropdown(options=delitos, description="Delito:"));

A continuación, realizamos la misma clasificación con otro algoritmo, utilziando en este caso random forest. Este algoritmo es muy utilizado en muchos campos y es más robusto que los árboles de decisión. Sin embargo, cuenta con una desventaja respecto a los árboles de decisión, y es que no se pueden ver los nodos. Sin embargo, en el ejemplo utilizando árbol de decisión no se han mostrado los nodos y ramas del árbol porque había muchos y la visualización era bastante mala.

Dicho esto, los resultados con random forest son bastante similares a los obtenidos mediante árboles de decisión.

In [None]:
# Definir la función de clasificación con precisión
def clasificar_delito(tipo_delito):

    # Calcular percentiles para el tipo de delito seleccionado
    percentil_bajo = np.percentile(df_union[tipo_delito], 33)  # 33% de los valores más bajos
    percentil_alto = np.percentile(df_union[tipo_delito], 66)  # 33% de los valores más altos

    # Clasificar los distritos en base a los percentiles de delitos
    def clasificar_distrito(row):
        if row[tipo_delito] > percentil_alto:
            return 'Alto riesgo'
        elif row[tipo_delito] > percentil_bajo:
            return 'Riesgo medio'
        else:
            return 'Bajo riesgo'

    # Crear la variable objetivo clasificando los distritos
    df_union['clasificacion'] = df_union.apply(clasificar_distrito, axis=1)

    # Preprocesar la variable objetivo utilizando LabelEncoder
    le = LabelEncoder()
    y = le.fit_transform(df_union['clasificacion'])  # Codificar categorías a números

    # Definir las variables predictoras (X)
    X = df_union[["distrito_cod", "año", "mes", tipo_delito]]

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar el modelo de Random Forest
    modelo = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)
    modelo.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred = modelo.predict(X_test)

    # Calcular la precisión del modelo
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    # Hacer predicciones en todo el conjunto de datos
    df_union["prediccion"] = modelo.predict(X)

    # Invertir la transformación del LabelEncoder para obtener las etiquetas originales
    df_union["prediccion"] = le.inverse_transform(df_union["prediccion"])

    # Graficar el mapa
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    df_union.plot(column="prediccion", cmap="tab10", legend=True, ax=ax, edgecolor="black")

    # Agregar nombres de los distritos en el mapa
    for x, y, label in zip(df_union.geometry.centroid.x, df_union.geometry.centroid.y, df_union["DISTRITOS"]):
        ax.text(x, y, label, fontsize=8, ha="center", color="black")

    ax.set_title(f"Mapa de clasificación con Random Forest para {tipo_delito}\nPrecisión: {precision:.2f}", fontsize=14)
    ax.axis("off")  # Ocultar ejes

    plt.show()

# Crear el widget interactivo para seleccionar el tipo de delito
interact(clasificar_delito, tipo_delito=widgets.Dropdown(options=delitos, description="Delito:"));

Después, hacemos una prueba con el algoritmo de redes neuronales. A diferencia de los casos anteriores, los resultados han variado más hasta el punto de que si nos fijamos en la clasificación, podemos ver como muchos distitos se han casificado de manera diferente y la precisión es menor. Es importante tener en cuenta que para este algoritmo hay que ajustar bien algunos parámetros como el número de capas de neuronas, el número de neuronas o la tasa de crecimiento para obtener los mejores resultados y evitar problemas como el sobreajuste.

In [None]:
# Definir la función de clasificación con precisión
def clasificar_delito(tipo_delito):

    # Calcular percentiles para el tipo de delito seleccionado
    percentil_bajo = np.percentile(df_union[tipo_delito], 33)  # 33% de los valores más bajos
    percentil_alto = np.percentile(df_union[tipo_delito], 66)  # 33% de los valores más altos

    # Clasificar los distritos en base a los percentiles de delitos
    def clasificar_distrito(row):
        if row[tipo_delito] > percentil_alto:
            return 'Alto riesgo'
        elif row[tipo_delito] > percentil_bajo:
            return 'Riesgo medio'
        else:
            return 'Bajo riesgo'

    # Crear la variable objetivo clasificando los distritos
    df_union['clasificacion'] = df_union.apply(clasificar_distrito, axis=1)

    # Preprocesar la variable objetivo utilizando LabelEncoder
    le = LabelEncoder()
    y = le.fit_transform(df_union['clasificacion'])  # Codificar categorías a números

    # Definir las variables predictoras (X)
    X = df_union[["distrito_cod", "año", "mes", tipo_delito]]

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar el modelo de Red Neuronal (MLP)
    modelo = MLPClassifier(hidden_layer_sizes=(100, 50), max_iter=1000, random_state=42)
    modelo.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred = modelo.predict(X_test)

    # Calcular la precisión del modelo
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    # Hacer predicciones en todo el conjunto de datos
    df_union["prediccion"] = modelo.predict(X)

    # Invertir la transformación del LabelEncoder para obtener las etiquetas originales
    df_union["prediccion"] = le.inverse_transform(df_union["prediccion"])

    # Graficar el mapa
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    df_union.plot(column="prediccion", cmap="tab10", legend=True, ax=ax, edgecolor="black")

    # Agregar nombres de los distritos en el mapa
    for x, y, label in zip(df_union.geometry.centroid.x, df_union.geometry.centroid.y, df_union["DISTRITOS"]):
        ax.text(x, y, label, fontsize=8, ha="center", color="black")

    ax.set_title(f"Mapa de clasificación con redes neuronales (MLP) para {tipo_delito}\nPrecisión: {precision:.2f}", fontsize=14)
    ax.axis("off")  # Ocultar ejes

    plt.show()

# Crear el widget interactivo para seleccionar el tipo de delito
interact(clasificar_delito, tipo_delito=widgets.Dropdown(options=delitos, description="Delito:"));

También hemos utilizado el algoritmo adaboost, consiguiendo resultados y precisión similares a los obtenidos con random forest y árboles de decisión.

In [None]:
# Definir la función de clasificación con precisión
def clasificar_delito(tipo_delito):

    # Calcular percentiles para el tipo de delito seleccionado
    percentil_bajo = np.percentile(df_union[tipo_delito], 33)  # 33% de los valores más bajos
    percentil_alto = np.percentile(df_union[tipo_delito], 66)  # 33% de los valores más altos

    # Clasificar los distritos en base a los percentiles de delitos
    def clasificar_distrito(row):
        if row[tipo_delito] > percentil_alto:
            return 'Alto riesgo'
        elif row[tipo_delito] > percentil_bajo:
            return 'Riesgo medio'
        else:
            return 'Bajo riesgo'

    # Crear la variable objetivo clasificando los distritos
    df_union['clasificacion'] = df_union.apply(clasificar_distrito, axis=1)

    # Preprocesar la variable objetivo utilizando LabelEncoder
    le = LabelEncoder()
    y = le.fit_transform(df_union['clasificacion'])  # Codificar categorías a números

    # Definir las variables predictoras (X)
    X = df_union[["distrito_cod", "año", "mes", tipo_delito]]

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar el modelo AdaBoost con un árbol de decisión base
    modelo = AdaBoostClassifier(n_estimators=100, random_state=42)
    modelo.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred = modelo.predict(X_test)

    # Calcular la precisión del modelo
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    # Hacer predicciones en todo el conjunto de datos
    df_union["prediccion"] = modelo.predict(X)

    # Invertir la transformación del LabelEncoder para obtener las etiquetas originales
    df_union["prediccion"] = le.inverse_transform(df_union["prediccion"])

    # Graficar el mapa
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    df_union.plot(column="prediccion", cmap="tab10", legend=True, ax=ax, edgecolor="black")

    # Agregar nombres de los distritos en el mapa
    for x, y, label in zip(df_union.geometry.centroid.x, df_union.geometry.centroid.y, df_union["DISTRITOS"]):
        ax.text(x, y, label, fontsize=8, ha="center", color="black")

    ax.set_title(f"Mapa de clasificación con AdaBoost para {tipo_delito}\nPrecisión: {precision:.2f}", fontsize=14)
    ax.axis("off")  # Ocultar ejes

    plt.show()

# Crear el widget interactivo para seleccionar el tipo de delito
interact(clasificar_delito, tipo_delito=widgets.Dropdown(options=delitos, description="Delito:"));


Por último, realizamos una clasifiación mediante SVM. Al igual que en el caso anterior, los resultados obtenidos han sido muy diferentes respecto a los de los otros algoritmos.

In [None]:
# Definir la función de clasificación con precisión
def clasificar_delito(tipo_delito):

    # Calcular percentiles para el tipo de delito seleccionado
    percentil_bajo = np.percentile(df_union[tipo_delito], 33)  # 33% de los valores más bajos
    percentil_alto = np.percentile(df_union[tipo_delito], 66)  # 33% de los valores más altos

    # Clasificar los distritos en base a los percentiles de delitos
    def clasificar_distrito(row):
        if row[tipo_delito] > percentil_alto:
            return 'Alto riesgo'
        elif row[tipo_delito] > percentil_bajo:
            return 'Riesgo medio'
        else:
            return 'Bajo riesgo'

    # Crear la variable objetivo clasificando los distritos
    df_union['clasificacion'] = df_union.apply(clasificar_distrito, axis=1)

    # Preprocesar la variable objetivo utilizando LabelEncoder
    le = LabelEncoder()
    y = le.fit_transform(df_union['clasificacion'])  # Codificar categorías a números

    # Definir las variables predictoras (X)
    X = df_union[["distrito_cod", "año", "mes", tipo_delito]]

    # Dividir los datos en entrenamiento y prueba
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entrenar el modelo SVM
    modelo = SVC(kernel='rbf', C=1, gamma='scale', random_state=42)
    modelo.fit(X_train, y_train)

    # Hacer predicciones en el conjunto de prueba
    y_pred = modelo.predict(X_test)

    # Calcular la precisión del modelo
    precision = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo: {precision:.2f}")

    # Hacer predicciones en todo el conjunto de datos
    df_union["prediccion"] = modelo.predict(X)

    # Invertir la transformación del LabelEncoder para obtener las etiquetas originales
    df_union["prediccion"] = le.inverse_transform(df_union["prediccion"])

    # Graficar el mapa
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    df_union.plot(column="prediccion", cmap="tab10", legend=True, ax=ax, edgecolor="black")

    # Agregar nombres de los distritos en el mapa
    for x, y, label in zip(df_union.geometry.centroid.x, df_union.geometry.centroid.y, df_union["DISTRITOS"]):
        ax.text(x, y, label, fontsize=8, ha="center", color="black")

    ax.set_title(f"Mapa de clasificación con SVM para {tipo_delito}\nPrecisión: {precision:.2f}", fontsize=14)
    ax.axis("off")  # Ocultar ejes

    plt.show()

# Crear el widget interactivo para seleccionar el tipo de delito
interact(clasificar_delito, tipo_delito=widgets.Dropdown(options=delitos, description="Delito:"));

Como se puede observar, el tipo de algoritmo ha hecho que los resultados varíen mucho. Esto solo es una prueba para realizar clasificaciones y si quisieramos realizar una clasificación mejor deberíamos modificar parámmetros de los algoritmos como el número de neuronas de la red neuronal, C (Parámetro de penalización del error en SVM) o la profundidad del árbol en los árboles de decisión y en random forest. Además, para poder utilizar estas clasificaciones en otros estudios deberíamos validarlas con otros datos, ya que aunque los algoritmos utilizados utilizan una parte de los datos proporcionados para validar, al ser datos extraídos de la misma fuente pueden estar sesgados.

Dicho esto, para estos algoritmos de clasificación hemos utilizado un repartor de las muestras de 80-20 para entrenamiento y validación para obtener una primera aproximación a calcular una precisión global. Con estos parámetros, podemos ver como en principio adaboost, random forest y árboles de decisión ofrecen mejores resultados. Sin embargo, sigue siendo conveniente utilizar fuentes de datos externas para validar el modelo para evitar el sesgo, como ya hemos comentado.

Por ello, no sacaremos ninguna conclusión de los resultados obtenidos a partir de estas clasificaciones porque no tenemos la certeza de que algunos de ellos sea correcto.

**Conclusiones extraídas de los resultados del ESDA**

Como se ha podido observar en este ESDA, la mayoría de los delitos, independientemente de la fecha, no presentan autocorrelación global estadísticamente significativa. En cuanto a la autocorrelación local, si que está presente y es muy diferente según el tipo de delito y la fecha que estemos estudiando.

Por otra parte, si nos fijamos en la agrupación de zonas según los delitos y la comparamos con las divisiones administrativas reales, podemos ver que son muy diferentes entre sí. Este resultado podría ser útil de cara a luchar contra ciertos crímenes o para la distribución de las fuerzas de seguridad en la ciudad de Madrid.

Por último, del análisis de patrones de puntos realizado sobre los datos de multas en Madrid podemos extraer que las multas se pueden agrupar en clústeres, lo que podría estar indicando que hay zonas más problemáticas en este sentido.

**4.3 RESULTADOS: RED DE CALLES CON OSMNX**

**Modelar red de calles**

In [None]:
# Reproyectar la capa de distritos a 3857
distritos = distritos.to_crs("EPSG:3857")

# Diccionario con los nombres de los 5 distritos céntricos
distritos_centro = ["CENTRO", "RETIRO", "ARGANZUELA", "CHAMBERÍ", "SALAMANCA"]

# Filtrar los distritos seleccionados
centro_gdf = distritos[distritos['DISTRITO'].isin(distritos_centro)]

# Unir todas las geometrías en un solo polígono
centro = centro_gdf.geometry.union_all()

# Convertir a E4326
centro = gpd.GeoSeries([centro], crs="EPSG:3857").to_crs("EPSG:4326").iloc[0]

In [None]:
# Crear la red basada en todas las calles transitables, sin simplificar, para simplificarla después manualmente
red = ox.graph_from_polygon(centro, network_type="drive_service", simplify=False)
red = ox.project_graph(red, to_crs='EPSG:3857') # Reproyectar red

# Plotear la red
ox.plot_graph(red, node_color="r", node_size=5, edge_color="w", edge_linewidth=1)

**Simplificar la red de calles e identificar los nodos que serían eliminados en caso de aplicar la simplificación de la red**

In [None]:
# Crear una versión simplificada de la red
red_simplificada = ox.simplify_graph(red)

# Identificar los nodos que se eliminarían en la simplificación
nodos_remove = list(set(red.nodes) - set(red_simplificada.nodes))
nodos_colors = ["y" if node in nodos_remove else "r" for node in red.nodes]

# Plotear la red coloreada
fig, ax = ox.plot_graph(red, node_color=nodos_colors, node_size=5, edge_linewidth=1)
plt.show()

In [None]:
# Simplificar la red
red_simplificada = ox.simplify_graph(red)

# Plotear la red simplificada (sin tener en cuenta los nodos que se mostraban en amarillo en la figura anterior, ya que no son nodos reales)
fig, ax = ox.plot_graph(red_simplificada, node_color="r", node_size=5, edge_linewidth=1)
plt.show()

También se puede realizar la simplificación identificando los nodos con bucles:


In [None]:
# Identificar los nodos con bucles (cuyo nodo de origen y destino es el mismo)
loops = {u for u, v in nx.selfloop_edges(red_simplificada)}

# Asignar colores a los nodos (rojo para los nodos con bucles y amarillo para el resto)
node_colors = ["r" if node in loops else "y" for node in red_simplificada.nodes]

# Plotear la red
fig, ax = ox.plot_graph(red_simplificada, node_color=node_colors, node_size=5, edge_linewidth=1)
plt.show()

In [None]:
# Identificar los nodos eliminados
nodes_removed = set(red.nodes()) - set(red_simplificada.nodes())

# Asignar colores a los nodos (rojo para los nodos con bucles y amarillo para el resto)
node_colors = ["y" if node in nodes_removed else "r" for node in red.nodes()]

# Plotear la red
fig, ax = ox.plot_graph(red, node_color=node_colors, node_size=5, edge_linewidth=1)
plt.show()

In [None]:
# Simplificar la red
red_simplificada = ox.simplify_graph(red)

# Plotear la red simplificada
fig, ax = ox.plot_graph(red_simplificada, node_color="r", node_size=5, edge_linewidth=1)
plt.show()

**Destacar propiedades de la red**

In [None]:
# Resaltar las calles de sentido único (en rojo)
oneway = ["r" if data["oneway"] else "w" for u, v, key, data in red.edges(keys=True, data=True)]
fig, ax = ox.plot_graph(red, node_size=0, edge_color=oneway, edge_linewidth=1, edge_alpha=0.7)

In [None]:
# Resaltar las calles con un límite de velocidad de 30 km/h (en rojo)
lim_30 = ["r" if "maxspeed" in data and data["maxspeed"] == "30" else "w" for u, v, key, data in red.edges(keys=True, data=True)]
fig, ax = ox.plot_graph(red, node_size=0, edge_color=lim_30, edge_linewidth=1.5, edge_alpha=0.7)

In [None]:
# Colorear calles en función de su longitud
lon = ox.plot.get_edge_colors_by_attr(red, attr="length", cmap="plasma_r")
fig, ax = ox.plot_graph(
    red, node_color="w", node_edgecolor="k", node_size=10, edge_color=lon, edge_linewidth=2
)

**Ruta básica por distancia**

In [None]:
# Geocodificar los lugares
matadero = ox.geocode_to_gdf("Matadero de Madrid, Madrid")
ventas = ox.geocode_to_gdf("Plaza de Toros de las Ventas, Madrid")

# Reproyectar a 3857
matadero = matadero.to_crs(epsg=3857)
ventas = ventas.to_crs(epsg=3857)

# Extraer las coordenadas (centroide del geodataframe)
orig_coords = (matadero.geometry.centroid.y, matadero.geometry.centroid.x)
dest_coords = (ventas.geometry.centroid.y, ventas.geometry.centroid.x)

# Encontrar los nodos más cercanos a las coordenadas de los lugares
orig_node = ox.distance.nearest_nodes(red, X=orig_coords[1], Y=orig_coords[0])
dest_node = ox.distance.nearest_nodes(red, X=dest_coords[1], Y=dest_coords[0])

# Encontrar la ruta más corta entre los nodos
ruta = ox.shortest_path(red, orig_node, dest_node, weight="length")

# Asegurarse de que 'ruta' sea una lista de nodos
if isinstance(ruta[0], list):  # Si la ruta es una lista de listas, aplana la lista
    ruta = ruta[0]

# Plotear la ruta
fig, ax = ox.plot_graph_route(red, ruta, route_color="y", route_linewidth=6, node_size=0)

Velocidades y tiempos de viaje

In [None]:
# Agregar velocidades de las aristas
red_vel = ox.add_edge_speeds(red)

# Calcular tiempo de viaje
red_vel = ox.add_edge_travel_times(red)

In [None]:
# Ver los valores medios de velocidad y tiempo por tipo de carretera
edges = ox.graph_to_gdfs(red, nodes=False)
edges["highway"] = edges["highway"].astype(str)
edges.groupby("highway")[["length", "speed_kph", "travel_time"]].mean().round(1)

In [None]:
# Definir las velocidades para las carreteras que no tengan el atributo de velocidad imputado
hwy_speeds = {"residential": 30, "secondary": 50, "tertiary": 60}

# Agregar velocidades a las aritas
red_vel = ox.add_edge_speeds(red, hwy_speeds=hwy_speeds)

# Agregar tiempos de viaje a las aristas
red_vel = ox.add_edge_travel_times(red)

# Obtener los valores de velocidad de cada arista
speeds = [data["speed_kph"] for _, _, _, data in red_vel.edges(keys=True, data=True)]

# Crear un mapa de colores basado en la velocidad máxima
cmap = plt.cm.YlOrRd
norm = mcolors.Normalize(vmin=min(speeds), vmax=max(speeds))
edge_colors = [cmap(norm(speed)) for speed in speeds]

# Plotear la red y colorearla en función de la velocidad máxima
fig, ax = ox.plot_graph(red, node_size=0, edge_color=edge_colors, edge_linewidth=1)

**Ruta básica por tiempo**

In [None]:
# Encontrar la ruta más rápida entre los nodos
ruta2 = ox.shortest_path(red, orig_node, dest_node, weight="travel_time")

# Asegurarse de que 'ruta' sea una lista de nodos
if isinstance(ruta2[0], list):  # Si la ruta es una lista de listas, aplana la lista
    ruta2 = ruta2[0]

# Plotear la ruta
fig, ax = ox.plot_graph_route(red, ruta2, route_color="y", route_linewidth=6, node_size=0)

**Red de calles y su relación con los delitos y multas de tráfico**

Existen muchas posibilidades para utilizar las redes y sus propiedades con nuestro conjunto de datos.

En primer lugar, trataremos de relacionar las multas infringidas con la estructura y características de la red.

Después, generaremos una ruta "segura" para desplazarse entre diferentes puntos de interés de la ciudad de Madrid y la compararemos con la ruta corta.

**Red de calles y su influencia en las multas de tráfico**

In [None]:
# Convertir red a GeoDataFrame
nodes, edges = ox.graph_to_gdfs(red_simplificada)

# Unir las geometrías de los edges y aplicar un pequeño buffer para cubrir zonas adyacentes
area_red = edges.geometry.union_all().buffer(10)

# Reproyectar multas a EPSG 3857
gdf_multas = gdf_multas.to_crs(epsg=3857)

# Recortar multas a la zona de red
gdf_multas_recortado = gdf_multas[gdf_multas.geometry.within(area_red)]

# Crear figura y ejes
fig, ax = plt.subplots(figsize=(10, 10))

# Dibujar red
edges.plot(ax=ax, linewidth=1, edgecolor='gray')
nodes.plot(ax=ax, color='red', markersize=5)

# Dibujar multas
gdf_multas_recortado.plot(ax=ax, color='blue', markersize=10, alpha=0.7, label='Multas')

# Añadir leyenda
ax.legend()
plt.title("Red de calles y multas en los 5 distritos centrales de Madrid")
plt.axis('off')
plt.show()

print("Nº de multas dentro del área:", len(gdf_multas_recortado))

In [None]:
# Agrupar por coordenadas (x, y) y contar cuántas veces se repite cada punto
gdf_multas_recortado['LONGITUD'] = gdf_multas_recortado.geometry.x
gdf_multas_recortado['LATITUD'] = gdf_multas_recortado.geometry.y
multas_agrupadas = gdf_multas_recortado.groupby(['LONGITUD', 'LATITUD']).size().reset_index(name='conteo')

# Crear geometría de puntos a partir de x, y
multas_agrupadas['geometry'] = multas_agrupadas.apply(lambda row: Point(row['LONGITUD'], row['LATITUD']), axis=1)
multas_agrupadas = gpd.GeoDataFrame(multas_agrupadas, geometry='geometry', crs=gdf_multas.crs)

# Crear figura y ejes
fig, ax = plt.subplots(figsize=(10, 10))

# Dibujar la red
edges.plot(ax=ax, linewidth=1, edgecolor='gray')

# Escalar el tamaño del punto según el número de multas (puedes ajustar el factor)
tamaños = multas_agrupadas['conteo'] ** 0.5 * 30

# Dibujar las multas agrupadas con tamaño proporcional
multas_agrupadas.plot(
    ax=ax,
    markersize=tamaños,
    facecolor='none',         # Sin relleno
    edgecolor='blue',         # Solo borde azul
    linewidth=1.5,
    alpha=0.7,
    label='Multas'
)

# Añadir etiquetas con el número de multas
for idx, row in multas_agrupadas.iterrows():
    ax.annotate(str(row['conteo']), xy=(row.geometry.x, row.geometry.y),
                xytext=(3, 3), textcoords="offset points", fontsize=8, color='navy')

# Mostrar gráfico
plt.title("Red de calles y multas de tráfico")
plt.axis('off')
plt.show()

Límites de velocidad de los tramos donde han habido más multas de tráfico

In [None]:
# Función para limpiar valores de maxspeed
def procesar_maxspeed(valor):
    if isinstance(valor, list):
        try:
            return min([int(x) for x in valor if x is not None])
        except:
            return None
    try:
        return int(valor)
    except:
        return None

# Aplicar limpieza
multas_con_maxspeed['maxspeed_clean'] = multas_con_maxspeed['maxspeed'].apply(procesar_maxspeed)

# Eliminar NaN
multas_validas = multas_con_maxspeed.dropna(subset=['maxspeed_clean'])

# Agrupar y calcular proporciones
multas_por_maxspeed = multas_validas.groupby('maxspeed_clean')['conteo'].sum().reset_index()
multas_por_maxspeed['proporcion'] = multas_por_maxspeed['conteo'] / multas_por_maxspeed['conteo'].sum()
multas_por_maxspeed = multas_por_maxspeed.sort_values(by='proporcion', ascending=False)

# Graficar
plt.figure(figsize=(10, 6))
bars = plt.bar(multas_por_maxspeed['maxspeed_clean'].astype(str), multas_por_maxspeed['proporcion'], color='cornflowerblue', edgecolor='gray')
plt.title("Proporción de multas por límite de velocidad del tramo")
plt.xlabel("Límite de velocidad (km/h)")
plt.ylabel("Proporción de multas")
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.5)

# Añadir etiquetas de porcentaje
for bar in bars:
    height = bar.get_height()
    plt.annotate(f"{height:.1%}", xy=(bar.get_x() + bar.get_width()/2, height),
                 xytext=(0, 5), textcoords="offset points", ha='center', fontsize=8)

plt.tight_layout()
plt.show()

La mayoría de las multas (casi tres cuartas partes) se dan en aquellos tramos o calles con velocidad máxima de la vía de 50 km/hora.

Mapa de calor de las multas

In [None]:
# Crear figura
plt.figure(figsize=(10, 10))

# Crear el mapa de calor de densidad de kernel (por debajo de la red)
sns.kdeplot(
    x=multas_agrupadas['LONGITUD'],
    y=multas_agrupadas['LATITUD'],
    weights=multas_agrupadas['conteo'],
    cmap='Reds',
    fill=True,
    bw_adjust=0.5,
    thresh=0.05,
)

# Obtener los valores de velocidad de cada arista de la red
speeds = [data["speed_kph"] for _, _, _, data in red_vel.edges(keys=True, data=True)]

# Crear un mapa de colores basado en la velocidad máxima
cmap = plt.cm.YlOrRd
norm = mcolors.Normalize(vmin=min(speeds), vmax=max(speeds))
edge_colors = [cmap(norm(speed)) for speed in speeds]

# Dibujar la red de carreteras con los colores correspondientes a la velocidad
ox.plot_graph(red_vel, node_size=0, edge_color=edge_colors, edge_linewidth=2, ax=plt.gca(), show=False)

# Ajustar título y mostrar el mapa
plt.title('Mapa de calor de multas y red de carreteras con velocidades')
plt.axis('off')
plt.show()

**Red y delitos por distrito: Ruta segura**

Para la generación de las rutas seguras asignamos un riesgo ponderado según el tipo y número de delitos cometidos a cada distrito.

In [None]:
# Ajustamos los pesos según la importancia que demos a cada delito
df_union['riesgo'] = (df_union['POR TENENCIA DE ARMAS'] * 2 +
                      df_union['POR TENENCIA DE DROGAS'] * 1.5 +
                      df_union['POR CONSUMO DE DROGAS'] * 1.1 +
                      df_union["CON HERIDOS"] * 1.5)

Después asignamos esos valores de riesgo a la red para poder tomar el riesgo como peso a la hora de generar rutas. Se puede observar como la delictividad de cada zona afecta a la ruta a tomar, ya que en la mayoría de los casos la ruta segura es diferente de la ruta más corta.

In [None]:
# Cargar una red simplificado de Madrid
G = ox.graph_from_place("Madrid, Spain", network_type="drive", simplify=True)

# Puntos de interés en Madrid
puntos_destacados = {
    "Puerta del Sol": (40.4168, -3.7038),
    "Plaza Mayor": (40.4154, -3.7074),
    "Gran Vía": (40.4203, -3.7058),
    "Parque del Retiro": (40.4153, -3.6846),
    "Museo del Prado": (40.4138, -3.6921),
    "Museo Reina Sofía": (40.4088, -3.6941),
    "Museo Thyssen-Bornemisza": (40.4160, -3.6944),
    "Museo Arqueológico Nacional": (40.4233, -3.6880),
    "Museo Sorolla": (40.4380, -3.6901),
    "Museo Cerralbo": (40.4247, -3.7140),
    "Estadio Santiago Bernabéu": (40.4531, -3.6883),
    "Estadio Wanda Metropolitano": (40.4362, -3.5995),
    "Estadio de Vallecas": (40.3982, -3.6584),
    "Plaza de Cibeles": (40.4189, -3.6939),
    "Palacio Real": (40.4179, -3.7143),
    "Templo de Debod": (40.4240, -3.7173),
    "Plaza de España": (40.4231, -3.7123),
    "Mercado de San Miguel": (40.4155, -3.7080),
    "Matadero Madrid": (40.3919, -3.6974),
    "Puerta de Alcalá": (40.4192, -3.6886),
    "Zoo Aquarium": (40.4013, -3.7620),
    "Estación de Atocha": (40.4077, -3.6915),
    "Estación de Méndez Álvaro": (40.3947, -3.6782),
    "Estación de Príncipe Pío": (40.4212, -3.7204),
    "Casa de Campo": (40.4253, -3.7531),
    "Las Ventas": (40.4322, -3.6636),
    "Madrid Río": (40.4010, -3.7183),
    "Cuatro Torres": (40.4775, -3.6874),
    "Plaza de Castilla": (40.4655, -3.6884),
    "Congreso de los Diputados": (40.4169, -3.6997)
}

# Obtener fechas únicas para el selector
fechas_disponibles = sorted(df_union['Fecha'].dt.date.unique())

# Crear dropdowns para seleccionar origen y destino
origen_selector = widgets.Dropdown(
    options=puntos_destacados.keys(),
    description='Origen:',
    disabled=False
)

destino_selector = widgets.Dropdown(
    options=puntos_destacados.keys(),
    description='Destino:',
    disabled=False
)

# Crear un dropdown para seleccionar la fecha
fecha_selector = widgets.Dropdown(
    options=fechas_disponibles,
    description='Fecha:',
    disabled=False
)

# Convertir el grafo en GeoDataFrame de aristas
edges_gdf = ox.graph_to_gdfs(G, nodes=False, edges=True)

def obtener_riesgo_por_fecha(fecha):
    df_fecha = df_union[df_union['Fecha'].dt.date == fecha]

    if df_fecha.empty:
        print("No hay datos de riesgo para esta fecha.")
        return {}

    # Hacer un join espacial para encontrar las intersecciones
    edges_riesgo = gpd.sjoin(edges_gdf, df_fecha[['geometry', 'riesgo']], how='left', predicate='intersects')

    # Reemplazar valores NaN por 0
    edges_riesgo['riesgo'] = edges_riesgo['riesgo'].fillna(0)

    # Convertir a diccionario para acceso rápido
    return edges_riesgo['riesgo'].to_dict()

def calcular_y_comparar_rutas(fecha, origen, destino):
    if fecha is not None and origen in puntos_destacados and destino in puntos_destacados:
        print(f"Calculando rutas para la fecha: {fecha} desde {origen} hasta {destino}")

        # Obtener nodos más cercanos
        coordenadas_origen = puntos_destacados[origen]
        coordenadas_destino = puntos_destacados[destino]

        origen_node = ox.distance.nearest_nodes(G, X=coordenadas_origen[1], Y=coordenadas_origen[0])
        destino_node = ox.distance.nearest_nodes(G, X=coordenadas_destino[1], Y=coordenadas_destino[0])

        # Obtener riesgos
        riesgos_dict = obtener_riesgo_por_fecha(fecha)

        for u, v, key, data in G.edges(keys=True, data=True):
            data['riesgo'] = riesgos_dict.get((u, v), 1)  # Asignar 1 si no hay datos para evitar errores

        # Calcular la ruta más corta
        try:
            ruta_rapida = nx.shortest_path(G, source=origen_node, target=destino_node, weight='length')
        except nx.NetworkXNoPath:
            print("No se encontró ruta rápida.")
            return

        # Calcular la ruta más segura
        try:
            ruta_segura = nx.shortest_path(G, source=origen_node, target=destino_node, weight='riesgo')
        except nx.NetworkXNoPath:
            print("No se encontró ruta segura.")
            return

        # Dibujar el mapa con ambas rutas
        ox.plot_graph_routes(
            G, [ruta_rapida, ruta_segura],
            route_colors=["cyan", "red"],
            route_linewidth=4,
            node_size=0,
            bgcolor="k"
        )
        print("Ruta rápida (azul) vs. Ruta segura (rojo)")
    else:
        print("Selecciona una fecha, origen y destino válidos.")

# Crear la interacción
widgets.interactive(calcular_y_comparar_rutas, fecha=fecha_selector, origen=origen_selector, destino=destino_selector)

Ahora generamos un mapa que indica el tiempo que se tardaría en llegar a cada nodo de la red desde un punto determinado, añadiendo una penalización en función del riesgo de delitos en cada distrito. De esta manera, se intenta ver como podría retrasar a una persona la presencia de delitos en las calles. El resultado se puede ver para cada fecha de nuestro conjunto de datos y si nos fijamos en os resultados obtenidos podemos ver como el tiempo de desplazamiento cambia mucho si tenemos en cuenta los posibles retrasos que podría producir la delictividad de una zona.

Dicho esto, el valor de penalización, que es lo que afectarían los delitos al tiempo de desplazamiento, se ha seleccionado de manera arbitraria, por lo que, en primer lugar, el resultado obtenido no tiene por que ser representativo de la realidad y, en segundo lugar, para seleccionar bien este valor deberíamos hacer un estudio más profundo sobre como afecta cada tipo de delito al tiempo de viaje, como afecta cada delito a cada tipo de vía (no es lo mismo ir a pie que en un vehículo), etc.

In [None]:
# Función para obtener el riesgo por y fecha
def obtener_riesgo_por_fecha(fecha):
  """
    Obtiene un diccionario con los valores de riesgo para cada arista del grafo, en una fecha determinada.

    Parámetros:
    fecha (datetime.date): Fecha para la que se desea obtener el riesgo.

    Devuelve:
    dict: Diccionario con claves (u, v) representando los nodos de cada arista y valores con el nivel de riesgo asociado.
    Si no hay datos para la fecha, devuelve un diccionario vacío.
    """
    df_fecha = df_union[df_union['Fecha'].dt.date == fecha]
    if df_fecha.empty:
        print("No hay datos de riesgo para esta fecha.")
        return {}

    # Join espacial asegurando geometría válida
    df_fecha = df_fecha[df_fecha.geometry.notnull()]
    edges_con_riesgo = gpd.sjoin(edges_gdf, df_fecha[['geometry', 'riesgo']], how='left', predicate='intersects')

    edges_con_riesgo['riesgo'] = edges_con_riesgo['riesgo'].fillna(0)
    riesgo_dict = {(row['u'], row['v']): row['riesgo'] for _, row in edges_con_riesgo.iterrows()}
    return riesgo_dict

# Función para generar un mapa de calor de tiempos con tooltips
def mapa_de_tiempos_con_tooltips(fecha, origen):
  """
    Genera un mapa interactivo de tiempos de llegada desde un punto de origen a los nodos del grafo,
    teniendo en cuenta el riesgo delictivo como penalización al tiempo de recorrido.

    Parámetros:
    fecha (datetime.date): Fecha para la que se calcula el riesgo y los tiempos.
    origen (str): Nombre del punto de origen (debe estar en el diccionario puntos_destacados).

    Devuelve:
    Muestra un mapa de Folium con los nodos coloreados según el tiempo de llegada considerando el riesgo,
    e incluye tooltips con los tiempos con y sin riesgo.
    """
    if origen not in puntos_destacados:
        print("Selecciona un punto de origen válido.")
        return

    print(f"Generando mapa de tiempos desde {origen} para la fecha {fecha}")
    coordenadas = puntos_destacados[origen]
    nodo_origen = ox.distance.nearest_nodes(G, X=coordenadas[1], Y=coordenadas[0])

    # Penalización por riesgo
    velocidad_media = 5 * 1000 / 3600  # 5 km/h en metros por segundo
    riesgos_dict = obtener_riesgo_por_fecha(fecha)

    # Calculando tiempos con y sin penalización
    for u, v, key, data in G.edges(keys=True, data=True):
        riesgo = riesgos_dict.get((u, v), 0)

        # Sin penalización por riesgo
        longitud = data.get('length', 1)
        tiempo_sin_riesgo = longitud / velocidad_media  # Tiempo sin penalización en segundos

        # Con penalización por riesgo
        penalizacion = 1 + riesgo * 0.005  # Penalización ajustada
        tiempo_con_riesgo = longitud / (velocidad_media / penalizacion)  # Tiempo en segundos

        # Guardamos ambos tiempos
        data['tiempo_sin_riesgo'] = tiempo_sin_riesgo
        data['tiempo_con_riesgo'] = tiempo_con_riesgo

    # Tiempos desde el nodo origen
    tiempos_nodos = nx.single_source_dijkstra_path_length(G, nodo_origen, weight='tiempo_con_riesgo')

    # Convertir nodos en GeoDataFrame
    nodos = ox.graph_to_gdfs(G, nodes=True, edges=False)
    nodos['tiempo_min_con_riesgo'] = nodos.index.map(tiempos_nodos)
    nodos['tiempo_min_con_riesgo'] = nodos['tiempo_min_con_riesgo'] / 60  # Convertir a minutos

    # Calcular el tiempo sin riesgo
    tiempos_nodos_sin_riesgo = nx.single_source_dijkstra_path_length(G, nodo_origen, weight='tiempo_sin_riesgo')
    nodos['tiempo_min_sin_riesgo'] = nodos.index.map(tiempos_nodos_sin_riesgo)
    nodos['tiempo_min_sin_riesgo'] = nodos['tiempo_min_sin_riesgo'] / 60  # Convertir a minutos

    # Crear el mapa
    m = folium.Map(location=coordenadas, zoom_start=13, tiles='cartodbpositron')

    colormap = linear.YlOrRd_09.scale(nodos['tiempo_min_con_riesgo'].min(), nodos['tiempo_min_con_riesgo'].max())
    colormap.caption = 'Tiempo de llegada (minutos)'
    colormap.add_to(m)

    # Agregar nodos con tooltips
    for _, row in nodos.dropna(subset=['tiempo_min_con_riesgo']).iterrows():
        tooltip = f"Tiempo con delitos: {row['tiempo_min_con_riesgo']:.2f} min\nTiempo sin delitos: {row['tiempo_min_sin_riesgo']:.2f} min"
        folium.CircleMarker(
            location=(row['y'], row['x']),
            radius=2,
            color=colormap(row['tiempo_min_con_riesgo']),
            fill=True,
            fill_opacity=0.6,
            weight=0,
            tooltip=tooltip  # Tooltip con ambos tiempos
        ).add_to(m)

    folium.Marker(location=coordenadas, popup=f"{origen}", icon=folium.Icon(color='green')).add_to(m)
    display(m)

# Interfaz
fechas_disponibles = sorted(df_union['Fecha'].dt.date.unique())

fecha_selector = widgets.Dropdown(
    options=fechas_disponibles,
    description='Fecha:',
    disabled=False
)

origen_selector = widgets.Dropdown(
    options=puntos_destacados.keys(),
    description='Origen:',
    disabled=False
)

widgets.interactive(mapa_de_tiempos_con_tooltips, fecha=fecha_selector, origen=origen_selector)

**Mapa isócrono de la red de calles peatonales**

In [None]:
# Crear la red de calles peatonales
red_peatonal = ox.graph_from_polygon(centro, network_type="walk")
red_peatonal = ox.project_graph(red_peatonal, to_crs='EPSG:3857') # Reproyectar red

# Plotear la red peatonal
fig, ax = ox.plot_graph(red_peatonal, node_size=0, edge_linewidth=0.5, edge_color='gray')

In [None]:
# Configurar el tipo de red, tiempos de viaje y velocidad de desplazamiento
trip_times = [5, 10, 15, 20, 25]  # en minutos
travel_speed = 4.5  # velocidad andando en km/h

In [None]:
# Identificar el nodo central
gdf_nodes = ox.graph_to_gdfs(red_peatonal, edges=False)
x, y = gdf_nodes["geometry"].union_all().centroid.xy
center_node = ox.distance.nearest_nodes(red_peatonal, x[0], y[0])
G = ox.project_graph(red_peatonal)

In [None]:
# Añadir atributo de tiempo necesario para recorrer cada arista
meters_per_minute = travel_speed * 1000 / 60  # convertir a metros por minuto

for _, _, _, data in red_peatonal.edges(data=True, keys=True):
    data["time"] = data["length"] / meters_per_minute

In [None]:
# Obtener colores
iso_colors = ox.plot.get_colors(n=len(trip_times), cmap="plasma", start=0)

# Convertir los colores a formato hexadecimal
iso_colors_hex = [to_hex(color) for color in iso_colors]

print(iso_colors_hex)

In [None]:
# Colorear los nodos según el tiempo de viaje
node_colors = {}

for trip_time, color in zip(sorted(trip_times, reverse=True), iso_colors):
    subgraph = nx.ego_graph(red_peatonal, center_node, radius=trip_time, distance="time")
    for node in subgraph.nodes():
        node_colors[node] = color

nc = [node_colors[node] if node in node_colors else "none" for node in red_peatonal.nodes()]
ns = [15 if node in node_colors else 0 for node in red_peatonal.nodes()]

# Plotear la red
fig, ax = ox.plot_graph(
    red_peatonal,
    node_color=nc,
    node_size=ns,
    node_alpha=0.8,
    edge_linewidth=0.2,
    edge_color="#999999",
)

In [None]:
# Crear los polígonos de isócronas en forma de casco convexo
isochrone_polys = []

for trip_time in sorted(trip_times, reverse=True):
    subgraph = nx.ego_graph(red_peatonal, center_node, radius=trip_time, distance="time")
    node_points = [Point((data["x"], data["y"])) for node, data in subgraph.nodes(data=True)]
    bounding_poly = gpd.GeoSeries(node_points).union_all().convex_hull
    isochrone_polys.append(bounding_poly)

iso = gpd.GeoDataFrame(geometry=isochrone_polys)

# Plotear la red
fig, ax = ox.plot_graph(
    red_peatonal, show=False, close=False, edge_color="#999999", edge_alpha=0.2, node_size=0
)
iso.plot(ax=ax, color=iso_colors, ec="none", alpha=0.6, zorder=-1)
plt.show()

In [None]:
# Crear los polígonos de isócronas en forma de buffers
def make_iso_polys(red_peatonal, edge_buff=25, node_buff=50, infill=False):
    isochrone_polys = []
    for trip_time in sorted(trip_times, reverse=True):
        subgraph = nx.ego_graph(red_peatonal, center_node, radius=trip_time, distance="time")

        node_points = [Point((data["x"], data["y"])) for node, data in subgraph.nodes(data=True)]
        nodes_gdf = gpd.GeoDataFrame({"id": list(subgraph.nodes)}, geometry=node_points)
        nodes_gdf = nodes_gdf.set_index("id")

        edge_lines = []
        for n_fr, n_to in subgraph.edges():
            f = nodes_gdf.loc[n_fr].geometry
            t = nodes_gdf.loc[n_to].geometry
            edge_lookup = red_peatonal.get_edge_data(n_fr, n_to)[0].get("geometry", LineString([f, t]))
            edge_lines.append(edge_lookup)

        n = nodes_gdf.buffer(node_buff).geometry
        e = gpd.GeoSeries(edge_lines).buffer(edge_buff).geometry
        all_gs = list(n) + list(e)
        new_iso = gpd.GeoSeries(all_gs).union_all()

        # Rellenar para que no haya huecos
        if infill:
            new_iso = Polygon(new_iso.exterior)
        isochrone_polys.append(new_iso)
    return isochrone_polys

# Crear con los polígonos de isócronas
isochrone_polys = make_iso_polys(red_peatonal, edge_buff=25, node_buff=0, infill=True)
iso = gpd.GeoDataFrame(geometry=isochrone_polys)

# Plotear la red y colorearla con los polígonos
fig, ax = ox.plot_graph(
    red_peatonal, show=False, close=False, edge_color="#999999", edge_alpha=0.2, node_size=0
)
iso.plot(ax=ax, color=iso_colors, ec="none", alpha=0.6, zorder=-1)
plt.show()

Consolidar intersecciones

In [None]:
# Obtener las intersecciones consolidadas
intersections = ox.consolidate_intersections(
    red, rebuild_graph=False, tolerance=15, dead_ends=False
)

len(intersections) # número de nodos de la red con las intersecciones consolidadas

In [None]:
len(red) # número de nodos de la red original

In [None]:
# Consolidar intersecciones y reconstruir la topología de la red
red_cons = ox.consolidate_intersections(red, rebuild_graph=True, tolerance=15, dead_ends=False)
len(red_cons)

In [None]:
fig, ax = ox.plot_graph(red_cons, node_color="r", node_size=5)

**Calcular medidas básicas de la red de calles (topológicas y geométricas)**

In [None]:
# Crear un GeoDataFrame a partir del polígono 'centro'
centro_gdf = gpd.GeoDataFrame(geometry=[centro], crs="EPSG:4326")

# Reproyectar a EPSG:3857 para calcular el área correctamente
centro_gdf = centro_gdf.to_crs(epsg=3857)

# Calcular área
area = centro_gdf.area
area

In [None]:
# Obtener estadísticas sobre la red consolidada y convertirla a pd.Series
stats_red = ox.basic_stats(red, area=area)
pd.Series(stats_red)

In [None]:
stats_red = ox.basic_stats(red, area=area)

for k, count in stats_red["streets_per_node_counts"].items():
    stats_red["{}way_int_count".format(k)] = count

for k, proportion in stats_red["streets_per_node_proportions"].items():
    stats_red["{}way_int_prop".format(k)] = proportion

# Eliminar los elementos que ya no necesitamos
del stats_red["streets_per_node_counts"]
del stats_red["streets_per_node_proportions"]

# Cargar como dataframe
pd.DataFrame(pd.Series(stats_red, name="value")).round(3)

**Centralidad de intermediación**

In [None]:
# Calcular la centralidad de intermediación
red_digraph = red.to_directed()

# Calcular la centralidad de intermediación utilizando el peso 'length' de las aristas
bc = nx.betweenness_centrality(red_digraph, weight="length")

# Mostrar la centralidad de intermediación
print(bc)

In [None]:
# Extraer el nodo con la mayor centralidad de intermediación
max_node, max_bc = max(bc.items(), key=lambda x: x[1])
max_node, max_bc

In [None]:
# Destacar el nodo con mayor centralidad de intermediación
nc = ["r" if node == max_node else "w" for node in red.nodes]
ns = [150 if node == max_node else 5 for node in red.nodes]

fig, ax = ox.plot_graph(red, node_size=ns, node_color=nc, node_zorder=2, bgcolor="k")

In [None]:
# Extraer la centralidad relativa de cada nodo
nx.set_node_attributes(red, bc, "bc")
nc = ox.plot.get_node_colors_by_attr(red, "bc", cmap="viridis")

# Plotear la red con la centralidad relativa de cada nodo
fig, ax = ox.plot_graph(
    red,
    node_color=nc,
    node_size=5,
    node_zorder=2,
    edge_linewidth=0.2,
    edge_color="w",
    bgcolor="k",
)

**Triangulación de Delaunay y diagrama de Voronoi**

In [None]:
# Lista de distritos
places = [
    "Centro, Madrid, España",
    "Arganzuela, Madrid, España",
    "Retiro, Madrid, España",
    "Chamberí, Madrid, España",
    "Salamanca, Madrid, España"
]

# Obtener las entidades que son comisarías
police_list = [ox.features_from_place(place, tags={"amenity": "police"}) for place in places]
comisarias = gpd.GeoDataFrame(pd.concat(police_list, ignore_index=True))

# Mostrar las primeras 5 comisarías
print(comisarias.head())

In [None]:
# Reproyectar comisarías
comisarias = comisarias.to_crs(epsg=3857)

# Comprobar que realiza el recorte a los 5 distritos seleccionados
comisarias = comisarias[comisarias.within(centro_gdf.unary_union)]

# Extraer el centroide de cada comisarías
comisarias_centroids = comisarias.geometry.centroid

# Extraer las coordenadas del centroide
comisarias_coords = np.vstack((
    comisarias_centroids.x,
    comisarias_centroids.y
)).T

comisarias_coords

In [None]:
# Convertir las coordenadas a objetos 'Point' de Shapely
comisarias_points = [Point(xy) for xy in comisarias_coords]

# Convertir comisarías a GeoDataFrame
comisarias_gdf = gpd.GeoDataFrame(comisarias_coords, geometry=comisarias_points, crs="EPSG:3857")

Triangulación de Delaunay

In [None]:
tri = Delaunay(comisarias_coords)

fig = plt.figure(figsize=(12, 9))
axes = fig.add_axes([0, 0, 1, 1])
delaunay_plot_2d(tri, ax=axes)

# Plotear el distrito "Centro"
centro_gdf.plot(fc="#F6F6F6", ec="none", ax=axes)

# Plotear la red
ox.plot_graph(red, node_size=0, bgcolor="w", ax=axes, edge_color="#CCCCCC")

Diagrama de Voronoi

In [None]:
vor = Voronoi(comisarias_coords)
fig = plt.figure(figsize=(12, 9))
axes = fig.add_axes([0, 0, 1, 1])
voronoi_plot_2d(vor, ax=axes, line_width = 3, point_size=20)

# Plotear los distritos
centro_gdf.plot(fc="#F6F6F6", ec="none", ax=axes)

# Plotear la red
ox.plot_graph(red, node_size=0, bgcolor="w", ax=axes, edge_color="#CCCCCC")

**Agrupación espacial restringida por la red con K de Ripley usando Spaghetti**

In [None]:
def plot_k(k, _arcs, df1, df2, obs, scale=True, wr=[1, 1.2], size=(14, 7)):

    """Plot a Global Auto K-function and spatial context."""

    def function_plot(f, ax):
        """Plot a Global Auto K-function."""

        ax.plot(k.xaxis, k.observed, "b-", linewidth=1.5, label="Observed")
        ax.plot(k.xaxis, k.upperenvelope, "r--", label="Upper")
        ax.plot(k.xaxis, k.lowerenvelope, "k--", label="Lower")
        ax.legend(loc="best", fontsize="x-large")
        title_text = "Global Auto $K$ Function: %s\n" % obs
        title_text += "%s steps, %s permutations," % (k.nsteps, k.permutations)
        title_text += " %s distribution" % k.distribution
        f.suptitle(title_text, fontsize=25, y=1.1)
        ax.set_xlabel("Distance $(r)$", fontsize="x-large")
        ax.set_ylabel("$K(r)$", fontsize="x-large")

    def spatial_plot(ax):
        """Plot spatial context."""

        base = _arcs.plot(ax=ax, color="k", alpha=0.25)
        df1.plot(ax=base, color="g", markersize=30, alpha=0.25)
        df2.plot(ax=base, color="g", marker="x", markersize=100, alpha=0.5)
        carto_elements(base, scale)

    sub_args = {"gridspec_kw":{"width_ratios": wr}, "figsize":size}
    fig, arr = matplotlib.pyplot.subplots(1, 2, **sub_args)
    function_plot(fig, arr[0])
    spatial_plot(arr[1])
    fig.tight_layout()

def carto_elements(b, scale):
    """Add/adjust cartographic elements."""

    if scale:
        kw = {"units":"m", "dimension":"si-length", "fixed_value":1000}
        b.add_artist(ScaleBar(1, **kw))
    b.set(xticklabels=[], xticks=[], yticklabels=[], yticks=[])

In [None]:
# Convert la red a GeoDataFrame
nodes, edges = ox.graph_to_gdfs(red)

# Guardar nodos y aristas como shapefiles
nodes.to_file("centro_nodes.shp")
edges.to_file("centro_edges.shp")

In [None]:
ntw = sp.Network(in_data="centro_edges.shp")

# Convertrtir los elementos de la red en GeoDataFrames
vertices_df, arcs_df = sp.element_as_gdf(ntw, vertices=True, arcs=True)

In [None]:
# Ajustar las observaciones de comisarías a los bordes más cercanos en la red
ntw.snapobservations(comisarias_gdf, "police", attribute=True)

# Mostrar los patrones de puntos ajustados de la red
print(ntw.pointpatterns)

In [None]:
# Convertir las ubicaciones originales sin ajustar de las comisarías en un GeoDataFrame
comisarias = sp.element_as_gdf(ntw, pp_name="police")

# Convertir las ubicaciones ajustadas de las comisarías en un GeoDataFrame
comisarias_snapped = sp.element_as_gdf(ntw, pp_name="police", snapped=True)

Agrupación de comisarías

In [None]:
# Establecer la semilla aleatoria
np.random.seed(0)

# Calcular la función Global Auto-K para el patrón de puntos de museos
kres = ntw.GlobalAutoK(
    ntw.pointpatterns["police"],   # Usar las ubicaciones de museos ajustadas a la red
    nsteps=10,                     # Número de pasos de distancia para el análisis
    permutations=99                # Número de permutaciones aleatorias
)

# Plotear los resultados
plot_k(kres, arcs_df, comisarias, comisarias_snapped, "Comisarías en los distritos céntricos de Madrid")
plt.show()

La curva observada se sitúa por encima del límite superior del intervalo de confianza de las simulaciones a partir de los 4000 metros de distancia, mientras que hasta los 4000 metros la curva sigue un ritmo similar al que se observaría en el límite superior de las simulaciones. Por lo tanto, la distribución no sigue ningún patrón aleatorio, sino que las comisarías tienden a agruparse más de lo que se esperaría en una distribución aleatoria, especialmente a partir de los 4000 metros. Además, pdemos observar que gran parte de las comisarías se sitúan en el distrito Centro.

**5. EVALUACIÓN CRÍTICA**

Antes de tomar los resultados obtenidos en este análisis exploratorio de datos como definitivos es importante tener en cuenta las debilidades y fortalezas del mismo.

Comenzando por las debilidades, podría ser interesante la inclusión de otras variables que podrían ayudar en este estudio como la renta media por persona, el nivel de estudios medios por persona o porcentaje de personas en el paro entre otros muchos ejemplos. Otra posible debilidad es que, aunque hemos utilizado dos tipos de datos (datos puntuales y distritos de Madrid), quizá podría ser interesante hacer este mismo análisis a otras escalas. Por ejemplo a nivel de barrio o incluso de calle, lo que nos permitiría darle otro enfoque al trabajo y comprender mejor la distribución de los delitos en la ciudad de Madrid.  Otra posible debilidad es que no se han comparado los resultados obtenidos con los de otro ESDA similar, ya que no hemos podido encontrar ninguno parecido. Esto nos habría permitido "validar" nuestros resultados, encontrar fallos o fuentes de error y mejorar nuestro ESDA.También nos gustaría mencionar como debilidad que, aunque se ha hecho un análisis relacionado con las redes de la zona, este análisis es bastante simple y probablemente se puede profundizar mucho más en este sentido. En cuanto a las estadísticas relativas a las multas de tráfico, la limpieza de los datos no fue sencilla, ya que habían coordenadas vacías y también coordenadas incorrectas. Además, muchas de las coordenadas estaban repetidas, es decir, en la misma coordenada hay datos de varias multas, lo cual puede deberse a la propia naturaleza del hecho o una incorrecta transposición de las coordenadas al crear la base de datos. Por último, también es posible que según el tipo de delito, no todos los delitos se denuncien de la misma manera o en la misma proporción, lo que significaría que nuestros datos pueden estar sesgados y no representar de manera completamente fiel la realidad.


En cuanto a las fortalezas, los datos de partida son fiables ya que se han extraido de instituciones oficiales como el Ayuntamiento de Madrid, a exceción de lo comentado respecto a los datos de multas. Además, existe continuidad en los datos, lo que nos permite estudiar la evolución de los delitos sin riesgo a que la falta de datos sesgue nuestros resultados. Otra fortaleza del estudio es que como los datos están divididos en función de distritos, nos permiten ver diferencias dentro de la ciudad de Madrid y dan pie a realizar un analisis espacial de los datos en el futuro. También es una fortaleza que los datos cubran todos los distritos de la ciudad, ya que esto significa que la cobertura espacial de la zona objetivo de estudio es total. Otra fortaleza es que se han podido generar mapas y gráficos muy intuitivos y comprensibles, que podrían ser de gran utilidad para informar a un público que no conozca mucho del tema. Siguiendo en esta línea, el estudio realizado podría ser útil en la toma de decisiones sobre seguridad ciudadana o planificación urbana. Además, al estar presente todo el código que hemos utilizado, el análisis que hemos hecho es completamente reproducible e incluso aplicable a otros conjuntos de datos similares. Por último, una gran fortaleza del estudio es que se han podido responder, en mayor o menor medida, las preguntas que planteamos al inicio del estudio, permitiéndonos cumplir nuestros objetivos iniciales.