# ‚ú® Descripci√≥n General del Sistema ‚ú®

Este sistema est√° dise√±ado para **procesar**, **analizar** y **visualizar datos** relacionados con incidentes delictivos en diferentes distritos, complementando esta informaci√≥n con estad√≠sticas socioecon√≥micas. A trav√©s de un flujo organizado, se busca descubrir patrones y generar insights valiosos de manera eficiente.

## üéØ **Objetivos del Sistema**

1. üõ†Ô∏è **Preprocesamiento de Datos**:
   - ‚úÖ Limpieza y normalizaci√≥n de datos, eliminando inconsistencias como tildes y caracteres no deseados.
   - ‚úÖ Estandarizaci√≥n de formatos para facilitar comparaciones entre m√∫ltiples conjuntos de datos.
   - ‚úÖ Conversi√≥n de columnas, como fechas y horas, para asegurar su correcto manejo.

2. üìä **An√°lisis de Datos**:
   - üîç Identificar patrones, correlaciones y tendencias en los datos.
   - üó∫Ô∏è Filtrar y agrupar informaci√≥n por categor√≠as clave (distritos, horas, tipos de delitos, etc.).

3. üé® **Visualizaci√≥n de Resultados**:
   - üìâ Creaci√≥n de gr√°ficos claros y din√°micos para representar los resultados.
   - üå°Ô∏è Generaci√≥n de mapas de calor, gr√°ficos de barras y otras visualizaciones atractivas.
   - üìÖ An√°lisis temporal (d√≠as de la semana, horas cr√≠ticas, etc.).

## üèóÔ∏è **Estructura del Sistema**

### 1Ô∏è‚É£ **Preprocesamiento de Datos**
- üßπ **Limpieza**: Eliminaci√≥n de inconsistencias como tildes, espacios extra y caracteres especiales.
- üîÑ **Transformaci√≥n**: Conversi√≥n de cadenas a fechas, horas, y otros formatos requeridos.
- ‚ûï **Enriquecimiento**: Generaci√≥n de nuevas columnas derivadas, como d√≠as de la semana y rangos horarios.

### 2Ô∏è‚É£ **Visualizaci√≥n de los Datos**
- üìä **Gr√°ficos por Categor√≠a**:
  - An√°lisis de delitos por tipo, sexo, y hora del d√≠a.
  - Relaci√≥n entre factores socioecon√≥micos y la cantidad de delitos.
- üå°Ô∏è **Mapas de Calor**:
  - Representaci√≥n de delitos por hora y tipo, destacando patrones cr√≠ticos.
- üèÜ **Insights Visuales**:
  - Explorar c√≥mo factores como la tasa de ocupaci√≥n influyen en la cantidad de delitos.

---

‚ö° **Beneficios del Sistema**:
- üìà **Escalabilidad**: Puede manejar grandes conjuntos de datos.
- üõ†Ô∏è **Flexibilidad**: Adaptable a diferentes estructuras y fuentes de datos.
- üí° **Insights Accionables**: Facilita la toma de decisiones informadas basadas en datos reales.

‚ú® ¬°Transforma datos en conocimiento con este sistema! ‚ú®


## PREPROCESAMIENTO DE DATOS

### Conexi√≥n Base de Datos Postgres

In [None]:
import psycopg
import os

# ================================================
# Definici√≥n de par√°metros de conexi√≥n
# ================================================
# Descripci√≥n general:
# Este bloque define los par√°metros necesarios para conectarse a una base de datos PostgreSQL.
# Los par√°metros incluyen:
# - `dbname`: Nombre de la base de datos a la que se conectar√°.
# - `user`: Usuario de la base de datos.
# - `password`: Contrase√±a para autenticar al usuario.
# - `host`: Direcci√≥n del host donde se encuentra la base de datos.
# - `port`: Puerto en el que escucha la base de datos.

conn_params = {
    'dbname': 'datos',        # Nombre de la base de datos
    'user': 'postgres',       # Usuario de la base de datos
    'password': '12345',      # Contrase√±a del usuario
    'host': 'localhost',      # Direcci√≥n del servidor (localhost en este caso)
    'port': '5432'            # Puerto por defecto de PostgreSQL
}

# ================================================
# Establecer conexi√≥n con la base de datos
# ================================================
# Descripci√≥n general:
# Este bloque intenta establecer una conexi√≥n con la base de datos PostgreSQL
# utilizando los par√°metros definidos anteriormente.
# En caso de √©xito, imprime un mensaje de confirmaci√≥n.
# Si ocurre un error, este se captura y se imprime en la consola.

try:
    # Se intenta conectar a la base de datos utilizando los par√°metros
    conn = psycopg.connect(**conn_params)
    print("Conexi√≥n exitosa")
except Exception as e:
    # Captura cualquier error durante la conexi√≥n y lo imprime
    print(f"Ocurri√≥ un error: {e}")

# ================================================
# Cierre de conexi√≥n (comentado por defecto)
# ================================================
# Descripci√≥n general:
# Es importante cerrar la conexi√≥n a la base de datos una vez que se han
# completado todas las operaciones. Este paso evita fugas de recursos.

# Descomenta la siguiente l√≠nea para cerrar la conexi√≥n cuando termines.
# conn.close()


### 1. Funci√≥n que elimine los espacios en blanco de la columna distrito para usarse en ambos conjuntos de datos.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import regexp_replace

# ================================================
# Crea una sesi√≥n de Spark
# ================================================
# Descripci√≥n general:
# Este bloque crea una sesi√≥n de Spark, que es necesaria para ejecutar comandos de PySpark.
# La sesi√≥n de Spark permite procesar datos a gran escala utilizando DataFrames y RDDs.
spark = SparkSession.builder \
    .appName("Preprocessing Data") \
        .getOrCreate()

# ================================================
# Carga de datos desde archivos CSV
# ================================================
# Descripci√≥n general:
# Los datos se cargan desde dos archivos CSV: uno contiene datos del OIJ y el otro del INEC.
# Ambos DataFrames se construyen especificando encabezados y permitiendo la inferencia de tipos de datos.

# Par√°metros de entrada:
# - Ruta del archivo: La ruta absoluta de los archivos CSV.
# - header=True: Especifica que los archivos CSV tienen encabezados.
# - inferSchema=True: Permite que Spark detecte autom√°ticamente los tipos de datos.

# Descripci√≥n de la salida:
# - `oij_df` y `inec_df`: DataFrames de Spark que contienen los datos cargados.
oij_df = spark.read.csv(
    "C:\\Users\\grana\\OneDrive\\Escritorio\\Bases de datos\\spark\\data\\OIJ.csv", 
    header=True, 
    inferSchema=True
)
inec_df = spark.read.csv(
    "C:\\Users\\grana\\OneDrive\\Escritorio\\Bases de datos\\spark\\data\\inec.csv", 
    header=True, 
    inferSchema=True
)

# ================================================
# Funci√≥n: eliminar_espacios_y_concatenar
# ================================================
def eliminar_espacios_y_concatenar(dataframe, columna):
    """
    Elimina los espacios en blanco y concatena las palabras en una columna espec√≠fica 
    de un DataFrame de Spark.

    Par√°metros:
    - dataframe (DataFrame): El DataFrame de Spark a procesar.
    - columna (str): El nombre de la columna en la que se eliminar√°n los espacios en blanco.

    Retorno:
    - DataFrame: Un nuevo DataFrame con los cambios aplicados a la columna especificada.

    Excepciones:
    - ValueError: Si la columna especificada no existe en el DataFrame.

    Descripci√≥n de bloques relevantes:
    - El bloque `if columna in dataframe.columns` verifica si la columna existe.
    - La funci√≥n `regexp_replace` se utiliza para eliminar los espacios en blanco.
    """
    if columna in dataframe.columns:
        return dataframe.withColumn(columna, regexp_replace(dataframe[columna], " ", ""))
    else:
        raise ValueError(f"La columna '{columna}' no existe en el DataFrame.")

# ================================================
# Limpieza del DataFrame de OIJ
# ================================================
# Descripci√≥n general:
# Este bloque limpia la columna 'Distrito' en el DataFrame `oij_df`.
# Tambi√©n elimina la columna '_C11' si est√° presente.

try:
    # Limpia la columna 'Distrito' eliminando espacios en blanco
    oij_df = eliminar_espacios_y_concatenar(oij_df, "Provincia")
    oij_df = eliminar_espacios_y_concatenar(oij_df, "Canton")
    oij_df = eliminar_espacios_y_concatenar(oij_df, 'Distrito')

    
    # Elimina la columna '_C11' si existe
    if '_C11' in oij_df.columns:
        oij_df = oij_df.drop('_C11')
except Exception as e:
    # Captura errores durante el procesamiento
    print(f"Error al procesar OIJ: {e}")

# ================================================
# Limpieza del DataFrame de INEC
# ================================================
# Descripci√≥n general:
# Este bloque limpia la columna 'distrito' en el DataFrame `inec_df`.

try:
    # Limpia la columna 'distrito' eliminando espacios en blanco
    inec_df = eliminar_espacios_y_concatenar(inec_df, "Provincia")
    inec_df = eliminar_espacios_y_concatenar(inec_df, "Canton")
    inec_df = eliminar_espacios_y_concatenar(inec_df, "distrito")
except Exception as e:
    # Captura errores durante el procesamiento
    print(f"Error al procesar INEC: {e}")

# ================================================
# Visualizaci√≥n de los resultados
# ================================================
# Descripci√≥n general:
# Este bloque muestra los primeros 50 registros de cada DataFrame despu√©s del preprocesamiento.

# Muestra el DataFrame de OIJ despu√©s de la limpieza
print("Datos del OIJ despu√©s de limpiar:")
oij_df.show(50, truncate=False)

# Muestra el DataFrame de INEC despu√©s de la limpieza
print("Datos del INEC despu√©s de limpiar:")
inec_df.show(50, truncate=False)


### 2. Funci√≥n que convierta a min√∫sculas el contenido de la columna distrito para usarse en ambos conjuntos de datos

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import lower

# ================================================
# Crear SparkSession
# ================================================
# Descripci√≥n general:
# Este bloque inicializa una SparkSession, que es el punto de entrada para usar PySpark.
# Adem√°s, se configura el paquete de conexi√≥n para PostgreSQL.

try:
    spark = SparkSession.builder \
        .appName("Proyecto SparkSQL") \
            .config("spark.jars.packages", "org.postgresql:postgresql:42.7.4") \
                .getOrCreate()
    print("SparkSession creada:", spark.version)  # Imprime la versi√≥n de Spark en uso
except Exception as e:
    # Captura y muestra errores en caso de fallos al crear la sesi√≥n
    print("Error al crear SparkSession:", str(e))

# ================================================
# Cargar CSVs
# ================================================
# Descripci√≥n general:
# Este bloque carga datos desde archivos CSV en DataFrames de Spark.
# Actualmente, este bloque est√° comentado para evitar errores si los archivos no est√°n disponibles.

# df_oij = spark.read.csv("C:\\Projects\\spark\\data\\OIJ2011.csv", header=True, inferSchema=True)
# df_inec = spark.read.csv("C:\\Projects\\spark\\data\\inec.csv", header=True, inferSchema=True)

# ================================================
# Funci√≥n: convertir_minusculas
# ================================================
def convertir_minusculas(df, columna):
    """
    Convierte los valores de una columna espec√≠fica a min√∫sculas en un DataFrame de Spark.
    
    Par√°metros:
    - df (DataFrame): DataFrame de Spark que contiene los datos.
    - columna (str): Nombre de la columna cuyos valores se transformar√°n a min√∫sculas.
    
    Retorno:
    - DataFrame: Un nuevo DataFrame con la columna especificada transformada a min√∫sculas.
    
    Descripci√≥n de bloques relevantes:
    - Se utiliza la funci√≥n `lower` de PySpark para convertir los valores.
    - `withColumn` crea una nueva versi√≥n de la columna especificada con los valores modificados.
    """
    return df.withColumn(columna, lower(df[columna]))

# ================================================
# Aplicar la transformaci√≥n a min√∫sculas
# ================================================
# Descripci√≥n general:
# Aplica la funci√≥n `convertir_minusculas` a columnas espec√≠ficas de ambos DataFrames.
# Esto asegura que los valores tengan el mismo formato para facilitar an√°lisis posteriores.

try:
    # Transformar la columna 'Distrito' en df_oij
    
    df_oij = convertir_minusculas(oij_df, "Provincia")
    df_oij = convertir_minusculas(df_oij, "Canton")
    df_oij = convertir_minusculas(df_oij, "Distrito")


    
    
    # Transformar la columna 'distrito' en df_inec
    df_inec = convertir_minusculas(inec_df, "Provincia")
    df_inec = convertir_minusculas(df_inec, "Canton")
    df_inec = convertir_minusculas(df_inec, "distrito")
   
   
except Exception as e:
    # Captura cualquier error relacionado con la transformaci√≥n
    print("Error al aplicar la transformaci√≥n:", str(e))

# ================================================
# Mostrar los resultados
# ================================================
# Descripci√≥n general:
# Este bloque imprime los resultados de los DataFrames despu√©s de aplicar la transformaci√≥n.
# Se utiliza `show()` para mostrar los datos en la consola.

print("Datos OIJ:")
df_oij.show(truncate=False)  # Muestra los datos del DataFrame df_oij

print("Datos INEC:")
df_inec.show(truncate=False)  # Muestra los datos del DataFrame df_inec


### Crear Tablas para Ambos DataFrames

In [None]:
import psycopg
from pyspark.sql.types import StringType, IntegerType, FloatType, DoubleType, BooleanType

# ================================================
# Funci√≥n: crear_tabla_sql
# ================================================
def crear_tabla_sql(df, nombre_tabla):
    """
    Genera el script SQL para crear una tabla en PostgreSQL a partir de un DataFrame de Spark.
    
    Args:
        df: DataFrame de Spark cuyo esquema ser√° usado para definir la tabla.
        nombre_tabla: Nombre de la tabla a crear en PostgreSQL.
    
    Returns:
        str: Script SQL para crear la tabla con columnas correspondientes a los tipos del DataFrame.
    """
    schema = df.schema  # Obtiene el esquema del DataFrame
    columnas = []       # Lista para almacenar definiciones de columnas
    for campo in schema.fields:
        # Mapea los tipos de datos de Spark a los tipos de PostgreSQL
        if isinstance(campo.dataType, StringType):
            tipo_postgres = "VARCHAR"
        elif isinstance(campo.dataType, IntegerType):
            tipo_postgres = "INTEGER"
        elif isinstance(campo.dataType, FloatType):
            tipo_postgres = "FLOAT"
        elif isinstance(campo.dataType, DoubleType):
            tipo_postgres = "DOUBLE PRECISION"
        elif isinstance(campo.dataType, BooleanType):
            tipo_postgres = "BOOLEAN"
        else:
            tipo_postgres = "TEXT"  # Tipo por defecto
        columnas.append(f"{campo.name} {tipo_postgres}")
    
    # Construye la consulta SQL
    columnas_str = ", ".join(columnas)
    return f"CREATE TABLE IF NOT EXISTS {nombre_tabla} ({columnas_str});"

# ================================================
# Funci√≥n: insertar_datos_postgres
# ================================================
def insertar_datos_postgres(df, nombre_tabla, conn_params):
    """
    Inserta los datos de un DataFrame de Spark en una tabla PostgreSQL.
    
    Args:
        df: DataFrame de Spark cuyos datos ser√°n insertados.
        nombre_tabla: Nombre de la tabla en PostgreSQL donde se insertar√°n los datos.
        conn_params: Par√°metros de conexi√≥n a PostgreSQL como diccionario.
    
    Returns:
        None
    
    Excepciones:
        Muestra un mensaje en caso de error durante la inserci√≥n.
    """
    # Convierte el DataFrame en una lista de tuplas para insertar los datos
    datos = [tuple(row) for row in df.collect()]
    columnas = ", ".join(df.columns)  # Nombres de las columnas separados por comas
    placeholders = ", ".join(["%s"] * len(df.columns))  # Placeholder para cada columna
    sql_insertar = f"INSERT INTO {nombre_tabla} ({columnas}) VALUES ({placeholders})"
    
    try:
        # Conexi√≥n a PostgreSQL e inserci√≥n de datos
        with psycopg.connect(**conn_params) as conn:
            with conn.cursor() as cur:
                cur.executemany(sql_insertar, datos)
            conn.commit()
        print(f"Datos insertados correctamente en la tabla '{nombre_tabla}'.")
    except Exception as e:
        print(f"Error al insertar datos en la tabla '{nombre_tabla}': {e}")

# ================================================
# Ajustar nombres de columnas
# ================================================
# Descripci√≥n general:
# Este bloque ajusta los nombres de columnas de los DataFrames `df_oij` y `df_inec` 
# para que sean compatibles con PostgreSQL y estandarizados.

df_oij = df_oij.toDF(*[
    "delito", "subdelito", "fecha", "hora", "victima", "subvictima",
    "edad", "sexo", "nacionalidad", "provincia", "canton", "distrito"
])  # Renombrar columnas para `df_oij`

df_inec = df_inec.toDF(
    "provincia", "canton", "distrito", "poblacion_mayor_a_15",
    "tasa_neta_de_participacion", "tasa_de_ocupacion",
    "tasa_de_desempleo_abierto", "porcentaje_de_poblacion_economicamente_inactiva",
    "relacion_de_dependencia_economica", "porcentaje_poblacion_sector_primario",
    "porcentaje_poblacion_sector_secundario", "porcentaje_poblacion_sector_terciario"
)  # Renombrar columnas para `df_inec`

# ================================================
# Crear tablas e insertar datos
# ================================================
# Descripci√≥n general:
# Este bloque automatiza la creaci√≥n de tablas y la inserci√≥n de datos en PostgreSQL.
# Se ajustan los nombres de columnas para evitar errores relacionados con espacios o may√∫sculas.

tablas = [
    ("oij", df_oij),  # Tabla para los datos de OIJ
    ("inec", df_inec)  # Tabla para los datos de INEC
]

for nombre_tabla, dataframe in tablas:
    try:
        # Ajustar nombres de columnas (sin espacios y en min√∫sculas)
        dataframe = dataframe.toDF(*[col.replace(" ", "_").lower() for col in dataframe.columns])

        # Crear la tabla en PostgreSQL
        sql_crear_tabla = crear_tabla_sql(dataframe, nombre_tabla)
        with psycopg.connect(**conn_params) as conn:
            with conn.cursor() as cur:
                cur.execute(sql_crear_tabla)
            conn.commit()
        print(f"Tabla '{nombre_tabla}' creada correctamente.")

        # Insertar los datos en la tabla
        insertar_datos_postgres(dataframe, nombre_tabla, conn_params)
    except Exception as e:
        print(f"Error al procesar la tabla '{nombre_tabla}': {e}")


### Quitar Tildes de la Columna distritos de inec

In [None]:
from pyspark.sql.functions import translate

# ================================================
# Eliminar tildes de la columna 'distrito'
# ================================================
# Descripci√≥n general:
# Este bloque utiliza la funci√≥n `translate` de PySpark para eliminar las tildes
# de los valores en la columna `distrito` del DataFrame `df_inec`.

# Par√°metros:
# - translate("columna", "caracteres_a_reemplazar", "caracteres_de_reemplazo"):
#   - "distrito": Especifica la columna que ser√° transformada.
#   - "√°√©√≠√≥√∫√Å√â√ç√ì√ö": Lista de caracteres con tildes que ser√°n reemplazados.
#   - "aeiouAEIOU": Lista de caracteres sin tildes que reemplazar√°n a los anteriores.

# Resultado:
# - Crea una nueva versi√≥n de la columna `distrito` en el DataFrame `df_inec`
#   con los valores transformados (sin tildes).

# Definir columnas a procesar
columnas_inec = ["Provincia", "Canton", "distrito"]
columnas_oij = ["Provincia", "Canton", "Distrito"]

# Eliminar tildes en cada columna de df_inec
for columna in columnas_inec:
    df_inec = df_inec.withColumn(
        columna,
        translate(columna, "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )

# Eliminar tildes en cada columna de df_oij
for columna in columnas_oij:
    df_oij = df_oij.withColumn(
        columna,
        translate(columna, "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )


# ================================================
# Mostrar resultados
# ================================================
# Descripci√≥n general:
# Este bloque utiliza el m√©todo `select` para mostrar √∫nicamente la columna `distrito`
# despu√©s de la transformaci√≥n, permitiendo verificar que las tildes hayan sido eliminadas.


df_inec.select("Provincia", "Canton", "distrito").show(truncate=False)
df_oij.select("Provincia", "Canton", "Distrito").show(truncate=False)


### Quitar tildes en la base de datos (columna distritos, tabla inec)

In [None]:
# ================================================
# Eliminaci√≥n de tildes en la tabla 'inec'
# ================================================
# Descripci√≥n general:
# Este bloque ejecuta una consulta SQL para actualizar los valores de la columna `distrito`
# en la tabla `inec` de PostgreSQL, eliminando las tildes utilizando la funci√≥n `translate`.

# Consulta SQL para la tabla 'inec'
sql_update_inec = """
UPDATE inec
SET 
    Provincia = translate(Provincia, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU'),
    Canton = translate(Canton, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU'),
    distrito = translate(distrito, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU');
"""

# Consulta SQL para la tabla 'oij'
sql_update_oij = """
UPDATE oij
SET 
    Provincia = translate(Provincia, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU'),
    Canton = translate(Canton, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU'),
    Distrito = translate(Distrito, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU');
"""

# Descripci√≥n de la consulta:
# - `UPDATE inec`: Actualiza los registros de la tabla `inec`.
# - `SET distrito`: Especifica que se modificar√° la columna `distrito`.
# - `translate(distrito, '√°√©√≠√≥√∫√Å√â√ç√ì√ö', 'aeiouAEIOU')`: Reemplaza cada vocal con tilde
#   por su equivalente sin tilde directamente en la base de datos.

# Conexi√≥n a PostgreSQL y ejecuci√≥n de la consulta
try:
    with psycopg.connect(**conn_params) as conn:
        with conn.cursor() as cur:
            # Actualizar tabla 'inec'
            cur.execute(sql_update_inec)
            # Actualizar tabla 'oij'
            cur.execute(sql_update_oij)
        conn.commit()
    print("Tildes eliminadas en las tablas 'inec' y 'oij'.")
except Exception as e:
    print(f"Error al eliminar tildes en las tablas: {e}")


### 3. Una funci√≥n que devuelva la lista de distritos del conjunto de datos del OIJ que no coinciden con ning√∫n distrito del conjunto de datos del INEC

In [None]:
from pyspark.sql.functions import col, translate

# ================================================
# Funci√≥n: obtener_distritos_no_coincidentes
# ================================================
def obtener_distritos_no_coincidentes(oij_df, inec_df, columna_oij, columna_inec):
    """
    Devuelve la lista de distritos del conjunto de datos del OIJ que no coinciden
    con ning√∫n distrito del conjunto de datos del INEC.

    Args:
        oij_df: DataFrame de PySpark con los datos del OIJ.
        inec_df: DataFrame de PySpark con los datos del INEC.
        columna_oij: Nombre de la columna de distrito en el DataFrame OIJ.
        columna_inec: Nombre de la columna de distrito en el DataFrame INEC.

    Returns:
        DataFrame: Un DataFrame con los distritos del OIJ que no coinciden con los del INEC.

    Descripci√≥n de bloques relevantes:
    1. **Limpieza de tildes**:
        Se utiliza la funci√≥n `translate` para eliminar las tildes de ambas columnas
        (`columna_oij` y `columna_inec`) en los DataFrames del OIJ y el INEC, respectivamente.
    2. **Left Anti Join**:
        Se realiza un "left anti join" entre los dos DataFrames para identificar los distritos
        en el OIJ que no tienen coincidencia en el INEC.
    3. **Selecci√≥n de columna**:
        Se selecciona √∫nicamente la columna de distrito del OIJ para devolver un DataFrame
        con valores √∫nicos.
    """
    # Limpiar tildes en ambas columnas para asegurar comparaciones consistentes
    oij_df = oij_df.withColumn(
        columna_oij,
        translate(col(columna_oij), "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )
    inec_df = inec_df.withColumn(
        columna_inec,
        translate(col(columna_inec), "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )

    # Realizar el left anti join
    distritos_no_coincidentes = oij_df.join(
        inec_df,
        oij_df[columna_oij] == inec_df[columna_inec],
        how="left_anti"
    )

    # Seleccionar √∫nicamente la columna de distritos del OIJ
    return distritos_no_coincidentes.select(columna_oij).distinct()

# ================================================
# Uso de la funci√≥n
# ================================================
# Descripci√≥n general:
# Este bloque aplica la funci√≥n `obtener_distritos_no_coincidentes` para encontrar
# los distritos en el DataFrame del OIJ que no tienen coincidencia en el INEC.

# Par√°metros:
# - `oij_df`: DataFrame de Spark con los datos del OIJ.
# - `inec_df`: DataFrame de Spark con los datos del INEC.
# - `columna_oij`: Nombre de la columna de distrito en el DataFrame OIJ.
# - `columna_inec`: Nombre de la columna de distrito en el DataFrame INEC.

distritos_no_coincidentes = obtener_distritos_no_coincidentes(
    oij_df=df_oij,
    inec_df=df_inec,
    columna_oij="distrito",
    columna_inec="distrito"
)

# ================================================
# Mostrar los distritos no coincidentes
# ================================================
# Descripci√≥n general:
# Este bloque utiliza `show()` para visualizar los distritos del OIJ que no tienen coincidencia
# en el DataFrame del INEC. El argumento `truncate=False` asegura que los valores largos
# no sean truncados.

distritos_no_coincidentes.show(truncate=False)


### 4. Una funci√≥n que devuelva la cantidad de registros en el conjunto de datos del OIJ que no coinciden con ning√∫n distrito del conjunto de datos del INEC.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import trim, lower, col, translate

# ================================================
# Funci√≥n: contar_distritos_no_coincidentes
# ================================================
def contar_distritos_no_coincidentes(oij_df, inec_df, columna_oij="Distrito", columna_inec="distrito"):
    """
    Cuenta la cantidad de registros en el conjunto de datos del OIJ
    que no coinciden con ning√∫n distrito del conjunto de datos del INEC.

    Args:
        oij_df (DataFrame): DataFrame del conjunto de datos del OIJ.
        inec_df (DataFrame): DataFrame del conjunto de datos del INEC.
        columna_oij (str): Nombre de la columna de distrito en el DataFrame OIJ.
        Por defecto, "Distrito".
        columna_inec (str): Nombre de la columna de distrito en el DataFrame INEC.
        Por defecto, "distrito".

    Returns:
        int: N√∫mero de registros del OIJ sin coincidencia en INEC.

    Descripci√≥n de bloques relevantes:
    1. **Normalizaci√≥n de columnas**:
        - Se eliminan espacios en blanco con `trim`.
        - Se convierten los valores a min√∫sculas con `lower`.
        - Se eliminan tildes con `translate` para asegurar una comparaci√≥n consistente.
    2. **Left Anti Join**:
        - Identifica los distritos en el DataFrame del OIJ que no tienen coincidencia en el INEC.
    3. **Conteo de resultados**:
        - Cuenta los registros no coincidentes utilizando `count()`.
    """
    # Normalizar la columna de distrito en OIJ eliminando tildes, espacios y pasando a min√∫sculas
    oij_df = oij_df.withColumn(
        columna_oij,
        translate(trim(lower(col(columna_oij))), "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )
    
    # Normalizar la columna de distrito en INEC eliminando tildes, espacios y pasando a min√∫sculas
    inec_df = inec_df.withColumn(
        columna_inec,
        translate(trim(lower(col(columna_inec))), "√°√©√≠√≥√∫√Å√â√ç√ì√ö", "aeiouAEIOU")
    )
    
    # Realizar un left anti join para encontrar los distritos del OIJ que no tienen coincidencia en INEC
    distritos_no_coincidentes = oij_df.join(
        inec_df,
        oij_df[columna_oij] == inec_df[columna_inec],
        how="left_anti"
    )
    
    # Contar y devolver el n√∫mero de registros no coincidentes
    cantidad_no_coincidentes = distritos_no_coincidentes.count()
    return cantidad_no_coincidentes

# ================================================
# Crear una sesi√≥n de Spark
# ================================================
# Descripci√≥n general:
# Este bloque inicializa una sesi√≥n de Spark para realizar operaciones en los DataFrames.

spark = SparkSession.builder \
    .appName("Comparar Distritos OIJ e INEC") \
    .getOrCreate()

# ================================================
# Cargar datasets desde archivos CSV
# ================================================
# Descripci√≥n general:
# Este bloque (actualmente comentado) permite cargar los datasets OIJ e INEC desde archivos CSV
# y convertirlos en DataFrames de Spark.

# df_oij = spark.read.csv("C:\\Projects\\spark\\data\\OIJ2011.csv", header=True, inferSchema=True)
# df_inec = spark.read.csv("C:\\Projects\\spark\\data\\inec.csv", header=True, inferSchema=True)

# ================================================
# Llamar a la funci√≥n y mostrar el resultado
# ================================================
# Descripci√≥n general:
# Este bloque utiliza la funci√≥n `contar_distritos_no_coincidentes` para calcular
# cu√°ntos registros del OIJ no tienen coincidencias en el INEC y muestra el resultado.

resultado = contar_distritos_no_coincidentes(oij_df, inec_df)
print(f"N√∫mero de registros no coincidentes: {resultado}")


### Edite, utilizando SparkSQL, los nombres de los distritos del INEC para que coincidan con algunos de los del OIJ.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import trim, lower, col, translate

# ================================================
# Funci√≥n: editar_distritos_inec
# ================================================
def editar_distritos_inec(oij_df, inec_df, columna_oij="Distrito", columna_inec="distrito"):
    """
    Edita los nombres de los distritos en el INEC para que coincidan con algunos de los del OIJ.

    Args:
        oij_df (DataFrame): DataFrame del conjunto de datos del OIJ.
        inec_df (DataFrame): DataFrame del conjunto de datos del INEC.
        columna_oij (str): Nombre de la columna de distrito en el DataFrame OIJ.
                            Por defecto, "Distrito".
        columna_inec (str): Nombre de la columna de distrito en el DataFrame INEC.
                            Por defecto, "distrito".

    Returns:
        Tuple[DataFrame, DataFrame]: DataFrames editados de OIJ e INEC.

    Descripci√≥n de bloques relevantes:
    1. **Normalizaci√≥n de columnas**:
        - Elimina espacios en blanco con `trim`.
        - Convierte texto a min√∫sculas con `lower`.
        - Reemplaza caracteres con tildes y la `√±` con sus equivalentes sin tildes utilizando `translate`.
    2. **Salida**:
        - Retorna dos DataFrames con las columnas normalizadas.
    """
    # Normalizar columnas de distritos en OIJ e INEC (quitar tildes, √± -> n, espacios, min√∫sculas)
    oij_df = oij_df.withColumn(
        columna_oij,
        translate(trim(lower(col(columna_oij))), "√°√©√≠√≥√∫√±√Å√â√ç√ì√ö√ë", "aeiounAEIOUN")
    )
    
    inec_df = inec_df.withColumn(
        columna_inec,
        translate(trim(lower(col(columna_inec))), "√°√©√≠√≥√∫√±√Å√â√ç√ì√ö√ë", "aeiounAEIOUN")
    )
    
    return oij_df, inec_df

# ================================================
# Crear una sesi√≥n de Spark
# ================================================
# Descripci√≥n general:
# Este bloque inicializa una sesi√≥n de Spark necesaria para realizar operaciones
# en los DataFrames y cargar los datos.

spark = SparkSession.builder \
    .appName("Editar Distritos INEC para Coincidir con OIJ") \
    .getOrCreate()

# ================================================
# Cargar datasets desde archivos CSV
# ================================================
# Descripci√≥n general:
# Este bloque (comentado por defecto) carga los datasets desde archivos CSV y los convierte en DataFrames de Spark.

# df_oij = spark.read.csv("C:\\Projects\\spark\\data\\OIJ2011.csv", header=True, inferSchema=True)
# df_inec = spark.read.csv("C:\\Projects\\spark\\data\\inec.csv", header=True, inferSchema=True)

# ================================================
# Llamar a la funci√≥n para editar distritos
# ================================================
# Descripci√≥n general:
# Se aplica la funci√≥n `editar_distritos_inec` para normalizar las columnas de distritos
# en los DataFrames del OIJ e INEC.

df_oij_editado, df_inec_editado = editar_distritos_inec(df_oij, df_inec)

# ================================================
# Usar alias para desambiguar columnas
# ================================================
# Descripci√≥n general:
# Se asignan alias a los DataFrames editados para facilitar la referencia a sus columnas
# durante las operaciones de uni√≥n y filtrado.

df_oij_editado = df_oij_editado.alias("oij")
df_inec_editado = df_inec_editado.alias("inec")

# ================================================
# Verificar coincidencias espec√≠ficas para "ca√±as" y "pe√±as blancas"
# ================================================
# Descripci√≥n general:
# Este bloque realiza una uni√≥n entre los DataFrames editados del OIJ e INEC y filtra los resultados
# para buscar coincidencias espec√≠ficas que incluyan los t√©rminos "ca√±as" y "pe√±as blancas".

coincidencias_especificas = df_oij_editado.join(
    df_inec_editado,
    col("oij.Distrito") == col("inec.distrito"),  # Unir por distritos normalizados
    "inner"
).filter(
    (col("oij.Distrito").like("%canas%")) |  # Buscar coincidencias con "ca√±as"
    (col("oij.Distrito").like("%penas blancas%"))  # Buscar coincidencias con "pe√±as blancas"
)

# Mostrar resultados
print("Coincidencias espec√≠ficas para 'ca√±as' y 'pe√±as blancas':")
coincidencias_especificas.select("oij.Distrito", "inec.distrito").distinct().show(truncate=False)


## VISUALIZACI√ìN DE LOS DATOS

### Cantidad de Delitos y Tasa de Ocupaci√≥n para los 10 Distritos con M√°s Delitos

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
from pyspark.sql.functions import col

# ...existing code...

# ================================================
# Obtener la tasa de ocupaci√≥n de los distritos correspondientes
# ================================================
tasa_ocupacion = (
    df_inec.join(
        top_distritos,
        on=["provincia", "canton", "distrito"],
        how="inner"
    )
    .select("provincia", "canton", "distrito", "tasa_de_ocupacion")
    .toPandas()
)
tasa_ocupacion["region"] = tasa_ocupacion["provincia"] + " - " + tasa_ocupacion["canton"] + " - " + tasa_ocupacion["distrito"]

# ================================================
# Combinar los datos
# ================================================
merged_data = pd.merge(
    top_distritos_pd,
    tasa_ocupacion,
    on="region",
    how="left"
)

# Rellenar valores faltantes de tasa de ocupaci√≥n con un valor predeterminado (por ejemplo, 0)
merged_data["tasa_de_ocupacion"].fillna(0, inplace=True)


# ================================================
# Graficar los datos
# ================================================
plt.figure(figsize=(12, 6))

# Gr√°fico de barras para la cantidad de delitos
plt.bar(
    merged_data["region"],
    merged_data["count"],
    label="Cantidad de Delitos",
    alpha=0.7
)

# Gr√°fico de l√≠neas para la tasa de ocupaci√≥n
plt.plot(
    merged_data["region"],
    merged_data["tasa_de_ocupacion"],
    label="Tasa de Ocupaci√≥n (%)",
    color="orange",
    marker="o",
    linestyle="--"
)

plt.title("Cantidad de Delitos y Tasa de Ocupaci√≥n para los 10 Distritos con M√°s Delitos")
plt.xlabel("Distrito")
plt.ylabel("Cantidad/Tasa (%)")
plt.legend()
plt.xticks(rotation=90)
plt.tight_layout()
plt.show()

# Graficar con eje secundario
fig, ax1 = plt.subplots(figsize=(12, 6))

ax1.bar(
    merged_data["region"],
    merged_data["count"],
    label="Cantidad de Delitos",
    alpha=0.7,
    color="skyblue",
)
ax1.set_xlabel("Distrito, Cant√≥n y Provincia")
ax1.set_ylabel("Cantidad de Delitos", color="blue")
ax1.tick_params(axis="y", labelcolor="blue")
ax1.set_title("Cantidad de Delitos y Tasa de Ocupaci√≥n para los 10 Distritos con M√°s Delitos")
ax1.tick_params(axis="x", rotation=90)

ax2 = ax1.twinx()
ax2.plot(
    merged_data["region"],
    merged_data["tasa_de_ocupacion"],
    label="Tasa de Ocupaci√≥n (%)",
    color="orange",
    marker="o",
    linestyle="--",
)
ax2.set_ylabel("Tasa de Ocupaci√≥n (%)", color="orange")
ax2.tick_params(axis="y", labelcolor="orange")

fig.tight_layout()
ax1.legend(loc="upper left")
ax2.legend(loc="upper right")
plt.show()

### Cantidad de Delitos por D√≠a de la Semana 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from pyspark.sql.functions import dayofweek, to_date, col
import warnings

# ================================================
# Suprimir FutureWarnings de seaborn
# ================================================
# Descripci√≥n general:
# Se deshabilitan las advertencias futuras para evitar que interfieran con la visualizaci√≥n del gr√°fico.
warnings.filterwarnings("ignore", category=FutureWarning)

# ================================================
# Asegurar que la columna 'Fecha' est√© en formato de fecha
# ================================================
# Descripci√≥n general:
# Convierte la columna `Fecha` en el DataFrame editado del OIJ (`df_oij_editado`)
# al formato de fecha utilizando `to_date`.

df_oij_editado = df_oij_editado.withColumn(
    "Fecha", 
    to_date(col("Fecha"), "M/d/yyyy")  # Define el formato de entrada de la fecha
)

# ================================================
# Encontrar el distrito con m√°s delitos
# ================================================
# Descripci√≥n general:
# Agrupa los datos por la columna `Distrito`, cuenta la cantidad de registros,
# y selecciona el distrito con la mayor cantidad de delitos.

distrito_mas_delitos = df_oij_editado.groupBy("Distrito") \
    .count() \
    .orderBy(col("count").desc()) \
    .first()["Distrito"]

# ================================================
# Filtrar datos para el distrito con m√°s delitos
# ================================================
# Descripci√≥n general:
# Filtra el DataFrame para incluir √∫nicamente los registros correspondientes
# al distrito con m√°s delitos.

delitos_distrito = df_oij_editado.filter(
    col("Distrito") == distrito_mas_delitos
)

# ================================================
# Extraer el d√≠a de la semana
# ================================================
# Descripci√≥n general:
# A√±ade una nueva columna `DiaSemana` que contiene el n√∫mero del d√≠a de la semana
# (1 = Domingo, 7 = S√°bado) basado en la columna `Fecha`.

delitos_distrito = delitos_distrito.withColumn(
    "DiaSemana", 
    dayofweek(col("Fecha"))  # Calcula el d√≠a de la semana
)

# ================================================
# Mapear los n√∫meros de d√≠a a nombres
# ================================================
# Descripci√≥n general:
# Define un diccionario para mapear los n√∫meros de los d√≠as de la semana
# a sus nombres correspondientes.

dias_mapping = {
    1: "Domingo",
    2: "Lunes",
    3: "Martes",
    4: "Mi√©rcoles",
    5: "Jueves",
    6: "Viernes",
    7: "S√°bado"
}

# Convertir a Pandas DataFrame y mapear los d√≠as
delitos_distrito_pd = delitos_distrito.toPandas()
delitos_distrito_pd['DiaSemana'] = delitos_distrito_pd['DiaSemana'].map(dias_mapping)

# ================================================
# Contar delitos por d√≠a de la semana
# ================================================
# Descripci√≥n general:
# Cuenta el n√∫mero de delitos por cada d√≠a de la semana y asegura
# que los d√≠as aparezcan en el orden correcto.

conteo_dias = delitos_distrito_pd['DiaSemana'].value_counts().reindex([
    "Domingo", "Lunes", "Martes", "Mi√©rcoles", "Jueves", "Viernes", "S√°bado"
]).fillna(0)

# ================================================
# Gr√°fico de barras
# ================================================
# Descripci√≥n general:
# Crea un gr√°fico de barras para mostrar la cantidad de delitos por d√≠a de la semana
# en el distrito con m√°s delitos.

plt.figure(figsize=(10, 6))  # Tama√±o del gr√°fico
sns.barplot(
    x=conteo_dias.index,  # Eje X: D√≠as de la semana
    y=conteo_dias.values,  # Eje Y: Cantidad de delitos
    palette=sns.color_palette("magma", len(conteo_dias.index))  # Paleta de colores
)

# Configurar t√≠tulo y etiquetas
plt.title(f"Cantidad de Delitos por D√≠a de la Semana en {distrito_mas_delitos.capitalize()}")
plt.xlabel("D√≠a de la Semana")
plt.ylabel("Cantidad de Delitos")
plt.xticks(rotation=45)  # Rotar etiquetas del eje X
plt.tight_layout()  # Ajustar dise√±o para evitar solapamientos
plt.show()


### Cantidad de Delitos por Tipo en el Distrito

In [None]:
import matplotlib.pyplot as plt

# ================================================
# Selecci√≥n de un distrito
# ================================================
# Descripci√≥n general:
# Define el distrito, cant√≥n y provincia que se desean analizar. Puedes cambiar
# las variables `distrito_seleccionado`, `canton_seleccionado` y `provincia_seleccionada`
# para explorar otros lugares.

distrito_seleccionado = "carmen"  # Cambiar al distrito deseado
canton_seleccionado = "sanjose"  # Cambiar al cant√≥n deseado
provincia_seleccionada = "sanjose"  # Cambiar a la provincia deseada

# ================================================
# Filtrar los datos para el distrito seleccionado
# ================================================
# Descripci√≥n general:
# Filtra los registros en el DataFrame `df_oij` para incluir √∫nicamente aquellos
# que coincidan con el distrito, cant√≥n y provincia seleccionados. Luego, agrupa
# los datos por tipo de delito y cuenta la cantidad de registros en cada grupo.

delitos_por_tipo_distrito = (
    df_oij.filter(  # Filtrar por distrito, cant√≥n y provincia
        (col("distrito") == distrito_seleccionado) &  # Condici√≥n para el distrito
        (col("Canton") == canton_seleccionado) &  # Condici√≥n para el cant√≥n
        (col("Provincia") == provincia_seleccionada)  # Condici√≥n para la provincia
    )
    .groupBy("delito")  # Agrupar por tipo de delito
    .count()  # Contar registros en cada grupo
    .orderBy("count", ascending=False)  # Ordenar por cantidad de delitos (descendente)
)

# ================================================
# Verificar si se encontraron resultados
# ================================================
# Descripci√≥n general:
# Comprueba si el DataFrame contiene datos para el distrito seleccionado. Si no
# hay datos, imprime un mensaje indicando que no se encontr√≥ el distrito.

if delitos_por_tipo_distrito.count() > 0:  # Si hay registros en el DataFrame...
    
    # ================================================
    # Convertir a Pandas DataFrame
    # ================================================
    # Descripci√≥n general:
    # Convierte el resultado del DataFrame de PySpark a un DataFrame de Pandas
    # para facilitar la manipulaci√≥n y la creaci√≥n de gr√°ficos.
    
    delitos_por_tipo_distrito_pd = delitos_por_tipo_distrito.toPandas()

    # ================================================
    # Graficar los datos
    # ================================================
    # Descripci√≥n general:
    # Crea un gr√°fico de barras horizontales para visualizar la cantidad de delitos
    # por tipo en el distrito seleccionado.
    
    plt.figure(figsize=(10, 6))  # Establecer el tama√±o del gr√°fico
    plt.barh(
        delitos_por_tipo_distrito_pd["delito"],  # Eje Y: Tipos de delitos
        delitos_por_tipo_distrito_pd["count"],  # Eje X: Cantidad de delitos
        color="skyblue"  # Color de las barras
    )

    # Configuraci√≥n del t√≠tulo y etiquetas
    plt.title(f"Cantidad de Delitos por Tipo en el Distrito: {distrito_seleccionado.title()}")
    plt.xlabel("Cantidad de Delitos")  # Etiqueta del eje X
    plt.ylabel("Tipo de Delito")  # Etiqueta del eje Y
    plt.tight_layout()  # Ajustar dise√±o para evitar solapamientos
    plt.show()  # Mostrar el gr√°fico

else:
    # ================================================
    # Mensaje si no se encontraron resultados
    # ================================================
    # Descripci√≥n general:
    # Si el DataFrame est√° vac√≠o, imprime un mensaje indicando que no se encontr√≥
    # el distrito especificado en los datos.

    print("No se encontr√≥ el distrito")


### Cantidad de Delitos por Sexo

In [None]:
import matplotlib.pyplot as plt

# ================================================
# Agrupar por sexo y contar la cantidad de delitos
# ================================================
# Descripci√≥n general:
# Agrupa los datos en el DataFrame `df_oij` por la columna `sexo`, cuenta el
# n√∫mero de registros por cada categor√≠a, y ordena los resultados en orden
# descendente seg√∫n la cantidad.

delitos_por_sexo = df_oij.groupBy("sexo") \
    .count() \
    .orderBy("count", ascending=False)  # Ordenar por cantidad de delitos

# ================================================
# Convertir a Pandas DataFrame
# ================================================
# Descripci√≥n general:
# Convierte el resultado del DataFrame de PySpark a un DataFrame de Pandas para
# facilitar la manipulaci√≥n y la creaci√≥n de gr√°ficos.

delitos_por_sexo_pd = delitos_por_sexo.toPandas()

# ================================================
# Graficar
# ================================================
# Descripci√≥n general:
# Crea un gr√°fico de barras para visualizar la cantidad de delitos por sexo.

plt.figure(figsize=(8, 6))  # Establecer el tama√±o del gr√°fico
plt.bar(
    delitos_por_sexo_pd["sexo"],  # Eje X: Categor√≠as de sexo
    delitos_por_sexo_pd["count"],  # Eje Y: Cantidad de delitos
    color=["blue", "pink"]  # Colores para las barras
)

# Configuraci√≥n del t√≠tulo y etiquetas
plt.title("Cantidad de Delitos por Sexo")
plt.xlabel("Sexo")
plt.ylabel("Cantidad de Delitos")
plt.xticks(rotation=0)  # Asegurar que las etiquetas del eje X est√©n horizontalmente alineadas
plt.tight_layout()  # Ajustar dise√±o para evitar solapamiento
plt.show()  # Mostrar el gr√°fico


### Propuesta de Visualizaci√≥n

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
from pyspark.sql.functions import col

# ================================================
# Extraer la hora de inicio
# ================================================
# Descripci√≥n general:
# Agrega una nueva columna `hora_inicio` al DataFrame `df_oij` que contiene
# √∫nicamente las horas (los dos primeros caracteres) de la columna `hora`.

df_oij_with_hour = df_oij.withColumn(
    "hora_inicio", 
    col("hora").substr(1, 2)  # Extraer los dos primeros caracteres de la columna `hora`
)

# ================================================
# Agrupar los datos por hora del d√≠a y tipo de delito
# ================================================
# Descripci√≥n general:
# Agrupa los datos del DataFrame por las columnas `hora_inicio` y `delito`,
# contando la cantidad de registros para cada combinaci√≥n.

delitos_por_hora_y_tipo = df_oij_with_hour.groupBy("hora_inicio", "delito") \
    .count()  # Contar registros en cada grupo

# ================================================
# Convertir a Pandas para graficar
# ================================================
# Descripci√≥n general:
# Convierte el resultado del DataFrame de PySpark a un DataFrame de Pandas
# para poder graficarlo utilizando Matplotlib y Seaborn.

delitos_por_hora_y_tipo_pd = delitos_por_hora_y_tipo.toPandas()

# ================================================
# Pivoteo de datos
# ================================================
# Descripci√≥n general:
# Reorganiza los datos para que las filas correspondan a las horas (`hora_inicio`),
# las columnas correspondan a los tipos de delitos (`delito`), y los valores
# correspondan a la cantidad de delitos.

heatmap_data = delitos_por_hora_y_tipo_pd.pivot(
    index="hora_inicio",  # Filas: Hora del d√≠a
    columns="delito",  # Columnas: Tipos de delitos
    values="count"  # Valores: Cantidad de delitos
).fillna(0)  # Rellenar valores faltantes con 0

# ================================================
# Crear el mapa de calor
# ================================================
# Descripci√≥n general:
# Crea un mapa de calor utilizando Seaborn para visualizar la cantidad de delitos
# por tipo y hora del d√≠a.

plt.figure(figsize=(12, 8))  # Establecer el tama√±o del gr√°fico
sns.heatmap(
    heatmap_data,  # Datos para el mapa de calor
    cmap="YlOrRd",  # Esquema de colores (amarillo a rojo)
    annot=True,  # Mostrar los valores en las celdas
    fmt=".0f",  # Formato de los valores (n√∫meros enteros)
    linewidths=0.5,  # L√≠neas entre celdas
    cbar_kws={'label': 'Cantidad de Delitos'}  # Etiqueta para la barra de colores
)

# Personalizaci√≥n del gr√°fico
plt.title("Mapa de Calor: Delitos por Tipo y Hora del D√≠a", fontsize=14)  # T√≠tulo
plt.xlabel("Tipo de Delito", fontsize=12)  # Etiqueta del eje X
plt.ylabel("Hora del D√≠a", fontsize=12)  # Etiqueta del eje Y
plt.xticks(rotation=45)  # Rotar etiquetas del eje X para mejor visibilidad
plt.tight_layout()  # Ajustar dise√±o para evitar solapamiento

# Mostrar el gr√°fico
plt.show()
