# Proyecto: Análisis de delitos en la Ciudad Autónoma de Buenos Aires en el año 2024 | Consultas SQL avanzadas

## Librerías y configuración inicial

In [41]:
# Instalar todas las dependencias del proyecto
!pip install -r requirements.txt

# Importar librerías necesarias
import pandas as pd
from sqlalchemy import create_engine
import os
from dotenv import load_dotenv

!pip install prettytable==3.9.0 # Asegurarse de que prettytable está instalado

# Cargar las variables de entorno desde el archivo .env
load_dotenv()

# --- Configuración de la conexión segura ---
db_user = os.getenv("DB_USER")
db_password = os.getenv("DB_PASSWORD")
db_host = 'localhost'
db_port = '5432'
db_name = 'delitos_db'

# Validar que las variables se cargaron
if not db_user or not db_password:
    raise ValueError("No se encontraron las credenciales de la base de datos en las variables de entorno.")

# Crear la cadena de conexión
connection_str = f'postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}'
engine = create_engine(connection_str)

print("Conexión establecida de forma segura.")
# --- Fin de la configuración de la conexión segura ---


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m
Conexión establecida de forma segura.


## Carga de datos

In [42]:
# --- Carga de datos ---
# Cargar el archivo CSV en un DataFrame de Pandas
df_delitos = pd.read_csv('delitos_2024.csv')

# Limpiar nombres de columnas (buena práctica)
# Reemplaza espacios y caracteres especiales por guiones bajos
df_delitos.columns = df_delitos.columns.str.replace(' ', '_').str.lower()

# Nombre de la tabla en la base de datos
table_name = 'delitos'

# --- Subir el DataFrame a PostgreSQL ---
try:
    # Usamos el método to_sql de pandas
    # if_exists='replace' borrará la tabla si ya existe y la creará de nuevo.
    # index=False evita que se guarde el índice del DataFrame como una columna en la tabla
    # Esto es útil para evitar duplicados y mantener la tabla limpia.
    df_delitos.to_sql(table_name, engine, if_exists='replace', index=False)
    print(f"¡Éxito! Se cargaron {len(df_delitos)} registros en la tabla '{table_name}'.")

except Exception as e:
    print(f"Ocurrió un error: {e}")

¡Éxito! Se cargaron 158838 registros en la tabla 'delitos'.


In [43]:
print(df_delitos.columns)

Index(['id-mapa', 'anio', 'mes', 'dia', 'fecha', 'franja', 'tipo', 'subtipo',
       'uso_arma', 'uso_moto', 'barrio', 'comuna', 'latitud', 'longitud',
       'cantidad'],
      dtype='object')


## Consultas avanzadas SQL con "Magic Commands"

### Carga de la extensión de SQL para consultas avanzadas 

In [44]:
# --- Carga de la extensión de SQL para consultas avanzadas ---
# Esto permite usar comandos SQL directamente en el notebook
%load_ext sql

The sql extension is already loaded. To reload it, use:
  %reload_ext sql


### Conexión para la extensión

In [45]:
%sql postgresql://{db_user}:{db_password}@{db_host}/{db_name}

### 1. Top 10 Barrios con mayor cantidad de delito

In [46]:
%%sql
SELECT barrio, SUM(cantidad) as total_delitos
FROM delitos
GROUP BY barrio
ORDER BY total_delitos DESC
LIMIT 10;


 * postgresql://user_delitos:***@localhost/delitos_db
10 rows affected.


barrio,total_delitos
PALERMO,12794
BALVANERA,9967
FLORES,8509
CABALLITO,6863
RECOLETA,6690
ALMAGRO,6026
VILLA LUGANO,5861
SAN NICOLAS,5831
BARRACAS,5389
BELGRANO,5043


### 2. Distribución de delitos por día de la semana

In [47]:
df_delitos['dia'].unique()

array(['LUNES', 'MARTES', 'MIERCOLES', 'JUEVES', 'VIERNES', 'SABADO',
       'DOMINGO'], dtype=object)

In [48]:
%%sql
SELECT dia, SUM(cantidad) as total_delitos
FROM delitos
GROUP BY dia
ORDER BY
    CASE
        WHEN dia = 'LUNES' THEN 1
        WHEN dia = 'MARTES' THEN 2
        WHEN dia = 'MIERCOLES' THEN 3
        WHEN dia = 'JUEVES' THEN 4
        WHEN dia = 'VIERNES' THEN 5
        WHEN dia = 'SABADO' THEN 6
        WHEN dia = 'DOMINGO' THEN 7
    END;


 * postgresql://user_delitos:***@localhost/delitos_db
7 rows affected.


dia,total_delitos
LUNES,23229
MARTES,22501
MIERCOLES,23038
JUEVES,22921
VIERNES,24216
SABADO,22943
DOMINGO,19990


### 3. Delitos por franja horaria para entender patrones diarios

**Notas sobre el tratamiento de datos:**
Para este análisis, los registros con valores nulos (`NULL`/`None`) en la columna `franja` han sido asignados al valor `24`. Esta decisión se tomó para mantener la totalidad de los datos en el análisis sin descartar registros y para agrupar los datos faltantes en una categoría separada, facilitando su visualización y comprensión. El valor `24` se eligió arbitrariamente ya que no representa una franja horaria válida dentro del rango 0-23, lo que previene confusiones con los datos existentes.

In [49]:
%%sql
-- NOTA: Se utiliza COALESCE para asignar los valores nulos de la franja horaria a 24.
-- Esto permite mantener los registros incompletos y agruparlos en una categoría separada para el análisis.
SELECT CAST(COALESCE(franja, 24) AS INT) AS franja_horaria, SUM(cantidad) AS total_delitos
FROM delitos
GROUP BY franja_horaria
ORDER BY franja_horaria ASC;

 * postgresql://user_delitos:***@localhost/delitos_db
25 rows affected.


franja_horaria,total_delitos
0,5119
1,3604
2,3002
3,2947
4,3014
5,3633
6,5043
7,7785
8,8210
9,7527


### 4. Subtipos de delito más frecuentes

In [50]:
%%sql
SELECT subtipo as subtipo_delito, SUM(cantidad) as total
FROM delitos
WHERE subtipo IS NOT NULL AND subtipo != ''
GROUP BY subtipo_delito
ORDER BY total DESC
LIMIT 15;


 * postgresql://user_delitos:***@localhost/delitos_db
9 rows affected.


subtipo_delito,total
Robo total,67252
Hurto total,58119
Lesiones por siniestros viales,10464
Lesiones Dolosas,9420
Amenazas,7603
Hurto automotor,4652
Robo automotor,1140
Muertes por siniestros viales,110
Homicidios dolosos,78


### 5. Porcentaje de delitos con uso de arma

In [51]:
%%sql
SELECT
    uso_arma,
    SUM(cantidad) as total,
    ROUND((SUM(cantidad) * 100.0 / (SELECT SUM(cantidad) FROM delitos)), 2) as porcentaje
FROM delitos
WHERE uso_arma IN ('SI', 'NO')
GROUP BY uso_arma;

 * postgresql://user_delitos:***@localhost/delitos_db
2 rows affected.


uso_arma,total,porcentaje
NO,150393,94.68
SI,8445,5.32


### 6. Delitos con Uso de Moto por Comuna

**Se usa COALESCE para reemplazar los registros con comuna nula por un -1, agrupándolos así para su análisis.**

In [52]:
%%sql
-- Se usa COALESCE para reemplazar los registros con comuna nula por un -1, agrupándolos así para su análisis.
SELECT CAST(COALESCE(comuna, -1) AS INT) AS comuna, SUM(cantidad) AS total_con_moto
FROM delitos
WHERE uso_moto = 'SI'
GROUP BY COALESCE(comuna, -1)
ORDER BY total_con_moto DESC;

 * postgresql://user_delitos:***@localhost/delitos_db
16 rows affected.


comuna,total_con_moto
1,862
4,619
14,574
3,539
15,483
5,441
7,368
13,310
6,309
9,239


### 7. Evolución mensual de los delitos a lo largo del año

In [53]:
%%sql
SELECT mes, SUM(cantidad) as total_delitos
FROM delitos
GROUP BY mes
ORDER BY
    CASE
        WHEN mes = 'ENERO' THEN 1
        WHEN mes = 'FEBRERO' THEN 2
        WHEN mes = 'MARZO' THEN 3
        WHEN mes = 'ABRIL' THEN 4
        WHEN mes = 'MAYO' THEN 5
        WHEN mes = 'JUNIO' THEN 6
        WHEN mes = 'JULIO' THEN 7
        WHEN mes = 'AGOSTO' THEN 8
        WHEN mes = 'SEPTIEMBRE' THEN 9
        WHEN mes = 'OCTUBRE' THEN 10
        WHEN mes = 'NOVIEMBRE' THEN 11
        WHEN mes = 'DICIEMBRE' THEN 12
    END;

 * postgresql://user_delitos:***@localhost/delitos_db
12 rows affected.


mes,total_delitos
ENERO,13626
FEBRERO,13592
MARZO,13915
ABRIL,13518
MAYO,13383
JUNIO,12874
JULIO,12968
AGOSTO,12708
SEPTIEMBRE,12307
OCTUBRE,12941


### 8. Top 5 Subtipos de delito en la comuna 1 (la de mayor actividad según el informe 2022)

In [54]:
%%sql
SELECT subtipo as subtipo_delito, SUM(cantidad) as total
FROM delitos
WHERE comuna = 1 AND subtipo IS NOT NULL
GROUP BY subtipo_delito
ORDER BY total DESC
LIMIT 5;

 * postgresql://user_delitos:***@localhost/delitos_db
5 rows affected.


subtipo_delito,total
Robo total,9684
Hurto total,7943
Lesiones Dolosas,1096
Lesiones por siniestros viales,1002
Amenazas,810


### 9. Comparativa de Robos vs. Hurtos

In [55]:
%%sql
SELECT tipo as tipo_delito, SUM(cantidad) as total
FROM delitos
WHERE tipo IN ('Robo', 'Hurto')
GROUP BY tipo_delito
ORDER BY total DESC;


 * postgresql://user_delitos:***@localhost/delitos_db
2 rows affected.


tipo_delito,total
Robo,68392
Hurto,62771


### 10. Barrios más peligrosos en horario nocturno (20:00 a 06:00)

In [56]:
%%sql
SELECT barrio, SUM(cantidad) as total_delitos_nocturnos
FROM delitos
WHERE franja >= 20 OR franja <= 6
GROUP BY barrio
ORDER BY total_delitos_nocturnos DESC
LIMIT 10;


 * postgresql://user_delitos:***@localhost/delitos_db
10 rows affected.


barrio,total_delitos_nocturnos
PALERMO,5486
BALVANERA,3221
FLORES,2832
ALMAGRO,2446
RECOLETA,2380
CABALLITO,2281
VILLA LUGANO,2224
SAN NICOLAS,2137
BARRACAS,2061
VILLA CRESPO,1953
