# üìä Proyecto Final: Creaci√≥n de Base de Datos SQL

## Objetivo
En este notebook aprenderemos a crear una base de datos SQL a partir de un archivo CSV usando Python.

**Archivo de datos:** `Municipal-Delitos-2015-2021_dic2021.csv`

## Lo que aprender√°s:
1. ‚úÖ Importar librer√≠as necesarias (pandas, sqlite3)
2. ‚úÖ Cargar y explorar datos CSV
3. ‚úÖ Crear una base de datos SQLite
4. ‚úÖ Dise√±ar y crear tablas
5. ‚úÖ Insertar datos en la base de datos
6. ‚úÖ Verificar los datos insertados
7. ‚úÖ Realizar consultas SQL b√°sicas

---

## 1Ô∏è‚É£ Importar Librer√≠as Necesarias

Para trabajar con datos y bases de datos SQL necesitamos dos librer√≠as principales:
- **pandas**: Para manipular y leer archivos CSV
- **sqlite3**: Para crear y gestionar bases de datos SQLite

In [9]:
# Importar las librer√≠as necesarias
import pandas as pd  # Para manipular datos y leer CSV
import sqlite3      # Para crear y gestionar bases de datos SQLite
import os           # Para trabajar con rutas de archivos

print("‚úÖ Librer√≠as importadas exitosamente!")
print("üì¶ pandas version:", pd.__version__)
print("üì¶ sqlite3 incluido en Python por defecto")

‚úÖ Librer√≠as importadas exitosamente!
üì¶ pandas version: 2.2.2
üì¶ sqlite3 incluido en Python por defecto


## 2Ô∏è‚É£ Cargar el Archivo CSV

Ahora vamos a cargar el archivo CSV con los datos de delitos municipales. 

**Nota importante:** El archivo usa codificaci√≥n `latin1` para caracteres especiales como acentos.

In [None]:
# Ruta del archivo CSV
ruta_csv = "C:/Users/Rub√©n/Downloads/Municipal-Delitos-2015-2021_dic2021.csv"

try:
    # Cargar el archivo CSV con la codificaci√≥n correcta
    df = pd.read_csv(ruta_csv, encoding="latin1")
    
    print("‚úÖ Archivo CSV cargado exitosamente!")
    print(f"üìä Dimensiones del dataset: {df.shape[0]:,} filas x {df.shape[1]} columnas")
    
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo CSV")
    print(f"Verifica que la ruta sea correcta: {ruta_csv}")
except Exception as e:
    print(f"‚ùå Error al cargar el archivo: {e}")

‚úÖ Archivo CSV cargado exitosamente!
üìä Dimensiones del dataset: 1,589,462 filas x 21 columnas


## 3Ô∏è‚É£ Explorar los Datos del CSV

Antes de crear la base de datos, es importante entender qu√© datos tenemos y c√≥mo est√°n estructurados.

In [11]:
# Explorar la estructura de los datos
print("üîç EXPLORANDO LOS DATOS")
print("=" * 40)

# Mostrar las columnas disponibles
print("üìã Columnas del dataset:")
for i, columna in enumerate(df.columns, 1):
    print(f"   {i:2d}. {columna}")

print(f"\nüìä Informaci√≥n general:")
print(f"   ‚Ä¢ Per√≠odo: {df['A√±o'].min()} - {df['A√±o'].max()}")
print(f"   ‚Ä¢ Entidades/Estados: {df['Entidad'].nunique()}")
print(f"   ‚Ä¢ Municipios: {df['Municipio'].nunique()}")
print(f"   ‚Ä¢ Tipos de delitos: {df['Tipo de delito'].nunique()}")

# Mostrar las primeras filas
print(f"\nüìÑ Primeras 3 filas del dataset:")
df.head(3)

üîç EXPLORANDO LOS DATOS
üìã Columnas del dataset:
    1. A√±o
    2. Clave_Ent
    3. Entidad
    4. Cve. Municipio
    5. Municipio
    6. Bien jur√≠dico afectado
    7. Tipo de delito
    8. Subtipo de delito
    9. Modalidad
   10. Enero
   11. Febrero
   12. Marzo
   13. Abril
   14. Mayo
   15. Junio
   16. Julio
   17. Agosto
   18. Septiembre
   19. Octubre
   20. Noviembre
   21. Diciembre

üìä Informaci√≥n general:
   ‚Ä¢ Per√≠odo: 2015 - 2021
   ‚Ä¢ Entidades/Estados: 32
   ‚Ä¢ Municipios: 2331
   ‚Ä¢ Tipos de delitos: 40

üìÑ Primeras 3 filas del dataset:
   ‚Ä¢ Municipios: 2331
   ‚Ä¢ Tipos de delitos: 40

üìÑ Primeras 3 filas del dataset:


Unnamed: 0,A√±o,Clave_Ent,Entidad,Cve. Municipio,Municipio,Bien jur√≠dico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,...,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,1001,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,2,...,1,1,0,1,1,0,2,1,0,1
1,2015,1,Aguascalientes,1001,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,...,0,0,0,1,0,1,0,0,0,0
2,2015,1,Aguascalientes,1001,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,...,1,1,3,2,0,1,2,0,0,0


## 4. Creacion de Base de Datos SQLite

Ahora vamos a crear una base de datos SQLite y dise√±ar la estructura de tablas para almacenar los datos de delitos municipales.

In [26]:
# Crear conexion a la base de datos SQLite
ruta_bd = "C:/Users/Rub√©n/Documents/DATA ANALIST/git/TareasEBACmx/delitos_municipales.db"

# Conectar a la base de datos (se crea si no existe)
conn = sqlite3.connect(ruta_bd)
cursor = conn.cursor()
    
print("Base de datos SQLite creada exitosamente")
print(f"Ubicacion: {ruta_bd}")


Base de datos SQLite creada exitosamente
Ubicacion: C:/Users/Rub√©n/Documents/DATA ANALIST/git/TareasEBACmx/delitos_municipales.db


In [13]:
# Dise√±o de tablas para la base de datos

# Tabla principal de delitos municipales
create_table_delitos = """
CREATE TABLE IF NOT EXISTS delitos_municipales (
    id INTEGER PRIMARY KEY AUTOINCREMENT,
    a√±o INTEGER NOT NULL,
    clave_entidad TEXT,
    entidad TEXT NOT NULL,
    clave_municipio TEXT,
    municipio TEXT NOT NULL,
    bien_juridico TEXT,
    tipo_delito TEXT NOT NULL,
    subtipo_delito TEXT,
    modalidad TEXT,
    enero INTEGER DEFAULT 0,
    febrero INTEGER DEFAULT 0,
    marzo INTEGER DEFAULT 0,
    abril INTEGER DEFAULT 0,
    mayo INTEGER DEFAULT 0,
    junio INTEGER DEFAULT 0,
    julio INTEGER DEFAULT 0,
    agosto INTEGER DEFAULT 0,
    septiembre INTEGER DEFAULT 0,
    octubre INTEGER DEFAULT 0,
    noviembre INTEGER DEFAULT 0,
    diciembre INTEGER DEFAULT 0
);
"""

# Crear la tabla
cursor.execute(create_table_delitos)
conn.commit()

print("Tabla 'delitos_municipales' creada exitosamente")

Tabla 'delitos_municipales' creada exitosamente


In [14]:
# Insertar datos del CSV a la base de datos

# Limpiar nombres de columnas para coincidir con la tabla
df_clean = df.copy()
df_clean.columns = [col.lower().replace(' ', '_').replace('.', '').replace('√≠', 'i').replace('√≥', 'o') 
                    for col in df_clean.columns]

# Mapear nombres de columnas
column_mapping = {
    'a√±o': 'a√±o',
    'clave_ent': 'clave_entidad', 
    'entidad': 'entidad',
    'cve_municipio': 'clave_municipio',
    'municipio': 'municipio',
    'bien_juridico_afectado': 'bien_juridico',
    'tipo_de_delito': 'tipo_delito',
    'subtipo_de_delito': 'subtipo_delito',
    'modalidad': 'modalidad',
    'enero': 'enero',
    'febrero': 'febrero', 
    'marzo': 'marzo',
    'abril': 'abril',
    'mayo': 'mayo',
    'junio': 'junio',
    'julio': 'julio',
    'agosto': 'agosto',
    'septiembre': 'septiembre',
    'octubre': 'octubre',
    'noviembre': 'noviembre',
    'diciembre': 'diciembre'
}

# Renombrar columnas
df_clean = df_clean.rename(columns=column_mapping)

# Insertar datos en la base de datos usando pandas
df_clean.to_sql('delitos_municipales', conn, if_exists='replace', index=False)

print(f"Datos insertados exitosamente: {len(df_clean)} registros")
print("La tabla 'delitos_municipales' ha sido poblada con los datos del CSV")

Datos insertados exitosamente: 1589462 registros
La tabla 'delitos_municipales' ha sido poblada con los datos del CSV


## 5. Conexion a la Base de Datos y Verificacion

Ahora vamos a verificar que los datos se insertaron correctamente y crear un cursor para realizar consultas SQL.

In [15]:
# Verificar que los datos se insertaron correctamente
cursor = conn.cursor()

# Consulta para contar registros
cursor.execute("SELECT COUNT(*) FROM delitos_municipales")
total_registros = cursor.fetchone()[0]

print(f"Total de registros en la base de datos: {total_registros}")

# Consulta para ver las primeras 5 filas
cursor.execute("SELECT * FROM delitos_municipales LIMIT 5")
primeras_filas = cursor.fetchall()

print("\nPrimeras 5 filas de la base de datos:")
for i, fila in enumerate(primeras_filas, 1):
    print(f"Registro {i}: A√±o={fila[1]}, Entidad={fila[3]}, Municipio={fila[5]}, Tipo_delito={fila[7]}")

# Verificar estructura de la tabla
cursor.execute("PRAGMA table_info(delitos_municipales)")
estructura_tabla = cursor.fetchall()

print(f"\nEstructura de la tabla 'delitos_municipales':")
for columna in estructura_tabla:
    print(f"  - {columna[1]} ({columna[2]})")

Total de registros en la base de datos: 1589462

Primeras 5 filas de la base de datos:
Registro 1: A√±o=1, Entidad=1001, Municipio=La vida y la Integridad corporal, Tipo_delito=Homicidio doloso
Registro 2: A√±o=1, Entidad=1001, Municipio=La vida y la Integridad corporal, Tipo_delito=Homicidio doloso
Registro 3: A√±o=1, Entidad=1001, Municipio=La vida y la Integridad corporal, Tipo_delito=Homicidio doloso
Registro 4: A√±o=1, Entidad=1001, Municipio=La vida y la Integridad corporal, Tipo_delito=Homicidio doloso
Registro 5: A√±o=1, Entidad=1001, Municipio=La vida y la Integridad corporal, Tipo_delito=Homicidio culposo

Estructura de la tabla 'delitos_municipales':
  - a√±o (INTEGER)
  - clave_entidad (INTEGER)
  - entidad (TEXT)
  - clave_municipio (INTEGER)
  - municipio (TEXT)
  - bien_juridico (TEXT)
  - tipo_delito (TEXT)
  - subtipo_delito (TEXT)
  - modalidad (TEXT)
  - enero (INTEGER)
  - febrero (INTEGER)
  - marzo (INTEGER)
  - abril (INTEGER)
  - mayo (INTEGER)
  - junio (INTEGE

## 6. Limpieza y Transformacion de Datos

Para realizar los an√°lisis solicitados, necesitamos transformar los datos de formato ancho (columnas por mes) a formato largo (filas por mes).

In [16]:
# Leer datos desde la base de datos
query_base = "SELECT * FROM delitos_municipales"
df_db = pd.read_sql_query(query_base, conn)

print(f"Datos leidos desde la base de datos: {len(df_db)} registros")

# Transformar datos de formato ancho a largo
meses_cols = ['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio', 
              'julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']

df_melted = df_db.melt(
    id_vars=['a√±o', 'entidad', 'municipio', 'tipo_delito', 'subtipo_delito', 'modalidad'],
    value_vars=meses_cols,
    var_name='mes',
    value_name='cantidad_delitos'
)

# Filtrar solo registros con delitos (cantidad > 0)
df_melted = df_melted[df_melted['cantidad_delitos'] > 0]

# Crear columna a√±o-mes
df_melted['a√±o_mes'] = df_melted['a√±o'].astype(str) + '-' + df_melted['mes']

print(f"Datos transformados: {len(df_melted)} registros con delitos")
print(f"Periodo cubierto: {df_melted['a√±o'].min()} - {df_melted['a√±o'].max()}")

# Mostrar muestra de los datos transformados
print("\nMuestra de datos transformados:")
print(df_melted[['a√±o', 'municipio', 'tipo_delito', 'mes', 'cantidad_delitos']].head())

Datos leidos desde la base de datos: 1589462 registros
Datos transformados: 1664601 registros con delitos
Periodo cubierto: 2015 - 2021

Muestra de datos transformados:
    a√±o       municipio tipo_delito    mes  cantidad_delitos
0  2015  Aguascalientes   Homicidio  enero                 2
1  2015  Aguascalientes   Homicidio  enero                 1
3  2015  Aguascalientes   Homicidio  enero                 1
6  2015  Aguascalientes   Homicidio  enero                 9
8  2015  Aguascalientes   Homicidio  enero                 1
Datos transformados: 1664601 registros con delitos
Periodo cubierto: 2015 - 2021

Muestra de datos transformados:
    a√±o       municipio tipo_delito    mes  cantidad_delitos
0  2015  Aguascalientes   Homicidio  enero                 2
1  2015  Aguascalientes   Homicidio  enero                 1
3  2015  Aguascalientes   Homicidio  enero                 1
6  2015  Aguascalientes   Homicidio  enero                 9
8  2015  Aguascalientes   Homicidio  enero  

## 7. Analisis de Datos Solicitados

Realizaremos los 5 an√°lisis solicitados usando consultas SQL y transformaciones de datos.

In [17]:
# (a) Numero promedio de delitos agrupados por municipio y a√±o-mes

# Expandir datos para tener una fila por cada delito individual
df_expanded = df_melted.loc[df_melted.index.repeat(df_melted['cantidad_delitos'])]

# Calcular delitos por municipio y a√±o-mes
delitos_municipio_mes = df_expanded.groupby(['municipio', 'a√±o_mes']).size().reset_index(name='num_delitos')

# Calcular promedio por municipio
promedio_delitos_municipio = delitos_municipio_mes.groupby('municipio')['num_delitos'].mean().reset_index()
promedio_delitos_municipio.columns = ['municipio', 'promedio_delitos_mes']
promedio_delitos_municipio = promedio_delitos_municipio.sort_values('promedio_delitos_mes', ascending=False)

print("(a) Numero promedio de delitos por municipio y a√±o-mes (Top 10):")
print(promedio_delitos_municipio.head(10))

(a) Numero promedio de delitos por municipio y a√±o-mes (Top 10):
                municipio  promedio_delitos_mes
2026              Tijuana           3922.571429
508   Ecatepec de Morelos           3733.607143
593           Guadalajara           3605.559524
799                Ju√°rez           3195.726190
928              Mexicali           3099.047619
848                  Le√≥n           3057.297619
453            Cuauht√©moc           2979.273810
202         Benito Ju√°rez           2920.321429
737            Iztapalapa           2632.738095
1158            Quer√©taro           2520.035714


In [18]:
# (b) El delito mas comun por municipio
delito_mas_comun = df_expanded.groupby('municipio')['tipo_delito'].agg(lambda x: x.mode().iloc[0] if len(x.mode()) > 0 else x.iloc[0]).reset_index()
delito_mas_comun.columns = ['municipio', 'delito_mas_comun']

print("\n(b) Delito mas comun por municipio (primeros 10):")
print(delito_mas_comun.head(10))


(b) Delito mas comun por municipio (primeros 10):
                   municipio               delito_mas_comun
0                      Abal√°  Otros delitos del Fuero Com√∫n
1                    Abasolo                           Robo
2                   Abejones                      Homicidio
3                 Acacoyagua                           Robo
4                    Acajete                           Robo
5                      Acala                           Robo
6  Acambay de Ru√≠z Casta√±eda  Otros delitos del Fuero Com√∫n
7                    Acanceh                       Amenazas
8                 Acapetahua                           Robo
9                  Acaponeta                           Robo


In [19]:
# (c) La temporada con mas crimenes en Mexico
temporada_crimenes = df_expanded.groupby('a√±o_mes').size().reset_index(name='total_delitos')
temporada_crimenes = temporada_crimenes.sort_values('total_delitos', ascending=False)

print("\n(c) Temporadas con mas crimenes en Mexico (Top 10):")
print(temporada_crimenes.head(10))

# Analisis por trimestre
meses_numero = {'enero': 1, 'febrero': 2, 'marzo': 3, 'abril': 4, 'mayo': 5, 'junio': 6,
                'julio': 7, 'agosto': 8, 'septiembre': 9, 'octubre': 10, 'noviembre': 11, 'diciembre': 12}

df_expanded['mes_numero'] = df_expanded['mes'].map(meses_numero)
df_expanded['trimestre'] = df_expanded['mes_numero'].apply(lambda x: 'Q1' if x <= 3 
                                  else 'Q2' if x <= 6 
                                  else 'Q3' if x <= 9 
                                  else 'Q4')

delitos_trimestre = df_expanded.groupby('trimestre').size().reset_index(name='total_delitos')
delitos_trimestre = delitos_trimestre.sort_values('total_delitos', ascending=False)

print("\nDelitos por trimestre:")
print(delitos_trimestre)


(c) Temporadas con mas crimenes en Mexico (Top 10):
         a√±o_mes  total_delitos
56     2019-mayo         185802
79    2021-marzo         183113
58  2019-octubre         182051
53    2019-julio         180298
49   2019-agosto         179216
80     2021-mayo         178077
82  2021-octubre         177991
44     2018-mayo         177369
46  2018-octubre         177250
55    2019-marzo         176328

Delitos por trimestre:
  trimestre  total_delitos
2        Q3        3384846
3        Q4        3345152
1        Q2        3332653
0        Q1        3242887

Delitos por trimestre:
  trimestre  total_delitos
2        Q3        3384846
3        Q4        3345152
1        Q2        3332653
0        Q1        3242887


In [20]:
# (d) Numero promedio de delitos por tipo en Ciudad de Mexico

# Buscar municipios de Ciudad de Mexico (alcaldias)
municipios_cdmx = ['√Ålvaro Obreg√≥n', 'Azcapotzalco', 'Benito Ju√°rez', 'Coyoac√°n', 
                   'Cuajimalpa de Morelos', 'Cuauht√©moc', 'Gustavo A. Madero', 'Iztacalco', 
                   'Iztapalapa', 'La Magdalena Contreras', 'Miguel Hidalgo', 'Milpa Alta',
                   'Tl√°huac', 'Tlalpan', 'Venustiano Carranza', 'Xochimilco']

# Filtrar datos de CDMX
df_cdmx = df_expanded[df_expanded['municipio'].isin(municipios_cdmx)]

if len(df_cdmx) > 0:
    # Agrupar por tipo de delito y a√±o-mes
    delitos_cdmx_tipo = df_cdmx.groupby(['tipo_delito', 'a√±o_mes']).size().reset_index(name='num_delitos')
    
    # Calcular promedio por tipo de delito
    promedio_delitos_cdmx = delitos_cdmx_tipo.groupby('tipo_delito')['num_delitos'].mean().reset_index()
    promedio_delitos_cdmx.columns = ['tipo_delito', 'promedio_delitos_mes']
    promedio_delitos_cdmx = promedio_delitos_cdmx.sort_values('promedio_delitos_mes', ascending=False)
    
    print(f"\n(d) Promedio de delitos por tipo en Ciudad de Mexico (basado en {len(df_cdmx)} registros):")
    print(promedio_delitos_cdmx.head(15))
else:
    print("\n(d) No se encontraron datos para Ciudad de Mexico con los criterios especificados")
    print("Municipios disponibles que contienen 'M√©xico':")
    mexico_municipios = df_expanded[df_expanded['municipio'].str.contains('M√©xico', case=False, na=False)]['municipio'].unique()
    print(mexico_municipios[:10])


(d) Promedio de delitos por tipo en Ciudad de Mexico (basado en 1609139 registros):
                                  tipo_delito  promedio_delitos_mes
32                                       Robo           8522.821429
39                         Violencia familiar           2118.880952
17                                     Fraude           1223.880952
5                                    Amenazas           1086.940476
8                         Da√±o a la propiedad           1007.773810
22                                   Lesiones            998.952381
27              Otros delitos del Fuero Com√∫n            688.190476
15                              Falsificaci√≥n            488.511905
23                               Narcomenudeo            374.083333
1                          Abuso de confianza            370.309524
9   Delitos cometidos por servidores p√∫blicos            363.571429
10                                    Despojo            336.011905
24         Otros delitos co

In [21]:
# (e) Analisis propio: Tendencias temporales y concentracion de delitos

print("\n" + "="*60)
print("(e) ANALISIS PROPIO: TENDENCIAS Y CONCENTRACION DE DELITOS")
print("="*60)

# 1. Evolucion temporal por a√±o
print("\n1. Evolucion de delitos por a√±o:")
delitos_por_a√±o = df_expanded.groupby('a√±o').size().reset_index(name='total_delitos')
delitos_por_a√±o = delitos_por_a√±o.sort_values('a√±o')
print(delitos_por_a√±o)

# 2. Municipios mas peligrosos
print("\n2. Los 10 municipios mas peligrosos:")
municipios_peligrosos = df_expanded.groupby('municipio').size().reset_index(name='total_delitos')
municipios_peligrosos = municipios_peligrosos.sort_values('total_delitos', ascending=False)
print(municipios_peligrosos.head(10))

# 3. Tipos de delitos mas frecuentes
print("\n3. Los 10 tipos de delitos mas frecuentes:")
delitos_frecuentes = df_expanded.groupby('tipo_delito').size().reset_index(name='total_delitos')
delitos_frecuentes = delitos_frecuentes.sort_values('total_delitos', ascending=False)
print(delitos_frecuentes.head(10))

# 4. Concentracion de delitos (Principio de Pareto)
print("\n4. Concentracion de delitos:")
total_municipios = df_expanded['municipio'].nunique()
top_20_percent = int(total_municipios * 0.2)
delitos_concentrados = municipios_peligrosos.head(top_20_percent)['total_delitos'].sum()
porcentaje_concentracion = (delitos_concentrados / len(df_expanded)) * 100
print(f"Los {top_20_percent} municipios (20% del total) concentran el {porcentaje_concentracion:.1f}% de todos los delitos")

# 5. Estadisticas generales
print(f"\n5. Estadisticas generales:")
print(f"   Periodo: {df_expanded['a√±o'].min()} - {df_expanded['a√±o'].max()}")
print(f"   Total municipios: {df_expanded['municipio'].nunique()}")
print(f"   Total tipos de delitos: {df_expanded['tipo_delito'].nunique()}")
print(f"   Total delitos registrados: {len(df_expanded):,}")


(e) ANALISIS PROPIO: TENDENCIAS Y CONCENTRACION DE DELITOS

1. Evolucion de delitos por a√±o:
    a√±o  total_delitos
0  2015        1657804
1  2016        1761830
2  2017        1939498
3  2018        1989932
4  2019        2071164
5  2020        1841188
6  2021        2044122

2. Los 10 municipios mas peligrosos:
    a√±o  total_delitos
0  2015        1657804
1  2016        1761830
2  2017        1939498
3  2018        1989932
4  2019        2071164
5  2020        1841188
6  2021        2044122

2. Los 10 municipios mas peligrosos:
                municipio  total_delitos
2026              Tijuana         329496
508   Ecatepec de Morelos         313623
593           Guadalajara         302867
799                Ju√°rez         268441
928              Mexicali         260320
848                  Le√≥n         256813
453            Cuauht√©moc         250259
202         Benito Ju√°rez         245307
737            Iztapalapa         221150
1158            Quer√©taro         211683

3.

## 8. Analisis de Riesgo para Seguros de Automoviles

Filtraremos y analizaremos delitos relacionados con autom√≥viles para generar vistas de riesgo por municipio.

In [22]:
# Filtrar delitos relacionados con automoviles
delitos_auto_keywords = ['robo de veh√≠culo', 'veh√≠culo', 'automotor', 'autom√≥vil', 'auto']

# Buscar en tipo_delito y subtipo_delito
df_autos = df_expanded[
    df_expanded['tipo_delito'].str.contains('|'.join(delitos_auto_keywords), case=False, na=False) |
    df_expanded['subtipo_delito'].str.contains('|'.join(delitos_auto_keywords), case=False, na=False)
]

print("Delitos relacionados con automoviles encontrados:")
print(f"Total de registros: {len(df_autos):,}")

# Tipos de delitos relacionados con autos
print("\nTipos de delitos relacionados con automoviles:")
tipos_auto = df_autos['tipo_delito'].value_counts()
print(tipos_auto.head(10))

# Subtipos especificos
print("\nSubtipos de delitos relacionados con automoviles:")
subtipos_auto = df_autos['subtipo_delito'].value_counts()
print(subtipos_auto.head(10))

Delitos relacionados con automoviles encontrados:
Total de registros: 1,345,899

Tipos de delitos relacionados con automoviles:
tipo_delito
Robo    1345899
Name: count, dtype: int64

Subtipos de delitos relacionados con automoviles:
subtipo_delito
Robo de veh√≠culo automotor    1234482
Robo de autopartes             111417
Name: count, dtype: int64


In [23]:
# VISTA 1: Riesgo General por Municipio
print("\n" + "="*60)
print("VISTA 1: RIESGO GENERAL POR MUNICIPIO")
print("="*60)

riesgo_general = df_autos.groupby(['municipio', 'entidad']).agg({
    'tipo_delito': 'count',
    'a√±o': ['min', 'max']
}).reset_index()

riesgo_general.columns = ['municipio', 'entidad', 'total_delitos_auto', 'a√±o_min', 'a√±o_max']
riesgo_general['a√±os_datos'] = riesgo_general['a√±o_max'] - riesgo_general['a√±o_min'] + 1
riesgo_general['promedio_anual'] = riesgo_general['total_delitos_auto'] / riesgo_general['a√±os_datos']

# Clasificar riesgo
riesgo_general['nivel_riesgo'] = pd.cut(riesgo_general['promedio_anual'], 
                                       bins=[0, 100, 500, 1000, float('inf')],
                                       labels=['Bajo', 'Medio', 'Alto', 'Muy Alto'])

riesgo_general = riesgo_general.sort_values('promedio_anual', ascending=False)

print("Top 20 municipios con mayor riesgo de delitos automotrices:")
print(riesgo_general[['municipio', 'entidad', 'total_delitos_auto', 'promedio_anual', 'nivel_riesgo']].head(20))

# VISTA 2: Riesgo Estacional por Municipio
print("\n" + "="*60)
print("VISTA 2: RIESGO ESTACIONAL POR MUNICIPIO")
print("="*60)

riesgo_estacional = df_autos.groupby(['municipio', 'trimestre']).size().reset_index(name='delitos_trimestre')
riesgo_pivot = riesgo_estacional.pivot(index='municipio', columns='trimestre', values='delitos_trimestre').fillna(0)
riesgo_pivot['total_delitos'] = riesgo_pivot.sum(axis=1)
riesgo_pivot['variabilidad'] = riesgo_pivot[['Q1', 'Q2', 'Q3', 'Q4']].std(axis=1)
riesgo_pivot['trimestre_peligroso'] = riesgo_pivot[['Q1', 'Q2', 'Q3', 'Q4']].idxmax(axis=1)

riesgo_estacional_final = riesgo_pivot.reset_index().sort_values('total_delitos', ascending=False)

print("Top 15 municipios con mayor variabilidad estacional:")
print(riesgo_estacional_final[['municipio', 'Q1', 'Q2', 'Q3', 'Q4', 'variabilidad', 'trimestre_peligroso']].head(15))

# VISTA 3: Riesgo por Tipo de Delito Automotriz
print("\n" + "="*60)
print("VISTA 3: RIESGO POR TIPO DE DELITO AUTOMOTRIZ")
print("="*60)

riesgo_tipo_delito = df_autos.groupby(['municipio', 'tipo_delito']).size().reset_index(name='cantidad')
riesgo_tipo_pivot = riesgo_tipo_delito.pivot(index='municipio', columns='tipo_delito', values='cantidad').fillna(0)

# Calcular score de riesgo ponderado (robo de vehiculo tiene mayor peso)
riesgo_tipo_pivot['score_riesgo'] = 0
for col in riesgo_tipo_pivot.columns:
    if 'veh√≠culo' in col.lower() or 'vehiculo' in col.lower():
        peso = 3  # Mayor peso para robo de vehiculos
    elif 'robo' in col.lower():
        peso = 2  # Peso medio para otros robos
    else:
        peso = 1  # Peso menor para otros delitos
    
    if col != 'score_riesgo':
        riesgo_tipo_pivot['score_riesgo'] += riesgo_tipo_pivot[col] * peso

riesgo_tipo_final = riesgo_tipo_pivot.reset_index().sort_values('score_riesgo', ascending=False)

print("Top 15 municipios por score de riesgo ponderado:")
print(riesgo_tipo_final[['municipio', 'score_riesgo']].head(15))


VISTA 1: RIESGO GENERAL POR MUNICIPIO
Top 20 municipios con mayor riesgo de delitos automotrices:
                municipio           entidad  total_delitos_auto  \
485   Ecatepec de Morelos            M√©xico               64878   
1766              Tijuana   Baja California               55095   
572           Guadalajara           Jalisco               53027   
1800  Tlalnepantla de Baz            M√©xico               28901   
908              Mexicali   Baja California               26636   
1119               Puebla            Puebla               25178   
2021              Zapopan           Jalisco               24694   
1142            Quer√©taro         Quer√©taro               24613   
38         Aguascalientes    Aguascalientes               20536   
1834               Toluca            M√©xico               20396   
980   Naucalpan de Ju√°rez            M√©xico               20387   
717            Iztapalapa  Ciudad de M√©xico               20102   
462              Culia

## 9. Exportacion de Datos para Visualizacion

Exportaremos las vistas de riesgo como archivos CSV para su posterior uso en Google Data Studio o Power BI.

In [25]:
# Exportar las vistas como archivos CSV para visualizacion

ruta_exportacion = "C:/Users/Rub√©n/Documents/DATA ANALIST/git/TareasEBACmx/"

# Exportar Vista 1: Riesgo General
riesgo_general.to_csv(ruta_exportacion + "vista_riesgo_general.csv", index=False, encoding='utf-8')
print("Exportado: vista_riesgo_general.csv")

# Exportar Vista 2: Riesgo Estacional  
riesgo_estacional_final.to_csv(ruta_exportacion + "vista_riesgo_estacional.csv", index=False, encoding='utf-8')
print("Exportado: vista_riesgo_estacional.csv")

# Exportar Vista 3: Riesgo por Tipo de Delito
riesgo_tipo_final.to_csv(ruta_exportacion + "vista_riesgo_tipo_delito.csv", index=False, encoding='utf-8')
print("Exportado: vista_riesgo_tipo_delito.csv")

# Exportar datos principales para analisis adicionales
promedio_delitos_municipio.to_csv(ruta_exportacion + "analisis_promedio_municipios.csv", index=False, encoding='utf-8')
delito_mas_comun.to_csv(ruta_exportacion + "analisis_delito_mas_comun.csv", index=False, encoding='utf-8')
temporada_crimenes.to_csv(ruta_exportacion + "analisis_temporadas_crimenes.csv", index=False, encoding='utf-8')

print("\nTodos los archivos CSV han sido exportados exitosamente")
print(f"Ubicacion: {ruta_exportacion}")

# Resumen final
print("\n" + "="*60)
print("RESUMEN DEL PROYECTO")
print("="*60)
print(f"1. Base de datos creada: delitos_municipales.db")
print(f"2. Registros procesados: {len(df_expanded):,} delitos individuales")
print(f"3. Periodo analizado: {df_expanded['a√±o'].min()} - {df_expanded['a√±o'].max()}")
print(f"4. Municipios analizados: {df_expanded['municipio'].nunique()}")
print(f"5. Delitos relacionados con autos: {len(df_autos):,}")
print(f"6. Archivos CSV exportados: 6 archivos")
print("7. Listo para visualizacion en Google Data Studio")

# Cerrar conexion a la base de datos
conn.close()
print("\nConexion a base de datos cerrada")

Exportado: vista_riesgo_general.csv
Exportado: vista_riesgo_estacional.csv
Exportado: vista_riesgo_tipo_delito.csv

Todos los archivos CSV han sido exportados exitosamente
Ubicacion: C:/Users/Rub√©n/Documents/DATA ANALIST/git/TareasEBACmx/

RESUMEN DEL PROYECTO
1. Base de datos creada: delitos_municipales.db
2. Registros procesados: 13,305,538 delitos individuales
3. Periodo analizado: 2015 - 2021
4. Municipios analizados: 2325
5. Delitos relacionados con autos: 1,345,899
6. Archivos CSV exportados: 6 archivos
7. Listo para visualizacion en Google Data Studio

Conexion a base de datos cerrada
4. Municipios analizados: 2325
5. Delitos relacionados con autos: 1,345,899
6. Archivos CSV exportados: 6 archivos
7. Listo para visualizacion en Google Data Studio

Conexion a base de datos cerrada
