### Import data

In [1]:
import pandas as pd
import os
crimes = os.path.join('..', 'data', 'IDEFC_NM_ago23.csv')
crimes_df=pd.read_csv(crimes, encoding='ISO-8859-1')


In [3]:
### Population according to the INEGI 2020 census

states_dict = {
    'State': [
        'Aguascalientes', 'Baja California', 'Baja California Sur', 'Campeche', 'Coahuila de Zaragoza',
        'Colima', 'Chiapas', 'Chihuahua', 'Ciudad de México', 'Durango', 'Guanajuato', 'Guerrero',
        'Hidalgo', 'Jalisco', 'México', 'Michoacán de Ocampo', 'Morelos', 'Nayarit', 'Nuevo León',
        'Oaxaca', 'Puebla', 'Querétaro', 'Quintana Roo', 'San Luis Potosí', 'Sinaloa', 'Sonora',
        'Tabasco', 'Tamaulipas', 'Tlaxcala', 'Veracruz de Ignacio de la Llave', 'Yucatán', 'Zacatecas'
    ],
    'Population': [
        '1,425,607', '3,769,020', '798,447', '928,363', '3,146,771', '731,391', '5,543,828', '3,741,869',
        '9,209,944', '1,832,650', '6,166,934', '3,540,685', '3,082,841', '8,348,151', '16,992,418',
        '4,748,846', '1,971,520', '1,235,456', '5,784,442', '4,132,148', '6,583,278', '2,368,467',
        '1,857,985', '2,822,255', '3,026,943', '2,944,840', '2,402,598', '3,527,735', '1,342,977',
        '8,062,579', '2,320,898', '1,622,138'
    ]
}


states_df = pd.DataFrame(states_dict)
states_df['Population'] = states_df['Population'].str.replace(',', '').astype(int)


Dataframe size

In [None]:
print(crimes_df.shape, states_df.shape)


Data type

In [9]:
print( crimes_df.dtypes, states_df.dtypes)

Año                         int64
Clave_Ent                   int64
Entidad                    object
Bien jurídico afectado     object
Tipo de delito             object
Subtipo de delito          object
Modalidad                  object
Enero                       int64
Febrero                     int64
Marzo                       int64
Abril                       int64
Mayo                        int64
Junio                       int64
Julio                       int64
Agosto                      int64
Septiembre                float64
Octubre                   float64
Noviembre                 float64
Diciembre                 float64
dtype: object Entidad      object
Población     int64
dtype: object


### Translating crimes dataframe:

In [6]:
from translate import Translator

translator = Translator(to_lang="en", from_lang="es", provider='mymemory')
translation_cache = {}

translated_df = crimes_df.copy()

new_columns = []
for col in crimes_df.columns:
    if col in translation_cache:
        new_columns.append(translation_cache[col])
    else:
        translated_col = translator.translate(col)
        translation_cache[col] = translated_col
        new_columns.append(translated_col)

translated_df.columns = new_columns

for col in translated_df.columns:
    unique_values = translated_df[col].unique()

    for value in unique_values:
        if value in translation_cache:
            translated_value = translation_cache[value]
        else:
            translated_value = translator.translate(str(value))
            translation_cache[value] = translated_value

        translated_df[col].replace(value, translated_value, inplace=True)



KeyboardInterrupt: 

In [5]:
translated_df

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2,1,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0,1,0.0,0.0,0.0,1.0
2,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,0,2,2,3,2,0,1,2.0,0.0,0.0,0.0
3,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,2,0,0,1,0,0,0,0,0.0,0.0,0.0,0.0
4,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0,0,0,0,1,0,0,0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28219,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,15,7,11,10,6,9,9,2,,,,
28220,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Contra el medio ambiente,Contra el medio ambiente,Contra el medio ambiente,0,1,0,0,1,2,0,0,,,,
28221,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,16,20,27,23,25,32,25,13,,,,
28222,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Electorales,Electorales,Electorales,0,0,0,2,0,1,1,1,,,,


### Type of crimes

In [8]:
crime_type_counts = crimes_df['Type of Crime'].value_counts()
crime_type_counts

KeyError: 'Type of Crime'

In [10]:
crimes_df.count()

Unnamed: 0,Año,Clave_Ent,Entidad,Bien jurídico afectado,Tipo de delito,Subtipo de delito,Modalidad,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
0,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,3,0,2,1,1,1,2,1,2.0,2.0,2.0,1.0
1,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,1,0,0,0,1,0,1,0.0,0.0,0.0,1.0
2,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con otro elemento,0,0,2,2,3,2,0,1,2.0,0.0,0.0,0.0
3,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,No especificado,2,0,0,1,0,0,0,0,0.0,0.0,0.0,0.0
4,2015,1,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio culposo,Con arma de fuego,0,0,0,0,1,0,0,0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
28219,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,15,7,11,10,6,9,9,2,,,,
28220,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Contra el medio ambiente,Contra el medio ambiente,Contra el medio ambiente,0,1,0,0,1,2,0,0,,,,
28221,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,Delitos cometidos por servidores públicos,16,20,27,23,25,32,25,13,,,,
28222,2023,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Electorales,Electorales,Electorales,0,0,0,2,0,1,1,1,,,,
