#PROCESAMIENTO DE DATOS CON PYTHON

*   I Identificación de Problema
*   II Planteamiento de Preguntas
*   III Colección de Datos
*   IV Analisis Exploratorio de Datos (EDA)
*   V Limpieza de Datos
*   VI Transformación de datos
*   VII Ordenamiento de Código (criterio 5,3,0)
*   VIII APIs (Opcional)

##EQUIPO G20
*   Doníz Padilla Brenda Grisel
*   García Fragoso Nestor Abdy
*   Gudiño Ramirez Gustavo
*   Jimenez Rodriguez Paola Guadalupe
*   Medina Rodríguez Eduardo
*   Pando Barrón Jésus

### I .- IDENTIFICACIÓN DE PROBLEMA
*   Identificación y justificación
  *   México es uno de los países de América Latina con mayores niveles de incidencia delictiva. Sin embargo, México al ser un país tan variado cuenta con distintas realidades a nivel entidad federativa y municipal, por lo que es necesario contar con información que permita realizar diagnósticos más específicos para cada región geográfica.  
  *   Analizar el fenómeno delictivo de una región requiere por lo menos analizar la incidencia delictiva, tanto en términos absolutos como tasas por habitantes, considerando los tipo de delito, la forma de comisión de delitos, así como el perfil de las víctimas. 
  *   En un segundo momento, analizar las variables socio económicas y ambientales que podrían tener relación con el fenómeno delictivo, así como poder realizar estimaciones de comportamiento futuro de los índices delictivos para contar con información sobre el panorama actual y futuro de México.  



*   Investigación preliminar
  *   Existe información por País en el portal de United Nations Office of Drugs and Crimes /https://dataunodc.un.org/content/country-list que provee una información sobre tasas de incidencia de algunos delitos.  
  *   El gobierno de México, a través de la página del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública (SESNSP) ofrece datos de carpetas de investigación iniciadas por delitos del fuero común para el periodo 2015-2022 en formato CSV por estado y municipio, así como bases de datos sobre el perfil de las víctimas de algunos delitos del fuero común /https://www.gob.mx/sesnsp/acciones-y-programas/datos-abiertos-de-incidencia-delictiva?state=published
  *   El gobierno de México, a través de la página del Consejo Nacional de Población (CONAPO) ofrece datos públicos en formato CSV sobre las proyecciones de población de los Municipios de México 2015-2030 /https://datos.gob.mx/busca/dataset/proyecciones-de-la-poblacion-de-mexico-y-de-las-entidades-federativas-2016-2050/resource/0e21e97e-1faf-4045-8dc2-06691e0379a8?inner_span=True
    *   El gobierno de México,  a través de la página de la Comisión Nacional del Agua (CONAGUA) ofrece datos públicos en formato CSV sobre las temperaturas promedio por entidad federativa de México 2015-2022 /https://smn.conagua.gob.mx/es/climatologia/temperaturas-y-lluvias/resumenes-mensuales-de-temperaturas-y-lluvias
  *   La CONEVAL ofrece indicadores de pobreza y rezago social Nacional y estatal para el periodo 2016-2020  /https://datos.gob.mx/busca/dataset/indicadores-de-pobreza-nacional-y-estatal-2016-2020

*   Existen análisis de fenómenos delitivos en otras latitudes, por ejemplo: 
 
  *   Chicago Crime /https://www.kaggle.com/datasets/chicago/chicago-crime
  *   Crimes in Boston /https://www.kaggle.com/datasets/AnalyzeBoston/crimes-in-boston




###II .- PLANTEAMIENTO DE PREGUNTAS

*   5 Preguntas pertinentes sobre el tema (Sesión 2)

 *   ¿Cuáles son los delitos con mayor incidencia en México?
 *   ¿Cuáles son los municipios del país con mayores tasas de delitos contra la vida y la integridad personal?
 *   ¿Qué tipos de delitos exhiben el mayor crecimiento del 2015 al 2022?
 *   ¿La frecuencia de ocurrencia de los delitos cambia con respecto al tiempo (mes y año)?
 *   ¿Cuáles son los tipos de crímenes más probables a ocurrir?
 *   ¿Cómo afecta la temperatura la tasa de incidencia de un
 *   ¿Cuál es el perfil de las víctimas de los delitos en los municipios con mayor incidencia?



###III .- COLECCIÓN DE DATOS

*   Obtener colección de datos completa y no previamente procesada
*   Los datos recopilados pueden responder completamente las preguntas planteadas

###IV .- ANÁLISIS EXPLORATORIO DE DATOS (EDA)

*   Convertir de forma adecuada la colección de datos en un DataFrame de pandas as pd 😲
*   Realizar EDA a través del uso correcto de pandas

###V .- LIMPIEZA DE DATOS

* El nuevo DataFrame no contiene ningún NaN
* El DataFrame está correctamente indexado (en orden y sus índices coherentes)
* Las columnas están correctamente nombradas
* Se aplicaron agregaciones al Dataset para poder comenzar a responder algunas de las preguntas planteadas


###VI .- TRANSFORMACIÓN DE DATOS

* Todos los datos de cada columna tienen un valor correcto dependiendo del tipo de dato (fechas, objetos, ints, floats)
* Todas las columnas de texto están manipuladas para estar en formato correcto
*	Hay nuevas columnas con nuevos datos resultantes del procesamiento de una o más columnas originales
*	Se crearon otros Datasets -subconjuntos-series que presentan información relevante para una pregunta especifica o simplemente para exploraciones más profundas


### VII .- ORDENAMIENTO DE CÓDIGO (CRITERIO 5,3,0)

*   Se entregó un Jupyter Notebook ordenado y limpio que contiene todos los pasos llevados a cabo para el procesamiento de datos
*   El Notebook hace uso de las diversas técnicas aprendidas a través de las clases para la exploración y procesamiento de datos
*   El Notebook contiene el código (nombrado correctamente) de todas las sesiones pasadas

###VIII .- APIs (Opcional)

*   Se entregó un Notebook extra que contiene el código para correctamente hacer un llamado a una API para su colección en un Data Frame



---



In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#### 1. Importamos las bibliotecas necesarias

In [2]:
import pandas as pd
import numpy as np

#### 2a. Lectura del archivo de `delitos municipales`

`Municipal-Delitos-2015-2022.csv`

In [3]:
df = pd.read_csv('drive/MyDrive/Datasets_python_E20/Municipal-Delitos-2015-2022_dic2022.csv',sep=',')

#### 2b. Lectura del archivo de `Población a mitad de año`

`pob_mit_proyecciones.csv`

In [4]:
pmp = pd.read_csv('drive/MyDrive/Datasets_python_E20/pob_mit_proyecciones.csv',sep=',')

#### 3. ¿Qué tamaño tiene mi conjunto de datos?

In [5]:
# El archivo de Delitos municipales
df.shape

(1832404, 21)

In [6]:
# El archivo de proyecciones de poblacion a mitad del año
pmp.shape

(592460, 7)

#### 4. ¿Qué columnas tengo y qué información tengo en cada una de esas columnas?

In [7]:
# El dataframe de Delitos municipales
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832404 entries, 0 to 1832403
Data columns (total 21 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   Año                     int64 
 1   Clave_Ent               int64 
 2   Entidad                 object
 3   Cve. Municipio          int64 
 4   Municipio               object
 5   Bien jurídico afectado  object
 6   Tipo de delito          object
 7   Subtipo de delito       object
 8   Modalidad               object
 9   Enero                   int64 
 10  Febrero                 int64 
 11  Marzo                   int64 
 12  Abril                   int64 
 13  Mayo                    int64 
 14  Junio                   int64 
 15  Julio                   int64 
 16  Agosto                  int64 
 17  Septiembre              int64 
 18  Octubre                 int64 
 19  Noviembre               int64 
 20  Diciembre               int64 
dtypes: int64(15), object(6)
memory usage: 293.6+ MB


In [8]:
# El dataframe de proyecciones de poblacion a mitad del año
pmp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 592460 entries, 0 to 592459
Data columns (total 7 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   RENGLON    592460 non-null  int64 
 1   AÑO        592460 non-null  int64 
 2   ENTIDAD    592460 non-null  object
 3   CVE_GEO    592460 non-null  int64 
 4   EDAD       592460 non-null  int64 
 5   SEXO       592460 non-null  object
 6   POBLACION  592460 non-null  int64 
dtypes: int64(5), object(2)
memory usage: 31.6+ MB


#### 5. Los nombres que tienen mis columnas. ¿Son los nombres más apropiados?


No, los nombres de las columnas del archivo de Delitos municipales no son consistentes, algunos presentan espacios y otros un guión bajo "_" o punto".".
Los nombres de las columnas de proyeccion de la población están en mayúsculas con faltas de ortografía o con un nombre no apropiado. 
se debe hacer un renombramiento de columnas.

In [10]:
# Renombrando columnas del dataframe de Delitos municipales
column_name_delitos_municipales = {
    'Año': 'año',
    'Clave_Ent':'clave_entidad', 
    'Entidad':'entidad', 
    'Cve. Municipio':'clave_municipio', 
    'Municipio':'municipio',
    'Bien jurídico afectado':'bien_jurídico_afectado', 
    'Tipo de delito':'tipo_de_delito', 
    'Subtipo de delito':'subtipo_de_delito',
    'Modalidad':'modalidad', 
    'Enero':'enero',
    'Febrero':'febrero', 
    'Marzo':'marzo', 
    'Abril':'abril', 
    'Mayo':'mayo', 
    'Junio':'junio',
    'Julio':'julio', 
    'Agosto':'agosto', 
    'Septiembre':'septiembre', 
    'Octubre':'octubre', 
    'Noviembre':'noviembre',
    'Diciembre':'diciembre'
}
# Renombrando columnas del dataframe de proyecciones de poblacion a mitad del año
column_name_proyeccion_poblacion = {
    'RENGLON':'índice', 
    'AÑO':'año', 
    'ENTIDAD':'entidad', 
    'CVE_GEO':'clave_entidad',
    'EDAD':'edad', 
    'SEXO':'sexo',
    'POBLACION':'población'
}

In [12]:
df.renamed=df.rename(columns=column_name_delitos_municipales)

In [14]:
pmp.renamed=pmp.rename(columns=column_name_proyeccion_poblacion)

#### Tipos de datos de los dataframes
+ ¿Qúe tipos de datos tengo en cada columna? 
+ ¿Parecen ser el tipo de datos correcto?  
+ ¿o es un tipo de datos "incorrecto"?

In [15]:
# Verificando los tipo de datos
df.renamed.dtypes

año                        int64
clave_entidad              int64
entidad                   object
clave_municipio            int64
municipio                 object
bien_jurídico_afectado    object
tipo_de_delito            object
subtipo_de_delito         object
modalidad                 object
enero                      int64
febrero                    int64
marzo                      int64
abril                      int64
mayo                       int64
junio                      int64
julio                      int64
agosto                     int64
septiembre                 int64
octubre                    int64
noviembre                  int64
diciembre                  int64
dtype: object

In [16]:
pmp.renamed.dtypes

índice            int64
año               int64
entidad          object
clave_entidad     int64
edad              int64
sexo             object
población         int64
dtype: object

#### Conteo y limpieza de valores nulos o NaN

In [17]:
df.renamed.isna().sum(axis=0)

año                       0
clave_entidad             0
entidad                   0
clave_municipio           0
municipio                 0
bien_jurídico_afectado    0
tipo_de_delito            0
subtipo_de_delito         0
modalidad                 0
enero                     0
febrero                   0
marzo                     0
abril                     0
mayo                      0
junio                     0
julio                     0
agosto                    0
septiembre                0
octubre                   0
noviembre                 0
diciembre                 0
dtype: int64

No hay valores nulos en el dataframe de `delitos municipales`

In [18]:
pmp.renamed.isna().sum(axis=0)

índice           0
año              0
entidad          0
clave_entidad    0
edad             0
sexo             0
población        0
dtype: int64

No hay valores nulos en el dataframe de `Población a mitad de año`

#### Nuevas columnas a los dataframes
El dataframe de `delitos municipales` necesita una nueva columna con la suma total delitos por mes.



In [19]:
meses=['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio','julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']

In [20]:
df.renamed["totales"]=df.renamed[meses].sum(axis=1)

In [21]:
df.renamed.head(2)

Unnamed: 0,año,clave_entidad,entidad,clave_municipio,municipio,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,...,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,totales
0,2015,1,Aguascalientes,1001,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma de fuego,2,...,1,0,1,1,0,2,1,0,1,10
1,2015,1,Aguascalientes,1001,Aguascalientes,La vida y la Integridad corporal,Homicidio,Homicidio doloso,Con arma blanca,1,...,0,0,1,0,1,0,0,0,0,4


#### Agrupando datos por entidad federativa

1. El dataframe de los delitos Municipales contienen información en un nivel de agregación por municipio, que no es compatible con el segundo dataframe. 
  * Lo primero es eliminar las columnas de clave_municipio y municipio porque ya no son necesarias para el análisis
  * Posteriormente hay que hacer la agrupación





In [23]:
df.dropped = df.renamed.drop(columns=['clave_municipio', 'municipio'])

In [24]:
df.dropped.columns

Index(['año', 'clave_entidad', 'entidad', 'bien_jurídico_afectado',
       'tipo_de_delito', 'subtipo_de_delito', 'modalidad', 'enero', 'febrero',
       'marzo', 'abril', 'mayo', 'junio', 'julio', 'agosto', 'septiembre',
       'octubre', 'noviembre', 'diciembre', 'totales'],
      dtype='object')

In [26]:
df.group=pd.DataFrame(df.dropped.groupby(['año', 'clave_entidad', 'entidad','bien_jurídico_afectado',
       'tipo_de_delito', 'subtipo_de_delito', 'modalidad'], as_index=False).sum())

In [29]:
df.group.head(20)

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,totales
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,22,36,43,30,40,40,34,43,26,419
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,160,121,166,160,151,178,133,121,107,1860
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,14,13,19,12,15,19,22,10,8,179
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,5,7,2,1,3,2,6,4,2,39
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,116,81,110,101,77,80,97,75,67,1087
5,2015,1,Aguascalientes,El patrimonio,Otros delitos contra el patrimonio,Otros delitos contra el patrimonio,Otros delitos contra el patrimonio,0,0,0,0,0,0,0,0,0,0,1,0,1
6,2015,1,Aguascalientes,El patrimonio,Robo,Otros robos,Con violencia,0,1,0,2,1,0,1,0,0,0,1,3,9
7,2015,1,Aguascalientes,El patrimonio,Robo,Otros robos,Sin violencia,104,102,109,91,236,203,218,201,214,216,217,207,2118
8,2015,1,Aguascalientes,El patrimonio,Robo,Robo a casa habitación,Con violencia,5,3,0,7,6,8,5,3,4,2,4,7,54
9,2015,1,Aguascalientes,El patrimonio,Robo,Robo a casa habitación,Sin violencia,215,176,202,190,215,228,233,229,202,175,226,180,2471


2. El dataframe de la `proyección de la población a mitad del año` contiene la información desagregada por sexo y edad, es necesario los datos al nivel de entidad y año.

In [31]:
pmp.group=pd.DataFrame(pmp.renamed.groupby([ 'año', 'entidad', 'clave_entidad'], as_index=False).sum())

In [None]:
df.group

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,totales
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,22,36,43,30,40,40,34,43,26,419
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,160,121,166,160,151,178,133,121,107,1860
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,14,13,19,12,15,19,22,10,8,179
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,5,7,2,1,3,2,6,4,2,39
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,116,81,110,101,77,80,97,75,67,1087
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25083,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Evasión de presos,Evasión de presos,Evasión de presos,2,0,1,0,0,0,0,0,0,0,0,0,3
25084,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsedad,Falsedad,Falsedad,13,20,16,16,16,11,8,19,27,16,19,17,198
25085,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,5,14,7,10,9,19,6,5,10,10,13,8,116
25086,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Narcomenudeo,Narcomenudeo,Narcomenudeo,28,21,20,24,42,38,36,34,16,14,21,12,306


In [32]:
pmp.group

Unnamed: 0,año,entidad,clave_entidad,índice,edad,población
0,1950,República Mexicana,0,24310,11990,27026573
1,1951,República Mexicana,0,72710,11990,27780135
2,1952,República Mexicana,0,121110,11990,28578641
3,1953,República Mexicana,0,169510,11990,29418995
4,1954,República Mexicana,0,217910,11990,30311877
...,...,...,...,...,...,...
2688,2050,Tamaulipas,28,114635510,11990,4229654
2689,2050,Tlaxcala,29,118555910,11990,1683836
2690,2050,Veracruz,30,122476310,11990,8931064
2691,2050,Yucatán,31,126396710,11990,2785722


Eliminamos las columnas que ya no nos son necesarias, estas son `índice` y `edad`

In [34]:
pmp.dropped = pmp.group.drop(columns=['índice', 'edad'])

#### Filtrado de la información

El dataframe de la `Población a mitad de año` contiene más registros que de los necesarios para hacer un `merge` de ambos dataframes, es por eso para minimizar el procesamiento 

El rango de años del dataframe de los `delitos Municipales` va del `2015 al 2022`, mientras que el segundo dataframe va de 1950 al 2050.
Es necesario filtrar los registros para que los años.

In [35]:
filtro_año_mayor_igual_2015 = pmp.dropped['año'] >= 2015

In [36]:
pmp.filter=pmp.dropped[filtro_año_mayor_igual_2015]

In [37]:
filtro_año_menor_igual_2022 = pmp.filter['año'] <= 2022

In [38]:
pmp.filter=pmp.filter[filtro_año_menor_igual_2022]

In [39]:
pmp.filter

Unnamed: 0,año,entidad,clave_entidad,población
1505,2015,Aguascalientes,1,1331825
1506,2015,Baja California,2,3357794
1507,2015,Baja California Sur,3,719846
1508,2015,Campeche,4,916832
1509,2015,Chiapas,7,5307819
...,...,...,...,...
1764,2022,Tamaulipas,28,3708008
1765,2022,Tlaxcala,29,1410744
1766,2022,Veracruz,30,8634299
1767,2022,Yucatán,31,2308370


Reindexamos el dataframe

In [40]:
pmp.filter=pmp.filter.reset_index(drop=True)

In [41]:
pmp.filter

Unnamed: 0,año,entidad,clave_entidad,población
0,2015,Aguascalientes,1,1331825
1,2015,Baja California,2,3357794
2,2015,Baja California Sur,3,719846
3,2015,Campeche,4,916832
4,2015,Chiapas,7,5307819
...,...,...,...,...
259,2022,Tamaulipas,28,3708008
260,2022,Tlaxcala,29,1410744
261,2022,Veracruz,30,8634299
262,2022,Yucatán,31,2308370


#### Ya tenemos dos dataframes que pueden unir para vincular la población con los delitos cometidos por entidad 

In [42]:
delitos=df.group.copy()

In [43]:
poblacion=pmp.filter.copy()

In [44]:
delitos

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,totales
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,22,36,43,30,40,40,34,43,26,419
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,160,121,166,160,151,178,133,121,107,1860
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,14,13,19,12,15,19,22,10,8,179
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,5,7,2,1,3,2,6,4,2,39
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,116,81,110,101,77,80,97,75,67,1087
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25083,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Evasión de presos,Evasión de presos,Evasión de presos,2,0,1,0,0,0,0,0,0,0,0,0,3
25084,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsedad,Falsedad,Falsedad,13,20,16,16,16,11,8,19,27,16,19,17,198
25085,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,5,14,7,10,9,19,6,5,10,10,13,8,116
25086,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Narcomenudeo,Narcomenudeo,Narcomenudeo,28,21,20,24,42,38,36,34,16,14,21,12,306


In [45]:
poblacion

Unnamed: 0,año,entidad,clave_entidad,población
0,2015,Aguascalientes,1,1331825
1,2015,Baja California,2,3357794
2,2015,Baja California Sur,3,719846
3,2015,Campeche,4,916832
4,2015,Chiapas,7,5307819
...,...,...,...,...
259,2022,Tamaulipas,28,3708008
260,2022,Tlaxcala,29,1410744
261,2022,Veracruz,30,8634299
262,2022,Yucatán,31,2308370


#### Merge

In [46]:
delitos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25088 entries, 0 to 25087
Data columns (total 20 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   año                     25088 non-null  int64 
 1   clave_entidad           25088 non-null  int64 
 2   entidad                 25088 non-null  object
 3   bien_jurídico_afectado  25088 non-null  object
 4   tipo_de_delito          25088 non-null  object
 5   subtipo_de_delito       25088 non-null  object
 6   modalidad               25088 non-null  object
 7   enero                   25088 non-null  int64 
 8   febrero                 25088 non-null  int64 
 9   marzo                   25088 non-null  int64 
 10  abril                   25088 non-null  int64 
 11  mayo                    25088 non-null  int64 
 12  junio                   25088 non-null  int64 
 13  julio                   25088 non-null  int64 
 14  agosto                  25088 non-null  int64 
 15  se

In [47]:
poblacion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 264 entries, 0 to 263
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   año            264 non-null    int64 
 1   entidad        264 non-null    object
 2   clave_entidad  264 non-null    int64 
 3   población      264 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 8.4+ KB


In [48]:
#pd.merge(left=delitos,right=poblacion, how='left', left_on=['año','clave_entidad'], right_on=['año','clave_entidad'])
delitos_poblacion=pd.merge(delitos,poblacion, how='left',on=['año','clave_entidad'])

In [49]:
delitos_poblacion

Unnamed: 0,año,clave_entidad,entidad_x,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,...,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,totales,entidad_y,población
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,...,43,30,40,40,34,43,26,419,Aguascalientes,1331825
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,...,166,160,151,178,133,121,107,1860,Aguascalientes,1331825
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,...,19,12,15,19,22,10,8,179,Aguascalientes,1331825
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,...,2,1,3,2,6,4,2,39,Aguascalientes,1331825
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,...,110,101,77,80,97,75,67,1087,Aguascalientes,1331825
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25083,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Evasión de presos,Evasión de presos,Evasión de presos,2,0,1,...,0,0,0,0,0,0,0,3,Zacatecas,1689080
25084,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsedad,Falsedad,Falsedad,13,20,16,...,11,8,19,27,16,19,17,198,Zacatecas,1689080
25085,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,5,14,7,...,19,6,5,10,10,13,8,116,Zacatecas,1689080
25086,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Narcomenudeo,Narcomenudeo,Narcomenudeo,28,21,20,...,38,36,34,16,14,21,12,306,Zacatecas,1689080


#### Últimos detalles
Verificamos que la informacion sea consistente, tipos de datos y que no haya valores NaN en el dataframe resultante

In [50]:
delitos_poblacion.shape

(25088, 22)

In [51]:
delitos_poblacion.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25088 entries, 0 to 25087
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   año                     25088 non-null  int64 
 1   clave_entidad           25088 non-null  int64 
 2   entidad_x               25088 non-null  object
 3   bien_jurídico_afectado  25088 non-null  object
 4   tipo_de_delito          25088 non-null  object
 5   subtipo_de_delito       25088 non-null  object
 6   modalidad               25088 non-null  object
 7   enero                   25088 non-null  int64 
 8   febrero                 25088 non-null  int64 
 9   marzo                   25088 non-null  int64 
 10  abril                   25088 non-null  int64 
 11  mayo                    25088 non-null  int64 
 12  junio                   25088 non-null  int64 
 13  julio                   25088 non-null  int64 
 14  agosto                  25088 non-null  int64 
 15  se

In [52]:
delitos_poblacion.isna().sum(axis=0)

año                       0
clave_entidad             0
entidad_x                 0
bien_jurídico_afectado    0
tipo_de_delito            0
subtipo_de_delito         0
modalidad                 0
enero                     0
febrero                   0
marzo                     0
abril                     0
mayo                      0
junio                     0
julio                     0
agosto                    0
septiembre                0
octubre                   0
noviembre                 0
diciembre                 0
totales                   0
entidad_y                 0
población                 0
dtype: int64

Calculamos la tasa de delitos por cada 100,000 habitantes. Y la agregamos a una columna nueva

In [53]:
delitos_poblacion['tasa']=delitos_poblacion.apply(lambda x: 100000*x.totales/x.población, axis = 1)

In [54]:
delitos_poblacion.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25088 entries, 0 to 25087
Data columns (total 23 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   año                     25088 non-null  int64  
 1   clave_entidad           25088 non-null  int64  
 2   entidad_x               25088 non-null  object 
 3   bien_jurídico_afectado  25088 non-null  object 
 4   tipo_de_delito          25088 non-null  object 
 5   subtipo_de_delito       25088 non-null  object 
 6   modalidad               25088 non-null  object 
 7   enero                   25088 non-null  int64  
 8   febrero                 25088 non-null  int64  
 9   marzo                   25088 non-null  int64  
 10  abril                   25088 non-null  int64  
 11  mayo                    25088 non-null  int64  
 12  junio                   25088 non-null  int64  
 13  julio                   25088 non-null  int64  
 14  agosto                  25088 non-null

In [55]:
delitos_poblacion.to_csv('drive/MyDrive/Datasets_python_E20/delitos_poblacion.csv')