#PROCESAMIENTO DE DATOS CON PYTHON

*   I    Identificación de Problema
*   II   Planteamiento de Preguntas
*   III  Colección de Datos
*   IV   Análisis Exploratorio de Datos (EDA)
*   V    Limpieza de Datos
*   VI   Transformación de datos
*   VII  Ordenamiento de Código (criterio 5,3,0)
*   VIII APIs (Opcional)

---



##EQUIPO G20
*   Doníz Padilla Brenda Grisel
*   García Fragoso Nestor Abdy
*   Gudiño Ramirez Gustavo
*   Jiménez Rodríguez Paola Guadalupe
*   Medina Rodríguez Eduardo
*   Pando Barrón Jesús

---



### I .- IDENTIFICACIÓN DE PROBLEMA
*   Identificación y justificación
  *   México es uno de los países de América Latina con mayores niveles de incidencia delictiva. Sin embargo, México al ser un país tan variado cuenta con distintas realidades a nivel entidad federativa y municipal, por lo que es necesario contar con información que permita realizar diagnósticos más específicos para cada zona geográfica.  
  *   Analizar el fenómeno delictivo de una región requiere por lo menos analizar la incidencia delictiva, tanto en términos absolutos como tasas por habitantes, considerando los tipo de delito, la forma de comisión de delitos, así como el perfil de las víctimas. 
  *   En un segundo momento, analizar las variables socio económicas y ambientales que podrían tener relación con el fenómeno delictivo, así como poder realizar estimaciones de comportamiento futuro de los índices delictivos para contar con información sobre el panorama actual y futuro de México.  


*   Investigación preliminar
  *   Existe información por país en el portal de United Nations Office of Drugs and Crimes /https://dataunodc.un.org/content/country-list que provee una información sobre tasas de incidencia de algunos delitos.  
  *   El gobierno de México, a través de la página del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública (SESNSP) ofrece datos de carpetas de investigación iniciadas por delitos del fuero común para el periodo 2015-2022 en formato CSV por estado y municipio, así como bases de datos sobre el perfil de las víctimas de algunos delitos del fuero común /https://www.gob.mx/sesnsp/acciones-y-programas/datos-abiertos-de-incidencia-delictiva?state=published
  *   El gobierno de México, a través de la página del Consejo Nacional de Población (CONAPO) ofrece datos públicos en formato CSV sobre las proyecciones de población de los Municipios de México 2015-2030 /https://datos.gob.mx/busca/dataset/proyecciones-de-la-poblacion-de-mexico-y-de-las-entidades-federativas-2016-2050/resource/0e21e97e-1faf-4045-8dc2-06691e0379a8?inner_span=True
  *   El Banco Mundial ofrece datos acerca del Producto Interno Bruto (PIB) de diversos países, entre ellos México, por lo que se pudieran realizar análisis para ver si los niveles delictivos de crímenes violentos impactan positiva o negativament en los niveles del PIB.

*   Existen análisis de fenómenos delitivos en otras latitudes, por ejemplo: 
 
  *   Chicago Crime /https://www.kaggle.com/datasets/chicago/chicago-crime, en donde se analizó el incremento de incidencia de delitos de un año a otro, en cuál mes tiene mayor ocurrencia un delito en particular, y cómo la temperatura afecta al comportamiento del fenómeno delictivo. 
  *   Crimes in Boston /https://www.kaggle.com/datasets/AnalyzeBoston/crimes-in-boston, en donde se analizó cuáles eran los delitos de mayor ocurrencia, los lugares de mayor ocurrencia de delitos, y si la frecuencia de delito varía en determinado periodo de tiempo.

---


###II .- PLANTEAMIENTO DE PREGUNTAS

*   5 Preguntas pertinentes sobre el tema (Sesión 2)

 *   ¿Cuáles son los delitos con mayor incidencia en México, tanto en números absolutos como en delitos por cada 100 mil habitantes?
 *   ¿Cuáles son las entidades del país con mayores tasas de delitos graves, es decir, aquellos contra la vida y la integridad personal?
 *   ¿Qué tipos de delitos exhiben el mayor crecimiento del 2015 al 2022?
 *   ¿La frecuencia de ocurrencia de los delitos cambia con respecto al tiempo (mes, año)?
 *   ¿Cuál es el perfil de las víctimas de los delitos de homicidio doloso y robo con violencia en las entidades que muestran la mayor incidencia?
 *   ¿Los niveles de incidencia de delitos violentos (homicidio doloso y robo con violencia) guardan alguna relación con el comportamiento del PIB en el país?

---

###III .- COLECCIÓN DE DATOS

*   Obtener colección de datos completa y no previamente procesada
*   Los datos recopilados pueden responder completamente las preguntas planteadas

---
> Obtuvimos dos archivos de datos en formato CSV de la fuentes indicadas durante `la investigación preliminar`. Estos datos son suficientes para resolver las preguntas planteadas.
Los archivos son los siguientes:



```
Municipal-Delitos-2015-2022_dic2022.csv
pob_mit_proyecciones.csv
```
> El primer archivo contiene información de la cantidad de delitos en la Republica Mexicana clasificados por entidad, municipio, año, mes, tipos de delitos, etc.
>El segundo archivo contiene información sobre las proyecciones de la poblacion clasificaco por año y entidad



###IV .- ANÁLISIS EXPLORATORIO DE DATOS (EDA)

*   Convertir de forma adecuada la colección de datos en un DataFrame de pandas as pd 😲
*   Realizar EDA a través del uso correcto de pandas

###V .- LIMPIEZA DE DATOS

* El nuevo DataFrame no contiene ningún NaN
* El DataFrame está correctamente indexado (en orden y sus índices coherentes)
* Las columnas están correctamente nombradas
* Se aplicaron agregaciones al Dataset para poder comenzar a responder algunas de las preguntas planteadas


###VI .- TRANSFORMACIÓN DE DATOS

* Todos los datos de cada columna tienen un valor correcto dependiendo del tipo de dato (fechas, objetos, ints, floats)
* Todas las columnas de texto están manipuladas para estar en formato correcto
*	Hay nuevas columnas con nuevos datos resultantes del procesamiento de una o más columnas originales
*	Se crearon otros Datasets -subconjuntos-series que presentan información relevante para una pregunta especifica o simplemente para exploraciones más profundas


### VII .- ORDENAMIENTO DE CÓDIGO (CRITERIO 5,3,0)

*   Se entregó un Jupyter Notebook ordenado y limpio que contiene todos los pasos llevados a cabo para el procesamiento de datos
*   El Notebook hace uso de las diversas técnicas aprendidas a través de las clases para la exploración y procesamiento de datos
*   El Notebook contiene el código (nombrado correctamente) de todas las sesiones pasadas



---



#### 1. Importamos las bibliotecas necesarias

In [None]:
import pandas as pd
import numpy as np

#### 2a. Lectura del archivo de `delitos municipales`

`Municipal-Delitos-2015-2022.csv`

In [None]:
#df = pd.read_csv('drive/MyDrive/Datasets_python_E20/Municipal-Delitos-2015-2022_dic2022.csv',sep=',')

In [None]:
#Se monto el archivo en un servidor externo porque era muy pesado para Github
df = pd.read_csv('https://tutoria.unam.mx/Python/Municipal-Delitos-2015-2022_dic2022.csv',sep=',')

#### 2b. Lectura del archivo de `Población a mitad de año`

`pob_mit_proyecciones.csv`

In [None]:
#Este archivo por ser más liviano se cargo directamente del Github
pmp = pd.read_csv('https://raw.githubusercontent.com/userlalo/G20_ProcesamientoDatosPython/main/pob_mit_proyecciones.csv',sep=',')

#### 3. ¿Qué tamaño tiene mi conjunto de datos?

In [None]:
# El archivo de Delitos municipales
df.shape

(1832404, 21)

In [None]:
# El archivo de proyecciones de poblacion a mitad del año
pmp.shape

(592460, 7)

#### 4. ¿Qué columnas tengo y qué información tengo en cada una de esas columnas?

In [None]:
# El dataframe de Delitos municipales
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1832404 entries, 0 to 1832403
Data columns (total 21 columns):
 #   Column                  Dtype 
---  ------                  ----- 
 0   Año                     int64 
 1   Clave_Ent               int64 
 2   Entidad                 object
 3   Cve. Municipio          int64 
 4   Municipio               object
 5   Bien jurídico afectado  object
 6   Tipo de delito          object
 7   Subtipo de delito       object
 8   Modalidad               object
 9   Enero                   int64 
 10  Febrero                 int64 
 11  Marzo                   int64 
 12  Abril                   int64 
 13  Mayo                    int64 
 14  Junio                   int64 
 15  Julio                   int64 
 16  Agosto                  int64 
 17  Septiembre              int64 
 18  Octubre                 int64 
 19  Noviembre               int64 
 20  Diciembre               int64 
dtypes: int64(15), object(6)
memory usage: 293.6+ MB


In [None]:
# El dataframe de proyecciones de poblacion a mitad del año
pmp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 592460 entries, 0 to 592459
Data columns (total 7 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   RENGLON    592460 non-null  int64 
 1   AÑO        592460 non-null  int64 
 2   ENTIDAD    592460 non-null  object
 3   CVE_GEO    592460 non-null  int64 
 4   EDAD       592460 non-null  int64 
 5   SEXO       592460 non-null  object
 6   POBLACION  592460 non-null  int64 
dtypes: int64(5), object(2)
memory usage: 31.6+ MB


#### 5. Los nombres que tienen mis columnas. ¿Son los nombres más apropiados?


No, los nombres de las columnas del archivo de Delitos municipales no son consistentes, algunos presentan espacios y otros un guión bajo "_" o punto".".
Los nombres de las columnas de proyeccion de la población están en mayúsculas con faltas de ortografía o con un nombre no apropiado. 
se debe hacer un renombramiento de columnas.

In [None]:
# Renombrando columnas del dataframe de Delitos municipales
column_name_delitos_municipales = {
    'Año': 'año',
    'Clave_Ent':'clave_entidad', 
    'Entidad':'entidad', 
    'Cve. Municipio':'clave_municipio', 
    'Municipio':'municipio',
    'Bien jurídico afectado':'bien_jurídico_afectado', 
    'Tipo de delito':'tipo_de_delito', 
    'Subtipo de delito':'subtipo_de_delito',
    'Modalidad':'modalidad', 
    'Enero':'enero',
    'Febrero':'febrero', 
    'Marzo':'marzo', 
    'Abril':'abril', 
    'Mayo':'mayo', 
    'Junio':'junio',
    'Julio':'julio', 
    'Agosto':'agosto', 
    'Septiembre':'septiembre', 
    'Octubre':'octubre', 
    'Noviembre':'noviembre',
    'Diciembre':'diciembre'
}
# Renombrando columnas del dataframe de proyecciones de poblacion a mitad del año
column_name_proyeccion_poblacion = {
    'RENGLON':'índice', 
    'AÑO':'año', 
    'ENTIDAD':'entidad', 
    'CVE_GEO':'clave_entidad',
    'EDAD':'edad', 
    'SEXO':'sexo',
    'POBLACION':'población'
}

In [None]:
df.renamed=df.rename(columns=column_name_delitos_municipales)

In [None]:
pmp.renamed=pmp.rename(columns=column_name_proyeccion_poblacion)

#### Tipos de datos de los dataframes
+ ¿Qúe tipos de datos tengo en cada columna? 
+ ¿Parecen ser el tipo de datos correcto?  
+ ¿o es un tipo de datos "incorrecto"?

In [None]:
# Verificando los tipo de datos
df.renamed.dtypes

año                        int64
clave_entidad              int64
entidad                   object
clave_municipio            int64
municipio                 object
bien_jurídico_afectado    object
tipo_de_delito            object
subtipo_de_delito         object
modalidad                 object
enero                      int64
febrero                    int64
marzo                      int64
abril                      int64
mayo                       int64
junio                      int64
julio                      int64
agosto                     int64
septiembre                 int64
octubre                    int64
noviembre                  int64
diciembre                  int64
dtype: object

In [None]:
pmp.renamed.dtypes

índice            int64
año               int64
entidad          object
clave_entidad     int64
edad              int64
sexo             object
población         int64
dtype: object

Los tipos de datos `son correctos` no es necesario hacer algún tipo de cast.

#### Conteo y limpieza de valores nulos o NaN

In [None]:
df.renamed.isna().sum(axis=0)

año                       0
clave_entidad             0
entidad                   0
clave_municipio           0
municipio                 0
bien_jurídico_afectado    0
tipo_de_delito            0
subtipo_de_delito         0
modalidad                 0
enero                     0
febrero                   0
marzo                     0
abril                     0
mayo                      0
junio                     0
julio                     0
agosto                    0
septiembre                0
octubre                   0
noviembre                 0
diciembre                 0
dtype: int64

No hay valores nulos en el dataframe de `delitos municipales`

In [None]:
pmp.renamed.isna().sum(axis=0)

índice           0
año              0
entidad          0
clave_entidad    0
edad             0
sexo             0
población        0
dtype: int64

No hay valores nulos en el dataframe de `Población a mitad de año`

#### Agrupando datos por entidad federativa

1. El dataframe de los delitos Municipales contienen información en un nivel de agregación por municipio, que no es compatible con el segundo dataframe. 
  * Eliminar las columnas de clave_municipio y municipio porque ya no son necesarias para el análisis
  * Posteriormente hay que hacer la agrupación





In [None]:
df.dropped = df.renamed.drop(columns=['clave_municipio', 'municipio'])

In [None]:
df.group=pd.DataFrame(df.dropped.groupby(['año', 'clave_entidad', 'entidad','bien_jurídico_afectado',
       'tipo_de_delito', 'subtipo_de_delito', 'modalidad'], as_index=False).sum())

In [None]:
df.group.head(5)

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,22,36,43,30,40,40,34,43,26
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,160,121,166,160,151,178,133,121,107
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,14,13,19,12,15,19,22,10,8
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,5,7,2,1,3,2,6,4,2
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,116,81,110,101,77,80,97,75,67


2. El dataframe de la `proyección de la población a mitad del año` contiene la información desagregada por sexo y edad, es necesario los datos al nivel de entidad y año, por lo que también es necesario hacer un agrupamiento de la población por `año` y `entidad`

In [None]:
pmp.group=pd.DataFrame(pmp.renamed.groupby([ 'año', 'entidad', 'clave_entidad'], as_index=False)['población'].sum())

In [None]:
pmp.group

Unnamed: 0,año,entidad,clave_entidad,población
0,1950,República Mexicana,0,27026573
1,1951,República Mexicana,0,27780135
2,1952,República Mexicana,0,28578641
3,1953,República Mexicana,0,29418995
4,1954,República Mexicana,0,30311877
...,...,...,...,...
2688,2050,Tamaulipas,28,4229654
2689,2050,Tlaxcala,29,1683836
2690,2050,Veracruz,30,8931064
2691,2050,Yucatán,31,2785722


#### Filtrado de la información

El dataframe de la `Población a mitad de año` contiene más registros que de los necesarios para hacer un `merge` de ambos dataframes, es por eso para minimizar el procesamiento 

El rango de años del dataframe de los `delitos Municipales` va del `2015 al 2022`, mientras que el segundo dataframe va de 1950 al 2050.
Es necesario filtrar los registros para que los años.

In [None]:
filtro_año = (pmp.group['año'] >= 2015) & (pmp.group['año'] <= 2022)

In [None]:
pmp.filter=pmp.group[filtro_año]

In [None]:
pmp.filter

Unnamed: 0,año,entidad,clave_entidad,población
1505,2015,Aguascalientes,1,1331825
1506,2015,Baja California,2,3357794
1507,2015,Baja California Sur,3,719846
1508,2015,Campeche,4,916832
1509,2015,Chiapas,7,5307819
...,...,...,...,...
1764,2022,Tamaulipas,28,3708008
1765,2022,Tlaxcala,29,1410744
1766,2022,Veracruz,30,8634299
1767,2022,Yucatán,31,2308370


Reindexamos el dataframe

In [None]:
pmp.filter=pmp.filter.reset_index(drop=True)

In [None]:
pmp.filter

Unnamed: 0,año,entidad,clave_entidad,población
0,2015,Aguascalientes,1,1331825
1,2015,Baja California,2,3357794
2,2015,Baja California Sur,3,719846
3,2015,Campeche,4,916832
4,2015,Chiapas,7,5307819
...,...,...,...,...
259,2022,Tamaulipas,28,3708008
260,2022,Tlaxcala,29,1410744
261,2022,Veracruz,30,8634299
262,2022,Yucatán,31,2308370


#### Ya tenemos dos dataframes que pueden unir para vincular la población con los delitos cometidos por entidad 

In [None]:
delitos=df.group.copy()

In [None]:
poblacion=pmp.filter.copy()

In [None]:
delitos

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,22,36,43,30,40,40,34,43,26
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,160,121,166,160,151,178,133,121,107
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,14,13,19,12,15,19,22,10,8
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,5,7,2,1,3,2,6,4,2
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,116,81,110,101,77,80,97,75,67
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25083,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Evasión de presos,Evasión de presos,Evasión de presos,2,0,1,0,0,0,0,0,0,0,0,0
25084,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsedad,Falsedad,Falsedad,13,20,16,16,16,11,8,19,27,16,19,17
25085,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,5,14,7,10,9,19,6,5,10,10,13,8
25086,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Narcomenudeo,Narcomenudeo,Narcomenudeo,28,21,20,24,42,38,36,34,16,14,21,12


In [None]:
poblacion

Unnamed: 0,año,entidad,clave_entidad,población
0,2015,Aguascalientes,1,1331825
1,2015,Baja California,2,3357794
2,2015,Baja California Sur,3,719846
3,2015,Campeche,4,916832
4,2015,Chiapas,7,5307819
...,...,...,...,...
259,2022,Tamaulipas,28,3708008
260,2022,Tlaxcala,29,1410744
261,2022,Veracruz,30,8634299
262,2022,Yucatán,31,2308370


#### Merge

In [None]:
#Eliminamos la columna entidad del dataframe de la poblacióa para evitar la duplicidad de esta columna en el merge 
poblacion=poblacion.drop(columns=['entidad'])

In [None]:
#pd.merge(left=delitos,right=poblacion, how='left', left_on=['año','clave_entidad'], right_on=['año','clave_entidad'])
delitos_poblacion=pd.merge(delitos,poblacion, how='left',on=['año','clave_entidad'])

#### Nuevas columnas a los dataframes
+ El dataframe de `delitos_poblacion` necesita una nueva columna con la suma total delitos por mes.
+ Y una columna para la `tasa de delitos`

In [None]:
meses=['enero', 'febrero', 'marzo', 'abril', 'mayo', 'junio','julio', 'agosto', 'septiembre', 'octubre', 'noviembre', 'diciembre']
delitos_poblacion["totales"]=delitos_poblacion[meses].sum(axis=1)

Calculamos la tasa de delitos por cada 100,000 habitantes.

In [None]:
delitos_poblacion['tasa']=delitos_poblacion.apply(lambda x: 100000*x.totales/x.población, axis = 1)

#### Últimos detalles y verificación del dataframe
Verificamos que la informacion sea consistente, tipos de datos y que no haya valores NaN en el dataframe resultante

In [None]:
delitos_poblacion.shape

(25088, 22)

In [None]:
delitos_poblacion.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25088 entries, 0 to 25087
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   año                     25088 non-null  int64  
 1   clave_entidad           25088 non-null  int64  
 2   entidad                 25088 non-null  object 
 3   bien_jurídico_afectado  25088 non-null  object 
 4   tipo_de_delito          25088 non-null  object 
 5   subtipo_de_delito       25088 non-null  object 
 6   modalidad               25088 non-null  object 
 7   enero                   25088 non-null  int64  
 8   febrero                 25088 non-null  int64  
 9   marzo                   25088 non-null  int64  
 10  abril                   25088 non-null  int64  
 11  mayo                    25088 non-null  int64  
 12  junio                   25088 non-null  int64  
 13  julio                   25088 non-null  int64  
 14  agosto                  25088 non-null

In [None]:
delitos_poblacion.isna().sum(axis=0)

año                       0
clave_entidad             0
entidad                   0
bien_jurídico_afectado    0
tipo_de_delito            0
subtipo_de_delito         0
modalidad                 0
enero                     0
febrero                   0
marzo                     0
abril                     0
mayo                      0
junio                     0
julio                     0
agosto                    0
septiembre                0
octubre                   0
noviembre                 0
diciembre                 0
población                 0
totales                   0
tasa                      0
dtype: int64

In [None]:
delitos_poblacion

Unnamed: 0,año,clave_entidad,entidad,bien_jurídico_afectado,tipo_de_delito,subtipo_de_delito,modalidad,enero,febrero,marzo,...,junio,julio,agosto,septiembre,octubre,noviembre,diciembre,población,totales,tasa
0,2015,1,Aguascalientes,El patrimonio,Abuso de confianza,Abuso de confianza,Abuso de confianza,41,33,31,...,43,30,40,40,34,43,26,1331825,419,31.460590
1,2015,1,Aguascalientes,El patrimonio,Daño a la propiedad,Daño a la propiedad,Daño a la propiedad,201,180,182,...,166,160,151,178,133,121,107,1331825,1860,139.657988
2,2015,1,Aguascalientes,El patrimonio,Despojo,Despojo,Despojo,19,15,13,...,19,12,15,19,22,10,8,1331825,179,13.440204
3,2015,1,Aguascalientes,El patrimonio,Extorsión,Extorsión,Extorsión,2,4,1,...,2,1,3,2,6,4,2,1331825,39,2.928313
4,2015,1,Aguascalientes,El patrimonio,Fraude,Fraude,Fraude,119,60,104,...,110,101,77,80,97,75,67,1331825,1087,81.617330
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
25083,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Evasión de presos,Evasión de presos,Evasión de presos,2,0,1,...,0,0,0,0,0,0,0,1689080,3,0.177611
25084,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsedad,Falsedad,Falsedad,13,20,16,...,11,8,19,27,16,19,17,1689080,198,11.722358
25085,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Falsificación,Falsificación,Falsificación,5,14,7,...,19,6,5,10,10,13,8,1689080,116,6.867644
25086,2022,32,Zacatecas,Otros bienes jurídicos afectados (del fuero co...,Narcomenudeo,Narcomenudeo,Narcomenudeo,28,21,20,...,38,36,34,16,14,21,12,1689080,306,18.116371


In [None]:
delitos_poblacion.to_csv('delitos_poblacion.csv')

###VIII .- APIs (Opcional)

*   Se entregó un Notebook extra que contiene el código para correctamente hacer un llamado a una API para su colección en un Data Frame

#### API WORLD BANK
\https://www.worldbank.org/en/home

#### Importar librerias a utilizar para lectura de API (World Bank) a través de pandas_datareader

In [None]:
import pandas as pd
from pandas_datareader import wb
#wb (World Bank)
from datetime import datetime

####Definir variables a utilizar en pandas wb

*   start .- fecha inicio
*   end .- fecha final
*   indicator_id .- idenfificador de indicador de World Bank
*   country .- lista de paises a filtrar


In [None]:
start = datetime (2015,1,1)
end = datetime (2023,1,1)
indicator_id = "NY.GDP.PCAP.KD"

In [None]:
#Información de todos los Data Series del Banco Mundial
#wb.get_indicators()

In [None]:
wb.search("NY.GDP.PCAP.KD")

Unnamed: 0,id,name,unit,source,sourceNote,sourceOrganization,topics


In [None]:
#Información por País
#country code, region, income level, capital city, latitude, and longitude
#wb.get_countries()

In [None]:
pib_per_capita_usd= wb.download(indicator = indicator_id, start = start, end = end, country=["MX"])
#NOTA : La variable del pais (country) se define directo en el llamado wb.download, (una lista)
print (pib_per_capita_usd)

              NY.GDP.PCAP.KD
country year                
Mexico  2021     9525.409684
        2020     9147.053505
        2019    10013.703192
        2018    10120.363543
        2017     9997.686914
        2016     9897.150062
        2015     9753.380048


In [None]:
type(pib_per_capita_usd)

pandas.core.frame.DataFrame

In [None]:
pib_per_capita_usd.shape

(7, 1)

In [None]:
pib_per_capita_usd.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 7 entries, ('Mexico', '2021') to ('Mexico', '2015')
Data columns (total 1 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   NY.GDP.PCAP.KD  7 non-null      float64
dtypes: float64(1)
memory usage: 651.0+ bytes


In [None]:
pib_per_capita_usd.columns

Index(['NY.GDP.PCAP.KD'], dtype='object')

In [None]:
pib_per_capita_usd.dtypes

NY.GDP.PCAP.KD    float64
dtype: object

In [None]:
pib_per_capita_usd = pib_per_capita_usd.rename (columns = {"NY.GDP.PCAP.KD": "pib_pc_usd"})
print(pib_per_capita_usd)

                pib_pc_usd
country year              
Mexico  2021   9525.409684
        2020   9147.053505
        2019  10013.703192
        2018  10120.363543
        2017   9997.686914
        2016   9897.150062
        2015   9753.380048


In [None]:
pib_per_capita_usd.index = [2021, 2020, 2019, 2018, 2017, 2016, 2015]
print (pib_per_capita_usd)

        pib_pc_usd
2021   9525.409684
2020   9147.053505
2019  10013.703192
2018  10120.363543
2017   9997.686914
2016   9897.150062
2015   9753.380048


In [None]:
pib_per_capita_usd.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 2021 to 2015
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   pib_pc_usd  7 non-null      float64
dtypes: float64(1)
memory usage: 112.0 bytes


In [None]:
pib_per_capita_usd.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 7 entries, 2021 to 2015
Data columns (total 1 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   pib_pc_usd  7 non-null      float64
dtypes: float64(1)
memory usage: 112.0 bytes


In [None]:
pib_per_capita_usd.to_csv("pib_per_capita_usd.csv")

#### Merge de los datos de la API con los datos del dataframe

In [None]:
#Agrupación por año
df_agrupado=pd.DataFrame(delitos_poblacion.groupby([ 'año'], as_index=False)['tasa'].max())
print(df_agrupado)

    año        tasa
0  2015  686.857063
1  2016  778.567019
2  2017  666.737375
3  2018  716.069359
4  2019  558.164440
5  2020  552.503780
6  2021  534.089270
7  2022  544.421992


In [None]:
print(pib_per_capita_usd)

   index    pib_pc_usd
0   2021   9525.409684
1   2020   9147.053505
2   2019  10013.703192
3   2018  10120.363543
4   2017   9997.686914
5   2016   9897.150062
6   2015   9753.380048


In [None]:
pib_per_capita_usd.reset_index(inplace=True)

In [None]:
# renombrado de columnas
df_per_capita2=pib_per_capita_usd.columns=['año','pib']
print(df_per_capita2)

['año', 'pib']


In [None]:
# Aplicación del merge para comparar los dos dataframes 
delitos_poblacion=pd.merge(df_agrupado,pib_per_capita_usd, how='outer',on=['año'])
print(delitos_poblacion)

    año        tasa           pib
0  2015  686.857063   9753.380048
1  2016  778.567019   9897.150062
2  2017  666.737375   9997.686914
3  2018  716.069359  10120.363543
4  2019  558.164440  10013.703192
5  2020  552.503780   9147.053505
6  2021  534.089270   9525.409684
7  2022  544.421992           NaN


In [None]:
#Conclusiónes
# En la última tabla se aprecia las tasas o índices delictivos por años comparados por el producto interno bruto del país desde el 2015
# Se observa que la más alta tasa se tiene en el 2016 con un 778.56 y no representa un pib alto, continuando con el análisis se puede apreciar
# que No existe una correlación efectiva entre la disminución de la tasa delictiva con el aumento del PIB, ya que el dato del 2021 es el 
# menor tasa delictiva pero No corresponde a un PIB alto