<a href="https://colab.research.google.com/github/IsmaelOr/BEDU_Proyecto_Python_Equipo15/blob/main/proyecto_BEDU_equipo15_modulo3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fase II. Módulo 2 - Procesamiento de Datos con Python Santander 2021
 
### Identificación del problema. 
***Delincuencia en México***
 
---
 
### Investigación.
**Definición de delincuencia:** La delincuencia es un problema socio-económico, político y de seguridad que viven muchas personas día a día, y actualmente es el 
problema que más sucede en México.
 
La incidencia delictiva se ha incrementado progresivamente desde el año 2001, principalmente los delitos de robo a mano armada, secuestro, y homicidio doloso.
 
**Índice de Criminalidad en el Mundo 2020**
 
<img src="https://raw.githubusercontent.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15/main/imagenes/mapa_criminalidad.jpg" />
 
México se encuentra en el lugar 34 en la tabla de países con mayor índice de criminalidad.
 
<img src="https://raw.githubusercontent.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15/main/imagenes/lugar_mexico.jpg" />
 
---
 
Este tema es relevante porque toda sociedad aspira a tener un ambiente de vida sin
violencia, que no atente contra la integridad física y patrimonial de sus ciudadanos.
 
Respecto a la búsqueda de soluciones anteriores, en este rubro encontramos que la
realización de encuestas de victimización ha cobrado importancia a nivel mundial y
nacional tanto para los gobiernos y autoridades responsables de brindar seguridad y
justicia como en el ámbito académico, un ejemplo es el análisis de Delincuencia y
actividad económica en México realizado por Jorge Quiroz Félix et al, donde examina
la relación entre actos violentos o delictivos y la actividad económica en México. El
ejercicio se lleva a cabo mediante series de tiempo y lo podemos encontrar en el
siguiente enlace: http://www.scielo.org.mx/scielo.php?pid=S1870-35502015000200187&script=sci_arttext .
 
Estas encuestas funcionan recabando información sobre la incidencia delictiva que
afecta a los ciudadanos, las características del delito, las víctimas, así como la
percepción de la seguridad pública y el desempeño de las instituciones a cargo de la
seguridad.
 
El propósito de analizar esta información como parte de la ciencia de datos es que
tanto la población en general como las autoridades del país conozcan la situación
actual y se cuente con los elementos para generar políticas públicas encaminadas a
solucionar este problema.


### Soluciones pasadas
Para las soluciones pasadas nos basamos en OpenRevista que contiene un análisis de cifras de delincuencia en México<br/>
link: https://openrevista.com/social/la-delincuencia-en-mexico-en-cifras/

# Planteamiento de Preguntas
Como parte de nuestro trabajo nos planteamos las siguientes preguntas:

<ul>
  <li>¿Influye el consumo de sustancias adictivas en la ejecución de un delito? </li>
  <li>¿Cuál es la edad promedio de las personas que cometen un delito?</li>
  <li>¿Qué género es el que comete más delitos? ¿Por qué?</li>
  <li>¿Cuáles son los estados, municipios o regiones con mayor incidencia delictiva en México? ¿Se puede saber por qué?</li>
  <li>¿Cuál es el delito más recurrente en México?</li>
  <li>¿Qué género tiene mayor probabilidad de ser víctima de un delito?</li>
  <li>¿Cuál es el arma u objeto más utilizado a la hora de cometer un delito?</li>
  <li>¿Cuál es la temporada del año en la que se cometen más delitos?</li>
</ul>
Estas preguntas nos sirvieron de guía para buscar información al respecto en diferentes bases de datos.

## Búsqueda de Datos para responder a las preguntas que nos hemos planteado.
<strong>DataSet </strong> : https://www.inegi.org.mx/programas/envipe/2020/#Herramientas <br/>
El DataSet que nos pareció adecuado debido a la gran cantidad de Datos que contenía fue el que se encuentra en la página del INEGI, el DataSet se basa en la Encuesta Nacional de Victimización y Percepción sobre Seguridad Pública (ENVIPE). En la página se encuentran los DataSets de esta encuesta desde el año 2011 a 2020, debido a que necesitamos delimitar períodos para un mejor manejo de Datos, decidimos utilizar solo los DataSets en el período 2018 - 2020 que corresponden al inicio del sexenio de Andrés Manuel López Obrador. Esta encuesta consiste en tomar una muestra de 100 mil hogares de los cuales se seleccionan en el módulo de victimización que tomamos como base de datos aquellos que respondieron afirmativamente haber sido víctimas de algún delito en el año respectivo. <br/>


# Importación de Paquetes en Python
Necesitaremos importar pandas y numpy, para poder utilizar las funciónes que cada uno de estos ofrece respectivamente.

In [None]:
import pandas as pd
import numpy as np

### Importación de los Dataframes
Debido a que en la página donde se consiguieron los datos, se tenía que descargar y el resultado de estos archivos eran .CSV, decidimos subirlos a un Repositorio de GitHub todos estos archivos, para poder importarlos a nuestro trabajo. <br/>
El Link del Repositorio es: https://github.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15 <br/>
 
Utilizaremos Pandas para leer nuestros archivos CSV, con pd.read_csv( ). <br/>
Dado que nuestros archivos .CSV están separados por años, harémos lectura de cada uno de estos, para generar un DataFrame por año y más adelante poder unirlos para solo tener un único DataFrame. <br/>
 
Hicimos una exploración previa a nuestros Datos, y vimos que no hay una columna que nos indique el año en el que corresponde cada fila dentro del Archivo, decidimos insertar una columna que contiene el año en la que se realizo la encuesta, para que al momento de juntar los DataFrames, podamos identificar a que año corresponde cada dato.

In [None]:
df_2020 = pd.read_csv('https://raw.githubusercontent.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15/main/Files/TMod_Vic_2020.csv', sep = ',')
df_2020.insert(0, 'anio', 2020) # Se agrega una nueva columna con el año de la encuesta 

df_2019 = pd.read_csv('https://raw.githubusercontent.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15/main/Files/TMod_Vic_2019.csv')
df_2019.insert(0, 'anio', 2019)

df_2018 = pd.read_csv('https://raw.githubusercontent.com/IsmaelOr/BEDU_Proyecto_Python_Equipo15/main/Files/TMod_Vic_2018.csv')
df_2018.insert(0, 'anio', 2018)

  interactivity=interactivity, compiler=compiler, result=result)


### Inspección 1 de los Dataframes

In [None]:
print(f'df_2018:\n{df_2018.head(3)}')
print(f'df_2019:\n{df_2019.head(3)}')
print(f'df_2020:\n{df_2020.head(3)}')

df_2018:
   anio     ID_VIV           ID_HOG  ... ESTRATO EST_DIS  UPM_DIS
0  2018  100721.03  0100721.03.01\r  ...       3       2       79
1  2018  100721.03  0100721.03.01\r  ...       3       2       79
2  2018  100721.03  0100721.03.01\r  ...       3       2       79

[3 rows x 130 columns]
df_2019:
   anio     ID_VIV           ID_HOG  ... ESTRATO EST_DIS  UPM_DIS
0  2019  101430.05  0101430.05.01\r  ...       4       1      195
1  2019  101430.05  0101430.05.01\r  ...       4       1      195
2  2019  100397.01  0100397.01.01\r  ...       2       1       59

[3 rows x 130 columns]
df_2020:
   anio     ID_VIV           ID_HOG  ... ESTRATO EST_DIS  UPM_DIS
0  2020  101520.03  0101520.03.01\r  ...       2       1      207
1  2020  160019.04  0160019.04.01\r  ...       2      11      288
2  2020  102339.17  0102339.17.01\r  ...       2       9      285

[3 rows x 131 columns]


# Después de la exploración de los Datos
Hemos decidido plantear las siguientes preguntas, para saber si realmente los dataframes elegidos, nos ayudarán a contestar nuestros cuestionamientos anteriores. 
<ul>
<li> ¿El conjunto de datos que tengo realmente me sirve para responder algunas de las preguntas que me planteé?
<ul>
<li>
Tienen un tamaño de 131605 filas y 131 columnas, los cuales consideramos suficientes.
</li>
</ul>
</li>

<li> ¿Qué columnas tengo y qué información tengo en cada una de esas columnas?
<ul>
<li>
Se tienen columnas de la información de la víctima, información de los delincuentes, información sobre el lugar en dónde se cometió el delito y el tipo de delito cometido.
</li>
</ul>
</li>

<li> Los nombres que tienen mis columnas, ¿son el nombre más apropiado?
<ul>
<li>
En un principio, no. Sin embargo, decidimos cambiar sus nombres a unos que consideramos más apropiados.
</li>
</ul>
</li>
<li> ¿Qué tipos de datos tengo en cada columna? ¿Parecen ser el tipo correcto de datos? ¿O es un tipo de datos "incorrecto"?
<ul>
<li>
Los tipos de datos se tienen que cambiar a enteros, ya que algunos aparecen como tipo ‘Object’ u objeto, y no nos servirán para el análisis.
</li>
</ul>
</li>

<li> ¿Qué tipos de datos tengo en cada columna? ¿Parecen ser el tipo correcto de datos? ¿O es un tipo de datos "incorrecto"?
<ul>
<li>
Los tipos de datos se tuvieron que cambiar a enteros, ya que algunos se tenían como tipo ‘Object’ u objeto, y no nos servían para el análisis.
</li>
</ul>
</li>

<li> Si selecciono algunas filas al azar y las observo, ¿estoy obteniendo los datos que debería? ¿o hay datos que parecen estar "sucios" o "incorrectos"?
<ul>
<li>
Antes de la limpieza de datos hay varias columnas que tienen datos vacíos, o datos que no corresponden (NaNs) con las respuestas esperadas.
</li>
</ul>
</li>

</ul>


A continuación realizamos la limpieza del DataFrame


### Eliminación de las columnas que no queremos del df_2020

No son datos relevantes para nuestra investigación.

In [None]:
df_2020 = df_2020.drop(columns = ['ID_VIV', 'BP1_26', 'BP1_32_5', 'BP1_32_9', 'BP3_1_12', 'BP3_1_99', 'BP5_2_2', 'BP6_3', 'BP1_16_9',\
                                  'ID_HOG', 'ID_PER', 'ID_DEL', 'UPM', 'VIV_SEL', 'HOGAR', 'ND_TIPO', 'TD_TIPO', 'R_SEL', 'RESUL_H',\
                                  'BP1_22', 'BP1_31_01', 'BP1_31_02', 'BP1_31_03', 'BP1_31_04', 'BP1_31_05', 'BP1_31_06', 'BP1_31_07',\
                                  'BP1_31_08', 'BP1_31_09', 'BP1_31_99', 'BP1_36_01', 'BP1_36_02', 'BP1_36_03', 'BP1_36_04', 'BP1_36_05',\
                                  'BP1_36_06', 'BP1_36_07', 'BP1_36_08', 'BP1_36_09', 'BP1_36_10', 'BP1_36_11', 'BP1_36_99', 'FAC_DEL',\
                                  'FAC_DEL_AM', 'EST_DIS', 'UPM_DIS', 'BP3_1_01', 'BP1_10_9', 'BP1_12_1', 'BP1_12_2', 'BP1_12_3', 'BP1_12_4',\
                                  'BP1_12_5', 'BP1_12_9', 'BP1_14_9'])

### Eliminación de las columnas de los demás df que no estén en las columnas del df_2020

Mediante el siguiente ciclo for, realizamos una búsqueda sobre las columnas de nuestros dataframes para comprobar si todas son iguales.

In [None]:
dataframes = [df_2018, df_2019, df_2020]

for i, data in enumerate(dataframes):
    for columna in data.columns.to_list():
        if columna not in df_2020.columns.to_list():
            dataframes[i] = dataframes[i].drop(columns = [columna])

### Concatenación de los df y creación del df final

Utilizamos la función 'concat()' de pandas para concatenar nuestros dataframes

In [None]:
df_delitos = pd.concat(dataframes, axis = 0)

### Quitar los '\r'

Aquí utilizamos la función 'replace()', ya que nos encontramos que al final de los datos tenían una "Secuencia de Escape" (\r)

In [None]:
df_delitos = df_delitos.replace({r'\r': ''}, regex = True) # Sirve para quitar los '\r'

### Cambio de los nombres de las columnas
 
Optamos por cambiar de nombre las distintas columnas ya que comprendemos que así tiene mayor legibilidad y reindexamos

In [None]:
nombres_columnas = {
    'anio': 'anio',                                 # Año de consulta
    'SEXO': 'sexo',                                 # Sexo de las personas
    'EDAD': 'edad',                                 # Edad de las personas
    'AREAM_OCU': 'codigo_ciudad',                   # Código de ciudades
    'BP1_2C': 'codigo_estado',                      # Código del estado
    'BP1_3C': 'codigo_municipio',                   # Código del municipio
    'DOMINIO': 'zona_vivienda',                     # Si la zona es Rural (R), Urbana (U) o Complemento Urbano (C)
    'ESTRATO': 'clase_social',                      # Clase social de la víctima
    'BPCOD': 'codigo_delito',                       # Código de delitos
    'BP1_1': 'mes_delito',                          # Mes en el que se cometió el delito
    'BP1_4': 'codigo_hora',                         # Código de la hora en la que se cometió el delito
    'BP1_5': 'codigo_lugar',                        # Código del lugar en específico de donde se cometió el delito
    'BP1_6': 'presencia_victima',                   # Estuvo presente la víctima o no al momento del delito
    'BP1_7': 'observacion_delito',                  # Si la víctima observó el delito
    'BP1_8': 'victima_acompaniada',                 # Si la víctima estaba acompañada al momento del delito
    'BP1_9': 'numero_delin',                        # El número de delincuentes
    'BP1_10_1': 'delin_hombres',                    # Si los delincuentes fueron hombres                ####### Juntarlos: 2
    'BP1_10_2': 'delin_mujeres',                    # Si las delincuentes fueron mujeres                ####### Juntarlos: 1
    'BP1_11': 'codigo_edad_delin',                  # El código de la edad de los delincuentes
    'BP1_13': 'recon_delin',                        # Si la víctima puede reconocer a los delincuentes
    'BP1_14_1': 'delin_drogado',                    # Si el delincuente estaba drogado 
    'BP1_14_2': 'delin_alcoholizado',               # Si el delincuente estaba alcoholizado
    'BP1_14_3': 'delin_otra_influencia',            # Si el delincuente estaba bajo otro tipo de influencia
    'BP1_14_4': 'delin_sobrios',                    # Si el delincuente estaba sobrio, es decir, en sus cinco sentidos
    'BP1_15': 'delin_armado',                       # Si el delincuente estaba armado
    'BP1_16_1': 'arma_fuego',                       # Si el delincuente tenía un arma de fuego
    'BP1_16_2': 'arma_blanca',                      # Si el delincuente tenía un arma blanca
    'BP1_16_3': 'objeto_contundente',               # Si el delincuente tenía un objeto como palos, varillas o tubos
    'BP1_16_4': 'otra_arma',                        # Si el delincuente tenía algún otro tipo de arma
    'BP1_17': 'heridas',                            # Si a la víctima le causaron heridas físicas
    'BP1_18': 'violencia_otro',                     # Si la víctima recibió otro tipo de violencia
    'BP1_19_1': 'moretones',                        # Si la víctima recibió moretones
    'BP1_19_2': 'cortadas',                         # Si la víctima recibió cortadas
    'BP1_19_3': 'dislocaciones',                    # Si la víctima recibió dislocaciones
    'BP1_19_4': 'fracturas',                        # Si la víctima fue fracturada
    'BP1_19_5': 'quemaduras',                       # Si la víctima sufrió algún tipo de quemadura
    'BP1_19_6': 'perdida_conocimiento',             # Si la víctima sufrió pérdida del conocimiento
    'BP1_19_7': 'herida_bala',                      # Si la víctima sufrió una herida de bala
    'BP1_19_8': 'lesion_otro',                      # Si la víctima sufrió otro tipo de lesión
    'BP1_20': 'denuncia_mp',                        # Si la víctima denunció al Ministerio Público
    'BP1_21': 'denuncia_mp_familiar',               # Si algún otro miembro del hogar denunció al Ministerio Público
    'BP1_23': 'razon_no_denuncia',                  # Código para no denunciar
    'BP1_24': 'mp_investigacion',                   # Si el Ministerio Público inició una carpeta de investigación
    'BP1_25': 'status_investigacion',               # Qué sucedió con la carpeta de investigación
    'BP1_27': 'tiempo_denuncia_tramite',            # El tiempo que se tomó la víctima en el trámite de denuncia 
    'BP1_28': 'razon_denuncia',                     # Razón por la que la víctima denunció
    'BP1_29': 'trato_mp',                           # Cómo fue el trato en el Ministerio Público
    'BP1_30': 'denuncia_otra',                      # Si la víctima denunció a otra autoridad
    'BP1_32_1': 'denuncia_911',                     # Si la víctima denunció al 911
    'BP1_32_2': 'denuncia_por_internet',            # Si la víctima realizó su denuncia por internet
    'BP1_32_3': 'denuncia_email',                   # Si la víctima denunció a través de un correo electrónico
    'BP1_32_4': 'denuncia_msm',                     # Si la víctima denunció a través de mensaje de texto
    'BP1_33': 'danio_principal',                    # Código para el daño principal de la víctima
    'BP1_34': 'danio_economico',                    # Estimación del daño económico en pesos mexicanos          ### JUNTAR
    'BP1_35': 'gastos_medicos',                     # Gastos médicos                                            ### JUNTAR
    'BP2_1': 'vehiculo_asegurado',                  # Si el vehículo robado estaba asegurado
    'BP3_1_02': 'robo_casa_mobiliario',             # Si se robaron el mobiliario de la casa
    'BP3_1_03': 'robo_casa_electronica',            # Si se robaron equipo electrónico de la casa
    'BP3_1_04': 'robo_casa_electrodomesticos',      # Si se robaron electrodomésticos de la casa 
    'BP3_1_05': 'robo_casa_bolsa',                  # Si se robaron bolsas, maletas o portafolios de la casa 
    'BP3_1_06': 'robo_casa_joyas',                  # Si se robaron joyas o relojes de la casa 
    'BP3_1_07': 'robo_casa_dinero',                 # Si se robaron dinero, tarjetas o cheques de la casa 
    'BP3_1_08': 'robo_casa_docs',                   # Si se robaron documentos o identificaciones de la casa 
    'BP3_1_09': 'robo_casa_celular',                # Si se robaron celulares de la casa
    'BP3_1_10': 'robo_casa_bicicleta',              # Si se robaron bicicletas de la casa 
    'BP3_1_11': 'robo_casa_otro',                   # Si se robaron algún otro tipo de cosas de la casa 
    'BP3_2': 'presencia_robo',                      # Si alguien del hogar en el robo
    'BP4_1': 'tipo_fraude',                         # Qué fraude hicieron
    'BP5_1': 'medio_extorsion',                     # Medio por el cual extorsionaron a la víctima
    'BP5_2_1': 'extorsion_dinero',                  # Extorsion por dinero
    'BP5_2_3': 'extorsion_otro',                    # Extorsión por otro tipo de cosas, no dinero
    'BP5_2_4': 'extorsion_nada',                    # Extorsión por nada a cambio o no alcanzó a pedirle algo
    'BP5_3': 'extorsion_consumada',                 # Si la víctima entregó lo que le pidieron 
    'BP6_1': 'secuestro_consumado',                 # Si los victimarios lograron el secuetro
    'BP6_2': 'rescate_secuestro_pagado',            # Si las víctimas entregaron lo que se pidió en el secuestro
    'BP7_1': 'tipo_acoso',                          # Qué tipo de acoso recibió la víctima
}

In [None]:
df_delitos = df_delitos.rename(columns = nombres_columnas)

df_delitos = df_delitos.reset_index(drop = True)

### Cambio en el orden la columnas

In [None]:
df_delitos = df_delitos[['anio',
 'sexo',
 'edad',
 'codigo_ciudad',
 'codigo_estado',
 'codigo_municipio',
 'zona_vivienda',
 'clase_social',
 'codigo_delito',
 'mes_delito',
 'codigo_hora',
 'codigo_lugar',
 'presencia_victima',
 'observacion_delito',
 'victima_acompaniada',
 'numero_delin',
 'delin_hombres',
 'delin_mujeres',
 'codigo_edad_delin',
 'recon_delin',
 'delin_drogado',
 'delin_alcoholizado',
 'delin_otra_influencia',
 'delin_sobrios',
 'delin_armado',
 'arma_fuego',
 'arma_blanca',
 'objeto_contundente',
 'otra_arma',
 'heridas',
 'violencia_otro',
 'moretones',
 'cortadas',
 'dislocaciones',
 'fracturas',
 'quemaduras',
 'perdida_conocimiento',
 'herida_bala',
 'lesion_otro',
 'denuncia_mp',
 'denuncia_mp_familiar',
 'razon_no_denuncia',
 'mp_investigacion',
 'status_investigacion',
 'tiempo_denuncia_tramite',
 'razon_denuncia',
 'trato_mp',
 'denuncia_otra',
 'denuncia_911',
 'denuncia_por_internet',
 'denuncia_email',
 'denuncia_msm',
 'danio_principal',
 'danio_economico',
 'gastos_medicos',
 'vehiculo_asegurado',
 'robo_casa_mobiliario',
 'robo_casa_electronica',
 'robo_casa_electrodomesticos',
 'robo_casa_bolsa',
 'robo_casa_joyas',
 'robo_casa_dinero',
 'robo_casa_docs',
 'robo_casa_celular',
 'robo_casa_bicicleta',
 'robo_casa_otro',
 'presencia_robo',
 'tipo_fraude',
 'medio_extorsion',
 'extorsion_dinero',
 'extorsion_otro',
 'extorsion_nada',
 'extorsion_consumada',
 'secuestro_consumado',
 'rescate_secuestro_pagado',
 'tipo_acoso']]

### Limpieza de los datos dentro de cada variable

In [None]:
# codigo_ciudad
df_delitos['codigo_ciudad'] = pd.to_numeric(df_delitos['codigo_ciudad'], errors = 'coerce')
df_delitos['codigo_ciudad'] = df_delitos['codigo_ciudad'].fillna(99) # Reemplazamos los NA por 99 puesto que el 99 
                                                                     # es nuestro código para identificar aquellos datos 
                                                                     # en el que no hubo respuesta
df_delitos['codigo_ciudad'] = df_delitos['codigo_ciudad'].astype(int)

In [None]:
# codigo_municipio
df_delitos['codigo_municipio'] = pd.to_numeric(df_delitos['codigo_municipio'], errors = 'coerce')
df_delitos['codigo_municipio'] = df_delitos['codigo_municipio'].fillna(99) # Reemplazamos los NA por 99 puesto que el 99 
                                                                     # es nuestro código para identificar aquellos datos 
                                                                     # en el que no hubo respuesta
df_delitos['codigo_municipio'] = df_delitos['codigo_municipio'].astype(int)

In [None]:
# codigo_delito
df_delitos['codigo_delito'] = pd.to_numeric(df_delitos['codigo_delito'], errors = 'coerce')
df_delitos['codigo_delito'] = df_delitos['codigo_delito'].fillna(99) # Reemplazamos los NA por 99 puesto que el 99 
                                                                     # es nuestro código para identificar aquellos datos 
                                                                     # en el que no hubo respuesta
df_delitos['codigo_delito'] = df_delitos['codigo_delito'].astype(int)

In [None]:
# delin_hombres
df_delitos['delin_hombres'] = pd.to_numeric(df_delitos['delin_hombres'], errors = 'coerce')
df_delitos['delin_hombres'] = df_delitos['delin_hombres'].fillna(99)
df_delitos['delin_hombres'] = df_delitos['delin_hombres'].astype(int)

df_delitos['delin_hombres'][df_delitos['delin_hombres'] == 0] = 99

# delin_mujeres
df_delitos['delin_mujeres'] = pd.to_numeric(df_delitos['delin_mujeres'], errors = 'coerce')
df_delitos['delin_mujeres'] = df_delitos['delin_mujeres'].fillna(99)
df_delitos['delin_mujeres'] = df_delitos['delin_mujeres'].astype(int)

df_delitos['delin_mujeres'][df_delitos['delin_mujeres'] == 0] = 99

df_delitos.insert(18, 'sexo_delin', 99)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  del sys.path[0]


La siguiente función es utilizada para asignar un código al sexo de los delincuentes, en donde:



*   1: Representa a las mujeres
*   2: Representa a los hombres
*   3: Representa si el delito fue cometido tanto por un hombres como por una mujer



In [None]:
def checar_sexo(df):
    if df['delin_hombres'] == 1 and df['delin_mujeres'] == 99:
        return 2
    elif df['delin_hombres'] == 99 and df['delin_mujeres'] == 1:
        return 1
    elif df['delin_hombres'] == 1 and df['delin_mujeres'] == 1:
        return 3
    else:
        return 99

Utilizamos la función 'apply()' para aplicar la función 'checar_sexo()' dentro de la columna 'sexo_delin'

In [None]:
df_delitos['sexo_delin'] = df_delitos.apply(checar_sexo, axis = 1) 

In [None]:
df_delitos = df_delitos.drop(columns = ['delin_hombres', 'delin_mujeres']) # Eliminamos las columnas de 'delin_hombres' y 'delin_mujeres', ya que estos datos fueron juntados en una nueva columna llamada 'sexo_delin'

In [None]:
df_delitos = df_delitos.replace(r'^\s*$', 'NA', regex=True) # Los espacios en blanco los cambiamos por 'NA'

In [None]:
df_delitos = df_delitos.replace(r'NA', 99, regex=True) # Los 'NA' los cambiamos por 99, ya que 99 es nuestro código para cuando NO se registró una respuesta en la base de datos

In [None]:
df_delitos = df_delitos.replace(r'9', 99, regex=True)

Optamos por cambiar nuestra columna Zona para 

In [None]:
zona = {
    'R': 1, 
    'U': 2, 
    'C': 3
}

In [None]:
df_delitos['zona_vivienda'] = df_delitos['zona_vivienda'].map(zona)

In [None]:
for columna in df_delitos.columns.to_list():
  df_delitos[columna] = pd.to_numeric(df_delitos[columna], errors='coerce')
  df_delitos[columna] = df_delitos[columna].astype(int)

In [None]:
df_delitos

Unnamed: 0,anio,sexo,edad,codigo_ciudad,codigo_estado,codigo_municipio,zona_vivienda,clase_social,codigo_delito,mes_delito,codigo_hora,codigo_lugar,presencia_victima,observacion_delito,victima_acompaniada,numero_delin,sexo_delin,codigo_edad_delin,recon_delin,delin_drogado,delin_alcoholizado,delin_otra_influencia,delin_sobrios,delin_armado,arma_fuego,arma_blanca,objeto_contundente,otra_arma,heridas,violencia_otro,moretones,cortadas,dislocaciones,fracturas,quemaduras,perdida_conocimiento,herida_bala,lesion_otro,denuncia_mp,denuncia_mp_familiar,razon_no_denuncia,mp_investigacion,status_investigacion,tiempo_denuncia_tramite,razon_denuncia,trato_mp,denuncia_otra,denuncia_911,denuncia_por_internet,denuncia_email,denuncia_msm,danio_principal,danio_economico,gastos_medicos,vehiculo_asegurado,robo_casa_mobiliario,robo_casa_electronica,robo_casa_electrodomesticos,robo_casa_bolsa,robo_casa_joyas,robo_casa_dinero,robo_casa_docs,robo_casa_celular,robo_casa_bicicleta,robo_casa_otro,presencia_robo,tipo_fraude,medio_extorsion,extorsion_dinero,extorsion_otro,extorsion_nada,extorsion_consumada,secuestro_consumado,rescate_secuestro_pagado,tipo_acoso
0,2018,1,31,14,1,1,2,3,2,4,4,1,2,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,2,2,4,99,99,99,99,99,2,99,99,99,99,1,500,0,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99
1,2018,1,31,14,1,1,2,3,1,10,3,1,2,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,1,99,99,1,3,4,2,4,2,1,0,0,0,1,3800,0,2,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99
2,2018,1,31,14,1,1,2,3,2,5,2,1,2,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,2,2,4,99,99,99,99,99,2,99,99,99,99,1,4000,0,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99
3,2018,1,31,14,1,1,2,3,11,5,3,1,1,1,2,4,2,3,2,0,0,0,0,1,0,1,0,0,2,1,1,0,0,0,0,0,0,0,2,99,4,99,99,99,99,99,2,99,99,99,99,2,0,0,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99
4,2018,1,31,14,1,1,2,3,7,6,1,1,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,99,2,99,4,99,99,99,99,99,2,99,99,99,99,1,700,0,99,99,99,99,99,99,99,99,99,99,99,99,4,99,99,99,99,99,99,99,99
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
131600,2020,1,43,99,29,13,3,2,5,6,1,1,1,1,2,2,2,4,2,1,0,0,0,1,1,0,0,0,2,1,1,0,0,0,0,0,0,0,1,99,99,1,2,4,1,2,2,1,0,0,0,1,200000,0,99,0,0,0,0,1,0,0,1,0,0,99,99,99,99,99,99,99,99,99,99
131601,2020,2,25,99,30,87,2,3,5,7,1,5,1,1,2,1,2,3,2,0,0,0,0,1,0,1,0,0,2,1,1,0,0,0,0,0,0,0,2,99,6,99,99,99,99,99,2,99,99,99,99,1,8000,0,99,0,0,0,0,0,1,0,1,0,0,99,99,99,99,99,99,99,99,99,99
131602,2020,2,40,99,28,21,2,2,5,6,1,5,1,1,2,2,3,5,1,0,0,0,1,2,99,99,99,99,99,2,99,99,99,99,99,99,99,99,1,99,99,1,3,4,2,1,2,0,0,0,0,1,0,0,99,0,0,0,0,0,1,0,0,0,0,99,99,99,99,99,99,99,99,99,99
131603,2020,1,20,99,29,13,3,2,5,1,1,1,1,1,2,2,2,99,2,0,0,0,1,1,1,0,0,0,2,2,99,99,99,99,99,99,99,99,2,99,5,99,99,99,99,99,2,99,99,99,99,1,800,0,99,0,0,0,0,0,1,0,0,0,0,99,99,99,99,99,99,99,99,99,99


### Filtros con respuestas a las preguntas planteadas en el Postwork 2

In [None]:
def sustancias_adictivas(df):
    personas_s_a = 0
    for i in range(len(df['delin_drogado'])):
        if df['delin_drogado'][i] == 1 or df['delin_alcoholizado'][i] == 1 or df['delin_otra_influencia'][i] == 1:
            personas_s_a += 1
    return personas_s_a 

In [None]:
print(f'El total de delitos cometidos bajo sustancias adictivas es: {sustancias_adictivas(df_delitos)}\
      \nEl porcentaje de delitos cometidos bajo sustancias adictivas es: {round(sustancias_adictivas(df_delitos) * 100 / len(df_delitos), 2)}%')

El total de delitos cometidos bajo sustancias adictivas es: 12474      
El porcentaje de delitos cometidos bajo sustancias adictivas es: 9.48%


In [None]:
edades = df_delitos['codigo_edad_delin'] != 99

edades = df_delitos[edades]

print(edades['codigo_edad_delin'].value_counts().head(1))
print(f'El rango de edad de los delincuentes donde más se cometen delitos es: {4} que corresponde a las edades de entre 26 y 35 años')

4    14445
Name: codigo_edad_delin, dtype: int64
El rango de edad de los delincuentes donde más se cometen delitos es: 4 que corresponde a las edades de entre 26 y 35 años


In [None]:
sexo = df_delitos[df_delitos['sexo_delin'] != 99]
valor_delitos = sexo['sexo_delin'].value_counts().agg('max')

print(f'El sexo masculino es el que comete más delitos con {valor_delitos} casos')

El sexo masculino es el que comete más delitos con 39803 casos


In [None]:
estados_delitos = df_delitos['codigo_estado'].value_counts()

print(f'El top 3 de estados con más delitos es: \n{estados_delitos.head(3)}\n\nQue corresponde a:\n\n9: Ciudad de México\n15: Estado de México\n21: Puebla')

El top 3 de estados con más delitos es: 
9     15179
15     6384
21     6302
Name: codigo_estado, dtype: int64

Que corresponde a:

9: Ciudad de México
15: Estado de México
21: Puebla


In [None]:
top_delitos = df_delitos['codigo_delito'].value_counts()

print(f'El top 3 de los delitos que más se cometen son: \n{top_delitos.head(3)}\n\nQue corresponde a:\n\n2: Robo de partes de autos\n3: Vandalismo\n5: Robos o asaltos callejeros:')

El top 3 de los delitos que más se cometen son: 
2    21864
3    18941
5    18612
Name: codigo_delito, dtype: int64

Que corresponde a:

2: Robo de partes de autos
3: Vandalismo
5: Robos o asaltos callejeros:


In [None]:
sexo_victima = df_delitos['sexo'].value_counts()

print(f'El sexo \n{sexo_victima.head(1)}\n\nque es el femenino es el más propenso a ser víctima de un delito')

El sexo 
2    66841
Name: sexo, dtype: int64

que es el femenino es el más propenso a ser víctima de un delito


In [None]:
arma_f = df_delitos['arma_fuego'].value_counts()[1]
arma_b = df_delitos['arma_blanca'].value_counts()[1]
objeto_c = df_delitos['objeto_contundente'].value_counts()[1]
otra_a = df_delitos['otra_arma'].value_counts()[1]

print(f'Número de veces que se utilizaron armas:\n\n\t* Arma de fuego: {arma_f}\n\t* Arma blanca: {arma_b}\n\t* Objeto contundente: {objeto_c}\n\t* Otro tipo de arma: {otra_a}')

Número de veces que se utilizaron armas:

	* Arma de fuego: 11048
	* Arma blanca: 7261
	* Objeto contundente: 669
	* Otro tipo de arma: 131


### Manejo de la API

La API de Indicadores del INEGI permite consultar los datos y metadatos de los indicadores disponibles a nivel nacional, por entidad federativa y municipio. Con la API se pueden crear aplicaciones que muestren la información directamente de las bases de datos del INEGI en el preciso momento en que se actualiza. 
Simplemente se seleccionan los siguientes parámetros:

IdIndicador. Seleccionar de la lista el indicador a consultar.

Idioma. Español [es] e Inglés [en].

Área geográfica. Nacional [00], entidad federativa [99] o municipio [999].

Puede consultarse solo el dato más reciente [true] o la serie histórica completa [false].

Token. Para utilizar la API es necesario mandarle un token válido, el cual puede obtener al registrarse.

Formato. JSON [json], JSONP [jsonp] o XML [xml].

Importamos la librería requests, hacemos el llamado desde la api y consultamos la información obtenida.

In [None]:
import requests

In [6]:
endpoint = 'https://www.inegi.org.mx/app/api/indicadores/desarrolladores/jsonxml/INDICATOR/6200002197,6200028394,6200028395/es/0700/false/BISE/2.0/2ad53fe6-8efc-483e-abaa-8bc3a4b92b96?type=json'
payload = {'api_key': '2ad53fe6-8efc-483e-abaa-8bc3a4b92b96'}
r = requests.get(endpoint, params=payload)

In [None]:
json = r.json()
json.keys()

Convertimos los datos a formato json y los organizamos en un dataframe

In [None]:
data = json['Series']

In [None]:
normalized = pd.json_normalize(data)
df_api = pd.DataFrame.from_dict(normalized)
df_api

Unnamed: 0,INDICADOR,FREQ,TOPIC,UNIT,NOTE,SOURCE,LASTUPDATE,STATUS,OBSERVATIONS
0,6200002197,3,153,55,19331945,1024102710541171179521962782282229312970,,3,"[{'TIME_PERIOD': '2010', 'OBS_VALUE': '23993.3..."
1,6200028394,3,153,55,1945,1024102710541171179521962782282229312970,,3,"[{'TIME_PERIOD': '2010', 'OBS_VALUE': '21547.8..."
2,6200028395,3,153,55,1945,1024102710541171179521962782282229312970,,3,"[{'TIME_PERIOD': '2010', 'OBS_VALUE': '26682.0..."


In [None]:
print(df_api['OBSERVATIONS'][0])

[{'TIME_PERIOD': '2010', 'OBS_VALUE': '23993.37005982870000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PERIOD': '2011', 'OBS_VALUE': '24316.83405669580000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PERIOD': '2012', 'OBS_VALUE': '27337.44846229310000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PERIOD': '2013', 'OBS_VALUE': '28223.98468609610000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PERIOD': '2014', 'OBS_VALUE': '28200.30530755550000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PERIOD': '2015', 'OBS_VALUE': '28201.78248065800000000000', 'OBS_EXCEPTION': None, 'OBS_STATUS': '3', 'OBS_SOURCE': '', 'OBS_NOTE': '', 'COBER_GEO': '0700'}, {'TIME_PE

Hacemos un llamado de la API de metadata para conocer el significado de los indicadores.

In [None]:
endpoint = 'https://www.inegi.org.mx/app/api/indicadores/desarrolladores/jsonxml/CL_INDICATOR/6200002197,6200028394,6200028395/es/BISE/2.0/2ad53fe6-8efc-483e-abaa-8bc3a4b92b96?type=json'
payload = {'api_key': '2ad53fe6-8efc-483e-abaa-8bc3a4b92b96'}
r = requests.get(endpoint, params=payload)
r.status_code

200

In [None]:
json = r.json()
json.keys()

dict_keys(['id', 'agencyID', 'version', 'lang', 'CODE'])

In [None]:
data = json['CODE']
data

[{'Description': 'Tasa de prevalencia delictiva por cada cien mil habitantes de 18 años y más',
  'value': '6200002197'},
 {'Description': 'Tasa de prevalencia delictiva por cada cien mil habitantes de 18 años y más, mujeres',
  'value': '6200028394'},
 {'Description': 'Tasa de prevalencia delictiva por cada cien mil habitantes de 18 años y más, hombres',
  'value': '6200028395'}]

In [None]:
normalized = pd.json_normalize(data)
df_metada = pd.DataFrame.from_dict(normalized)
df_metada

Unnamed: 0,value,Description
0,6200002197,Tasa de prevalencia delictiva por cada cien mi...
1,6200028394,Tasa de prevalencia delictiva por cada cien mi...
2,6200028395,Tasa de prevalencia delictiva por cada cien mi...


Extraemos la información que se encuentra dentro de la columna OBSERVATIONS, ya que es la que contiene los datos que necesitamos.

In [None]:
df_prueba = df_api['OBSERVATIONS'][0]
df_prueba = pd.json_normalize(df_prueba)

df_prueba = df_prueba.drop(columns=['OBS_EXCEPTION', 'OBS_STATUS', 'OBS_SOURCE', 'OBS_NOTE', 'COBER_GEO'])

df_prueba2 = df_api['OBSERVATIONS'][1]
df_prueba2 = pd.json_normalize(df_prueba2)

df_prueba2 = df_prueba2.drop(columns=['OBS_EXCEPTION', 'OBS_STATUS', 'OBS_SOURCE', 'OBS_NOTE', 'COBER_GEO'])

df_prueba3 = df_api['OBSERVATIONS'][2]
df_prueba3 = pd.json_normalize(df_prueba3)

df_prueba3 = df_prueba3.drop(columns=['OBS_EXCEPTION', 'OBS_STATUS', 'OBS_SOURCE', 'OBS_NOTE', 'COBER_GEO'])

In [None]:
df_api_total = pd.merge(df_prueba, df_prueba2, left_on='TIME_PERIOD', right_on='TIME_PERIOD')
df_api_total = pd.merge(df_total,df_prueba3, left_on='TIME_PERIOD', right_on='TIME_PERIOD')

Renombramos las columnas de nuestro nuevo dataframe.

In [None]:
diccionario_nombres = {
    'TIME_PERIOD': 'anio',
    'OBS_VALUE_x': 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes',
    'OBS_VALUE_y': 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres',
    'OBS_VALUE': 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres'
}

df_api_total = df_api_total.rename(columns= diccionario_nombres)

Convertimos los datos de tipo object a float para su posterior manipulación

In [None]:
df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes'] = df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes'].astype(float)
df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres'] = df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres'].astype(float)
df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres'] = df_api_total['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres'].astype(float)

Aplicamos una función lambda para redondear a 2 decimales.

In [None]:
df_api_total[['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes', 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres', 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres']] = df_api_total[['Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes', 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres', 'Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres']].apply(lambda x: round(x,2))

In [None]:
df_api_total

Unnamed: 0,anio,Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes,Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_mujeres,Tasa_de_prevalencia_delictiva_por_cada_cien_mil_habitantes_hombres
0,2010,23993.37,21547.84,26682.1
1,2011,24316.83,22982.26,25867.86
2,2012,27337.45,25370.7,29560.35
3,2013,28223.98,26432.08,30284.8
4,2014,28200.31,27129.64,29430.38
5,2015,28201.78,26467.1,30180.66
6,2016,28788.28,27609.15,30124.2
7,2017,29746.16,28279.53,31419.4
8,2018,28268.57,27044.61,29650.28
9,2019,24849.04,23471.19,26440.38


# Pensando a Futuro
Como punto final, realizamos algunos planes a futuro para seguir analizando el problema planteado al principio, ya que nos surgieron nuevas preguntas como:

<ul>
<li>
¿Qué tendencia hay a lo largo del tiempo, qué delitos han aumentado o disminuido?
</li>
<li>
¿Se puede crear un patrón de víctima y uno del delincuente más frecuentes?
</li>
<li>
¿Qué tanto influye el incremento de delitos con la migración entre estados o del país?
</li>
<li>
¿Cuál es la tasa de denuncia de delitos?
</li>
<li>
¿Cuáles son las razones para denunciar o no?
</li>
<li>
¿Cuál es la clase social más afectada?
</li>
<li>
¿Cuál es el daño económico a las víctimas?
</li>

Con la base de datos creada se pueden responder estas preguntas y a futuro generar gráficas para visualizar y dimensionar el problema por zonas, por delitos, etc. y así generar diferentes medidas para disminuir la delincuencia.

#Conclusión
Durante este proyecto nos enfrentamos a divesos retos comenzando con la elección de un dataset apropiado, lograr un correcto consumo de una api, la investigación y selección de las columnas a utilizar así como la longitud del dataset que requirió de una minuciosa inspección de la información 

Sin embargo los pudimos resolver con éxito y logramos obtener un dataset listo para el siguiente módulo!

</ul>