<center>

<p> Ingeniería de Características </p>
<p> Usando la API para obtener datos sobre personas desaparecidas del RNPDNO</p>
<p> Luis Fernando Martinez Mendoza </p>
<p> 224230121 </p>

</center>

In [53]:
import os
import sys
import requests
import datetime

import pandas as pd
import json


## Calentando motores

Para descargar los datos, vamos a consultar directamente la base de datos pública del [Registro Nacional de Personas Desaparecidas y No Localizadas (RNPDNO)](https://versionpublicarnpdno.segob.gob.mx/Dashboard/Index).

El RNPDNO no tiene una API tal cual, sin embargo, [Pablo Reyes Moctezuma](https://github.com/pablorm296) encontró una manera de extraer la información usando la librería `request` de python. La API que, me imagino, el extrajo a punta de prueba y error la documento en [este archivo en markdown](https://github.com/pablorm296/ScrapperRNPDNO/blob/master/Test/API.md). Un chambón.

Vamos air la usando poco a poco, empecemos por tratar de encontrar en el catálogo los indices de estados, municipios y colonias.

In [54]:
API_HOST = "https://versionpublicarnpdno.segob.gob.mx/"
API_SOCIODEOGRAFICOS_ROOT = "Sociodemografico/"
API_CATALAGO_ROOT = "Catalogo/"

ENDPOINT_CATALOGO_EDO = "Estados/"
ENDPOINT_CATALOGO_MUN = "Municipios/"
ENDPOINT_CATALOGO_COL = "Colonias/"

# Before doing anything, we must make a dummy request to the index in order to get the propper cookies
main_session = requests.Session()
main_session.get("https://versionpublicarnpdno.segob.gob.mx/Dashboard/Index")
main_session.get("https://versionpublicarnpdno.segob.gob.mx/Dashboard/ContextoGeneral")

<Response [200]>

Los identificadores de los estados:

In [55]:
TARGET_URL = API_HOST + API_CATALAGO_ROOT + ENDPOINT_CATALOGO_EDO

r = main_session.post(TARGET_URL)
estados_id = pd.json_normalize(r.json(),)
estados_id.columns = ['Valor', 'Estado']
estados_id

Unnamed: 0,Valor,Estado
0,0,--TODOS--
1,1,AGUASCALIENTES
2,2,BAJA CALIFORNIA
3,3,BAJA CALIFORNIA SUR
4,4,CAMPECHE
5,7,CHIAPAS
6,8,CHIHUAHUA
7,9,CIUDAD DE MEXICO
8,5,COAHUILA
9,6,COLIMA


y ahora los municipios de Sonora

In [56]:
TARGET_URL = API_HOST + API_CATALAGO_ROOT + ENDPOINT_CATALOGO_MUN
DATA = {"idEstado": "26"}

r = main_session.post(TARGET_URL, data = DATA)
mun_son_id = pd.json_normalize(r.json())
mun_son_id.columns = ['Valor', 'Municipio']
mun_son_id

Unnamed: 0,Valor,Municipio
0,0,--TODOS--
1,1,ACONCHI
2,2,AGUA PRIETA
3,3,ALAMOS
4,4,ALTAR
...,...,...
69,65,TUBUTAMA
70,66,URES
71,67,VILLA HIDALGO
72,68,VILLA PESQUEIRA


y por último los identificadores de las colonias del municipio de Hermosillo

In [57]:
TARGET_URL = API_HOST + API_CATALAGO_ROOT + ENDPOINT_CATALOGO_COL
DATA = {"idEstado": "26", "idMunicipio": "30"}

r = main_session.post(TARGET_URL, data = DATA)
col_hmo_id = pd.json_normalize(r.json())
col_hmo_id.columns = ['Valor', 'Municipio']
col_hmo_id

Unnamed: 0,Valor,Municipio
0,0,--TODAS--
1,347025,22 DE SEPTIEMBRE
2,347004,26 DE OCTUBRE
3,347026,4 DE MARZO
4,347027,4 OLIVOS
...,...,...
631,347358,VISTA DEL LAGO
632,347359,Y
633,347582,ZACATON
634,347384,ZAMORA


## Sociodemográficos totales

`Con este `endpoint` se pueden consultar resúmenes generales de la información que se pide. recuerda de revisar los catálogos.

Hay dos variables cuyos valores posibles son los siguientes:

**idEstatusVictima**:
- "0" PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS
- "2" PERSONAS LOCALIZADAS CON VIDA
- "3" PERSONAS LOCALIZADAS SIN VIDA- "4" PERSONAS DESAPARECIDAS
- "5" PERSONAS NO LOCALIZADAS
- "6" PERSONAS LOCALIZADAS
- "7" PERSONAS DESAPARECIDAS Y NO LOCALIZADAS

**idHipotesisNoLocalizacion**:
- "0" --TODAS--
- "1" ACCIDENTE
- "2" CATÁSTROFE
- "3" NO LOCALIZACIÓN VOLUNTARIA
- "4" NO LOCALIZACIÓN INVOLUNTARIA
- "5" SE DESCONOCE

Veamos como funciona pidiendo información de Sonora y de Hermosillo. Empecemos por Sonora

In [58]:
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "Totales"

DATA = {
  "titulo":"",
  "subtitulo": "",
  "idEstatusVictima":"0",
  "idHipotesisNoLocalizacion":"0",
  "idEstado":"26",
  "idMunicipio":"0",
  "idColonia":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idNacionalidad":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
  "idDelito":"0"
}
r = main_session.post(TARGET_URL, json = DATA)

resumen_sonora = pd.json_normalize(r.json()).T
resumen_sonora.columns = ['Valor']

resumen_sonora


Unnamed: 0,Valor
TotalGlobal,7969
TotalDesaparecidos,4778
TotalLocalizados,3191
PorcentajeDesaparecidos,59.96 %
PorcentajeLocalizados,40.04 %
TotalSoloDesaparecidos,4738
TotalSoloNoLocalizados,40
PorcentajeSoloDesaparecidos,99.16 %
PorcentajeSoloNoLocalizados,0.84 %
TotalLocalizadosCV,2930


### Ejercicio

Probar con diferentes consultas y tratar de inferir los valores que pueden tomar (o buscarlas en la documentación de la API) las diferentes variables que pueden servir para encontrar búsquedas más específicas.

Por ejemplo, ¿Como podríamos consultar las estadísticas sobre mujeres desaparecidas en el municipio de Cajeme?

Para consultar estadisticas sobre mujeres desaparecidas en Cajeme podemos consultar las desapariciones por colonia y realizar la suma del total en la columna de mujeres, usando el endpoint de BarChartSexoColonia.

Al parecer no existe la configuracion o filtro de sexo en la consulta basica como para realizar el agrupamiento desde ahi.

In [59]:
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "BarChartSexoColonia"

DATA = {
  "titulo":"",
  "subtitulo": "",
  "idEstatusVictima":"0",
  "idHipotesisNoLocalizacion":"0",
  "idEstado":"26",
  "idMunicipio":"18",
  "idColonia":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idNacionalidad":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
  "idDelito":"0"
}

r = main_session.post(TARGET_URL, json = DATA).json()

datos = {serie['name']: serie['data'] for serie in r['Series']}
cajeme_mujeres = pd.DataFrame(datos).sum()
cajeme_mujeres

Unnamed: 0,0
Hombre,562
Mujer,255
Indeterminado,0


## Personas desaparecidas por sexo y colonia

El `endpoint` **BarChartSexoColonia** está diseñado para generar gráficas, pero nos permite extraer información, si la sabemos formatear.

Vamos viendo un ejemplo:


In [60]:
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "BarChartSexoColonia"

DATA = {
  "titulo":"PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS",
  "subtitulo":"POR COLONIAS - HERMOSILLO",
  "idEstado":"26",
  "idMunicipio":"30",
  "idColonia":"0",
  "idEstatusVictima":"0",
  "idHipotesisNoLocalizacion":"0",
  "idDelito":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "idNacionalidad":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
}
r = main_session.post(TARGET_URL, json = DATA)

res = r.json()

print(res)

datos = {serie['name']: serie['data'] for serie in res['Series']}
datos['Colonia'] = res['XAxisCategories']
por_colonia = pd.DataFrame(datos)
por_colonia.index = por_colonia.Colonia

por_colonia


{'Title': 'PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS', 'Subtitle': 'POR COLONIAS - HERMOSILLO', 'XAxisCategories': ['SOLIDARIDAD', 'NACAMERI', 'LOS NARANJOS', 'LOMAS PITIC', 'PASEO DE LAS PALMAS', 'JEREZ DEL VALLE', 'LAURA ALICIA FRÍAS DE LOPEZ NOGALES', 'LOMA LINDA', 'VALLE DEL MARQUEZ', 'NUEVO HERMOSILLO', 'NUEVA PALMIRA', 'VILLA SONORA', 'BACHOCO', 'HACIENDA DE LA FLOR', 'QUINTAS DEL SOL', 'SAN JOSE DE LAS MINITAS', 'PASEO CASA BLANCA', 'LA VICTORIA', '26 DE OCTUBRE', 'PUESTA DEL SOL', 'EL APACHE', '4 OLIVOS', 'JORGE VALDEZ MUÑOZ', 'NUEVA CASTILLA', 'LOMAS DE MADRID', 'VALLE GRANDE', 'ALTARES II', 'UNIVERSIDAD', 'FONHAPO', 'SAN BENITO'], 'XAxisTitle': None, 'YAxisTitle': 'Número de personas', 'YAxisTooltipValueSuffix': ' personas', 'TooltipText': None, 'PointStar': None, 'Series': [{'name': 'Hombre', 'data': [5, 0, 1, 1, 1, 0, 3, 1, 0, 3, 1, 2, 1, 1, 1, 1, 1, 4, 0, 1, 1, 1, 2, 1, 3, 0, 1, 1, 0, 4]}, {'name': 'Mujer', 'data': [2, 1, 0, 0, 1, 1, 1, 0, 1, 6, 0, 1, 0, 3, 0, 0

Unnamed: 0_level_0,Hombre,Mujer,Indeterminado,Colonia
Colonia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
SOLIDARIDAD,5,2,0,SOLIDARIDAD
NACAMERI,0,1,0,NACAMERI
LOS NARANJOS,1,0,0,LOS NARANJOS
LOMAS PITIC,1,0,0,LOMAS PITIC
PASEO DE LAS PALMAS,1,1,0,PASEO DE LAS PALMAS
JEREZ DEL VALLE,0,1,0,JEREZ DEL VALLE
LAURA ALICIA FRÍAS DE LOPEZ NOGALES,3,1,0,LAURA ALICIA FRÍAS DE LOPEZ NOGALES
LOMA LINDA,1,0,0,LOMA LINDA
VALLE DEL MARQUEZ,0,1,0,VALLE DEL MARQUEZ
NUEVO HERMOSILLO,3,6,0,NUEVO HERMOSILLO


### Ejercicio

¿Como podemos sacar lo que pasa en todo el estado, por municipios y por colonias? Intentalo.

In [61]:
from re import TEMPLATE
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "BarChartSexoColonia"

DATA = {
  "titulo":"PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS",
  "subtitulo":"",
  "idEstado":"26",
  "idMunicipio": "0",
  "idColonia":"0",
  "idEstatusVictima":"0",
  "idHipotesisNoLocalizacion":"0",
  "idDelito":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "idNacionalidad":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
}

result_df = pd.DataFrame()

for municipio_id_int in range(1,70):
  DATA["idMunicipio"] = municipio_id_int
  r = main_session.post(TARGET_URL, json = DATA)
  res = r.json()
  datos = {serie['name']: serie['data'] for serie in res['Series']}
  datos['colonia'] = res['XAxisCategories']
  datos['id_municipio'] = municipio_id_int
  tmp = pd.DataFrame(datos)
  result_df = pd.concat([result_df, tmp], axis=0)

result_df = result_df.reset_index()
result_df

Unnamed: 0,index,Hombre,Mujer,Indeterminado,colonia,id_municipio
0,0,2.0,0.0,0.0,ACONCHI,1
1,1,2.0,3.0,0.0,SIN COLONIA DE REFERENCIA,1
2,0,7.0,7.0,0.0,LADRILLERA,2
3,1,0.0,1.0,0.0,UNIDAD DEPORTIVA,2
4,2,1.0,1.0,0.0,ACAPULCO,2
...,...,...,...,...,...,...
407,3,1.0,1.0,0.0,SAN PEDRO,66
408,4,1.0,0.0,0.0,SANTA ROSALÍA,66
409,0,1.0,0.0,0.0,SIN COLONIA DE REFERENCIA,67
410,0,0.0,1.0,0.0,SIN COLONIA DE REFERENCIA,68


## Información por sexo y por año

Tambien se puede encontrar información por sexo y por año utilizando otro `endpoint`: **AreaChartSexoAnio**

Sin mas choro, vamos a ver como se usa, otra vez con el estado de Sonora:

In [62]:
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "AreaChartSexoAnio"

DATA = {
  "titulo":"PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS",
  "subtitulo":"POR AÑO EN EL ESTADO DE SONORA",
  "idEstado":"26",
  "idMunicipio":"0",
  "idColonia":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idHipotesisNoLocalizacion":"0",
  "idDelito":"0",
  "idEstatusVictima":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "idNacionalidad":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
}

r = main_session.post(TARGET_URL, json = DATA)

res = r.json()

datos = {serie['name']: serie['data'] for serie in res['Series']}
datos['Fecha'] = res['XAxisCategories']

por_fecha = pd.DataFrame(datos)
por_fecha['Fecha'] = pd.to_numeric(por_fecha.Fecha, errors='coerce')
por_fecha.index = por_fecha.Fecha

por_fecha


Unnamed: 0_level_0,Hombre,Mujer,Indeterminado,Fecha
Fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
,127,45,5,
1974.0,3,0,0,1974.0
1977.0,1,0,0,1977.0
1978.0,2,0,0,1978.0
1980.0,1,0,0,1980.0
1981.0,7,1,0,1981.0
1982.0,1,0,0,1982.0
1989.0,1,0,0,1989.0
1994.0,2,0,0,1994.0
1995.0,1,0,0,1995.0


### Ejercicio

¿Se puede hacer por municipio? ¿En forma programática? ¿Para algun caso especial? Intentalo

In [63]:
TARGET_URL = API_HOST + API_SOCIODEOGRAFICOS_ROOT + "AreaChartSexoAnio"

DATA = {
  "titulo":"PERSONAS DESAPARECIDAS, NO LOCALIZADAS Y LOCALIZADAS",
  "subtitulo":"POR AÑO EN EL ESTADO DE SONORA",
  "idEstado":"26",
  "idMunicipio":"0",
  "idColonia":"0",
  "edadInicio":"",
  "edadFin":"",
  "mostrarEdadNula":"0",
  "idHipotesisNoLocalizacion":"0",
  "idDelito":"0",
  "idEstatusVictima":"0",
  "fechaInicio":"",
  "fechaFin":"",
  "mostrarFechaNula":"0",
  "idNacionalidad":"0",
  "idHipotesis":"",
  "idMedioConocimiento":"",
  "idCircunstancia":"",
  "idEtnia":"0",
  "idLengua":"0",
  "idReligion":"",
  "tieneDiscapacidad":"",
  "idTipoDiscapacidad":"0",
  "esMigrante":"",
  "idEstatusMigratorio":"0",
  "esLgbttti":"",
  "esServidorPublico":"",
  "esDefensorDH":"",
  "esPeriodista":"",
  "esSindicalista":"",
  "esONG":"",
}

por_fecha = pd.DataFrame()

for municipio_id_int in range(1,70):
  DATA["idMunicipio"] = municipio_id_int
  r = main_session.post(TARGET_URL, json = DATA)
  res = r.json()
  datos = {serie['name']: serie['data'] for serie in res['Series']}
  datos['fecha'] = res['XAxisCategories']
  datos['id_municipio'] = municipio_id_int
  tmp = pd.DataFrame(datos)
  tmp['Fecha'] = pd.to_numeric(tmp.fecha, errors='coerce')
  por_fecha = pd.concat([por_fecha, tmp], axis=0)

por_fecha = por_fecha.reset_index()
por_fecha

Unnamed: 0,index,Hombre,Mujer,Indeterminado,fecha,id_municipio,Fecha
0,0,1.0,0.0,0.0,1.CIFRA SIN AÑO DE REFERENCIA,1,
1,1,0.0,1.0,0.0,2013,1,2013.0
2,2,1.0,0.0,0.0,2016,1,2016.0
3,3,2.0,0.0,0.0,2017,1,2017.0
4,4,0.0,1.0,0.0,2019,1,2019.0
...,...,...,...,...,...,...,...
491,0,1.0,0.0,0.0,2011,67,2011.0
492,0,0.0,1.0,0.0,2017,68,2017.0
493,0,1.0,1.0,0.0,2015,69,2015.0
494,1,0.0,1.0,0.0,2017,69,2017.0


### Ejercicio

Extrae alguna información del conjunto de tados que pienses que es relevante, y explica porqué.

## Practicando a ser investigador de APIs

Ahora te pido que revises si puedes encontrar otros endpoints para recuperar mas información de las bases que no se encuentran liberadas. Puede ser en la misma página, o en blogs o revisando código. Agrega en esta libreta la documentación (o enlaces a dicha documentación) y un ejemplo de uso de una API pobremente documentada.

Se encontro la siguiente documentacion de la Iniciativa Morlan, que retoma esta tarea de extraer informacion de la base de datos de la RNPDNO: https://github.com/irvingfisica/reqrnpdno

Existe documentacion pero el proceso es un poco de bajo nivel, puesto que todo lo realizan con el lenguaje de programacion Rust y se dificulta un poco entender que identificadores podemos utilizar para filtrar nuestras consultas a la API. Existen ejemplos, y sin duda con tiempo se pueden entender, pero no se cuenta con documentacion y funciones de alto nivel que permitan realizar todo de manera intuitiva, y claro esto se deriva de que la las solicitudes al endpoint de la RNPDNO son como el uso de una puerta trasera, mas no se realizo con esa finalidad.