In [1]:
# Importando librerias
import pandas as pd

import os  
import urllib.request 

import datetime 
import zipfile 

import json

## Trabajando con datos sobre personas desaparecidas

In [2]:
# Definiendo sitio de Internet desde donde obtener los datos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/desaparecidos/"

In [3]:
# Verificando que los datos no se hayan descargado anteriormente
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)  
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)
    
    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)  

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal, por edad, por sexo, 
        por nacionalidad, por año de desaparición y por mes de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021 (la base de datos se actualiza constantemente) 

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

In [4]:
# Leyendo datos
df_desaparecidos_corte_nacional = pd.read_json(subdir + desaparecidos_corte_nacional_archivo)

df_desaparecidos_corte_nacional.head(20)

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad
PorcentajeDesaparecidos,40.61,,,,,
PorcentajeLocalizados,59.39,,,,,
PorcentajeLocalizadosCV,93.39,,,,,
PorcentajeLocalizadosSV,6.61,,,,,
PorcentajeSoloDesaparecidos,90.57,,,,,
PorcentajeSoloNoLocalizados,9.43,,,,,
TotalDesaparecidos,90223.0,,,,,
TotalGlobal,222181.0,,,,,
TotalLocalizados,131958.0,,,,,
TotalLocalizadosCV,123230.0,,,,,


### Estructura de los datos
Los datos sobre personas desaparecidas se encuentran estructurados con una primera parte que hace referencia a datos generales, resumidos con totales y porcentajes. Y en una segunda parte se encuentran estructurados por sexo, por edad, por nacionalidad, por año de desaparición y por mes de desaparición. 

Sin embargo, se encontró que los datos por sexo pudieran resumirse de una mejor forma, pues hay nombres diferentes para un mismo sexo, por ejemplo, Hombre y Hombres o Mujer y Mujeres.

In [5]:
# Visualizando información del dataframe
df_desaparecidos_corte_nacional.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18 entries, PorcentajeDesaparecidos to Mujeres
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   totales              13 non-null     float64
 1   espacial             3 non-null      object 
 2   anual                3 non-null      object 
 3   mensual_ultimo_anio  3 non-null      object 
 4   por_edad             3 non-null      object 
 5   por_nacionalidad     3 non-null      object 
dtypes: float64(1), object(5)
memory usage: 1008.0+ bytes


In [6]:
# Visualizando información de los .json

with open(subdir + desaparecidos_corte_nacional_archivo, 'r') as fp:
    desaparecidos = json.load(fp)

print("\nNúmero de entradas: {}".format(len(desaparecidos)))
print("\nNombre de los atributos de totales: {}".format(", ".join(desaparecidos['totales'].keys())))
print("\nAtributos de 'espacial' para 'Hombre': {}".format(", ".join(desaparecidos['espacial']['Hombre'].keys())))

desaparecidos


Número de entradas: 6

Nombre de los atributos de totales: PorcentajeDesaparecidos, PorcentajeLocalizados, PorcentajeLocalizadosCV, PorcentajeLocalizadosSV, PorcentajeSoloDesaparecidos, PorcentajeSoloNoLocalizados, TotalDesaparecidos, TotalGlobal, TotalLocalizados, TotalLocalizadosCV, TotalLocalizadosSV, TotalSoloDesaparecidos, TotalSoloNoLocalizados

Atributos de 'espacial' para 'Hombre': AGUASCALIENTES, BAJA CALIFORNIA, BAJA CALIFORNIA SUR, CAMPECHE, CHIAPAS, CHIHUAHUA, CIUDAD DE MEXICO, COAHUILA, COLIMA, DURANGO, ESTADO DE MEXICO, GUANAJUATO, GUERRERO, HIDALGO, JALISCO, MICHOACAN , MORELOS, NAYARIT, NUEVO LEON, OAXACA, PUEBLA, QUERETARO , QUINTANA ROO, SAN LUIS POTOSI, SE DESCONOCE, SINALOA, SONORA, TABASCO, TAMAULIPAS, TLAXCALA, VERACRUZ , YUCATAN, ZACATECAS


{'totales': {'PorcentajeDesaparecidos': '40.61',
  'PorcentajeLocalizados': '59.39',
  'PorcentajeLocalizadosCV': '93.39',
  'PorcentajeLocalizadosSV': '6.61',
  'PorcentajeSoloDesaparecidos': '90.57',
  'PorcentajeSoloNoLocalizados': '9.43',
  'TotalDesaparecidos': '90223',
  'TotalGlobal': '222181',
  'TotalLocalizados': '131958',
  'TotalLocalizadosCV': '123230',
  'TotalLocalizadosSV': '8728',
  'TotalSoloDesaparecidos': '81716',
  'TotalSoloNoLocalizados': '8507'},
 'espacial': {'Hombre': {'AGUASCALIENTES': 1848,
   'BAJA CALIFORNIA': 2065,
   'BAJA CALIFORNIA SUR': 583,
   'CAMPECHE': 243,
   'CHIAPAS': 1344,
   'CHIHUAHUA': 8012,
   'CIUDAD DE MEXICO': 5629,
   'COAHUILA': 2964,
   'COLIMA': 2047,
   'DURANGO': 1611,
   'ESTADO DE MEXICO': 18082,
   'GUANAJUATO': 7121,
   'GUERRERO': 3663,
   'HIDALGO': 1266,
   'JALISCO': 15849,
   'MICHOACAN ': 4665,
   'MORELOS': 1557,
   'NAYARIT': 1221,
   'NUEVO LEON': 5616,
   'OAXACA': 1465,
   'PUEBLA': 4338,
   'QUERETARO ': 1135,
   '

## Generando tablas

In [7]:

df_Hombre = pd.json_normalize(desaparecidos['espacial']['Indeterminado']) 
df_Mujer = pd.json_normalize(desaparecidos['espacial']['Mujer']) 
df_Indeterminado = pd.json_normalize(desaparecidos['espacial']['Indeterminado']) 
df_Hombre

Unnamed: 0,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CAMPECHE,CHIAPAS,CHIHUAHUA,CIUDAD DE MEXICO,COAHUILA,COLIMA,DURANGO,...,SAN LUIS POTOSI,SE DESCONOCE,SINALOA,SONORA,TABASCO,TAMAULIPAS,TLAXCALA,VERACRUZ,YUCATAN,ZACATECAS
0,3,5,2,0,0,4,167,2,2,1,...,2,74,4,7,1,19,1,17,1,0


In [8]:
df_Mujer

Unnamed: 0,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CAMPECHE,CHIAPAS,CHIHUAHUA,CIUDAD DE MEXICO,COAHUILA,COLIMA,DURANGO,...,SAN LUIS POTOSI,SE DESCONOCE,SINALOA,SONORA,TABASCO,TAMAULIPAS,TLAXCALA,VERACRUZ,YUCATAN,ZACATECAS
0,2537,1938,215,504,2060,4306,4695,1054,1710,1220,...,636,293,2466,2223,499,5387,114,2076,4209,978


In [9]:
df_Indeterminado

Unnamed: 0,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CAMPECHE,CHIAPAS,CHIHUAHUA,CIUDAD DE MEXICO,COAHUILA,COLIMA,DURANGO,...,SAN LUIS POTOSI,SE DESCONOCE,SINALOA,SONORA,TABASCO,TAMAULIPAS,TLAXCALA,VERACRUZ,YUCATAN,ZACATECAS
0,3,5,2,0,0,4,167,2,2,1,...,2,74,4,7,1,19,1,17,1,0


## Trabajando con datos sobre la mortalidad materna

In [10]:
# Definiendo sitio de Internet desde donde obtener los datos
mortalidad_materna_url = "http://www.dgis.salud.gob.mx/descargas/datosabiertos/mortalidad_materna.zip"
mortalidad_materna_archivo = "mortalidad_materna.zip"
subdir = "./data/mort_materna/"

In [11]:
# Verificando que los datos no se hayan descargado anteriormente
if not os.path.exists(mortalidad_materna_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(mortalidad_materna_url, subdir + mortalidad_materna_archivo)  
    with zipfile.ZipFile(subdir + mortalidad_materna_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)
    
    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre mortalidad materna\n")
        info = """
        Datos sobre casos de defunción relacionados con la mortalidad materna

        Se realizaron diversos ajustes en acuerdo entre Secretaría de Salud e INEGI.

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + mortalidad_materna_url + "\n")
        f.write("Nombre: " + mortalidad_materna_archivo + "\n")


In [12]:
# Importando librería
import csv

# Leyendo datos
df_mortalidad_materna = pd.read_csv(subdir + mortalidad_materna_archivo)

df_mortalidad_materna.head()

Unnamed: 0,Año de nacimiento,Mes de nacimiento,Descripción del mes de nacimiento,Día de nacimiento,Genero,Clave de la edad,Edad cumplida,Estado conyugal,Descripción del estado conyugal,Entidad de residencia,...,Mes de registro,Descripción del mes de registro,Día de registro,Año de la certificación,Mes de la certificación,Descripción del mes de la certificación,Día de la certificación,Año de la base de datos,Razón de mortalidad materna,Descripción de la razón de mortalidad materna
0,1972,7,JULIO,17,2,A,29,5,CASADO,29,...,3,MARZO,6,,0,NO ESPECIFICADO,,2002,1,Muertes Maternas para la razón de Mortalidad M...
1,1967,4,ABRIL,25,2,A,36,4,UNION LIBRE,29,...,5,MAYO,12,,0,NO ESPECIFICADO,,2003,1,Muertes Maternas para la razón de Mortalidad M...
2,1980,0,NO ESPECIFICADO,0,2,A,26,1,SOLTERO,15,...,6,JUNIO,7,2006.0,6,JUNIO,6.0,2006,1,Muertes Maternas para la razón de Mortalidad M...
3,1988,1,ENERO,4,2,A,28,1,SOLTERO,15,...,7,JULIO,13,2016.0,7,JULIO,12.0,2016,1,Muertes Maternas para la razón de Mortalidad M...
4,1969,0,NO ESPECIFICADO,0,2,A,38,5,CASADO,15,...,2,FEBRERO,7,2007.0,2,FEBRERO,7.0,2007,1,Muertes Maternas para la razón de Mortalidad M...


In [13]:
# Visualizando estructura de los datos
df_mortalidad_materna.columns

Index(['Año de nacimiento', 'Mes de nacimiento',
       'Descripción del mes de nacimiento', 'Día de nacimiento', 'Genero',
       'Clave de la edad', 'Edad cumplida', 'Estado conyugal',
       'Descripción del estado conyugal', 'Entidad de residencia',
       'Descripción de entidad de residencia', 'Municipio de residencia',
       'Descripción del municipio de residencia', 'Localidad de residencia',
       'Descripción de la localidad de residencia', 'Tamaño de localidad',
       'Descripción del tamaño de localidad', 'Ocupación habitual',
       'Descripción de la ocupación habitual', 'Escolaridad',
       'Descripción de la escolaridad', 'Derechohabiencia',
       'Descripción de la derechohabiencia', 'Entidad de ocurrencia',
       'Descripción de la entidad de ocurrencia', 'Municipio de ocurrencia',
       'Descripción del municipio de ocurrencia', 'Localidad de ocurrencia',
       'Descrición de la localidad de ocurrencia',
       'Sitio donde ocurrio la defunción',
       'Desc

## Trabajando con datos sobre poetas

In [14]:
import xml.etree.ElementTree as et 

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/poetas/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


poetas = et.parse(subdir + archivo_nombre)

df_poetas = pd.read_xml(subdir + archivo_nombre)

df_poetas


Unnamed: 0,sitename,dbname,base,generator,case,namespaces,title,ns,id,revision
0,Wikipedia,eswiki,https://es.wikipedia.org/wiki/Wikipedia:Portada,MediaWiki 1.32.0-wmf.13,first-letter,,,,,
1,,,,,,,Julia Morilla de Campbell,0.0,4949229.0,
2,,,,,,,Luis Negreti,0.0,5105749.0,
3,,,,,,,Poldy Bird,0.0,4477192.0,
4,,,,,,,Ana María Shua,0.0,423422.0,
...,...,...,...,...,...,...,...,...,...,...
635,,,,,,,Humberto Tejera,0.0,7887761.0,
636,,,,,,,Mario Molina Cruz,0.0,8440353.0,
637,,,,,,,Luis Ignacio Helguera,0.0,6449649.0,
638,,,,,,,Daniel Olivares Viniegra,0.0,8528770.0,


In [15]:
# Visualizando estructura de los datos
df_poetas.columns

Index(['sitename', 'dbname', 'base', 'generator', 'case', 'namespaces',
       'title', 'ns', 'id', 'revision'],
      dtype='object')

In [16]:
for (i, poe) in enumerate(poetas.getroot()):
    if i > 0:
        print("Poeta {}:".format(i))
        for prop in poe:
            print("\t{}: {}".format(prop.tag, prop.text.strip()))
            

Poeta 1:
	{http://www.mediawiki.org/xml/export-0.10/}title: Julia Morilla de Campbell
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 4949229
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 2:
	{http://www.mediawiki.org/xml/export-0.10/}title: Luis Negreti
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 5105749
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 3:
	{http://www.mediawiki.org/xml/export-0.10/}title: Poldy Bird
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 4477192
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 4:
	{http://www.mediawiki.org/xml/export-0.10/}title: Ana María Shua
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 423422
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 5:
	{http://www.mediawiki.org/xml/export-0.10/

	{http://www.mediawiki.org/xml/export-0.10/}id: 5056584
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 476:
	{http://www.mediawiki.org/xml/export-0.10/}title: Agustín Cadena
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 4895024
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 477:
	{http://www.mediawiki.org/xml/export-0.10/}title: Miguel Ángel Muñoz Palos
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 5156060
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 478:
	{http://www.mediawiki.org/xml/export-0.10/}title: Amado Nervo
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/export-0.10/}id: 54365
	{http://www.mediawiki.org/xml/export-0.10/}revision: 
Poeta 479:
	{http://www.mediawiki.org/xml/export-0.10/}title: Juan Díaz Covarrubias
	{http://www.mediawiki.org/xml/export-0.10/}ns: 0
	{http://www.mediawiki.org/xml/expor