<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [2]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [3]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


/home/redmercenary/Desktop/Maestría/IngCaract


In [4]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal,
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente)

        """
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos.

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente.

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [5]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [6]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,2,0,6,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,253,15,90,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,5,0,18,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,16,0,67,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,9,1,26,main


In [7]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  13 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [8]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características.

Primero exploraremos el archivo json "desaparecidos_nacional.json" para ver que información contiene.

In [15]:
des_nac_json_dir="./data/desaparecidos_nacional.json"
desaparecidos_nacional=pd.read_json(des_nac_json_dir)
desaparecidos_nacional

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad
PorcentajeDesaparecidos,40.61,,,,,
PorcentajeLocalizados,59.39,,,,,
PorcentajeLocalizadosCV,93.39,,,,,
PorcentajeLocalizadosSV,6.61,,,,,
PorcentajeSoloDesaparecidos,90.57,,,,,
PorcentajeSoloNoLocalizados,9.43,,,,,
TotalDesaparecidos,90223.0,,,,,
TotalGlobal,222181.0,,,,,
TotalLocalizados,131958.0,,,,,
TotalLocalizadosCV,123230.0,,,,,


In [10]:
desaparecidos_nacional.info()

<class 'pandas.core.frame.DataFrame'>
Index: 18 entries, PorcentajeDesaparecidos to Mujeres
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   totales              13 non-null     float64
 1   espacial             3 non-null      object 
 2   anual                3 non-null      object 
 3   mensual_ultimo_anio  3 non-null      object 
 4   por_edad             3 non-null      object 
 5   por_nacionalidad     3 non-null      object 
dtypes: float64(1), object(5)
memory usage: 1008.0+ bytes


In [12]:
desaparecidos_nacional['espacial']['Hombre']

{'AGUASCALIENTES': 1848,
 'BAJA CALIFORNIA': 2065,
 'BAJA CALIFORNIA SUR': 583,
 'CAMPECHE': 243,
 'CHIAPAS': 1344,
 'CHIHUAHUA': 8012,
 'CIUDAD DE MEXICO': 5629,
 'COAHUILA': 2964,
 'COLIMA': 2047,
 'DURANGO': 1611,
 'ESTADO DE MEXICO': 18082,
 'GUANAJUATO': 7121,
 'GUERRERO': 3663,
 'HIDALGO': 1266,
 'JALISCO': 15849,
 'MICHOACAN ': 4665,
 'MORELOS': 1557,
 'NAYARIT': 1221,
 'NUEVO LEON': 5616,
 'OAXACA': 1465,
 'PUEBLA': 4338,
 'QUERETARO ': 1135,
 'QUINTANA ROO': 880,
 'SAN LUIS POTOSI': 654,
 'SE DESCONOCE': 625,
 'SINALOA': 8189,
 'SONORA': 4345,
 'TABASCO': 319,
 'TAMAULIPAS': 11624,
 'TLAXCALA': 116,
 'VERACRUZ ': 4719,
 'YUCATAN': 2622,
 'ZACATECAS': 2266}

In [45]:
import glob
jsons_municipios=glob.glob(os.path.join('./data/datos_procesados/municipios', '*.json'))
jsons_porcategoria=glob.glob(os.path.join('./data/datos_procesados/por_categoria', '*.json'))
jsons_medios=glob.glob(os.path.join('./data/datos_procesados/medios', '*.json'))

df_municipios=pd.DataFrame()
df_porcategoria=pd.DataFrame()
df_medios=pd.DataFrame()


    


In [46]:
for json in jsons_municipios:
    df=pd.read_json(json)
    df_municipios=pd.concat([df_municipios,df],ignore_index=True)

for json in jsons_porcategoria:
    df=pd.read_json(json)
    df_porcategoria=pd.concat([df_porcategoria,df],ignore_index=True)

for json in jsons_medios:
    df=pd.read_json(json)
    df_medios=pd.concat([df_medios,df],ignore_index=True)

In [47]:
df_municipios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 44026 entries, 0 to 44025
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   totales              32721 non-null  float64
 1   espacial             5631 non-null   object 
 2   anual                7551 non-null   object 
 3   mensual_ultimo_anio  7551 non-null   object 
 4   por_edad             5628 non-null   object 
 5   por_nacionalidad     5631 non-null   object 
dtypes: float64(1), object(5)
memory usage: 2.0+ MB


In [48]:
df_porcategoria.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126 entries, 0 to 125
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   totales              91 non-null     float64
 1   espacial             21 non-null     object 
 2   anual                21 non-null     object 
 3   mensual_ultimo_anio  21 non-null     object 
 4   por_edad             21 non-null     object 
 5   por_nacionalidad     21 non-null     object 
dtypes: float64(1), object(5)
memory usage: 6.0+ KB


In [49]:
df_medios.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 6 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   totales              52 non-null     float64
 1   espacial             12 non-null     object 
 2   anual                12 non-null     object 
 3   mensual_ultimo_anio  12 non-null     object 
 4   por_edad             12 non-null     object 
 5   por_nacionalidad     12 non-null     object 
dtypes: float64(1), object(5)
memory usage: 3.5+ KB


In [53]:
df_medios.head(20)

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad
0,77.11,,,,,
1,22.89,,,,,
2,87.88,,,,,
3,12.12,,,,,
4,97.67,,,,,
5,2.33,,,,,
6,2445.0,,,,,
7,3171.0,,,,,
8,726.0,,,,,
9,638.0,,,,,


In [108]:
df=pd.read_json(jsons_medios[0])

In [55]:
df

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad
PorcentajeDesaparecidos,77.11,,,,,
PorcentajeLocalizados,22.89,,,,,
PorcentajeLocalizadosCV,87.88,,,,,
PorcentajeLocalizadosSV,12.12,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,
TotalDesaparecidos,2445.0,,,,,
TotalGlobal,3171.0,,,,,
TotalLocalizados,726.0,,,,,
TotalLocalizadosCV,638.0,,,,,


In [73]:
for key in df['espacial']['Hombre']:
     df[key]==None
     df[key]['Hombre']=df['espacial']['Hombre'][key]

You are setting values through chained assignment. Currently this works in certain cases, but when using Copy-on-Write (which will become the default behaviour in pandas 3.0) this will never work to update the original DataFrame or Series, because the intermediate object on which we are setting values will behave as a copy.
A typical example is when you are setting values in a column of a DataFrame, like:

df["col"][row_indexer] = value

Use `df.loc[row_indexer, "col"] = values` instead, to perform the assignment in a single step and ensure this keeps updating the original `df`.

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

  df[key]['Hombre']=df['espacial']['Hombre'][key]
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[key]['Hombre

In [77]:
df

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CHIAPAS,...,SAN LUIS POTOSI,SE DESCONOCE,SINALOA,SONORA,TABASCO,TAMAULIPAS,TLAXCALA,VERACRUZ,YUCATAN,ZACATECAS
PorcentajeDesaparecidos,77.11,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizados,22.89,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosCV,87.88,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosSV,12.12,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,,,,,,...,,,,,,,,,,
TotalDesaparecidos,2445.0,,,,,,,,,,...,,,,,,,,,,
TotalGlobal,3171.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizados,726.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizadosCV,638.0,,,,,,,,,,...,,,,,,,,,,


In [None]:
for key in df['espacial']['Hombre']:
    if key in df.columns:
     df[key]['Hombre']=df['espacial']['Hombre'][key]

In [109]:
import numpy as np
for index in ['Hombre','Indeterminado','Mujer','Hombres','Mujeres']:
    for column in df.columns:
        if pd.isnull(df.at[index,column]):
            continue
        else:
            if isinstance(df.at[index,column],dict):
                for key,value in df.at[index,column].items():
                    if key in df.columns:
                        df.at[index,key]=value
                    else:
                        nan={'object':pd.NA,"<class 'str'>":pd.NA,
                             'int64':np.nan,"<class 'int'>":np.nan,
                             'float64':np.nan,
                             'datetime64[ns]':pd.NaT,
                             'bool':pd.NA
                            }
                        
                        df[key]=nan[str(type(value))]
                        df.at[index,key]=value

  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key

In [105]:
nan[str(type(2))]

nan

In [110]:
df

Unnamed: 0,totales,espacial,anual,mensual_ultimo_anio,por_edad,por_nacionalidad,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CHIAPAS,...,INDONESA,MARROQUI,MEXICANA,MOLDAVINA,NICARAGUENSE,PERUANA,RUMANA,RUSA,SALVADORENA,TURCA
PorcentajeDesaparecidos,77.11,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizados,22.89,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosCV,87.88,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosSV,12.12,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,,,,,,...,,,,,,,,,,
TotalDesaparecidos,2445.0,,,,,,,,,,...,,,,,,,,,,
TotalGlobal,3171.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizados,726.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizadosCV,638.0,,,,,,,,,,...,,,,,,,,,,


In [None]:
import glob
jsons_municipios=glob.glob(os.path.join('./data/datos_procesados/municipios', '*.json'))
jsons_porcategoria=glob.glob(os.path.join('./data/datos_procesados/por_categoria', '*.json'))
jsons_medios=glob.glob(os.path.join('./data/datos_procesados/medios', '*.json'))

In [114]:
def create_df(json):
    df=pd.read_json(json)
    for index in df.index:
        for column in df.columns:
            if pd.isnull(df.at[index,column]):
                continue
            else:   
                if isinstance(df.at[index,column],dict):
                    for key,value in df.at[index,column].items():
                        if key in df.columns:
                            df.at[index,key]=value
                        else:
                            nan={'object':pd.NA,"<class 'str'>":pd.NA,
                                'int64':np.nan,"<class 'int'>":np.nan,
                                'float64':np.nan,
                                'datetime64[ns]':pd.NaT,
                                'bool':pd.NA
                                }
                        
                            df[key]=nan[str(type(value))]
                            df.at[index,key]=value
    return df

In [120]:
df_municipios_1=create_df(jsons_municipios[0])
df_porcategoria_1=create_df(jsons_porcategoria[0])
df_medios_1=create_df(jsons_medios[0])

  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key]=nan[str(type(value))]
  df[key

In [130]:
def por_columna(json,columna):
    df=pd.read_json(json)
    for index in df.index:
        
        if pd.isnull(df.at[index,columna]):
            continue
        else:   
            if isinstance(df.at[index,columna],dict):
                for key,value in df.at[index,columna].items():
                    if key in df.columns:
                        df.at[index,key]=value
                    else:
                        nan={'object':pd.NA,"<class 'str'>":pd.NA,
                                'int64':np.nan,"<class 'int'>":np.nan,
                                'float64':np.nan,
                                'datetime64[ns]':pd.NaT,
                                'bool':pd.NA
                                }
                        
                        df[key]=nan[str(type(value))]
                        df.at[index,key]=value
    df=df.drop(['espacial','anual','mensual_ultimo_anio','por_edad','por_nacionalidad'],axis=1)
    return df



In [133]:
df_medios_espacial=por_columna(jsons_medios[0],columna='espacial')
df_medios_espacial

Unnamed: 0,totales,AGUASCALIENTES,BAJA CALIFORNIA,BAJA CALIFORNIA SUR,CHIAPAS,CHIHUAHUA,CIUDAD DE MEXICO,COAHUILA,COLIMA,DURANGO,...,SAN LUIS POTOSI,SE DESCONOCE,SINALOA,SONORA,TABASCO,TAMAULIPAS,TLAXCALA,VERACRUZ,YUCATAN,ZACATECAS
PorcentajeDesaparecidos,77.11,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizados,22.89,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosCV,87.88,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosSV,12.12,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,,,,,,...,,,,,,,,,,
TotalDesaparecidos,2445.0,,,,,,,,,,...,,,,,,,,,,
TotalGlobal,3171.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizados,726.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizadosCV,638.0,,,,,,,,,,...,,,,,,,,,,


In [134]:
df_medios_por_edad=por_columna(jsons_medios[0],columna='por_edad')
df_medios_por_edad

Unnamed: 0,totales,0,1,10,11,12,13,14,15,16,...,86,87,88,9,92,94,96,97,99,SIN EDAD DE REFERENCIA
PorcentajeDesaparecidos,77.11,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizados,22.89,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosCV,87.88,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosSV,12.12,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,,,,,,...,,,,,,,,,,
TotalDesaparecidos,2445.0,,,,,,,,,,...,,,,,,,,,,
TotalGlobal,3171.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizados,726.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizadosCV,638.0,,,,,,,,,,...,,,,,,,,,,


In [135]:
df_medios_por_nacionalidad=por_columna(jsons_medios[0],columna='por_nacionalidad')
df_medios_por_nacionalidad

Unnamed: 0,totales,AFGANA,ARGENTINA,AUSTRALIANA,BOLIVIANA,COLOMBIANA,ECUATORIANA,ESTADOS INDEPENDIENTES,ESTADOUNIDENSE,GUATEMALTECA,...,MARROQUI,MEXICANA,MOLDAVINA,NICARAGUENSE,PERUANA,RUMANA,RUSA,SALVADORENA,SE DESCONOCE,TURCA
PorcentajeDesaparecidos,77.11,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizados,22.89,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosCV,87.88,,,,,,,,,,...,,,,,,,,,,
PorcentajeLocalizadosSV,12.12,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloDesaparecidos,97.67,,,,,,,,,,...,,,,,,,,,,
PorcentajeSoloNoLocalizados,2.33,,,,,,,,,,...,,,,,,,,,,
TotalDesaparecidos,2445.0,,,,,,,,,,...,,,,,,,,,,
TotalGlobal,3171.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizados,726.0,,,,,,,,,,...,,,,,,,,,,
TotalLocalizadosCV,638.0,,,,,,,,,,...,,,,,,,,,,


# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos.

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [22]:
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " +
      ", ".join([p.text for p in desayunos.findall("food/name")]))

# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.


Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada). Para hacerlo en forma programática es ecesario usar la [API de Mediawiki](https://github.com/mudroljub/wikipedia-api-docs) que veremos más adelante.

Por el momento descargemos unos datos de *wikipedia* y hagamos el ejercicio de tratar de entender la estructura del árbol.

In [148]:
archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


poetas = et.parse(subdir + archivo_nombre)


### Ejercicio

Entender la estructura del archivo `xml` de poetas y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

In [146]:
desayunos.findall("food")

[<Element 'food' at 0x7f0e5ed75760>,
 <Element 'food' at 0x7f0e5ed75a80>,
 <Element 'food' at 0x7f0e5ed75e40>,
 <Element 'food' at 0x7f0e5ed76200>,
 <Element 'food' at 0x7f0e5ed76520>]

NoneType

In [185]:
root=poetas.getroot()
namespaces = {'ns': 'http://www.mediawiki.org/xml/export-0.10/'}

site_info = {}
siteinfo = root.find('ns:siteinfo', namespaces)
try:
    site_info['sitename'] = siteinfo.find('ns:sitename', namespaces).text
    site_info['dbname'] = siteinfo.find('ns:dbname', namespaces).text
    site_info['base'] = siteinfo.find('ns:base', namespaces).text
    site_info['generator'] = siteinfo.find('ns:generator', namespaces).text
except AttributeError as e:
    print(e)


page_data = []
for page in root.findall('ns:page', namespaces):
    title = page.find('ns:title', namespaces).text  ## Nombre del Poeta
    page_id = page.find('ns:id', namespaces).text      ## id de la pagina
    revision = page.find('ns:revision', namespaces)  ## Aqui se encuentra el contenido importante
    
    if revision is not None:                        
        rev_id = revision.find('ns:id', namespaces).text    
        parent_id = revision.find('ns:parentid', namespaces).text
        timestamp = revision.find('ns:timestamp', namespaces).text
        contributor = revision.find('ns:contributor', namespaces)
        if type(contributor)!=type(None):
            if type(contributor.find('ns:username', namespaces))!=type(None):
                username = contributor.find('ns:username', namespaces).text 
            else:
                username=None
            if type(contributor.find('ns:id', namespaces))!=type(None):
                contrib_id = contributor.find('ns:id', namespaces).text 
            else:
                contrib_id=None
                 
    
        if  type(revision.find('ns:comment', namespaces))!=type(None):
            comment = revision.find('ns:comment', namespaces).text
        model = revision.find('ns:model', namespaces).text
        format_ = revision.find('ns:format', namespaces).text
        text = revision.find('ns:text', namespaces).text
        
        page_data.append({      ## Datos extraidos de la pagina en formato json
            'title': title,
            'page_id': page_id,
            'revision_id': rev_id,
            'parent_id': parent_id,
            'timestamp': timestamp,
            'username': username,
            'contributor_id': contrib_id,
            'comment': comment,
            'model': model,
            'format': format_,
            'text': text
        })


In [186]:
df=pd.DataFrame(page_data)
df

Unnamed: 0,title,page_id,revision_id,parent_id,timestamp,username,contributor_id,comment,model,format,text
0,Julia Morilla de Campbell,4949229,102979192,100596558,2017-10-30T07:46:11Z,InternetArchiveBot,4704851,Rescatando referencia 1 y marcando 0 como roto...,wikitext,text/x-wiki,'''Julia Morilla de Campbell''' ([[Rosario (Ar...
1,Luis Negreti,5105749,93686970,57859059,2016-09-17T17:35:26Z,NinoBot,3769789,Bot - Cambiando parámetros en fichas de personas,wikitext,text/x-wiki,{{Ficha de escritor\n|Imagen = NE...
2,Poldy Bird,4477192,108610182,108547671,2018-06-11T04:34:41Z,,,Bot - Cambiando parámetros en fichas de personas,wikitext,text/x-wiki,{{Ficha de persona\n| padres = Enrique Bird Mo...
3,Ana María Shua,423422,108670781,108670775,2018-06-13T18:50:17Z,SeroBOT,4980693,Revertidos los cambios de [[Special:Contributi...,wikitext,text/x-wiki,{{Ficha de persona\n|imagen=\n|nombre de nacim...
4,León Benarós,4284479,107379800,107207703,2018-04-29T21:49:56Z,MetroBot,1904196,Bot: retirando categoría. [[Wikipedia:Consulta...,wikitext,text/x-wiki,{{Ficha de persona\n|nombre = León B...
...,...,...,...,...,...,...,...,...,...,...,...
634,Humberto Tejera,7887761,109126317,109035195,2018-07-06T17:07:38Z,Invadibot,1906661,Bot: [[m:User:Invadibot/scope#eswiki|8]] - Est...,wikitext,text/x-wiki,{{Ficha de persona\n| nombre = Humberto Tejera...
635,Mario Molina Cruz,8440353,109468905,108852841,2018-07-23T14:27:14Z,BOT-Superzerocool,42845,[BOT] Artículos en desarrollo pero sin edicion...,wikitext,text/x-wiki,{{Ficha de escritor\n|nombre= Mario Molina Cru...
636,Luis Ignacio Helguera,6449649,107708539,107698516,2018-05-11T14:19:35Z,Carlosmg.dg,2245970,Detalles y optimizo ficha.,wikitext,text/x-wiki,{{Ficha de persona\n| nombre = Luis Ignacio He...
637,Daniel Olivares Viniegra,8528770,109413118,109412047,2018-07-20T21:56:20Z,MiguelAlanCS,495674,Detalles y optimizo ficha.,wikitext,text/x-wiki,{{Promocional|8|julio}}\n\n'''Daniel Olivares ...


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición.

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.