<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [1]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [2]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


/content


In [4]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal,
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente)

        """
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos.

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente.

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [12]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [22]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,2,0,6,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,253,15,90,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,5,0,18,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,16,0,67,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,9,0,26,main


In [7]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  13 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [16]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características.

In [30]:
import pandas as pd
import json

desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"

with open(subdir + desaparecidos_corte_nacional_archivo, 'r') as file:
    file_desaparecidos = json.load(file)


In [48]:
print(f"\nNombre de las keys: { ', '.join(file_desaparecidos.keys())}")
print(f"\nAtributos de por_nacionalidad: { ', '.join(file_desaparecidos['por_nacionalidad'])}")


Nombre de las keys: totales, espacial, anual, mensual_ultimo_anio, por_edad, por_nacionalidad

Atributos de por_nacionalidad: Hombres, Indeterminado, Mujeres


In [56]:
# Personas desaparecidas por nacionalidad
datos_por_nacionalidad = file_desaparecidos.get('por_nacionalidad', [])
df_por_nacionalidad = pd.DataFrame(datos_por_nacionalidad)
df_por_nacionalidad

Unnamed: 0,Hombres,Indeterminado,Mujeres
AFGANA,1,0,0
ALEMANA,2,0,2
ARGENTINA,18,0,6
ARMENIO,1,0,0
AUSTRALIANA,2,0,0
...,...,...,...
SUIZA,2,0,0
TURCA,0,0,1
UKRANIANA,0,0,2
URUGUAYA,1,0,1


In [57]:
# Personas desaparecidas por estado
datos_espacial = file_desaparecidos.get('espacial', [])
df_espacial = pd.DataFrame(datos_espacial)
df_espacial

Unnamed: 0,Hombre,Indeterminado,Mujer
AGUASCALIENTES,1848,3,2537
BAJA CALIFORNIA,2065,5,1938
BAJA CALIFORNIA SUR,583,2,215
CAMPECHE,243,0,504
CHIAPAS,1344,0,2060
CHIHUAHUA,8012,4,4306
CIUDAD DE MEXICO,5629,167,4695
COAHUILA,2964,2,1054
COLIMA,2047,2,1710
DURANGO,1611,1,1220


In [58]:
# Personas desaparecidas por año
datos_anual = file_desaparecidos.get('anual', [])
df_anual = pd.DataFrame(datos_anual)
df_anual

Unnamed: 0,Hombre,Indeterminado,Mujer
1.CIFRA SIN AÑO DE REFERENCIA,18923,332,16356
1964,1,0,0
1967,2,0,0
1968,2,0,1
1969,3,0,0
1970,3,0,0
1971,15,0,0
1972,24,0,6
1973,29,0,2
1974,283,3,15


# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos.

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [59]:
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " +
      ", ".join([p.text for p in desayunos.findall("food/name")]))

# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.


Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada). Para hacerlo en forma programática es ecesario usar la [API de Mediawiki](https://github.com/mudroljub/wikipedia-api-docs) que veremos más adelante.

Por el momento descargemos unos datos de *wikipedia* y hagamos el ejercicio de tratar de entender la estructura del árbol.

In [61]:
archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


poetas = et.parse(subdir + archivo_nombre)


### Ejercicio

Entender la estructura del archivo `xml` de poetas y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

In [76]:
import os
import urllib.request
import xml.etree.ElementTree as et
import re
import pandas as pd

In [83]:
'''
  El xml analizado posee una primera etiqueta <siteinfo> que contiene varios subelementos con información del sitio, los siguientes elementos de interés
  se encuentran dentro de la etiqueta <page>, la cual posee la siguiente estructura:
    <title></title>
    <ns></ns>
    <id></id>
    <revision>
      <id></id>
      <parentid></parentid>
      <timestamp></timestamp>
      <contributor>
        <username></username>
        <id></id>
      </contributor>
      <minor/>
      <comment></comment>
      <model></model>
      <format></format>
      <text xml:space="" bytes=""></text>

  La información utilizada para construir el DataFrame se extrajo de la etiqueta <text> contenida dentro de la etiqueta <revision>. La etiqueta <text> alberga
  toda la información relevante sobre los poetas. En particular, el texto dentro del formato {{Ficha de escritor ... }} presenta cierta estructura que incluye
  datos útiles y resumidos sobre los poetas. Es importante mencionar que, aunque el formato {{Ficha de escritor ... }} es el principal, no siempre se
  mantiene de manera consistente y puede aparecer como {{Ficha de persona ... }}. Sin embargo, en este caso, solo se filtró la información basada en la
  primera variante. Además, la información contenida dentro de {{Ficha de escritor ... }} no es completamente estándar, por lo que sería necesario aplicar
  criterios adicionales de filtrado para un análisis más detallado.

'''

# Lista para almacenar los datos de las fichas de escritores
fichas_escritores = []

# Recorrer los elementos
for (i, p) in enumerate(poetas.getroot()):
    for prop in p:
        if prop.tag.endswith('revision'):  # Buscar dentro de la revision
            for subprop in prop:
                if subprop.tag.endswith('text') and subprop.text is not None:
                    texto = subprop.text.strip()

                    # Buscar la sección {{Ficha de escritor}}
                    ficha_match = re.search(r'{{Ficha de escritor(.*?)}}', texto, re.DOTALL)
                    if ficha_match:
                        ficha_texto = ficha_match.group(1)

                        # Extraer solo los campos a utilizar
                        nombre_match = re.search(r'\|nombre\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)
                        nombre_de_nacimiento_match = re.search(r'\|nombre\s*de\s*nacimiento\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)
                        fecha_nacimiento_match = re.search(r'\|fecha\s*de\s*nacimiento\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)
                        lugar_nacimiento_match = re.search(r'\|lugar\s*de\s*nacimiento\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)
                        nacionalidad_match = re.search(r'\|nacionalidad\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)
                        genero_match = re.search(r'\|Género\s*=\s*([^|\n]+)', ficha_texto, re.IGNORECASE)

                        ficha_dict = {
                            'Nombre': nombre_match.group(1).strip() if nombre_match else None,
                            'Nombre de Nacimiento': nombre_de_nacimiento_match.group(1).strip() if nombre_de_nacimiento_match else None,
                            'Fecha de Nacimiento': fecha_nacimiento_match.group(1).strip() if fecha_nacimiento_match else None,
                            'Lugar de Nacimiento': lugar_nacimiento_match.group(1).strip() if lugar_nacimiento_match else None,
                            'Nacionalidad': nacionalidad_match.group(1).strip() if nacionalidad_match else None,
                            'Género': genero_match.group(1).strip() if genero_match else None
                        }

                        fichas_escritores.append(ficha_dict)

# Crear el DataFrame con las fichas de escritores
df_fichas_escritores = pd.DataFrame(fichas_escritores)

# Mostrar el DataFrame
df_fichas_escritores

Unnamed: 0,Nombre,Nombre de Nacimiento,Fecha de Nacimiento,Lugar de Nacimiento,Nacionalidad,Género
0,,,[[20 de mayo]] de [[1890]],{{bandera,,
1,Alejandro González Gattone,Alejandro José González Gattone,[[9 de septiembre]] de [[1922]],[[Pergamino (Buenos Aires),,
2,,,,{{bandera,,
3,,,{{fecha,,,
4,Graciela Repún,,[[1951]],[[Buenos Aires]],argentina,[[literatura infantil]]
...,...,...,...,...,...,...
224,Sergio Mondragón,,[[14 de agosto]] de [[1935]],"[[Cuernavaca]], [[Morelos]] <br/>{{MEX",,
225,Jorge Adalberto Vázquez,Jorge Adalberto Vázquez Dávila,[[8 de octubre]] de [[1886]],"[[Alaquines]], [[San Luis Potosí]] <br/>{{MEX",,
226,Homero Acosta,,[[20 de febrero]] de [[1901]],"[[Axtla de Terrazas]],<br/> [[San Luis Potosí]...",,
227,Juan B. Delgado Altamirano,,[[26 de agosto]] de [[1868]],"[[Querétaro, Querétaro]], {{MEX",,


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición.

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.