<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [167]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [168]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


/content


In [169]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal,
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente)

        """
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos.

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente.

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [170]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [171]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,2,0,6,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,253,15,90,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,5,0,18,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,16,3,67,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,9,1,26,main


In [172]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  13 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [173]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características.

In [174]:
# 1er DataFrame: Cantidad de Desaparecidos por Estado.

# Podemos ver que el primer JSON de la categoría espacial se trata de los totales
# de desaparecidos, por sexo y por estado.

with open("data/datos_procesados/estados/0.json") as f:
  desap_json = json.load(f)

desap_df = pd.read_json(json.dumps(desap_json["espacial"], indent=4))

desap_df

  desap_df = pd.read_json(json.dumps(desap_json["espacial"], indent=4))


Unnamed: 0,Hombre,Indeterminado,Mujer
AGUASCALIENTES,1848,3,2537
BAJA CALIFORNIA,2065,5,1938
BAJA CALIFORNIA SUR,582,2,214
CAMPECHE,243,0,504
CHIAPAS,1344,0,2060
CHIHUAHUA,8012,4,4306
CIUDAD DE MEXICO,5628,167,4695
COAHUILA,2964,2,1054
COLIMA,2047,2,1710
DURANGO,1610,1,1220


In [175]:
# Veamos entonces los totales para solo el estado de Sonora.

desap_df.loc["SONORA"]

Unnamed: 0,SONORA
Hombre,4345
Indeterminado,7
Mujer,2223


In [176]:
# Podemos encontrar los totales más delimitados por municipios del estado de Sonora
# en el JSON 26.

with open("data/datos_procesados/estados/26.json") as f:
  desap_json = json.load(f)

desap_sonora_df = pd.read_json(json.dumps(desap_json["espacial"], indent=4))

desap_sonora_df

  desap_sonora_df = pd.read_json(json.dumps(desap_json["espacial"], indent=4))


Unnamed: 0,Hombres,Indeterminado,Mujeres
ACONCHI,3,0,3
AGUA PRIETA,296,0,174
ALAMOS,28,0,12
ALTAR,54,0,12
ARIVECHI,1,0,0
...,...,...,...
TUBUTAMA,0,0,1
URES,5,0,1
VILLA HIDALGO,1,0,0
VILLA PESQUEIRA,0,0,1


In [177]:
# Delimitemos ahora a los totales de solo el municipio de Hermosillo.

desap_sonora_df.loc["HERMOSILLO"]

Unnamed: 0,HERMOSILLO
Hombres,970
Indeterminado,0
Mujeres,644


In [178]:
# Finalmente, veamos en qué posición se encuentra Hermosillo en cuanto a cantidad
# de desaparecidos, comparado con los demás municipios.

#HOMBRES
desap_hombres_hmo = desap_sonora_df.sort_values(by='Hombres', ascending=False, na_position='first')
desap_hombres_hmo['pos'] = range(1, len(desap_hombres_hmo) + 1)

hombres_pos_hmo = desap_hombres_hmo.loc["HERMOSILLO"].loc["pos"]

#MUJERES
desap_mujeres_hmo = desap_sonora_df.sort_values(by='Mujeres', ascending=False, na_position='first')
desap_mujeres_hmo['pos'] = range(1, len(desap_mujeres_hmo) + 1)

mujeres_pos_hmo = desap_mujeres_hmo.loc["HERMOSILLO"].loc["pos"]

#INDETERMINADOS
desap_indeterminados_hmo = desap_sonora_df.sort_values(by='Indeterminado', ascending=False, na_position='first')
desap_indeterminados_hmo['pos'] = range(1, len(desap_indeterminados_hmo) + 1)

indeterminados_pos_hmo = desap_indeterminados_hmo.loc["HERMOSILLO"].loc["pos"]

print("Lugar de Hombres Desaparecidos:\t" + str(hombres_pos_hmo))
print("Lugar de Mujeres Desaparecidas:\t" + str(mujeres_pos_hmo))
print("Lugar de Indeterminados Desaparecidos:\t" + str(indeterminados_pos_hmo))

Lugar de Hombres Desaparecidos:	1
Lugar de Mujeres Desaparecidas:	1
Lugar de Indeterminados Desaparecidos:	61


Ya que Hermosillo es el municpio con mayor población, los primeros dos lugares son de esperarse. Sin embargo, es notorio que caiga tan abajo en su posición de desaparecidos de sexo indeterminado. Sería interesanteun análisis de ello.

In [179]:
# 2do DataFrame: Periodistas Desaparecidos

# Podemos también ver cuantos periodistas desaparecieron en México. Este conjunto
# de datos no contiene muchos valores, lo cual se ejemplifica con los periodistas
# desaparecidos mensualmente por año.

with open("data/datos_procesados/por_categoria/periodista.json") as f:
  periodistas_json = json.load(f)

periodistas_df = pd.read_json(json.dumps(periodistas_json["mensual_ultimo_anio"], indent=4))

periodistas_df

  periodistas_df = pd.read_json(json.dumps(periodistas_json["mensual_ultimo_anio"], indent=4))


Unnamed: 0,Hombre,Indeterminado,Mujer
2012-NOVIEMBRE,1,0,0
2020-FEBRERO,1,0,0
2020-NOVIEMBRE,0,0,1
2021-MARZO,2,0,0


In [180]:
# Podemos ver que, en total, solo hubo 5 periodistas desaparecidos registrados
# en los años 2012, 2020 y 2021.

# Veamos sus edades.

periodistas_df = pd.read_json(json.dumps(periodistas_json["por_edad"], indent=4))

periodistas_df

  periodistas_df = pd.read_json(json.dumps(periodistas_json["por_edad"], indent=4))
  periodistas_df = pd.read_json(json.dumps(periodistas_json["por_edad"], indent=4))
  periodistas_df = pd.read_json(json.dumps(periodistas_json["por_edad"], indent=4))
  periodistas_df = pd.read_json(json.dumps(periodistas_json["por_edad"], indent=4))


Unnamed: 0,Hombres,Indeterminado,Mujeres
15,0,0,1
24,1,0,0
33,1,0,0
37,1,0,0
SIN EDAD DE REFERENCIA,1,0,0


Debido a la poca cantidad de datos, no es posible obtener una conclusión con respecto a los periodistas desaparecidos.

In [181]:
# 3er DataFrame: Desaparecidos por Edades en Sonora

# Al buscar a los periodistas desaparecidos, fue interesante ver un conteo por
# edades. Por lo tanto, hagamos eso mismo pero para el conteo que teníamos en
# el estado de Sonora.

with open("data/datos_procesados/estados/26.json") as f:
  edades_json = json.load(f)

edades_df = pd.read_json(json.dumps(edades_json["por_edad"], indent=4))

edades_df

  edades_df = pd.read_json(json.dumps(edades_json["por_edad"], indent=4))
  edades_df = pd.read_json(json.dumps(edades_json["por_edad"], indent=4))
  edades_df = pd.read_json(json.dumps(edades_json["por_edad"], indent=4))
  edades_df = pd.read_json(json.dumps(edades_json["por_edad"], indent=4))


Unnamed: 0,Hombres,Indeterminado,Mujeres
0,73,0,73
1,4,0,7
10,14,0,4
11,8,0,10
12,27,0,43
...,...,...,...
9,9,0,3
91,1,0,0
92,2,0,0
95,1,0,0


In [182]:
# Veamos qué edades son las que más desaparecidos tienen para hombres, mujeres e
# indeterminados.

#HOMBRES
desap_hombres_hmo = edades_df.sort_values(by='Hombres', ascending=False, na_position='first')
desap_hombres_hmo['pos'] = range(1, len(desap_hombres_hmo) + 1)

desap_hombres_hmo[["Hombres", "pos"]]

Unnamed: 0,Hombres,pos
SIN EDAD DE REFERENCIA,757,1
25,117,2
32,114,3
30,109,4
29,107,5
...,...,...
84,1,87
70,1,88
91,1,89
95,1,90


In [183]:
# Podemos ver que el primer lugar es para la gran cantidad de desaparecidos para
# quienes no se cuenta con registro de edad. Sin embargo, desde el 2do lugar, hasta
# el 5to lugar, son solo edades entre 25 y 32.

# Ahora, veamos las edades para las mujeres.

#MUJERES
desap_mujeres_hmo = edades_df.sort_values(by='Mujeres', ascending=False, na_position='first')
desap_mujeres_hmo['pos'] = range(1, len(desap_mujeres_hmo) + 1)

desap_mujeres_hmo[["Mujeres", "pos"]]

Unnamed: 0,Mujeres,pos
SIN EDAD DE REFERENCIA,485,1
14,221,2
15,209,3
16,166,4
17,120,5
...,...,...
69,0,87
78,0,88
77,0,89
70,0,90


In [184]:
# Al igual que en el caso de los hombres, el 1er lugar son las personas para quienes
# no hay edad de referencia. Sin embargo, del 2do al 5to lugar tenemos solo edades
# de entre 14 a 17 años.

# Finalmente, veamos para las personas de sexo indeterminado.

#INDETERMINADO
desap_indeterminado_hmo = edades_df.sort_values(by='Indeterminado', ascending=False, na_position='first')
desap_indeterminado_hmo['pos'] = range(1, len(desap_indeterminado_hmo) + 1)

desap_indeterminado_hmo[["Indeterminado", "pos"]]

Unnamed: 0,Indeterminado,pos
SIN EDAD DE REFERENCIA,2,1
25,2,2
54,1,3
27,1,4
31,1,5
...,...,...
36,0,87
35,0,88
34,0,89
33,0,90


Aquí aunque tengamos de nuevo como 1er lugar a las personas para quienes no tenemos edad de referencia, el resto de lugares no parecen estar en un rango de edades especifico que nos haga notar algo en particular.

# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos.

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [185]:
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " +
      ", ".join([p.text for p in desayunos.findall("food/name")]))

# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.

Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada). Para hacerlo en forma programática es ecesario usar la [API de Mediawiki](https://github.com/mudroljub/wikipedia-api-docs) que veremos más adelante.

Por el momento descargemos unos datos de *wikipedia* y hagamos el ejercicio de tratar de entender la estructura del árbol.

In [186]:
archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


poetas = et.parse(subdir + archivo_nombre)


### Ejercicio

Entender la estructura del archivo `xml` de poetas y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

In [187]:
# Primero, podemos hacer un desglose de todos los poestas que tenemos de una manera
# similar al ejemplo anterior. Esto solo como un comienzo para tratar de darnos
# una idea de su estructura.

for (i, des) in enumerate(poetas.getroot()):
    print("Poeta {}:".format(i+1))
    for prop in des:
        print("\t {} : {}".format(prop.tag, prop.text.strip()))


Poeta 1:
	 {http://www.mediawiki.org/xml/export-0.10/}sitename : Wikipedia
	 {http://www.mediawiki.org/xml/export-0.10/}dbname : eswiki
	 {http://www.mediawiki.org/xml/export-0.10/}base : https://es.wikipedia.org/wiki/Wikipedia:Portada
	 {http://www.mediawiki.org/xml/export-0.10/}generator : MediaWiki 1.32.0-wmf.13
	 {http://www.mediawiki.org/xml/export-0.10/}case : first-letter
	 {http://www.mediawiki.org/xml/export-0.10/}namespaces : 
Poeta 2:
	 {http://www.mediawiki.org/xml/export-0.10/}title : Julia Morilla de Campbell
	 {http://www.mediawiki.org/xml/export-0.10/}ns : 0
	 {http://www.mediawiki.org/xml/export-0.10/}id : 4949229
	 {http://www.mediawiki.org/xml/export-0.10/}revision : 
Poeta 3:
	 {http://www.mediawiki.org/xml/export-0.10/}title : Luis Negreti
	 {http://www.mediawiki.org/xml/export-0.10/}ns : 0
	 {http://www.mediawiki.org/xml/export-0.10/}id : 5105749
	 {http://www.mediawiki.org/xml/export-0.10/}revision : 
Poeta 4:
	 {http://www.mediawiki.org/xml/export-0.10/}title : 

In [188]:
# Se trata entonces de una lista de poetas con su ID y todo un objeto de revisión.
# Podemos crear un DataFrame sencillo (ya que se trata de un ejercicio de ejemplo)
# para tener la información de cada poeta organizada.

# Primero importamos Numpy
import numpy as np

# Ahora, creamos un array vacío donde ir guardando los datos que saquemos de cada poeta.
data = []

# Ahora, iteramos sobre todos las subestructuras, las cuales ya sabemos son, casi
# todas, los poetas. Solo la primera tiene información sobre la pagina en sí.
for child in poetas.getroot():
  # Si la subestructura es "page", sabemos que tiene información de un poeta.
  if (child.tag == "{http://www.mediawiki.org/xml/export-0.10/}page"):
    # Primero, generamos un array para guardar el renglon de datos de un poeta.
    row = []

    # Luego, obtenemos la estructura del titulo, la cual es subestructura de "page".
    title = child.find("{http://www.mediawiki.org/xml/export-0.10/}title")
    # Agregamos el titulo como un dato al renglon.
    row.append(title.text.strip())

    # Hacemos exactamente lo mismo para el ID, ya que también es subestructura de "page".
    id = child.find("{http://www.mediawiki.org/xml/export-0.10/}id")
    row.append(id.text.strip())

    # Para el texto de la revisión es ligeramente distinto. Comenzamos obteniendo
    # la subestructura "revision".
    revision_parent = child.find("{http://www.mediawiki.org/xml/export-0.10/}revision")
    # El texto se encuentra en realidad en una estructura un nivel más abajo, llamada
    # "text". Sacamos ese texto y lo agregamos al renglon.
    revision_text = revision_parent.find("{http://www.mediawiki.org/xml/export-0.10/}text")
    row.append(revision_text.text.strip())

    # Ahora, agregamos ese renglon al array de datos.
    data.append(row)

# Convertimos el array a un array de Numpy.
np_data = np.array(data)
# Finalmente, convertimos los datos a un DataFrame.
poetas_df = pd.DataFrame({'ID': np_data[:, 1], 'Nombre': np_data[:, 0], 'Revisión': np_data[:, 2]})

poetas_df

Unnamed: 0,ID,Nombre,Revisión
0,4949229,Julia Morilla de Campbell,'''Julia Morilla de Campbell''' ([[Rosario (Ar...
1,5105749,Luis Negreti,{{Ficha de escritor\n|Imagen = NE...
2,4477192,Poldy Bird,{{Ficha de persona\n| padres = Enrique Bird Mo...
3,423422,Ana María Shua,{{Ficha de persona\n|imagen=\n|nombre de nacim...
4,4284479,León Benarós,{{Ficha de persona\n|nombre = León B...
...,...,...,...
634,7887761,Humberto Tejera,{{Ficha de persona\n| nombre = Humberto Tejera...
635,8440353,Mario Molina Cruz,{{Ficha de escritor\n|nombre= Mario Molina Cru...
636,6449649,Luis Ignacio Helguera,{{Ficha de persona\n| nombre = Luis Ignacio He...
637,8528770,Daniel Olivares Viniegra,{{Promocional|8|julio}}\n\n'''Daniel Olivares ...


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición.

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.