<a href="https://colab.research.google.com/github/sebasbrowar/mcd/blob/main/descarga_datos_SBR.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [None]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [None]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"

desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"

subdir = "./data/"


/content


In [None]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal,
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente)

        """
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos.

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente.

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [None]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [None]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,2,0,6,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,253,15,90,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,5,0,18,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,16,0,67,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,9,0,26,main


In [None]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  13 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [None]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

# Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características.

In [None]:
import os
import pandas as pd
import json

desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"

desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"

subdir = "./data/"

if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)


In [None]:
import pandas as pd
import json

json_file_path = "/content/data/datos_procesados/estados/26.json" # desaparecidos en Sonora(26)

with open(json_file_path, 'r') as file:
    data_sonora = json.load(file)

DataFrame con los totales de desaparecidos para cada sexo por municipio de Sonora.

In [None]:
# Creamos un diccionario para almacenar dos dataframes, el de hombres y mujeres desaparecidos por municipio
data_frames = {
    'Hombres': pd.DataFrame(list(data_sonora['espacial']['Hombres'].items()), columns=['Municipio', 'Hombres']),
    'Mujeres': pd.DataFrame(list(data_sonora['espacial']['Mujeres'].items()), columns=['Municipio', 'Mujeres'])
}

# Unimos ambos dataframes quedandonos con solo una columna de municipio
df_sonora_total = pd.merge(data_frames['Hombres'], data_frames['Mujeres'], on='Municipio', how='outer')

df_sonora_total

Unnamed: 0,Municipio,Hombres,Mujeres
0,ACONCHI,3,3
1,AGUA PRIETA,296,174
2,ALAMOS,28,12
3,ALTAR,54,12
4,ARIVECHI,1,0
...,...,...,...
59,TUBUTAMA,0,1
60,URES,5,1
61,VILLA HIDALGO,1,0
62,VILLA PESQUEIRA,0,1


DataFrame con los totales de desaparecidos por año para cada sexo en Sonora.

In [None]:
# Creamos un diccionario para almacenar dos dataframes, el de hombres y mujeres desaparecidos por año
data_frames = {
    'Hombres': pd.DataFrame(list(data_sonora['anual']['Hombre'].items()), columns=['Año', 'Hombres']),
    'Mujeres': pd.DataFrame(list(data_sonora['anual']['Mujer'].items()), columns=['Año', 'Mujeres'])
}

# Unimos ambos dataframes quedandonos con solo una columna de año
df_sonora_year = pd.merge(data_frames['Hombres'], data_frames['Mujeres'], on='Año', how='outer')

df_sonora_year

Unnamed: 0,Año,Hombres,Mujeres
0,1.CIFRA SIN AÑO DE REFERENCIA,116,42
1,1974,2,0
2,1977,1,0
3,1978,2,0
4,1980,1,0
5,1981,7,1
6,1982,1,0
7,1994,1,0
8,1995,1,0
9,1998,1,0


DataFrame donde cada fila tiene una circunstancia con su número de desaparecidos de hombres y mujeres en Sonora.

In [None]:
import pandas as pd
import json

# Cada json path file de circunstancias lo guardamos en una lista
json_file_path = []
for i in range(0,18):
  if i != 10:
    json_file_path.append(f"/content/data/datos_procesados/circunstancias/{i}.json")

# Ahora cargamos la info de cada json y la guardamos en una lista
datas_circunstancia = []
for json_file in json_file_path:
  with open(json_file, 'r') as file:
      data_circunstancia = json.load(file)
      datas_circunstancia.append(data_circunstancia)

# lista que contendra los dataframes que iremos creando por cada json para luego concatenarlos
data_frames = []

for index, data in enumerate(datas_circunstancia):
  # Agarramos los json que van del 0 al 9, ya que no hay un 10.json
  if index <= 9:
    # Corroboramos si exiten las llaves en el json
    if 'espacial' in data and 'Hombre' in data['espacial'] and 'SONORA' in data['espacial']['Hombre'] and 'Mujer' in data['espacial'] and 'SONORA' in data['espacial']['Mujer']:
      data_frame = [{
          'Circunstancia':index,
          'Estado':'Sonora',
          'Hombres': data['espacial']['Hombre']['SONORA'],
          'Mujeres': data['espacial']['Mujer']['SONORA']}]

      data_frames.append(pd.DataFrame(data_frame))

    # En caso de que no existan, asumimos que son 0
    else:
      data_frame = [{
          'Circunstancia':index,
          'Estado':'Sonora',
          'Hombres': 0,
          'Mujeres': 0}]

      data_frames.append(pd.DataFrame(data_frame))

  # Ahora empezamos con los json del 11 al 17, podemos ignorar el 10 definiendo index += 1
  elif index >= 10:
    index += 1
    # Corroboramos si exiten las llaves en el json
    if 'espacial' in data and 'Hombre' in data['espacial'] and 'SONORA' in data['espacial']['Hombre'] and 'Mujer' in data['espacial'] and 'SONORA' in data['espacial']['Mujer']:
      data_frame = [{
          'Circunstancia':index,
          'Estado':'Sonora',
          'Hombres': data['espacial']['Hombre']['SONORA'],
          'Mujeres': data['espacial']['Mujer']['SONORA']}]

      data_frames.append(pd.DataFrame(data_frame))

    # En caso de que no existan, asumimos que son 0
    else:
      data_frame = [{
          'Circunstancia':index,
          'Estado':'Sonora',
          'Hombres': 0,
          'Mujeres': 0}]

      data_frames.append(pd.DataFrame(data_frame))

# Concatenamos los dataframes para crear solo uno con todos los datos
df_sonora_circ = pd.concat(data_frames, ignore_index=True)

df_sonora_circ

Unnamed: 0,Circunstancia,Estado,Hombres,Mujeres
0,0,Sonora,4345,2223
1,1,Sonora,4,3
2,2,Sonora,3,0
3,3,Sonora,5,1
4,4,Sonora,0,0
5,5,Sonora,20,2
6,6,Sonora,9,3
7,7,Sonora,6,0
8,8,Sonora,18,8
9,9,Sonora,3,2


# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos.

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [None]:
import os
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " +
      ", ".join([p.text for p in desayunos.findall("food/name")]))


Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


In [None]:
# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.

import pandas as pd
import xml.etree.ElementTree as et

# Primero obtenemos el elemento raiz del arbol xml, esto nos permite acceder a toda la estructura
# del documento xml a partir de su punto punto de partida, en este caso seria breakfast_menu.
desayunos = et.parse(subdir + archivo_nombre)
root = desayunos.getroot()

# Creamos la lista de datos que luego convertiremos a dataframe
data = []

# Hacemos un for para cada food, en total son 5
for food in root.findall('food'):
  # Creamos un diccionario que contendra los elementos de cada food
  # Al terminar cada ciclo este empieza vacio, lo que buscamos ya se guarda al final
  row = {}
  # Iremos elemento por elemento en food, estos elementos son: name, price, description, calories
  for element in food:
    # Vamos agregando al diccionario el elemento con su respectiva info
    row[element.tag] = element.text
  # Una vez terminado el diccionario con los elementos y sus respectivas infos, lo agregamos a una lista
  data.append(row)

df = pd.DataFrame(data)

df

Unnamed: 0,name,price,description,calories
0,Belgian Waffles,$5.95,\n Two of our famous Belgian Waffles with pl...,650
1,Strawberry Belgian Waffles,$7.95,\n Light Belgian waffles covered with straw...,900
2,Berry-Berry Belgian Waffles,$8.95,\n Belgian waffles covered with assorted fr...,900
3,French Toast,$4.50,\n Thick slices made from our homemade sour...,600
4,Homestyle Breakfast,$6.95,"\n Two eggs, bacon or sausage, toast, and o...",950


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada). Para hacerlo en forma programática es ecesario usar la [API de Mediawiki](https://github.com/mudroljub/wikipedia-api-docs) que veremos más adelante.

Por el momento descargemos unos datos de *wikipedia* y hagamos el ejercicio de tratar de entender la estructura del árbol.

In [None]:
import os
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


poetas = et.parse(subdir + archivo_nombre)


### Ejercicio

Entender la estructura del archivo `xml` de poetas y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

Lo primero que hice fue abrir el xml para ver su estructura y ver con qué información me iba a quedar. Vi que root será 'page' y la estructura queda de la siguiente manera:

```
<page>
  <title>Julia Morilla de Campbell</title>
  <ns>0</ns>
  <id>4949229</id>
  <revision>
    <id>102979192</id>
    <parentid>100596558</parentid>
    <timestamp>2017-10-30T07:46:11Z</timestamp>
    <contributor>
      <username>InternetArchiveBot</username>
      <id>4704851</id>
    </contributor>
    <comment>Rescatando referencia 1 y marcando 0 como roto #IABot (v1.6)</comment>
    <model>wikitext</model>
    <format>text/x-wiki</format>
    <text>...<text>
    <sha1>hhn1f8rcv6h56mhewo2ri8ya3w0tpii</sha1>
  </revision>
</page>
```

Yo decidí quedarme con los siguientes datos: title, page_id, revision_id, timestamp, contributor_username, contributor_id, comment y text. No sé si necesariamente es lo más importante pero se me hizo que era lo lógico de extraer, algo que si se me hizo importante fue lo que hay dentro de text porque ahí es donde se ubica toda la información relacionada con el poeta y estaría bien sacar esos datos pero aun no sé y no he visto cómo hacerlo.  



In [None]:
import xml.etree.ElementTree as et
import pandas as pd
from lxml import etree

# Cargamos el archivo cml
poetas = et.parse(subdir + archivo_nombre)
# Asignamos la root, que en este caso sera page
root = poetas.getroot()

# Este diccionario nos permite evitar conflictos entre nombres de elementos y atributos que podrian tener el mismo nombre pero diferente significado
# Esta url se obtiene de la root
namespace = {'mw': 'http://www.mediawiki.org/xml/export-0.10/'}

# Listas donde se almacenaran los datos de cada columna correspondiente
titles = []
ids = []
revisions_id = []
timestamps = []
contributors = []
contributor_ids = []
comments = []
texts = []

# Para cada page que haya en el xml, iremos guardando los datos
for page in root.findall('mw:page', namespaces=namespace):

    # Buscamos el elemento title ubicado en el namespace y guardamos su contenido
    title = page.find('mw:title', namespaces=namespace).text
    # Añadimos contenido a la lista
    titles.append(title)

    # Buscamos el elemento id ubicado en el namespace y guardamos su contenido
    page_id = page.find('mw:id', namespaces=namespace).text
    # Añadimos contenido a la listav
    ids.append(page_id)

    # Aqui buscamos el elemento revision para luego poder acceder a el
    revision = page.find('mw:revision', namespaces=namespace)

    # Dentro de revision, buscamos el elemento id en el namespace y guardamos su contenido
    revision_id = revision.find('mw:id', namespaces=namespace).text
    # Añadimos contenido a la lista
    revisions_id.append(revision_id)

    # Dentro de revision, buscamos el elemento timestamp en el namespace y guardamos su contenido
    timestamp = revision.find('mw:timestamp', namespaces=namespace).text
    # Añadimos contenido a la lista
    timestamps.append(timestamp)

    # Ahora buscamos el elemento contributor que se encuentra dentro de revision
    contributor = revision.find('mw:contributor', namespaces=namespace)

    # Para estos casos tuve que hacer un if que corroborara si el elemento contributor era nulo o no
    if contributor != None:
      # Buscamos elemento username, solo buscamos y no adquirimos el contenido aun porque puede llegar a ser nulo
      contributor_username = contributor.find('mw:username', namespaces=namespace)
      # Añadimos contenido a la lista si no es None, si no hay contenido se añade como None
      contributors.append(contributor_username.text if contributor_username is not None else None)

      # Buscamos elemento id, solo buscamos y no adquirimos el contenido aun porque puede llegar a ser nulo
      contributor_id = contributor.find('mw:id', namespaces=namespace)
      # Añadimos contenido a la lista si no es None, si no hay contenido se añade como None
      contributor_ids.append(contributor_id.text if contributor_id is not None else None)

    else:
      # Si tenemos un valor nulo, lo añadimos como None
      contributors.append(None)
      contributor_ids.append(None)

    # Buscamos elemento comment, solo buscamos y no adquirimos el contenido aun porque puede llegar a ser nulo
    comment = revision.find('mw:comment', namespaces=namespace)
    # Añadimos contenido a la lista si no es None, si no hay contenido se añade como None
    comments.append(comment.text if comment is not None else None)

    # Buscamos elemento text y guardamos en una variable su contenido
    text = revision.find('mw:text', namespaces=namespace).text
    # Añadimos contenido a la lista
    texts.append(text)


# Por ultimo, creamos el dataframe como diccionario donde las keys son las columnas y los valores las listas con los datos
df_original = pd.DataFrame({
    'Title': titles,
    'Page ID': ids,
    'Revision ID': revisions_id,
    'Timestamp': timestamps,
    'Contributor': contributors,
    'Contributor ID': contributor_ids,
    'Comment': comments,
    'Text': texts
})

df_original


Unnamed: 0,Title,Page ID,Revision ID,Timestamp,Contributor,Contributor ID,Comment,Text
0,Julia Morilla de Campbell,4949229,102979192,2017-10-30T07:46:11Z,InternetArchiveBot,4704851,Rescatando referencia 1 y marcando 0 como roto...,'''Julia Morilla de Campbell''' ([[Rosario (Ar...
1,Luis Negreti,5105749,93686970,2016-09-17T17:35:26Z,NinoBot,3769789,Bot - Cambiando parámetros en fichas de personas,{{Ficha de escritor\n|Imagen = NE...
2,Poldy Bird,4477192,108610182,2018-06-11T04:34:41Z,,,,{{Ficha de persona\n| padres = Enrique Bird Mo...
3,Ana María Shua,423422,108670781,2018-06-13T18:50:17Z,SeroBOT,4980693,Revertidos los cambios de [[Special:Contributi...,{{Ficha de persona\n|imagen=\n|nombre de nacim...
4,León Benarós,4284479,107379800,2018-04-29T21:49:56Z,MetroBot,1904196,Bot: retirando categoría. [[Wikipedia:Consulta...,{{Ficha de persona\n|nombre = León B...
...,...,...,...,...,...,...,...,...
634,Humberto Tejera,7887761,109126317,2018-07-06T17:07:38Z,Invadibot,1906661,Bot: [[m:User:Invadibot/scope#eswiki|8]] - Est...,{{Ficha de persona\n| nombre = Humberto Tejera...
635,Mario Molina Cruz,8440353,109468905,2018-07-23T14:27:14Z,BOT-Superzerocool,42845,[BOT] Artículos en desarrollo pero sin edicion...,{{Ficha de escritor\n|nombre= Mario Molina Cru...
636,Luis Ignacio Helguera,6449649,107708539,2018-05-11T14:19:35Z,Carlosmg.dg,2245970,Detalles y optimizo ficha.,{{Ficha de persona\n| nombre = Luis Ignacio He...
637,Daniel Olivares Viniegra,8528770,109413118,2018-07-20T21:56:20Z,MiguelAlanCS,495674,,{{Promocional|8|julio}}\n\n'''Daniel Olivares ...


In [None]:
# Podemos ver que efectivamente era necesario checar si habia nulos en los elementos Contributor, Contributor ID y Comment
# Me percate de esto al ejecutar el codigo y ver el error que decia que un objeto 'NoneType' no tiene atributo 'text'
null_counteo = df_original.isna().sum()
print(null_counteo)

Title              0
Page ID            0
Revision ID        0
Timestamp          0
Contributor       86
Contributor ID    86
Comment           93
Text               0
dtype: int64


In [None]:
df_original.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 639 entries, 0 to 638
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Title           639 non-null    object
 1   Page ID         639 non-null    object
 2   Revision ID     639 non-null    object
 3   Timestamp       639 non-null    object
 4   Contributor     553 non-null    object
 5   Contributor ID  553 non-null    object
 6   Comment         546 non-null    object
 7   Text            639 non-null    object
dtypes: object(8)
memory usage: 40.1+ KB


Algunas pequeñas modificaciones que se me ocurrieron hacer fue poner a la columna PAGE_ID como indice y cambiar el tipo de dato de la columna Timestamp de object a datetime.

In [None]:
# Hacemos una copia del dataframe original
df = df_original

# Cambiamos el tipo de dato de la columna Timestamp a datatime
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

# Asginamos la columna Page ID como nuevo indice
df = df.set_index('Page ID')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 639 entries, 4949229 to 8547651
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype              
---  ------          --------------  -----              
 0   Title           639 non-null    object             
 1   Revision ID     639 non-null    object             
 2   Timestamp       639 non-null    datetime64[ns, UTC]
 3   Contributor     553 non-null    object             
 4   Contributor ID  553 non-null    object             
 5   Comment         546 non-null    object             
 6   Text            639 non-null    object             
dtypes: datetime64[ns, UTC](1), object(6)
memory usage: 39.9+ KB


In [None]:
df

Unnamed: 0_level_0,Title,Revision ID,Timestamp,Contributor,Contributor ID,Comment,Text
Page ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
4949229,Julia Morilla de Campbell,102979192,2017-10-30 07:46:11+00:00,InternetArchiveBot,4704851,Rescatando referencia 1 y marcando 0 como roto...,'''Julia Morilla de Campbell''' ([[Rosario (Ar...
5105749,Luis Negreti,93686970,2016-09-17 17:35:26+00:00,NinoBot,3769789,Bot - Cambiando parámetros en fichas de personas,{{Ficha de escritor\n|Imagen = NE...
4477192,Poldy Bird,108610182,2018-06-11 04:34:41+00:00,,,,{{Ficha de persona\n| padres = Enrique Bird Mo...
423422,Ana María Shua,108670781,2018-06-13 18:50:17+00:00,SeroBOT,4980693,Revertidos los cambios de [[Special:Contributi...,{{Ficha de persona\n|imagen=\n|nombre de nacim...
4284479,León Benarós,107379800,2018-04-29 21:49:56+00:00,MetroBot,1904196,Bot: retirando categoría. [[Wikipedia:Consulta...,{{Ficha de persona\n|nombre = León B...
...,...,...,...,...,...,...,...
7887761,Humberto Tejera,109126317,2018-07-06 17:07:38+00:00,Invadibot,1906661,Bot: [[m:User:Invadibot/scope#eswiki|8]] - Est...,{{Ficha de persona\n| nombre = Humberto Tejera...
8440353,Mario Molina Cruz,109468905,2018-07-23 14:27:14+00:00,BOT-Superzerocool,42845,[BOT] Artículos en desarrollo pero sin edicion...,{{Ficha de escritor\n|nombre= Mario Molina Cru...
6449649,Luis Ignacio Helguera,107708539,2018-05-11 14:19:35+00:00,Carlosmg.dg,2245970,Detalles y optimizo ficha.,{{Ficha de persona\n| nombre = Luis Ignacio He...
8528770,Daniel Olivares Viniegra,109413118,2018-07-20 21:56:20+00:00,MiguelAlanCS,495674,,{{Promocional|8|julio}}\n\n'''Daniel Olivares ...


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición.

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.