<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [None]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [None]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


In [None]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)  
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)
    
    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)  

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal, 
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente) 

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos. 

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente. 

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [None]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json 

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [None]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

In [None]:
df_repos.info()

y ahora como le hacemos con la biblioteca de `json`

In [None]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")


### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características. 

# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos. 

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [None]:
import xml.etree.ElementTree as et 

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " + 
      ", ".join([p.text for p in desayunos.findall("food/name")]))

# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada).

Para descargar los datos de wikipedia, vamos a hacer un uso de la [API de Mediawiki](https://es.wikipedia.org/w/api.php). Utilizando el módulo `requests` de python, podemos hacer una consulta a la API y obtener los datos en formato json. Más adelante vamos a hablar más sobre el uso de APIs para obtención de información.

Primero definamos dos funciones, una para consultar el listado de entradas particulares de Wikipedia, y otra para descargar la información necesaria.

In [None]:
import requests

# URL de la API de MediaWiki de Wikipedia en español
API_URL = "https://es.wikipedia.org/w/api.php"

# Cabecera para identificar nuestra aplicación (buena práctica)
HEADERS = {
    'User-Agent': 'WikiXMLPseudoDump/1.0 (julio.waissman@unison.mx)'
}

def get_page_titles(category_title):
    """Obtiene la lista de títulos de páginas de una categoría."""
    titles = []
    cmcontinue = None 
    while True:
        params = {
            "action": "query",
            "format": "json",
            "list": "categorymembers",
            "cmtitle": category_title,
            "cmlimit": "500",  # El límite máximo por petición
            "cmcontinue": cmcontinue
        }     
        response = requests.get(API_URL, params=params, headers=HEADERS)
        data = response.json()
        
        for member in data['query']['categorymembers']:
            titles.append(member['title'])           
        if 'continue' in data:
            cmcontinue = data['continue']['cmcontinue']
        else:
            break           
    return titles

def get_page_content_in_xml(page_titles):
    """Obtiene el contenido de las páginas en formato XML."""
    params = {
        "action": "query",
        "format": "xml",
        "prop": "revisions",
        "rvprop": "content",
        "rvslots": "main",
        "titles": "|".join(page_titles)
    }
    response = requests.get(API_URL, params=params, headers=HEADERS)
    return response.content


Ahora usamos las funciones para obtener una lista de poetas argentinos, cada uno en formato `xml`:

In [None]:
categoria = "Poetas de Argentina"
    
print(f"Obteniendo la lista de entradas de '{categoria}'...")
titles = get_page_titles('Categoría:'+categoria)

print(f"Se encontraron {len(titles)} entradas.")
if not titles:
  raise ValueError("No se encontraron páginas en la categoría especificada.")

batch_size = 50 # Lote de títulos para la segunda petición (máximo 50)
all_xml_data = []

for i in range(0, len(titles), batch_size):
  batch_titles = titles[i:i + batch_size]
  xml_content = get_page_content_in_xml(batch_titles)
  all_xml_data.append(xml_content)
  print(f"Procesadas entradas {i + 1} a {i + batch_size} de {len(titles)}")

Y ahora las juntamos en un solo documento xml y lo guardamos como archivo:

In [None]:
# Combinar todos los XML en un solo archivo
root = et.Element(categoria.lower().replace(" ", "_"))
for xml_data in all_xml_data:
  # El contenido XML de la API tiene un elemento <api> y dentro <query>, que necesitamos para el contenido
  api_root = et.fromstring(xml_data)
  query_element = api_root.find('query')
  if query_element:
    # Los elementos <page> son los que contienen la información de cada poeta
    for page_element in query_element.findall('pages/page'):
      root.append(page_element)
tree = et.ElementTree(root)

# Guardamos en un archivo con el mismo nombre que la categoría (con .xml)
output_filename = categoria.lower().replace(" ", "_") + ".xml"
with open(output_filename, "wb") as f:
      # Escribe el XML completo al archivo
        tree.write(f, encoding='utf-8', xml_declaration=True)
        print(f"\nArchivo '{output_filename}' creado exitosamente con la información completa.")

Y ahora vamos a ver como leer el archivo `xml` y listar el nombre de los poetas

In [None]:
poetas = et.parse(output_filename)
for poeta in poetas.getroot():
    print(poeta.attrib['title'])

### Ejercicio

Entender la estructura del archivo `xml` de poetas, hacer un query de otro tema que consideren interesante y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición. 

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.