<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [1]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [2]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


/Users/brayan/Downloads/descargando_datos


In [4]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [5]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)  
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)
    
    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)  

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal, 
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente) 

        """ 
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos. 

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente. 

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [6]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json 

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [7]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,1,0,8,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,353,29,109,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,4,0,19,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,19,1,99,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,11,5,39,main


Y si nos fijamos `owner` es un diccionario, por lo que es necesario obtener su información en forma `tidy` (por cada columna un artibuto y por cada renglon una instancia), lo que haremos de la siguiente forma:

In [8]:
df_r = pd.json_normalize(
    df_repos.to_dict(orient="records")
)
df_r.head(5)

Unnamed: 0,id,node_id,name,full_name,private,html_url,description,fork,url,forks_url,...,owner.received_events_url,owner.type,owner.user_view_type,owner.site_admin,license.key,license.name,license.spdx_id,license.url,license.node_id,license
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,https://api.github.com/repos/google/.allstar/f...,...,https://api.github.com/users/google/received_e...,Organization,public,False,apache-2.0,Apache License 2.0,Apache-2.0,https://api.github.com/licenses/apache-2.0,MDc6TGljZW5zZTI=,
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,https://api.github.com/repos/google/.github/forks,...,https://api.github.com/users/google/received_e...,Organization,public,False,,,,,,
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,https://api.github.com/repos/google/0x0g-2018-...,...,https://api.github.com/users/google/received_e...,Organization,public,False,apache-2.0,Apache License 2.0,Apache-2.0,https://api.github.com/licenses/apache-2.0,MDc6TGljZW5zZTI=,
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,https://api.github.com/repos/google/aarch64-es...,...,https://api.github.com/users/google/received_e...,Organization,public,False,apache-2.0,Apache License 2.0,Apache-2.0,https://api.github.com/licenses/apache-2.0,MDc6TGljZW5zZTI=,
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,https://api.github.com/repos/google/aarch64-pa...,...,https://api.github.com/users/google/received_e...,Organization,public,False,other,Other,NOASSERTION,,MDc6TGljZW5zZTA=,


In [9]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  14 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [10]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: { ', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características. 

In [25]:
# Cargar los datos JSON

ruta = "./data/desaparecidos_nacional.json"

with open(ruta, "r", encoding="utf-8") as f:
    data = json.load(f)

In [26]:
#Ahora revisamos su estructura:
type(data), data.keys()

(dict,
 dict_keys(['totales', 'espacial', 'anual', 'mensual_ultimo_anio', 'por_edad', 'por_nacionalidad']))

In [27]:
# Inspeccionar la estructura interna
pd.json_normalize(data)

Unnamed: 0,totales.PorcentajeDesaparecidos,totales.PorcentajeLocalizados,totales.PorcentajeLocalizadosCV,totales.PorcentajeLocalizadosSV,totales.PorcentajeSoloDesaparecidos,totales.PorcentajeSoloNoLocalizados,totales.TotalDesaparecidos,totales.TotalGlobal,totales.TotalLocalizados,totales.TotalLocalizadosCV,...,por_nacionalidad.Mujeres.SALVADORENA,por_nacionalidad.Mujeres.SE DESCONOCE,por_nacionalidad.Mujeres.SIN NACIONALIDAD DE REFERENCIA,por_nacionalidad.Mujeres.SLOVAKO,por_nacionalidad.Mujeres.SUECA,por_nacionalidad.Mujeres.SUIZA,por_nacionalidad.Mujeres.TURCA,por_nacionalidad.Mujeres.UKRANIANA,por_nacionalidad.Mujeres.URUGUAYA,por_nacionalidad.Mujeres.VENEZOLANA
0,40.61,59.39,93.39,6.61,90.57,9.43,90223,222181,131958,123230,...,60,3583,4262,0,0,0,1,2,1,21


In [28]:
for k in data:
    print(k, type(data[k]))

totales <class 'dict'>
espacial <class 'dict'>
anual <class 'dict'>
mensual_ultimo_anio <class 'dict'>
por_edad <class 'dict'>
por_nacionalidad <class 'dict'>


In [29]:
df_estado.columns


Index(['AGUASCALIENTES', 'BAJA CALIFORNIA', 'BAJA CALIFORNIA SUR', 'CAMPECHE',
       'CHIAPAS', 'CHIHUAHUA', 'CIUDAD DE MEXICO', 'COAHUILA', 'COLIMA',
       'DURANGO', 'ESTADO DE MEXICO', 'GUANAJUATO', 'GUERRERO', 'HIDALGO',
       'JALISCO', 'MICHOACAN ', 'MORELOS', 'NAYARIT', 'NUEVO LEON', 'OAXACA',
       'PUEBLA', 'QUERETARO ', 'QUINTANA ROO', 'SAN LUIS POTOSI',
       'SE DESCONOCE', 'SINALOA', 'SONORA', 'TABASCO', 'TAMAULIPAS',
       'TLAXCALA', 'VERACRUZ ', 'YUCATAN', 'ZACATECAS'],
      dtype='object')

### 1er Dataframe: DF por ESTADO

In [33]:
import re

# ---------- 1) DATAFRAME POR ESTADO (totales) ----------
esp = data.get("espacial", {})

def df_por_estado_desde_esp(esp_dict):
    """
    Devuelve un DataFrame con columnas ['estado', 'total_desaparecidos'].
    Maneja:
      - esp_dict = {estado: numero}
      - esp_dict = {estado: {subk: val, ...}}
      - esp_dict = {metric: {estado: val, ...}} (transpuesto)
    """
    # Caso A: valores directos (estado -> número)
    sample_values = list(esp_dict.values())[:5]
    if all(not isinstance(v, dict) for v in sample_values):
        rows = [{"estado": k, "total_desaparecidos": v} for k, v in esp_dict.items()]
        df = pd.DataFrame(rows)
        df["total_desaparecidos"] = pd.to_numeric(df["total_desaparecidos"], errors="coerce")
        return df.sort_values("total_desaparecidos", ascending=False).reset_index(drop=True)

    # Caso B o C: los valores son dicts.
    # Construimos un DataFrame intermedio orient='index' (cada clave del dict -> fila)
    df_mid = pd.DataFrame.from_dict(esp_dict, orient="index")
    # Si las columnas parecen ser estados (mayúsculas y nombre largo), significa que está transpuesto:
    cols = list(df_mid.columns)
    # heurística: si la mayoría de columnas son nombres en mayúscula o contienen espacios (p.e. "SONORA", "JALISCO")
    n_cols = len(cols)
    if n_cols > 1 and sum(1 for c in cols if isinstance(c, str) and re.search(r"[A-ZÁÉÍÓÚÑ]{2,}", c)) / n_cols > 0.4:
        # df_mid: index = métricas, columns = estados --> necesitamos la fila 'total' (o similar)
        # Buscamos fila que contenga 'tot' en su nombre (TOTAL, Totales, total, etc.)
        candidate_rows = [idx for idx in df_mid.index if re.search(r"tot", str(idx), re.I)]
        if candidate_rows:
            serie_total = df_mid.loc[candidate_rows[0]]
        else:
            # Si no hay fila 'total', sumamos filas numéricas para obtener totales por estado
            serie_total = df_mid.select_dtypes(include=["number"]).sum(axis=0)
        df_final = serie_total.reset_index()
        df_final.columns = ["estado", "total_desaparecidos"]
        df_final["total_desaparecidos"] = pd.to_numeric(df_final["total_desaparecidos"], errors="coerce")
        return df_final.sort_values("total_desaparecidos", ascending=False).reset_index(drop=True)
    else:
        # Caso B: df_mid index = estados, columns = métricas -> buscamos columna 'total' dentro
        # Renombramos índice a 'estado' y seguimos
        df_mid = df_mid.reset_index().rename(columns={"index": "estado"})
        # Buscamos la columna más probable que represente totales
        candidate_cols = [c for c in df_mid.columns if re.search(r"tot|cant|total|desaparecid", str(c), re.I)]
        if candidate_cols:
            col_total = candidate_cols[0]
            df_res = df_mid[["estado", col_total]].rename(columns={col_total: "total_desaparecidos"})
            df_res["total_desaparecidos"] = pd.to_numeric(df_res["total_desaparecidos"], errors="coerce")
            return df_res.sort_values("total_desaparecidos", ascending=False).reset_index(drop=True)
        else:
            # Si no encontramos columna obvia, intentamos tomar la suma de todas las columnas numéricas por fila
            numeric = df_mid.select_dtypes(include=["number"])
            if not numeric.empty:
                df_mid["total_desaparecidos"] = numeric.sum(axis=1)
                df_res = df_mid[["index", "total_desaparecidos"]].rename(columns={"index": "estado"})
                return df_res.sort_values("total_desaparecidos", ascending=False).reset_index(drop=True)
            else:
                # último recurso: convertir todos los valores no-nulos a string y no perder datos
                df_mid["total_desaparecidos"] = None
                df_res = df_mid[["index", "total_desaparecidos"]].rename(columns={"index": "estado"})
                return df_res

# Crear df por estado
df_estado = df_por_estado_desde_esp(esp)
print("df_estado creado. Shape:", df_estado.shape)
display(df_estado.head(12))

df_estado creado. Shape: (33, 2)


Unnamed: 0,estado,total_desaparecidos
0,ESTADO DE MEXICO,39782
1,JALISCO,20450
2,TAMAULIPAS,17030
3,GUANAJUATO,15093
4,CHIHUAHUA,12322
5,SINALOA,10659
6,CIUDAD DE MEXICO,10491
7,PUEBLA,9376
8,NUEVO LEON,9040
9,YUCATAN,6832


### 2do DataFrame: DF por EDAD

In [34]:
# ---------- 2) DATAFRAME POR EDAD ----------
pe = data.get("por_edad", {})

def df_por_clave_simple(mapping, key_name="clave", val_name="total"):
    """Convierte dict (posiblemente anidado) a DataFrame (clave, total)."""
    if isinstance(mapping, dict):
        # si los valores son dicts, tratamos de extraer un número dentro
        sample_vals = list(mapping.values())[:5]
        if all(not isinstance(v, dict) for v in sample_vals):
            df = pd.DataFrame([(k, v) for k, v in mapping.items()], columns=[key_name, val_name])
            df[val_name] = pd.to_numeric(df[val_name], errors="coerce")
            return df.sort_values(val_name, ascending=False).reset_index(drop=True)
        else:
            # por si mapping = {rango: {"total": n, ...}}
            rows = []
            for k, v in mapping.items():
                if isinstance(v, dict):
                    # buscar campo numérico en el dict (total, cantidad, valor)
                    cand = None
                    for ck in v:
                        if re.search(r"tot|cant|val|número|num", str(ck), re.I):
                            cand = ck
                            break
                    if cand is None:
                        # tomar la primera columna numérica
                        num_cols = [ck for ck, cv in v.items() if isinstance(cv, (int, float))]
                        cand = num_cols[0] if num_cols else None
                    val = v.get(cand) if cand else None
                else:
                    val = v
                rows.append((k, val))
            df = pd.DataFrame(rows, columns=[key_name, val_name])
            df[val_name] = pd.to_numeric(df[val_name], errors="coerce")
            return df.sort_values(val_name, ascending=False).reset_index(drop=True)
    else:
        # fallback usando json_normalize
        df = pd.json_normalize(mapping)
        return df

df_por_edad = df_por_clave_simple(pe, key_name="rango_edad", val_name="total")
print("df_por_edad creado. Shape:", df_por_edad.shape)
display(df_por_edad.head(15))

df_por_edad creado. Shape: (3, 2)


Unnamed: 0,rango_edad,total
0,Hombres,1387
1,Mujeres,1236
2,Indeterminado,2


### 3er DataFrame: DF por NACIONALIDAD

In [38]:
# Renombrar columna index correctamente
df_nac = df_nac.rename(columns={"index": "nacionalidad"})

# Quedarnos solo con lo que nos interesa
df_nac = df_nac[["nacionalidad", "total"]]

# Renombrar total
df_nac = df_nac.rename(columns={"total": "total_desaparecidos"})

# Ordenar por frecuencia
df_nac = df_nac.sort_values("total_desaparecidos", ascending=False)

df_nac.head(15)


Unnamed: 0,nacionalidad,total_desaparecidos
49,MEXICANA,199078
62,SE DESCONOCE,13156
63,SIN NACIONALIDAD DE REFERENCIA,7608
26,ESTADOUNIDENSE,826
35,HONDUREÑA,402
31,GUATEMALTECA,296
61,SALVADORENA,162
15,COLOMBIANA,157
19,CUBANA,48
53,NICARAGUENSE,48


# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos. 

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [39]:
import xml.etree.ElementTree as et 

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " + 
      ", ".join([p.text for p in desayunos.findall("food/name")]))

# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.

Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


# ¿Como se podría poner esta información en un DataFrame de `pandas`?

El archivo XML tiene una estructura jerárquica donde el nodo raíz contiene múltiples nodos 'food', y cada uno posee etiquetas internas como 'name', 'price', 'description' y 'calories'.

Para convertir estos datos en un DataFrame se recorren todos los nodos 'food' y se extrajeron sus propiedades en forma de diccionario. Cada diccionario representa una fila, y posteriormente se usa pd.DataFrame() para transformar la lista de diccionarios en una tabla estructurada.

In [50]:
root = desayunos.getroot()

registros = []

for food in root:
    fila = {}
    for prop in food:
        fila[prop.tag] = prop.text.strip()
    registros.append(fila)

df = pd.DataFrame(registros)
df.head()

Unnamed: 0,name,price,description,calories
0,Belgian Waffles,$5.95,Two of our famous Belgian Waffles with plenty ...,650
1,Strawberry Belgian Waffles,$7.95,Light Belgian waffles covered with strawberrie...,900
2,Berry-Berry Belgian Waffles,$8.95,Belgian waffles covered with assorted fresh be...,900
3,French Toast,$4.50,Thick slices made from our homemade sourdough ...,600
4,Homestyle Breakfast,$6.95,"Two eggs, bacon or sausage, toast, and our eve...",950


# Descargando páginas de Wikipedia

Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación en python](https://www.mediawiki.org/wiki/Manual:Pywikibot) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada).

Para descargar los datos de wikipedia, vamos a hacer un uso de la [API de Mediawiki](https://es.wikipedia.org/w/api.php). Utilizando el módulo `requests` de python, podemos hacer una consulta a la API y obtener los datos en formato json. Más adelante vamos a hablar más sobre el uso de APIs para obtención de información.

Primero definamos dos funciones, una para consultar el listado de entradas particulares de Wikipedia, y otra para descargar la información necesaria.

In [40]:
import requests

# URL de la API de MediaWiki de Wikipedia en español
API_URL = "https://es.wikipedia.org/w/api.php"

# Cabecera para identificar nuestra aplicación (buena práctica)
HEADERS = {
    'User-Agent': 'WikiXMLPseudoDump/1.0 (julio.waissman@unison.mx)'
}

def get_page_titles(category_title):
    """Obtiene la lista de títulos de páginas de una categoría."""
    titles = []
    cmcontinue = None 
    while True:
        params = {
            "action": "query",
            "format": "json",
            "list": "categorymembers",
            "cmtitle": category_title,
            "cmlimit": "500",  # El límite máximo por petición
            "cmcontinue": cmcontinue
        }     
        response = requests.get(API_URL, params=params, headers=HEADERS)
        data = response.json()
        
        for member in data['query']['categorymembers']:
            titles.append(member['title'])           
        if 'continue' in data:
            cmcontinue = data['continue']['cmcontinue']
        else:
            break           
    return titles

def get_page_content_in_xml(page_titles):
    """Obtiene el contenido de las páginas en formato XML."""
    params = {
        "action": "query",
        "format": "xml",
        "prop": "revisions",
        "rvprop": "content",
        "rvslots": "main",
        "titles": "|".join(page_titles)
    }
    response = requests.get(API_URL, params=params, headers=HEADERS)
    return response.content


Ahora usamos las funciones para obtener una lista de poetas argentinos, cada uno en formato `xml`:

In [41]:
categoria = "Poetas de Argentina"
    
print(f"Obteniendo la lista de entradas de '{categoria}'...")
titles = get_page_titles('Categoría:'+categoria)

print(f"Se encontraron {len(titles)} entradas.")
if not titles:
  raise ValueError("No se encontraron páginas en la categoría especificada.")

batch_size = 50 # Lote de títulos para la segunda petición (máximo 50)
all_xml_data = []

for i in range(0, len(titles), batch_size):
  batch_titles = titles[i:i + batch_size]
  xml_content = get_page_content_in_xml(batch_titles)
  all_xml_data.append(xml_content)
  print(f"Procesadas entradas {i + 1} a {i + batch_size} de {len(titles)}")

Obteniendo la lista de entradas de 'Poetas de Argentina'...
Se encontraron 9 entradas.
Procesadas entradas 1 a 50 de 9


Y ahora las juntamos en un solo documento xml y lo guardamos como archivo:

In [42]:
# Combinar todos los XML en un solo archivo
root = et.Element(categoria.lower().replace(" ", "_"))
for xml_data in all_xml_data:
  # El contenido XML de la API tiene un elemento <api> y dentro <query>, que necesitamos para el contenido
  api_root = et.fromstring(xml_data)
  query_element = api_root.find('query')
  if query_element:
    # Los elementos <page> son los que contienen la información de cada poeta
    for page_element in query_element.findall('pages/page'):
      root.append(page_element)
tree = et.ElementTree(root)

# Guardamos en un archivo con el mismo nombre que la categoría (con .xml)
output_filename = categoria.lower().replace(" ", "_") + ".xml"
with open(output_filename, "wb") as f:
      # Escribe el XML completo al archivo
        tree.write(f, encoding='utf-8', xml_declaration=True)
        print(f"\nArchivo '{output_filename}' creado exitosamente con la información completa.")


Archivo 'poetas_de_argentina.xml' creado exitosamente con la información completa.


Y ahora vamos a ver como leer el archivo `xml` y listar el nombre de los poetas

In [43]:
poetas = et.parse(output_filename)
for poeta in poetas.getroot():
    print(poeta.attrib['title'])

Mana Muscarsel Isla
Mario Dobry
Niní Bernardello
Usuaria discusión:Soylacarli/Archivo 3
Categoría:Poetas LGBT de Argentina
Categoría:Poetas de Argentina por provincia
Categoría:Poetas de Argentina por sexo
Categoría:Poetas de Argentina por siglo
Categoría:Recitadores de Argentina


### Ejercicio

Entender la estructura del archivo `xml` de poetas, hacer un query de otro tema que consideren interesante y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

### Entendiendo la estructura del XML de poetas

### Nuevo Query: categoría Científicos de México
Solo hay que cambiar la variable 'categoría' y lo demás se queda igual:

In [44]:
categoria = "Científicos de México"

print(f"Obteniendo la lista de entradas de '{categoria}'...")
titles = get_page_titles('Categoría:'+categoria)

print(f"Se encontraron {len(titles)} entradas.")
if not titles:
  raise ValueError("No se encontraron páginas en la categoría especificada.")

batch_size = 50 # Lote de títulos para la segunda petición (máximo 50)
all_xml_data = []

for i in range(0, len(titles), batch_size):
  batch_titles = titles[i:i + batch_size]
  xml_content = get_page_content_in_xml(batch_titles)
  all_xml_data.append(xml_content)
  print(f"Procesadas entradas {i + 1} a {i + batch_size} de {len(titles)}")

Obteniendo la lista de entradas de 'Científicos de México'...
Se encontraron 85 entradas.
Procesadas entradas 1 a 50 de 85
Procesadas entradas 51 a 100 de 85


In [45]:
# Combinar todos los XML en un solo archivo
root = et.Element(categoria.lower().replace(" ", "_"))
for xml_data in all_xml_data:
  # El contenido XML de la API tiene un elemento <api> y dentro <query>, que necesitamos para el contenido
  api_root = et.fromstring(xml_data)
  query_element = api_root.find('query')
  if query_element:
    # Los elementos <page> son los que contienen la información de cada poeta
    for page_element in query_element.findall('pages/page'):
      root.append(page_element)
tree = et.ElementTree(root)

# Guardamos en un archivo con el mismo nombre que la categoría (con .xml)
output_filename = categoria.lower().replace(" ", "_") + ".xml"
with open(output_filename, "wb") as f:
      # Escribe el XML completo al archivo
        tree.write(f, encoding='utf-8', xml_declaration=True)
        print(f"\nArchivo '{output_filename}' creado exitosamente con la información completa.")


Archivo 'científicos_de_méxico.xml' creado exitosamente con la información completa.


In [46]:
cientificos = et.parse(output_filename)
for cientifico in cientificos.getroot():
    print(cientifico.attrib['title'])

Alejandro Hernández Cárdenas
Alejandro Madrigal
Alexander Balankin
Anatolio Hernández
Andrés Eloy Martínez
Arturo Molina Gutiérrez
Arturo Montero
Arturo Reyes-Sandoval
Carlos Castillo-Chavez
Constantino de Tárnava
Cándido Bolívar Pieltáin
Daniel Lluch Belda
Darío Fernández Fierro
Edmundo Calva Cuadrilla
Emilio Muñoz Sandoval
Enrique Calderón Alzati
Federico Javier Ortiz Ibarra
Fernando J. Rosales Juárez
Francisco Javier Estrada Murguía
Francisco Montes de Oca
Gabriel Merino
George Rosenkranz
Germán Martínez Hidalgo
Guillermo Ulises Ruiz-Esparza
Horacio Astudillo de la Vega
Héctor García Molina
Ismael Cosío Villegas
Jacobo Grinberg
Jaime González Cano
Jesús González Ortega (botánico)
Joaquín Dondé Ibarra
José Horacio Gómez
José Manuel Herrera Olvera
José Martín Espinosa de los Monteros
José María Cantú Garza
José Rubén Morones Ramírez
Juan Luis Cifuentes Lemus
Leonardo López Luján
Leonardo Oliva de Álzaga
Manuel Martínez Fernández
Mauricio Terrones Maldonado
Pavel A. Ritto
Pilar Calveir

### Crear un DataFrame desde el XML de científicos mexicanos

In [49]:
# Cargar el XML
archivo = "científicos_de_méxico.xml"   # o poetas_de_argentina.xml
tree = et.parse(archivo)
root = tree.getroot()

registros = []

for page in root:
    nombre = page.attrib.get("title")
    pageid = page.attrib.get("pageid")
    
    # Extraer texto del artículo
    rev = page.find("revisions/rev")
    texto = rev.text if (rev is not None and rev.text is not None) else ""
    
    registros.append({
        "nombre": nombre,
        "pageid": pageid,
        "longitud_texto": len(texto),
        "menciona_unam": "UNAM" in texto.upper(),
        "menciona_ipn": "IPN" in texto.upper(),
        "menciona_unison": "UNISON" in texto.upper()
    })

# Crear DataFrame
df = pd.DataFrame(registros)

df.head()


Unnamed: 0,nombre,pageid,longitud_texto,menciona_unam,menciona_ipn,menciona_unison
0,Alejandro Hernández Cárdenas,10434589,0,False,False,False
1,Alejandro Madrigal,4923670,0,False,False,False
2,Alexander Balankin,1456618,0,False,False,False
3,Anatolio Hernández,10066514,0,False,False,False
4,Andrés Eloy Martínez,11023409,0,False,False,False


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de cálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente (esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición. 

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.