<center>
<p><img src="https://mcd.unison.mx/wp-content/themes/awaken/img/logo_mcd.png" width="150">
</p>



# Curso *Ingeniería de Características*

### Descargando datos


<p> Julio Waissman Vilanova </p>
<p>
<img src="https://identidadbuho.unison.mx/wp-content/uploads/2019/06/letragrama-cmyk-72.jpg" width="150">
</p>


<a target="_blank" href="https://colab.research.google.com/github/mcd-unison/ing-caract/blob/main/ejemplos/integracion/python/descarga_datos.ipynb"><img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a>

</center>

# 1. Descargando datos a la fuerza bruta

Vamos a ver primero como ir descargando datos y luego como lidiar con diferentes formatos. Es muy importante que, si los datos los vamos a cargar por única vez, descargar el conjunto de datos, tal como se encuentran, esto es `raw data`.

Vamos primero cargando las bibliotecas necesarias:

In [1]:

import os  # Para manejo de archivos y directorios
import urllib.request # Una forma estandard de descargar datos
# import requests # Otra forma no de las librerías de uso comun

import datetime # Fecha de descarga
import pandas as pd # Solo para ver el archivo descargado
import zipfile # Descompresión de archivos

Es importante saber en donde nos encontramos y crear los subdirectorios necesarios para guardar los datos de manera ordenada. Tambien es importante evitar cargar datos que ya han sido descargados anteriormente.

In [2]:
# pwd
print(os.getcwd())

#  Estos son los datos que vamos a descargar y donde vamos a guardarlos
desaparecidos_RNPDNO_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/d352810c-a22e-4d72-bb3b-33c742c799dd/download/desaparecidos3ago.zip"
desaparecidos_RNPDNO_archivo = "desaparecidosRNPDNO.zip"
desaparecidos_corte_nacional_url = "http://www.datamx.io/dataset/fdd2ca20-ee70-4a31-9bdf-823f3c1307a2/resource/4865e244-cf59-4d39-b863-96ed7f45cc70/download/nacional.json"
desaparecidos_corte_nacional_archivo = "desaparecidos_nacional.json"
subdir = "./data/"


c:\Users\Rodolfo Jaramillo\Documents\IngCaract\tareas


In [3]:
if not os.path.exists(desaparecidos_RNPDNO_archivo):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(desaparecidos_RNPDNO_url, subdir + desaparecidos_RNPDNO_archivo)
    with zipfile.ZipFile(subdir + desaparecidos_RNPDNO_archivo, "r") as zip_ref:
        zip_ref.extractall(subdir)

    urllib.request.urlretrieve(desaparecidos_corte_nacional_url, subdir + desaparecidos_corte_nacional_archivo)

    with open(subdir + "info.txt", 'w') as f:
        f.write("Archivos sobre personas desaparecidas\n")
        info = """
        Datos de desaparecidos, corte nacional y desagregación a nivel estatal,
        por edad, por sexo, por nacionalidad, por año de desaparición y por mes
        de desaparición para los últimos 12 meses.

        Los datos se obtuvieron del RNPDNO con fecha de 03 de agosto de 2021
        (la base de datos no se ha actualizado últimamente)

        """
        f.write(info + '\n')
        f.write("Descargado el " + datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "\n")
        f.write("Desde: " + desaparecidos_RNPDNO_url + "\n")
        f.write("Nombre: " + desaparecidos_RNPDNO_archivo + "\n")
        f.write("Agregados nacionales descargados desde: " + desaparecidos_corte_nacional_url + "\n")
        f.write("Nombre: " + desaparecidos_corte_nacional_archivo + "\n")

# 2. Archivos en formato `json`

Los archivos en formato json son posiblemente los más utilizados actualmente para transferir información por internet, ya que se usa en prácticamente todas las REST API. Como acabamos de ver es normal tener que enfrentarse con archivos `json` pésimamente o nada documentados, por lo que es necesario saber como tratarlos.

Vamos a ver como se hace eso utilizando la bibloteca de `json`y la de `pandas`. Para `pandas`les recomiendo, si no lo conocen, de darle una vuelta a [la documentación y los tutoriales](https://pandas.pydata.org/docs/) que está muy bien hecha. O a el [curso básico de Kaggle](https://www.kaggle.com/learn/pandas).

Sobre `json`, posiblemente [la página con la especificación](https://www.json.org/json-en.html) sea más que suficiente.

Vamos a hacer un ejemplito sencillo y carismático revisando los repositorios de [github](https://github.com) y les voy a dejar que exploren los `json` de los archivos de personas desaparecidas.

In [4]:
import pandas as pd # Esto es como una segunda piel
import json # Una forma estandar de leer archivos json

archivo_url = "https://api.github.com/users/google/repos"
archivo_nombre = "repos-google.json"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


Vamos primero a ver como le hacemos con `pandas`

In [5]:
df_repos = pd.read_json(subdir + archivo_nombre)

df_repos.head()

Unnamed: 0,id,node_id,name,full_name,private,owner,html_url,description,fork,url,...,license,allow_forking,is_template,web_commit_signoff_required,topics,visibility,forks,open_issues,watchers,default_branch
0,460600860,R_kgDOG3Q2HA,.allstar,google/.allstar,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.allstar,,False,https://api.github.com/repos/google/.allstar,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,3,1,6,main
1,170908616,MDEwOlJlcG9zaXRvcnkxNzA5MDg2MTY=,.github,google/.github,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/.github,default configuration for @google repos,False,https://api.github.com/repos/google/.github,...,,True,False,False,[],public,225,14,81,master
2,143044068,MDEwOlJlcG9zaXRvcnkxNDMwNDQwNjg=,0x0g-2018-badge,google/0x0g-2018-badge,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/0x0g-2018-badge,,False,https://api.github.com/repos/google/0x0g-2018-...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[],public,8,0,18,master
3,424674738,R_kgDOGVAFsg,aarch64-esr-decoder,google/aarch64-esr-decoder,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-esr-decoder,A utility for decoding aarch64 ESR register va...,False,https://api.github.com/repos/google/aarch64-es...,...,"{'key': 'apache-2.0', 'name': 'Apache License ...",True,False,False,[aarch64],public,17,0,39,main
4,487987687,R_kgDOHRYZ5w,aarch64-paging,google/aarch64-paging,False,"{'login': 'google', 'id': 1342004, 'node_id': ...",https://github.com/google/aarch64-paging,A Rust library to manipulate AArch64 VMSA EL1 ...,False,https://api.github.com/repos/google/aarch64-pa...,...,"{'key': 'other', 'name': 'Other', 'spdx_id': '...",True,False,False,"[aarch64, pagetable, rust, rust-crate, vmsa]",public,5,1,14,main


In [6]:
df_repos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 79 columns):
 #   Column                       Non-Null Count  Dtype              
---  ------                       --------------  -----              
 0   id                           30 non-null     int64              
 1   node_id                      30 non-null     object             
 2   name                         30 non-null     object             
 3   full_name                    30 non-null     object             
 4   private                      30 non-null     bool               
 5   owner                        30 non-null     object             
 6   html_url                     30 non-null     object             
 7   description                  14 non-null     object             
 8   fork                         30 non-null     bool               
 9   url                          30 non-null     object             
 10  forks_url                    30 non-null     object 

y ahora como le hacemos con la biblioteca de `json`

In [7]:
with open(subdir + archivo_nombre, 'r') as fp:
    repos = json.load(fp)

print(f"\nNúmero de entradas: {len(repos)}")
print(f"\nNombre de los atributos: {', '.join(repos[0].keys())}")
print(f"\nAtributos de 'owner': {', '.join(repos[0]['owner'].keys())}")



Número de entradas: 30

Nombre de los atributos: id, node_id, name, full_name, private, owner, html_url, description, fork, url, forks_url, keys_url, collaborators_url, teams_url, hooks_url, issue_events_url, events_url, assignees_url, branches_url, tags_url, blobs_url, git_tags_url, git_refs_url, trees_url, statuses_url, languages_url, stargazers_url, contributors_url, subscribers_url, subscription_url, commits_url, git_commits_url, comments_url, issue_comment_url, contents_url, compare_url, merges_url, archive_url, downloads_url, issues_url, pulls_url, milestones_url, notifications_url, labels_url, releases_url, deployments_url, created_at, updated_at, pushed_at, git_url, ssh_url, clone_url, svn_url, homepage, size, stargazers_count, watchers_count, language, has_issues, has_projects, has_downloads, has_wiki, has_pages, has_discussions, forks_count, mirror_url, archived, disabled, open_issues_count, license, allow_forking, is_template, web_commit_signoff_required, topics, visibility

### Ejercicio

Utiliza los archivos `json` descargados con el detalle a nivel estatal, y genera unos 3 `DataFrame` con información sobre personas desaparecidas dependiendo de diferentes características.

In [8]:
#Dataframe de personas privadas de la libertad en la calle por personas armadas

with open('data\datos_procesados\circunstancias\\5.json', 'r') as f:
    data = json.load(f)

df_data = {}    #Diccionario donde se va a vertir los datos de la etiqueta 'espacial'
for genero, estados in data['espacial'].items():    # Por genero
    for estado, valor in estados.items():           # se vierte la información por estado
        if estado not in df_data:                   #Si el estado no ha sido agregado se agrega
            df_data[estado] = {'Estado': estado}
        df_data[estado][genero] = valor


personas_armadas_calle = pd.DataFrame(list(df_data.values()))
personas_armadas_calle

Unnamed: 0,Estado,Hombre,Indeterminado,Mujer
0,BAJA CALIFORNIA,6,0,0
1,BAJA CALIFORNIA SUR,41,1,10
2,CHIAPAS,3,0,3
3,CHIHUAHUA,6,0,2
4,CIUDAD DE MEXICO,11,0,2
5,COAHUILA,99,0,12
6,COLIMA,2,0,1
7,DURANGO,5,0,1
8,ESTADO DE MEXICO,14,0,4
9,GUANAJUATO,19,0,0


In [30]:
# Dataframe de personas privadas de la libertad en su domicilio por personas armadas
with open('data\datos_procesados\circunstancias\\12.json', 'r') as f:
    data = json.load(f)

df_data = {}    #Diccionario donde se va a vertir los datos de la etiqueta 'espacial'
for genero, estados in data['espacial'].items():    # Por genero
    for estado, valor in estados.items():           # se vierte la información por estado
        if estado not in df_data:                   #Si el estado no ha sido agregado se agrega
            df_data[estado] = {'Estado': estado}
        df_data[estado][genero] = valor

secuestro = pd.DataFrame(list(df_data.values()))
secuestro

Unnamed: 0,Estado,Hombre,Indeterminado,Mujer
0,BAJA CALIFORNIA,0,0,2
1,BAJA CALIFORNIA SUR,7,0,1
2,CHIHUAHUA,0,0,1
3,CIUDAD DE MEXICO,6,0,4
4,COAHUILA,1,0,1
5,COLIMA,0,0,1
6,DURANGO,4,0,2
7,ESTADO DE MEXICO,16,0,5
8,GUANAJUATO,1,0,1
9,GUERRERO,2,0,0


In [33]:
#Dataframe de personas privadas de la libertad en la calle por personas armadas

with open('data\datos_procesados\etnias\\0.json', 'r') as f:
    data = json.load(f)

df_data = {}    #Diccionario donde se va a vertir los datos de la etiqueta 'espacial'
for genero, estados in data['espacial'].items():    # Por genero
    for estado, valor in estados.items():           # se vierte la información por estado
        if estado not in df_data:                   #Si el estado no ha sido agregado se agrega
            df_data[estado] = {'Estado': estado}
        df_data[estado][genero] = valor


etnias = pd.DataFrame(list(df_data.values()))
etnias

Unnamed: 0,Estado,Hombre,Indeterminado,Mujer
0,AGUASCALIENTES,1848,3,2537
1,BAJA CALIFORNIA,2065,5,1938
2,BAJA CALIFORNIA SUR,582,2,214
3,CAMPECHE,243,0,504
4,CHIAPAS,1344,0,2060
5,CHIHUAHUA,8012,4,4306
6,CIUDAD DE MEXICO,5628,167,4695
7,COAHUILA,2964,2,1054
8,COLIMA,2047,2,1710
9,DURANGO,1610,1,1220


# 3. Archivos xml

Los archivos *xml* son una manera de compartir información a través de internet o de guardar información con formatos genéricos que sigue siendo muy utilizada hoy en día. En general lidiar con archivos xml es una pesadilla y se necesita explorarlos con calma y revisarlos bien antes de usarlos.

La definición del formato y su uso se puede revisar en [este tutorial de la w3schools](https://www.w3schools.com/xml/default.asp). Vamos a ver un ejemplo sencillo basado en la librería [xml.etree.ElementTree](https://docs.python.org/3/library/xml.etree.elementtree.html) que viene de base en python:


In [10]:
import xml.etree.ElementTree as et

archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/ejemplo.xml"
archivo_nombre = "ejemplito.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)


desayunos = et.parse(subdir + archivo_nombre)

for (i, des) in enumerate(desayunos.getroot()):
    print("Opción {}:".format(i+1))
    for prop in des:
        print("\t{}: {}".format(prop.tag, prop.text.strip()))

# Se puede buscar por etiquetas y subetiquetas

print("Los desayunos disponibles son: " +
      ", ".join([p.text for p in desayunos.findall("food/name")]))


Opción 1:
	name: Belgian Waffles
	price: $5.95
	description: Two of our famous Belgian Waffles with plenty of real maple syrup
	calories: 650
Opción 2:
	name: Strawberry Belgian Waffles
	price: $7.95
	description: Light Belgian waffles covered with strawberries and whipped cream
	calories: 900
Opción 3:
	name: Berry-Berry Belgian Waffles
	price: $8.95
	description: Belgian waffles covered with assorted fresh berries and whipped cream
	calories: 900
Opción 4:
	name: French Toast
	price: $4.50
	description: Thick slices made from our homemade sourdough bread
	calories: 600
Opción 5:
	name: Homestyle Breakfast
	price: $6.95
	description: Two eggs, bacon or sausage, toast, and our ever-popular hash browns
	calories: 950
Los desayunos disponibles son: Belgian Waffles, Strawberry Belgian Waffles, Berry-Berry Belgian Waffles, French Toast, Homestyle Breakfast


In [27]:
# ¿Como se podría poner esta información en un DataFrame de `pandas`?
# Agreguen tanto código como consideren necesario.

# Crear listas para almacenar los datos
menu = []

# Iterar a través de los elementos "food"
for food in desayunos.findall('food'):
    names = (food.find('name').text)
    prices = (food.find('price').text)
    descriptions = (food.find('description').text)
    calories = (food.find('calories').text)
    food_list = {
        'name': names,
        'price': prices,
        'description': descriptions,
        'calories': calories
    }
    menu.append(food_list)

menu_df = pd.DataFrame(menu)
menu_df


Unnamed: 0,name,price,description,calories
0,Belgian Waffles,$5.95,\n Two of our famous Belgian Waffles with pl...,650
1,Strawberry Belgian Waffles,$7.95,\n Light Belgian waffles covered with straw...,900
2,Berry-Berry Belgian Waffles,$8.95,\n Belgian waffles covered with assorted fr...,900
3,French Toast,$4.50,\n Thick slices made from our homemade sour...,600
4,Homestyle Breakfast,$6.95,"\n Two eggs, bacon or sausage, toast, and o...",950


Wikipedia es un buen ejemplo de un lugar donde la información se guarda y se descarga en forma de archivos xml. Por ejemplo, si queremos descargar datos de la wikipedia [con su herramienta de exportación](https://es.wikipedia.org/wiki/Especial:Exportar) utilizando [las categorias definidas por Wikipedia](https://es.wikipedia.org/wiki/Portal:Portada). Para hacerlo en forma programática es ecesario usar la [API de Mediawiki](https://github.com/mudroljub/wikipedia-api-docs) que veremos más adelante.

Por el momento descargemos unos datos de *wikipedia* y hagamos el ejercicio de tratar de entender la estructura del árbol.

In [36]:
archivo_url = "https://github.com/mcd-unison/ing-caract/raw/main/ejemplos/integracion/ejemplos/wikipedia-poetas.xml"
archivo_nombre = "poetas.xml"
subdir = "./data/"

if not os.path.exists(subdir + archivo_nombre):
    if not os.path.exists(subdir):
        os.makedirs(subdir)
    urllib.request.urlretrieve(archivo_url, subdir + archivo_nombre)

### Ejercicio

Entender la estructura del archivo `xml` de poetas y generar un `DataFrame` con la información más importante. No olvides de comentar tu código y explicar la estructura del archivo `xml`

In [55]:
#Para extraer el texto de la etiqueta <text...> se usarán expresiones regulares, aprovechando de la sección de ficha 'tecnica' 
import re

poetas = et.parse('data\poetas.xml')

# Todo el xml esta contenido dentro de la etiqueta <mediawiki...> y se usa el espacio de nombres adecuado para buscar en él
namespace = {'mw': 'http://www.mediawiki.org/xml/export-0.10/'}

#Diccionario de datos a extraer
poe = {'nombre': [],
       'nacionalidad':[],
       'fecha de nacimiento':[]}


#Se itera sobre cada <page> siendo cada una la pagina de wikipedia de un poeta
for page in poetas.getroot().findall('.//mw:page', namespaces=namespace):

    #Se extrae el titulo, que asumo siempre se referira al nombre del poeta
    title_element = page.find('mw:title', namespaces=namespace)
    if title_element is not None and title_element.text: #Si de casualidad no hay titulo o no hay contenido en el titulo se le asigna un None
        poe['nombre'].append(title_element.text)
    else:
        poe['nombre'].append(None)

    #Se extraen datos de <text...>; la nacionalidad y la fecha de nacimiento
    page_text_element = page.find('mw:revision/mw:text', namespaces=namespace)
    if page_text_element is not None and page_text_element.text:
        page_text = page_text_element.text

        #Se busca si existe en la ficha tecnica (que tiene forma de |dato = valor) la palabra nacionalidad sin distinguir 'case'
        nacionalidad_match = re.search(r'\|Nacionalidad\s*=\s*(.*)', page_text, re.IGNORECASE)
        if nacionalidad_match:
            nacionalidad = nacionalidad_match.group(1)

            #Se pone en la lista que corresponer al apartado 'nacionalidad'
            poe['nacionalidad'].append(nacionalidad)
        else:
            poe['nacionalidad'].append(None)
            
        #Mismo procedimiento que con la nacionalidad
        nacimiento_match = re.search(r'\|fecha de nacimiento\s*=\s*(.*)', page_text, re.IGNORECASE)
        if nacimiento_match:
            nacimiento = nacimiento_match.group(1)
            poe['fecha de nacimiento'].append(nacimiento)
        else:
            poe['fecha de nacimiento'].append(None)

poetas_df = pd.DataFrame(poe)

poetas_df


Unnamed: 0,nombre,nacionalidad,fecha de nacimiento
0,Julia Morilla de Campbell,,
1,Luis Negreti,[[Argentina]],[[20 de mayo]] de [[1890]]
2,Poldy Bird,,
3,Ana María Shua,Argentina,{{fecha|22|4|1951|e}}
4,León Benarós,,{{fecha|6|2|1915}}
...,...,...,...
634,Humberto Tejera,,
635,Mario Molina Cruz,[[México|Mexicano]],[[19 de enero]] de [[1955]]
636,Luis Ignacio Helguera,,
637,Daniel Olivares Viniegra,,


# 4. Archivos de Excel

Los archivos de excel son a veces nuestros mejores amigos, y otras veces nuestras peores pesadillas. Un archivo en excel (o cualquier otra hoja de caálculo) son formatos muy útiles que permiten compartir información técnica con personas sin preparación técnica, lo que lo vuelve una herramienta muy poderosa para comunicar hallazgos a los usuarios.

Igualmente, la manipulación de datos a través de hojas de cálculo, sin usarlas correctamente 8esto es, programando cualquier modificación) genera normalmente un caos y una fuga de información importante para una posterior toma de desición.

Como buena práctica, si se tiene acceso a la fuente primaria de datos y se puede uno evitar el uso de datos procesados en hoja de calculo, siempre es mejor esa alternativa (como científico de datos o analista de datos). Pero eso muchas veces es imposible.

Vamos a dejar la importación desde `xlsx` a los cursos de *DataCamp* que lo tratan magistralmente. Es importante que, para que se pueda importar desde python o R, muchas veces es necesario instalar librerías extras.