# Archivos e información de la web con `requests`

<img src="https://vivaldi.com/wp-content/uploads/Quickly-search-for-information-online.png" alt="Hello Python!" style="width:600px;height:300px;">

Fuente: [Vivaldi browser](https://vivaldi.com/wp-content/uploads/Quickly-search-for-information-online.png)

El insumo de todo sistema informático son los datos. Transformar los datos (es decir, indicadores cuantitativos o cualitativos) en información (es decir, elementos para la toma de decisiones) es el resultado de procesar los datos or un algoritmo. El corazon de este curso es el análisis de los datos y debemos partir de las fuentes; en este caso, los archivos con información útil y donde encontrarlos: la Web.

<div style="text-align: right"> Luis A. Muñoz (2022) </div>

---

## Tipos de archivos
Se distinguen dos tipos de archivos:
    
* Archivos de texto
* Archivos binarios

Los primeros son una colección de datos con un formato específico: caracteres codificados según un estándar (actualmente, UTF-8 para soportar todos los caracteres internacionales). Los últmos son datos binarios con un formato propietario. Por ejemplo, el código Python es un archivo de texto, mientras que un documento en Word es un archivo binario.

En los usuarios de Windows suele haber mucha confusión al momento de entender que un archivo de texto es un archivo con información en forma de caracteres de texto y nada más, sin ninguna relación con la extensión que tenga el archivo. Un archivo que tenga la extensión `.txt` no es un archivo de texto: es un archivo que Windows intentará abrir con el Bloc de Notas y si es un archivo de texto se abrirá sin inconvenientes.

En Linux, los archivos no tienen extensiones y es más fácil evitar estas confusiones.

Por lo tanto, la diferencia entre ambos tipos de archivos es una cuestión de formato. En Python, esto se especifica según el modo de lectura:

* Archivos de texto: mode='r'    (lectura)
* Archivos de datos: mode='rb'   (lectura binaria)

## Filesystem
El *filesystem* es la organización de los datos en el medio de almacenamiento por parte del sistema operativo. Para trabajar con soltura con archivos hay manejarse tambien así con el *filesystem*. En Windows, Linux y OS X, los archivos se organizan en un árbol de directorios que cuelgan de un nodo principal o archivo *root* (*C:\* en Windows en caso del disco con esta etiqueta, o */.* en el caso de OSX o Linux). Todos los archivos estan ubicados en un sitio especifico dentro del *filesystem* y la forma de especificar esta dirección es con una ruta o *path*.

Por ejemplo, el archivo *proyecto1.py* puede estar alojado en la ruta *C:\Usuarios\elvio\Documentos*

![](https://www.december.com/unix/tutor/tree1.gif)

NOTA: Los ejemplos de este documento estan hechos para ser ejecutdos en un equipo con Windows. Si tiene un sistema operativo diferente, reemplace "C:\" por "/"

## La librería `os`
Una complicación con los sistemas operativos es que para especificar el path Windows utiliza "\\" y Linux y OS X utilizan "/". Afortunadamente, la librería `os` viene a solucionarnos este y otros problemas:

In [1]:
import os

os.path.join("Usuarios", "elvio", "Documentos")

'Usuarios\\elvio\\Documentos'

En diferentes SO el resultado será compatible con el sistema (note que Windows utiliza "\\\\" para especificar que el caracter "\\" no es parte de un caracter de escape como "\n"). Esto resulta util para crear rutas sobre los archivos en los que se quiere trabajar:

In [75]:
files = ['proyecto1.py', 'proyecto2.py', 'proyecto3.py']

for filename in files:
    print(os.path.join("C:\\Users\\elvio\\Documents", filename))

C:\Users\elvio\Documents\proyecto1.py
C:\Users\elvio\Documents\proyecto2.py
C:\Users\elvio\Documents\proyecto3.py


Otra información útil es saber en que parte del filesystem nos encontramos. Esto es, cual es el directorio actual de trabajo (o *current working directory*) con `getcwd`:

In [76]:
ruta_home = os.getcwd()
print(ruta_home)

C:\test


Podemos movernos a otra ubicación en el filesystem con `chdir`:

In [18]:
os.chdir("C:\\Windows\\System32")
print(os.getcwd())

C:\Windows\System32


Existen dos formas de especificar una ruta: *ruta relativa* y *ruta absoluta*. La primera especifica la ubicación de un archivo respecto a la ubicación actual, mientras que la última especifica la ubicación de un archivo respecto del directorio *root*.

* Ruta relativa: *.\\proyecto1.py*
* Ruta absoluta: *C:\\Usuarios\\elvio\\Documentos\\proyecto1.py"*

Por otro lado, tambien se tienen los archivos "." y ".." en un directorio. Estas son etiquetas del directorio actual y del directorio padre. Por ejemplo:

In [8]:
os.chdir(".")
print(os.getcwd())

C:\Windows\System32


In [9]:
os.chdir("..")
print(os.getcwd())

C:\Windows


### Creando directorios
Vamos a alejarnos de todo lo que diga "Windows" si no queremos borrar nada... vamos a crear un directorio de prueba en C: con `os.makedirs`. Este método puede crear todos los directorios de una ruta específica. Vamos a utilizar `os.path.exists` para validar si el directorio existe o no antes de crear uno nuevo

In [3]:
for i in range(12):
    if not os.path.exists(f"C:\\test\\test{i+1}"): 
        os.makedirs(f"C:\\test\\test{i+1}")

Ubiquémonos en el directorio `test`

In [4]:
os.chdir("C:\\test")
print(os.getcwd())

C:\test


### Inspeccionando el filesystem
Veamos el contenido del directorio "C:\\test":

In [18]:
print(os.listdir("."))

['test1', 'test10', 'test11', 'test12', 'test2', 'test3', 'test4', 'test5', 'test6', 'test7', 'test8', 'test9']


Podemos discernir entre un archivos y un directorio, así como consultar por algunos atributos. Por ejemplo:

    os.path.getatime(path)   La última vez que se accedio a una ruta (UNIX time)
    os.path.getmtime(path)   La última vez que se modifico una rura (UNIX time)
    os.path.getsize(path)    Retorna el tamaño del recurso en bytes
    os.path.basename(path)   Retorna el nombre del archivo o directorio de una ruta

In [68]:
from datetime import datetime

for dir_file in os.listdir("."):
    last_date = datetime.fromtimestamp(os.path.getmtime(dir_file)) 
    if os.path.isdir(dir_file):
        print("d    ", end='')
    elif os.path.isfile(dir_file):
        print("f    ", end='')
    else:
        print("     ", end='')
    
    print(f"{last_date:%d/%m/%Y   %H:%M} {os.path.getsize(dir_file):16} bytes   {os.path.basename(dir_file)}")
    

f    08/02/2022   09:57              125 bytes   readme.txt
d    08/02/2022   09:07                0 bytes   test1
d    08/02/2022   09:07                0 bytes   test10
d    08/02/2022   09:07                0 bytes   test11
d    08/02/2022   09:07                0 bytes   test12
d    08/02/2022   09:07                0 bytes   test2
d    08/02/2022   09:07                0 bytes   test3
d    08/02/2022   09:07                0 bytes   test4
d    08/02/2022   09:07                0 bytes   test5
d    08/02/2022   09:07                0 bytes   test6
d    08/02/2022   09:07                0 bytes   test7
d    08/02/2022   09:07                0 bytes   test8
d    08/02/2022   09:07                0 bytes   test9


Otra forma de inspeccionar el filesystem es utilizando el método `os.walk()` que permite recorrer la estructura de arbol de una ruta a partir de un punto de inicio. Esto retorna un generador que puede ser iterado:

In [44]:
os.walk(".")

<generator object _walk at 0x000001893DF39430>

In [5]:
STARTPATH = "C:\\Users\\Asus\\OneDrive\\Documentos\\Fritzing"
for root, dirs, files in os.walk(STARTPATH):
    print(root)

C:\Users\Asus\OneDrive\Documentos\Fritzing
C:\Users\Asus\OneDrive\Documentos\Fritzing\bins
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\contrib
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\contrib
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\contrib\breadboard
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\contrib\icon
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\contrib\pcb
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\contrib\schematic
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\user
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\user\breadboard
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\user\icon
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\user\pcb
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\svg\user\schematic
C:\Users\Asus\OneDrive\Documentos\Fritzing\parts\user


In [6]:
STARTPATH = "C:\\Users\\Asus\\OneDrive\\Documentos\\Fritzing"
for root, dirs, files in os.walk(STARTPATH):
    level = root.replace(STARTPATH, '').count(os.sep)   # Cuenta cuantos "/" hay luego de la ruta inicial
    indent = ' ' * 4 * level                            # para definir el nivel de indentacion
    print(f"{indent} + {os.path.basename(root)}")       # e imprimir el nombre del directorio por niveles
    
    subindent = ' ' * 4 * (level + 1)                   # Lo mismo pero con archivos en la ruta
    for file in files:
        print(f"{subindent} - {file}")

 + Fritzing
     - Nano_Joystick.fzz
     - Pico_v1.fzz
     - Pico_v2.fzz
     - Pico_v3.fzz
     - Pico_v4.fzz
     - Pico_v5.fzz
     - Pico_v6.fzz
     - Pico_v7.fzz
     + bins
         - my_parts.fzb
         - search.fzb
     + parts
         + contrib
         + svg
             + contrib
                 + breadboard
                 + icon
                 + pcb
                 + schematic
             + user
                 + breadboard
                     - adafruit_7eab5a19a8bd1858b2030f275587a7ae_2_breadboard.svg
                     - OLED-128x64-I2C-Monochrome-Display-GND-VDD_1_breadboard.svg
                     - rpi_pico-tht_1_breadboard.svg
                 + icon
                     - adafruit_7eab5a19a8bd1858b2030f275587a7ae_2_icon.svg
                 + pcb
                     - adafruit_7eab5a19a8bd1858b2030f275587a7ae_2_pcb.svg
                     - OLED-128x64-I2C-Monochrome-Display-GND-VDD_1_pcb.svg
                     - rpi_pico-tht_1_pcb.svg
        

## Archivos de texto
La forma más sencilla de crear un archivo de texto es abriendo un archivo con el Context Manager `with`:

In [64]:
PATH = "C:\\test"
os.chdir(PATH)

with open("readme.txt", mode='w', encoding='utf-8') as file:
    file.write("INSTRUCCIONES\n")
    file.write("=============\n\n")
    file.write("En los directorios se tienen diferentes test a ser distribuidos\n")
    file.write("entre los diferentes alumnos")

Esto debe de generar un archivo de texto. Haciendo un listado del directorio se debe de observar el resultado:

In [67]:
for dir_file in os.listdir("."):
    last_date = datetime.fromtimestamp(os.path.getmtime(dir_file)) 
    if os.path.isdir(dir_file):
        print("d    ", end='')
    elif os.path.isfile(dir_file):
        print("f    ", end='')
    else:
        print("     ", end='')
    
    print(f"{last_date:%d/%m/%Y   %H:%M} {os.path.getsize(dir_file):16} bytes   {os.path.basename(dir_file)}")

f    08/02/2022   09:57              125 bytes   readme.txt
d    08/02/2022   09:07                0 bytes   test1
d    08/02/2022   09:07                0 bytes   test10
d    08/02/2022   09:07                0 bytes   test11
d    08/02/2022   09:07                0 bytes   test12
d    08/02/2022   09:07                0 bytes   test2
d    08/02/2022   09:07                0 bytes   test3
d    08/02/2022   09:07                0 bytes   test4
d    08/02/2022   09:07                0 bytes   test5
d    08/02/2022   09:07                0 bytes   test6
d    08/02/2022   09:07                0 bytes   test7
d    08/02/2022   09:07                0 bytes   test8
d    08/02/2022   09:07                0 bytes   test9


Para leer un archivo de texto, lo más conveniente es abrir un archivo en un bloque `with` y tratar el archivo como un iterable:

In [69]:
with open("readme.txt", mode='r', encoding='utf-8') as file:
    for line in file:
        print(line.strip())    # No olvidar strip() para eliminar "\n"

INSTRUCCIONES

En los directorios se tienen diferentes test a ser distribuidos
entre los diferentes alumnos


Los archivos de texto no resultan ser muy utiles porque no tienen un formato que pueda ser interpretado por una computadora. Es basicamente información legible para una persona, por lo que su uso será el de guardar información simple o tabulada. Sin embargo, si podemos hacer scripts que generen documentos a partir de información. Por ejemplo, generemos unos tests para unos doce alumnos que guardaremos en las diferentes carpetas que hemos creado de forma automática:

In [71]:
# GENERADOR DE ARCHIVOS DE PREGUNTAS PARA UN CUESTIONARIO
import random

capitales = {"Amazonas": "Chachapoyas", 
             "Áncash": "Huaraz",
             "Apurímac": "Abancay",
             "Arequipa": "Arequipa",
             "Ayacucho": "Ayacucho",
             "Cajamarca": "Cajamarca",
             "Cusco": "Cusco",
             "Huancavelica": "Huancavelica",
             "Huánuco": "Huánuco",
             "Ica": "Ica",
             "Junín": "Huancayo",
             "La Libertad": "Trujillo",
             "Lambayeque": "Chiclayo",
             "Lima": "Lima",
             "Loreto": "Iquitos",
             "Madre de Dios": "Puerto Maldonado",
             "Moquegua": "Moquegua",
             "Pasco": "Cerro de Pasco",
             "Piura": "Piura",
             "Puno": "Puno",
             "San Martín": "Moyobamba",
             "Tacna": "Tacna",
             "Tumbes": "Tumbes",
             "Ucayali": "Pucallpa"}

PATH = "C:\\test"

# Se generan los 12 archivos de examenes
for quizNum in range(1, 13):
    # Se generan los nombres de los arvhivos de test en cada directorio y el de respuestas correctas
    quizFileName = os.path.join(PATH, f"test{quizNum}", f"text{quizNum}.txt")
    answerKeyFileName = os.path.join(PATH, f"test{quizNum}", f"test{quizNum}_answers.txt")
    
    # Se abren ambos archivos para su generación
    with open(quizFileName, mode='w', encoding='utf-8') as quizFile:
        with open(answerKeyFileName, mode='w', encoding='utf-8') as answerKeyFile:
            # Se crea un encabezado en el archivo de test
            quizFile.write("Nombre:\n\nFecha:\n\nPeriodo:\n\n")
            quizFile.write(' ' * 20 + f"Capitales por departamento - Test {quizNum}\n\n")

            # Se obtiene una lista con las capitales por departamento
            # y se desordena la muestra
            departamentos = list(capitales.keys())
            random.shuffle(departamentos)

            # Para cada uno de los departamentos...
            for idx, departamento in enumerate(departamentos, start=1):
                
                # Se guarda la respuesta correcta (capital del departamento)
                correctAnswer = capitales.get(departamento)
                # Se guarda una lista con todas las capitales y se elimina la correcta
                wrongAnswers = list(capitales.values())
                wrongAnswers.pop(wrongAnswers.index(correctAnswer))
               
                # Se obtiene una muestra aleatoria de 3 respuestas aleatorias + la correcta
                wrongAnswers = random.sample(wrongAnswers, 3)
                answerOptions = wrongAnswers + [correctAnswer]
                
                # Se desordenan las opciones de respuesta
                random.shuffle(answerOptions)

                # Escribimos la pregunta en el test
                quizFile.write(f"{idx}. ¿Cuál es la capital de {departamento}?:\n")

                for letter, answer in zip('ABCD', answerOptions):
                    quizFile.write(f"\t{letter}. {answer}\n")
                else:
                    quizFile.write('\n')

                # Escribirmos la respuesta en el archivo de respuestas
                answerKeyFile.write(f"{idx}. {'ABCD'[answerOptions.index(correctAnswer)]}\n")


Con una caminata sobre la ruta podemos verificar la creación de los archivos en los diferentes directorios:

In [72]:
STARTPATH = "C:\\test"
for root, dirs, files in os.walk(STARTPATH):
    level = root.replace(STARTPATH, '').count(os.sep)  
    indent = ' ' * 4 * level                            
    print(f"{indent} + {os.path.basename(root)}")       
    
    subindent = ' ' * 4 * (level + 1)                   
    for file in files:
        print(f"{subindent} - {file}")

 + test
     - readme.txt
     + test1
         - test1_answers.txt
         - text1.txt
     + test10
         - test10_answers.txt
         - text10.txt
     + test11
         - test11_answers.txt
         - text11.txt
     + test12
         - test12_answers.txt
         - text12.txt
     + test2
         - test2_answers.txt
         - text2.txt
     + test3
         - test3_answers.txt
         - text3.txt
     + test4
         - test4_answers.txt
         - text4.txt
     + test5
         - test5_answers.txt
         - text5.txt
     + test6
         - test6_answers.txt
         - text6.txt
     + test7
         - test7_answers.txt
         - text7.txt
     + test8
         - test8_answers.txt
         - text8.txt
     + test9
         - test9_answers.txt
         - text9.txt


## Tip: librería `shelve`
Si lo que se quiere es guardar las variables de una programa de forma rápida existe una forma de hacerlo: la librería `shelve`.

In [77]:
import shelve

# Guardando datos en un archivo shelve
datos = [1, 2, 3, 4, 5]

with shelve.open('mis_datos') as shelve_file:
    shelve_file['datos'] = datos

Para guardar datos utilizando `shelve` se abre un archivo al que llamaremos `mis_datos` en un bloque `with` con la instrucción `shelve.open()`. Una vez abierto, se trata este archivo como un diccionario, donde la llave será un `str` con el nombre de la variable a almacenar y el valor será la variable misma. Si revisa le ruta actual, vera que hay unos archivos con el nombre `mis_datos` con extensión `bak`, `dat` y `dir`. Intente abrirlos con un editor... no va a encontrar registros de la información. Pero podemos traerla de vuelta.

In [78]:
# Borremos la variable datos...
del datos

# ...y la recuperamos del archivo 
with shelve.open("mis_datos") as shelve_file:
    datos = shelve_file['datos']
    
print(datos)

[1, 2, 3, 4, 5]


¡Facil, sencillo y seguro!

## Archivos CSV
Un archivo CSV es un archivo de texto con un formato estándar. En este, los valores se guardan como valores de texto, separados por algun delimitador, usualmente una coma (",") de donde viene el nombre Comma Separated Value, aunque puede ser un espacio en blanco, un tabulador ("\t") o un punto y coma (";").

Los archivos CSV son reconocidos por las Hojas de Cálculo como Excel y ordena los datos por columnas a partir del delimitador. Hay que tomar en consideración que en los países donde se utiliza la "," como separador de miles, se debe de utilizar el ";" para que un archivo CSV sea reconocido por Excel. Al final, un archivo CSV es una Hoja de Cálculo simplificada, sin pestañas ni fórmulas.

Hay otro detalle a considerar: un CSV no se puede manipular como un archivo de texto al que lo podemos seprar utilizando `split(',')` ya que no todas las comas son separadores. Un CSV también tiene sus propios caracteres de escape, lo que permite que una coma pueda ser parte de los valores (como en el caso de un número escrito con la forma 1,200). Esa es la razón por la que siempre hay que usar la librería `csv` para escribir un archivo CSV.

Los marcadores de personal suelen generar archivos CSV diarios. Vamos a generar una simulación de esto:

In [79]:
empleados = [["2/3/2022 07:20", "Elvio Lado"], 
             ["2/3/2022 07:22", "Elmer Curio"], 
             ["2/3/2022 07:30", "Elba Lazo"], 
             ["2/3/2022 07:36", "Susana Oria"], 
             ["2/3/2022 07:49", "Armando Paredes"]]

Para almacenar estos datos como un archivo CSV en Windows (y solo en Windows) hay un recordar establecer el parametro `newline=''` para evitar que se generen líneas en blanco entre los registros (esto por razones técnicas que estan detalladas [aqui](https://docs.python.org/3/library/csv.html#id3)).

In [80]:
import csv

with open("entrada.csv", mode='w', newline='') as csv_file:
    writer = csv.writer(csv_file, delimiter=';')
    writer.writerow(["HORA", "EMPLEADO"])
    
    for registro in empleados:
        writer.writerow(registro)
        
print("Archivo generado:", os.path.abspath("entrada.csv"))

Archivo generado: C:\test\entrada.csv


En el código anterior hay algunos detalles a considerar:
    
* Se utiliza el parametro `newline=''` por ser Windows. En otro sistema operativo esta opción no se coloca
* Se establece un objeto `csv.writer` sobre el archivo abierto para escribir sobre este.
* En el writer se define el tipo de separador como ";" para que sea compatible con Excel (por defecto es ",")
* Se esta utilizando el método `writerow(registro)` para escribir los registros. También se pudo haber llamado al método `writerows(empleados)`
* Se escribe una lista con los nombres de las columnas de los datos. Esto es el encabezado
* Se esta obteniendo la ruta absoluta del archivo generado con `os.path.abspath` para saber donde esta ubicado el archivo generado

Si todo esta bien, podrá abrir el archivo desde Excel.

JupyterLab tiene un visor de archivos CSV. Pruebe abrir el archivo desde el navegador de archivos a la izquierda para ver la información tabulada y podrá seleccionar el tipo de delimitador.

Ahora, leamos el archivo:

In [81]:
import csv

with open("C:\\test\\entrada.csv") as file:
    reader = csv.reader(file, delimiter=';')
    next(reader)      # Con esto pasamos a la siguiente linea: eliminamos el encabezado
    
    for line in reader:
        print(f"* Nombre: {line[1]:20} Hora de ingreso: {line[0]}")

* Nombre: Elvio Lado           Hora de ingreso: 2/3/2022 07:20
* Nombre: Elmer Curio          Hora de ingreso: 2/3/2022 07:22
* Nombre: Elba Lazo            Hora de ingreso: 2/3/2022 07:30
* Nombre: Susana Oria          Hora de ingreso: 2/3/2022 07:36
* Nombre: Armando Paredes      Hora de ingreso: 2/3/2022 07:49


Detalles a considerar del código anterior:

* No es necesario especificar `newline=''`. Esto es solo para escirbir un archivo CSV
* No se especifica el modo al momento de abrir el archivo. El modo por defecto es lectura
* Se especifica un `csv.reader` para retornar una lista de datos a partir de cada línea de texto
* Se especifica el tipo de separador en el reader.
* Se estan utilizando los indices de la lista (en este caso, `line`) para mostrar los resultados.


## Archivos JSON
Un archivo JSON (nadie sabe a ciencia cierta como se pronuncia eso pero esta generalizado utilizar "Jason") es un archivo con un formato más complejo. Es, al final, un diccionario almacenado. Para gestionar este tipo de archivos utilizaremos el módulo `json`. 

Ampliemos el caso del registro de entrada con más datos, esta vez estructurados como un diccionario:

In [82]:
empleados = [{"ingreso": "6/6/2020 07:20", "salida": "6/6/2020 19:30", "nombre": "Elvio Lado"}, 
             {"ingreso": "6/6/2020 07:22", "salida": "6/6/2020 18:50", "nombre": "Elmer Curio"}, 
             {"ingreso": "6/6/2020 07:30", "salida": "6/6/2020 19:10", "nombre": "Elba Lazo"}, 
             {"ingreso": "6/6/2020 07:36", "salida": "6/6/2020 20:10", "nombre": "Susana Oria"}, 
             {"ingreso": "6/6/2020 07:49", "salida": "6/6/2020 17:59", "nombre": "Armando Paredes"}]

Esta vez tenemos una lista de registros, donde cada registro es un diccionario. Esta estructura la podemos almacenar tal cual en formato JSON. Para volcar los datos a un archivo JSON se utiliza el método `json.dump(data, file)`:

In [83]:
import json

with open("marca_dia.json", mode='w') as json_file:
    json.dump(empleados, json_file)

Si se abre un archvio JSON en un Bloc de Notas verá una lista con diccionarios escrita como un texto. Pero un visualizador de archvios JSON mostrará un resultado diferente. Pruebe abriendo el archivo en JupyterLab y verá la estructura de la información.

La lectura de un archivo JSON utiliza el método `json.load(file)`:

In [84]:
with open("marca_dia.json") as json_file:
    data = json.load(json_file)
    
print(data)

[{'ingreso': '6/6/2020 07:20', 'salida': '6/6/2020 19:30', 'nombre': 'Elvio Lado'}, {'ingreso': '6/6/2020 07:22', 'salida': '6/6/2020 18:50', 'nombre': 'Elmer Curio'}, {'ingreso': '6/6/2020 07:30', 'salida': '6/6/2020 19:10', 'nombre': 'Elba Lazo'}, {'ingreso': '6/6/2020 07:36', 'salida': '6/6/2020 20:10', 'nombre': 'Susana Oria'}, {'ingreso': '6/6/2020 07:49', 'salida': '6/6/2020 17:59', 'nombre': 'Armando Paredes'}]


## Tip: Como imprimir un diccionario bien
El resultado anterior es, por decir algo, bastante feo. Hay una forma de imprimir un diccionario de forma estética valiéndose del módulo `json`, en este caso del método `json.dumps(data)` (la 's' en dump*s* es por 'string'), que toma un diccionario (o una estructura JSON que viene a ser lo mismo) y hace un volcado sobre un string que puede tener un fomato:

In [85]:
print(json.dumps(data, indent=4))    # indent es el número de espacios para la sangría de niveles

[
    {
        "ingreso": "6/6/2020 07:20",
        "salida": "6/6/2020 19:30",
        "nombre": "Elvio Lado"
    },
    {
        "ingreso": "6/6/2020 07:22",
        "salida": "6/6/2020 18:50",
        "nombre": "Elmer Curio"
    },
    {
        "ingreso": "6/6/2020 07:30",
        "salida": "6/6/2020 19:10",
        "nombre": "Elba Lazo"
    },
    {
        "ingreso": "6/6/2020 07:36",
        "salida": "6/6/2020 20:10",
        "nombre": "Susana Oria"
    },
    {
        "ingreso": "6/6/2020 07:49",
        "salida": "6/6/2020 17:59",
        "nombre": "Armando Paredes"
    }
]


Armando Paredes en quien llega último y se va primero...

## TIP: libreria glob
Entre las tareas de automatización de archivos, una muy útil es modificar un gran número de estos. Estos deben de ser agrupados 
según algun criterio, como el nombre, el tipo, etc. La librería `blob` permite encontrar todas las rutas que cumplan con un patron específico según las reglas del shell de Unix.

In [100]:
import glob

STARTPATH = "C:\\test"
for root, dirs, files in os.walk(STARTPATH):
    for name in glob.glob(f'{root}\\*_answers.txt'):
        print(name)

C:\test\test1\test1_answers.txt
C:\test\test10\test10_answers.txt
C:\test\test11\test11_answers.txt
C:\test\test12\test12_answers.txt
C:\test\test2\test2_answers.txt
C:\test\test3\test3_answers.txt
C:\test\test4\test4_answers.txt
C:\test\test5\test5_answers.txt
C:\test\test6\test6_answers.txt
C:\test\test7\test7_answers.txt
C:\test\test8\test8_answers.txt
C:\test\test9\test9_answers.txt


In [105]:
import glob

STARTPATH = "C:\\"
for root, dirs, files in os.walk(STARTPATH):
    for name in glob.glob(f'{root}\\*.mp3'):
        print(name)

C:\Users\Asus\anaconda3\Lib\site-packages\notebook\static\components\MathJax\extensions\a11y\invalid_keypress.mp3
C:\Users\Asus\anaconda3\Lib\site-packages\spyder\plugins\help\utils\js\mathjax\extensions\a11y\invalid_keypress.mp3
C:\Users\Asus\anaconda3\pkgs\notebook-6.4.5-py39haa95532_0\Lib\site-packages\notebook\static\components\MathJax\extensions\a11y\invalid_keypress.mp3
C:\Users\Asus\anaconda3\pkgs\spyder-5.1.5-py39haa95532_1\Lib\site-packages\spyder\plugins\help\utils\js\mathjax\extensions\a11y\invalid_keypress.mp3
C:\Users\Asus\OneDrive\Documentos\PyProjects\Breakout\sound\collide_sound.mp3
C:\Users\Asus\OneDrive\Documentos\PyProjects\Breakout\sound\out_sound.mp3
C:\Users\Asus\OneDrive\Documentos\PyProjects\Pong\audio\collide_sound.mp3
C:\Users\Asus\OneDrive\Documentos\PyProjects\Pong\audio\out_sound.mp3


## `requests` o como obtener información de la web (JSON)
Python tiene una librería en la Biblioteca Estándar llamada `urllib` que pemite hacer consultas html que es mejor olvidar que existe. Es de esas cosas que se colocan debajo de la alformbra. Kenneth Reitz le hizo un favor a la comunidad de Python desarrollando la librería `requests` que es hoy la forma más sencilla de realizar requerimientos a un recurso web.

Esta libreria debe de instalarse por medio del gestor de paquetes pip, que descarga e instala packetes disponibles desde el Python Packages Index (PyPI). Se puede utilizar el caracter "!" en una celda en un documento Jupyter para ejecutar comandos de consola.

In [106]:
!pip install requests



Utilicemos las instrucciones de prueba [de la página oficinal en github del proyecto](https://github.com/psf/requests):

In [107]:
import requests

r = requests.get('https://api.github.com/repos/psf/requests')
r.json()["description"]

'A simple, yet elegant, HTTP library.'

Para entender lo que sucede en estas líneas de código, hay que tener una idea del modelo HTTP y en concreto, que cosa es un request:

![](https://i1.wp.com/shvetsgroup.com/files/images/HTTP_request.png)

El protocolo que hace que la Web funcione es HTTP. En este se define que existen dos nodos: cliente y servidor. El cliente hace un pedido de información (un "requests" con una ruta) y el servidor retorna un código de respuesta (un "response") así como la información requerida (si la información existe, para lo que responderá con el código 200; en caso contrario responderá con un código 4XX). En el código anterior, todos los detalles de señalización y flujo de control de información estan resueltos en la librería `requests`.

El método `get` es la instrucción HTTP que se utiliza para hacer una petición en un mensaje que es formateado por la librería. En este caso, el requerimiento apunta a un archivo JSON y `requests` puede gestionar archivos JSON de forma nativa con el método `json` sobre la respuesta del requerimiento (el objeto `r`). En este caso, estamos viendo el valor de la llave `description`. Esto es porque el recurso web es un API REST, tema que veremos mucho más adelante con más detalle.

Veamos una estructura más compleja: La URL https://deperu.com/api/rest/noticias.json apunta a un servicio que retorna noticias en formato JSON. ¿Cómo podemos obtener un listado de los titulares? Guardemos este información en un archivo JSON para poder verlo en el visualizador:

In [108]:
url = "https://deperu.com/api/rest/noticias.json"
r = requests.get(url)
data = r.json()

with open("noticias.json", mode='w') as json_file:
    json.dump(data, json_file)

Revisando la estructura se observa que es una lista de diccionarios, donde las llaves 'fecha', 'titulo' y 'url' nos dan la información que queremos para presentar la información:

In [109]:
with open("noticias.json") as json_file:
    data_noticias = json.load(json_file)
    
print("LAS NOTICIAS DE LA HORA")
print("=======================\n")
for noticia in data_noticias[:5]:           # [:5] => Las cinco noticias mas recientes
    print("  Fecha:", noticia['fecha'])
    print("  Titular:", noticia['titulo'])
    print("  Referencia:", noticia['url'])
    print()

LAS NOTICIAS DE LA HORA

  Fecha: Tue, 08 Feb 2022 08:33:54 -0500
  Titular: La UE lanza un enorme plan para duplicar la producción de semiconductores hasta 2030
  Referencia: https://www.deperu.com/noticias/la-ue-lanza-un-enorme-plan-para-duplicar-la-produccion-de-semiconductores-hasta-2030-116425.html

  Fecha: Tue, 08 Feb 2022 08:22:37 -0500
  Titular: Cocodrilo indonesio que pasó cinco años con un neumático como "collar" vuelve a la normalidad
  Referencia: https://www.deperu.com/noticias/cocodrilo-indonesio-que-paso-cinco-anos-con-un-neumatico-como-collar-vuelve-a-la-normalidad-116420.html

  Fecha: Tue, 08 Feb 2022 07:55:16 -0500
  Titular: UE descontará una multa de los fondos europeos a Polonia, que promete apelar
  Referencia: https://www.deperu.com/noticias/ue-descontara-una-multa-de-los-fondos-europeos-a-polonia-que-promete-apelar-116423.html

  Fecha: Tue, 08 Feb 2022 07:29:06 -0500
  Titular: Un restaurante en Irán hace comer a sus clientes en "prisión" para ayudar a los d

¡Hemos construido un *newsletter* con muy pocas lineas de código!