# Archivos JSON

Tiene mucha similitud con los diccionarios, porque son objetos de parejas de datos donde uno de ellos es la clave y el otro el valor. JSON (Javascript Object Notation) es un estandar para compartir datos mediante APIS. El formato es el siguiente:

In [3]:
'''
[
    {'clave1':valor, 'clave2':valor},
    {'clave1':valor, 'clave2':valor},
    {'clave1':valor, 'clave2':valor}
]
'''

"\n[\n    {'clave1':valor, 'clave2':valor},\n    {'clave1':valor, 'clave2':valor},\n    {'clave1':valor, 'clave2':valor}\n]\n"

En esencia, es una lista que contiene como elementos diccionarios.

## **Obtener los datos de un archivo JSON**

In [4]:
import json

with open('notas.json', encoding='utf8') as archivo:
    datos = json.load(archivo)
    print(datos)

[{'nombre': 'Francisco Alvarez', 'Física': 3.5, 'Química': 4.7, 'Artes': 3.9}, {'nombre': 'Juan Gonzalez', 'Física': 4.1, 'Química': 3.8, 'Artes': 4.5}, {'nombre': 'Mauricio Castro', 'Física': 3.2, 'Química': 3.4, 'Artes': 4.7}, {'nombre': 'Saray Lozano', 'Física': 4.5, 'Química': 4.3, 'Artes': 4.8}, {'nombre': 'Viviana Cáceres', 'Física': 3.9, 'Química': 4, 'Artes': 3.6}]


- Utilizamos el metodo **.load()** de la clase **json** que permite obtener todo los datos del archivo.

## **Obtener solo los datos de la columna Quimica**

In [5]:
import json
lista = []

with open('notas.json', encoding='utf8') as archivo:
    datos = json.load(archivo)
    for d in range(len(datos)):
        print(datos[d]['Química'])

4.7
3.8
3.4
4.3
4


- Utilizamos el indexado por numero y llave dentro de un bucle for para extraer solo los datos de la columna Quimica. El archivo JSON primero es una **Lista** y luego un **Diccionario**.

- La funcion **len()** se utiliza para conocer el tamano de la lista

- El objeto **Range()** se utliza para crear el rango de elementos para este bucle.

# Archivos XML

Es un lenguaje que almacena datos en etiquetas, algo muy similar a la estructura HTML (eXtensible Markup Language). Las etiquetas tienen una caracteristica especial y es su apertura y cierre. Su estructura principal es la siguiente:

In [6]:
'''
<xml>
    <nombre>Saray Lozano</nombre>
    <fisica>4.5</fisica>
</xml>
'''

'\n<xml>\n    <nombre>Saray Lozano</nombre>\n    <fisica>4.5</fisica>\n</xml>\n'

- Un documento XML tiene una estructura de etiquetas donde una abre y otra cierra el contenido de un dato y puede entenderse como bloques o cajas que contienen a su vez otros bloques de etiquetas con datos.

- En Python la biblioteca XML tiene cuatro paquetes que son: dom, parsers, etree y sax. PAra nuestro caso, utilizaremos el paquete **etree**

## **Obtener los datos de la columna Quimica del Archivo XML**

In [7]:
import xml.etree.ElementTree as x

archivo = x.parse('notas.xml')
datos = archivo.getroot()
for fila in datos:
    print(fila[2].text)

4.7
3.8
3.4
4.3
4


- Utilizamos el metodo **.parse()** para crear un objeto de la clase **ElementTree**

- Utilizamos el metodo **.getroot()** para crear otro objeto de la clase **Element** y obtener los datos del objeto creado con **.parse()**

- Obtuvimos el contenido del objeto **datos** mediante el atributo **.text**

# Recoleccion de Datos mediante APIs

La mayoria de las app comparten datos mediante APIs (Application Programing Interface) que son bibliotecas que ofrecen ciertas funciones para que otras app puedan acceder a ellas.

Existe un protocolo denominado API REST empleado para enviar y recibir datos en formato XML y JSON por medio del protocolo HTTP. Esto lo realiza a traves de cuatro funciones que son POST, GET, PUT y DELETE.

Algunas APIs son publicas y no necesitan de claves privadas o TOKENS especiales para su acceso

## Acediendo a la API de la NASA

In [1]:
import requests

url = 'https://api.nasa.gov/planetary/apod?api_key=DEMO_KEY'
r = requests.get(url)
r.json()['url']

'https://apod.nasa.gov/apod/image/2311/uhz1_1024.jpg'

- Llamamos a la libreria **requests** para hacer peticiones a paginas web.

- Creamos un objeto **requests** y utilizamos el metodo **get()** para obtener los datos de la url dada.

- Usamos el metodo **.json()** para cargar los datos en formato json.

- Utilizamos el indice **['url']** para indicar la peticion que deseamos obtener.

## Obtener los indices disponibles por la API

Cada API tiene su propia documentacion y es muy importante leerla, pues cada una tendra sus propios indices y tambien metodos y atributos para dar informacion especifica. En el caso anterior, para conocer todos los indices disponibles para usar, se emplea el siguiente codigo usando el metodo **.keys()**

In [2]:
import requests

url = 'https://api.nasa.gov/planetary/apod?api_key=DEMO_KEY'
r = requests.get(url)
r.json().keys()

dict_keys(['date', 'explanation', 'hdurl', 'media_type', 'service_version', 'title', 'url'])

- **Obtener una explicacion de la imagen**

In [3]:
r.json()['explanation']

"Dominated by dark matter, massive cluster of galaxies Abell 2744 is known to some as Pandora's Cluster. It lies 3.5 billion light-years away toward the constellation Sculptor. Using the galaxy cluster's enormous mass as a gravitational lens to warp spacetime and magnify even more distant objects directly behind it, astronomers have found a background galaxy, UHZ1, at a remarkable redshift of Z=10.1. That puts UHZ1 far beyond Abell 2744, at a distance of 13.2 billion light-years, seen when our universe was about 3 percent of its current age. UHZ1 is identified in the insets of this composited image combining X-rays (purple hues) from the spacebased Chandra X-ray Observatory and infrared light from the James Webb Space Telescope. The X-ray emission from UHZ1 detected in the Chandra data is the telltale signature of a growing supermassive black hole at the center of the ultra high redshift galaxy.  That makes UHZ1's growing black hole the most distant black hole ever detected in X-rays, 

- **Obtener titulo de la imagen**

In [4]:
r.json()['title']

'UHZ1: Distant Galaxy and Black Hole'

- **Obtener la fecha en que fue tomada la imagen**

In [5]:
r.json()['date']

'2023-11-10'

## Accediendo a la API de datos abiertos de Bogota

In [7]:
import requests

#url = 'https://datosabiertos.bogota.gov.co/dataset/numero-de-casos-confirmados-por-el-laboratorio-de-covid-19-bogota-d-c'
#r = requests.get(url)
#datos = r.json().keys()

# Serializacion de Datos

En el desarrollo de algoritmos en Ciencia de Datos, necesitamos guardar y recuperar cierto modelos como una secuencia de bytes que compacta los mismos. La forma de serializar y deserializar objetos es la siguiente:

In [8]:
# Serializar datos

import joblib
# imaginemos que el siguiente conjunto de datos es el modelo
datos = ['nombre', 'asignatura', 'calificacion']
# serializacion
joblib.dump(datos, 'notas.pkl')

['notas.pkl']

In [9]:
# Deserializar datos

carga = joblib.load('notas.pkl')
carga

['nombre', 'asignatura', 'calificacion']

- El metodo **.dump()** se encarga de serializar los datos y guardarlos.

- El metodo **.load()** se encarga de recuperar los datos para su nuevo uso.

# Conclusiones

- Se recomienda implementar el uso del formato JSON al momento de compartir datos con otros programas, aplicaciones o APIs, tanto por su sencillez como por su compatibilidad con el tipo de datos dict (diccionario) de Python. 

- En este tipo de dato (JSON) los datos están encerrados entre corchetes y pueden almacenar en su 
valor todo tipo de dato como listas, tuplas, textos, números y otros diccionarios.

- Es importante que al manejar APIs, se cuente con el TOKEN que permite acceder a la aplicación sin la necesidad de entregar usuarios y contraseñas en los códigos. Algunos de estos TOKENs tienen caducidad de tiempo, lo que hace que su implementación sea muy viable en términos de seguridad.

# Lectura Recomendada

Lee el siguiente articulo en informate sobre: Persistencia de datos, Python, JSON, CSV
[Lectura Recomendada](https://docs.python.org/es/3.8/library/csv.html)