# Carga de distintos formatos de datos en Python

Como hemos visto []() los datos pueden encontrarse en distintos formatos. Ahora veremos como podemos cargarlos en Python y usarlos de maneras conocidas.

[Repositorio con APIs](https://github.com/toddmotto/public-apis/blob/master/README.md)

## JSON

[Gramática JSON](https://www.json.org/)

Un JSON se cargará en Python como un diccionario, estructura de datos que ya deberiamos conocer. Cabe recordar que un diccionario es un conjunto no ordenado de pares clave-valor, que tiene los atributos: *keys* y *values.

Vamos a ver como podemos obtener un json desde una url:

In [2]:
import json
import requests

response = requests.get("http://api.punkapi.com/v2/beers/random" )
todos = json.loads(response.text)
print(type(todos))

for key in todos[0].keys():
    print(key)

<class 'list'>
id
name
tagline
first_brewed
description
image_url
abv
ibu
target_fg
target_og
ebc
srm
ph
attenuation_level
volume
boil_volume
method
ingredients
food_pairing
brewers_tips
contributed_by


### **Ejercicio**

Vamos a cargar un json desde una URL, visitad el siguiente [repositorio]() y elegid uno de los enlaces. Explorad la API y mirad que tipo de peticiones podemos hacer. Elegid una y evaluad la respuesta que os ha retornado.

    1. Cuantas claves tiene el diccionario?
    2. Mostrad cada clave con su correspondiente valor.

**También es posible crear un fichero json en Python y cargarlo desde nuestra carpeta local:**

In [38]:
# Partimos de un string en formato json:

data = {
  "colors": [
    {
      "color": "black",
      "category": "hue",
      "type": "primary",
      "code": {
        "rgba": [255,255,255,1],
        "hex": "#000"
      }
    },
    {
      "color": "white",
      "category": "value",
      "code": {
        "rgba": [0,0,0,1],
        "hex": "#FFF"
      }
    },
    {
      "color": "red",
      "category": "hue",
      "type": "primary",
      "code": {
        "rgba": [255,0,0,1],
        "hex": "#FF0"
      }
    },
    {
      "color": "blue",
      "category": "hue",
      "type": "primary",
      "code": {
        "rgba": [0,0,255,1],
        "hex": "#00F"
      }
    },
    {
      "color": "yellow",
      "category": "hue",
      "type": "primary",
      "code": {
        "rgba": [255,255,0,1],
        "hex": "#FF0"
      }
    },
    {
      "color": "green",
      "category": "hue",
      "type": "secondary",
      "code": {
        "rgba": [0,255,0,1],
        "hex": "#0F0"
      }
    },
  ]
}


Creamos un fichero con permísos de escritura y usamos la función **dump** de la libreria json. La función dump se encuentra en muchas librerias y nos sirve para guardar estructuras de datos en ficheros.


In [42]:
print(type(data))
with open("data_file.json", "w") as write_file:
    
    json.dump(data, write_file)
    
# La función dumps nos transforma nuestro json en un string de Python

# json_string = json.dumps(data)

<class 'dict'>


Ahora que tenemos un fichero con la información vamos a ver como podemos leer un fichero con información json.

In [None]:
with open("data_file.json", "r") as read_file:
    data = json.load(read_file)
type(data)

for k in data.keys():
    print(k)

## XML

Uno de los problemas que tenemos con los archivos en formato XML, es que es necesario conocer su estructura interna antes de tratarlo. La propia [documentación](https://docs.python.org/3.7/library/xml.etree.elementtree.html#) nos advierte que: *El módulo xml.etree.ElementTree no es seguro contra datos construidos malintencionadamente. Si necesita analizar datos no confiables o no autenticados, consulte las vulnerabilidades de XML.*

En este caso vamos a ver como podemos obtener la información del siguiente xml (guardado en la carpeta de datos):

    <data>
        <customer name="gokhan">
            <email>gokhan@gmail.com</email>
            <phone>555-1234</phone>
        </customer>
        <customer name="mike">
            <email>mike@gmail.com</email>
        </customer>
        <customer name="john">
            <email>john@gmail.com</email>
            <phone>555-4567</phone>
        </customer>
        <customer name="david">
            <phone>555-6472</phone>
            <address><street>Fifth Avenue</street></address>
        </customer>
    </data>

In [1]:
import xml.etree.cElementTree as et

parsedXML = et.parse( "data/test.xml" )

for node in parsedXML.getroot():
    name = node.attrib.get('name')
    email = node.find('email')
    phone = node.find('phone')
    street = node.find('address/street')


**Esta misma libreria nos proporciona métodos para modificar y posteriormente guardar / exportar nuestros XML.**

[tutorial](https://docs.python.org/3.7/library/xml.etree.elementtree.html#modifying-an-xml-file)

In [37]:
root = parsedXML.getroot()

for node in root.iter('customer'):
    email = node.find('email')

    if email is None:
        child = et.Element("email")
        child.text = "your@email.com"
        node.insert(1,child)

parsedXML.write('data/output.xml')

### **Ejercicio**

Transforma este xml en un json y guardalo en un archivo llamado *prueba.json*.

*ALERTA* : 
Comprueba que esta correctamente construido cargándolo otra vez

In [38]:
import xml.etree.cElementTree as et
import json
parsedXML = et.parse( "data/test.xml" )

data =  {'customers' : []}

for node in parsedXML.getroot():
    
    name = node.attrib.get('name')
    email = node.find('email')
    phone = node.find('phone')
    street = node.find('address/street')
    
    data_dicc = {}
    if name is not None:
        
        data_dicc["name"] = name
        
    if email is not None:
        
        data_dicc["email"] = email.text
    
    if phone is not None:
        
        data_dicc["phone"] = phone.text
        
    if street is not None:
        
        data_dicc["street"] = street.text

    data["customers"].append(data_dicc)


print(data)

with open("data_file.json", "w") as write_file:
    
    json.dump(data, write_file)
    
with open("data_file.json", "r") as read_file:
    datos = json.load(read_file)


    for k in range(len(datos["customers"])):
        print(datos["customers"][k])

{'customers': [{'name': 'gokhan', 'email': 'gokhan@gmail.com', 'phone': '555-1234'}, {'name': 'mike', 'email': 'mike@gmail.com'}, {'name': 'john', 'email': 'john@gmail.com', 'phone': '555-4567'}, {'name': 'david', 'phone': '555-6472', 'street': 'Fifth Avenue'}]}
{'name': 'gokhan', 'email': 'gokhan@gmail.com', 'phone': '555-1234'}
{'name': 'mike', 'email': 'mike@gmail.com'}
{'name': 'john', 'email': 'john@gmail.com', 'phone': '555-4567'}
{'name': 'david', 'phone': '555-6472', 'street': 'Fifth Avenue'}


## CSV
*Comma Separated Value* es el formato que relacionamos con las hojas de cálculo, Python tiene una libreria dedicada a este formato: **Pandas**

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv("SacramentocrimeJanuary2006.csv")
df

En este [enlace](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html) podemos ver como también tenemos la posibilidad de cargar una hoja excel en el formato Pandas. Evidentemente, así como en las demas liberias, tenemos funciones para exportar nuestra información a diferentes formatos.

Dedicaremos las próximas sesiones a esta interesante libreria