
<h1><font color="#004D7F" size=6>Manejo de datos semi-estructurados y consumo de APIs</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Antonio Jesús Gil</font><br>
<font color="#004D7F" size=3>Introducción a la Ciencia de Datos</font><br>

</div>

---

<a id="indice"></a>
<h2><font color="#004D7F" size=5>Índice</font></h2>


* [1. Introducción](#section1)
* [2. Trabajar con diccionarios en python](#section2)
* [3. Serialización de datos. Formato JSON](#section3)
* [4. Consumo de APIs](#section4)
* [5. Otros formatos de serialización](#section5)
* [Referencias](#referencias)

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>


Las Application Program Interfaces (APIs) se utilizan generalmente para enviar y recibir datos de servidores web remotos. Para usar un API, se realiza una llamada a un servidor web y se recive en la respuesta los datos que se solicitan.

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Trabajar con diccionarios en python</font>

### <font color="#004D7F"> <i class="fa fa-book" aria-hidden="true" style="color:#113D68"></i> Demo</font>
Vamos a ver las operaciones básicas que se pueden realizar en python trabajando con diccionarios. Las operaciones que vamos a ver son las siguientes:
* Crear un diccionario (definición con {} y método dict)
* Añadir elementos a un diccionario
* Acceder a los valores de un diccionario
* Diccionarios anidados
* Métodos `keys()`, `values()`, `items()`, `has_key()`, `update()`, `len()`

In [None]:
mi_diccionario = {
    "clave": 7,
    "valor": "soy un string",
    "dict": {
        "clave": 'valor',
        'foo': 'var'
    },
    'lista': [
        1,
        2,
        3
    ]
}

# Otra forma de crear un dict es usando la palabra clave dict
diccionario = dict([("clave",7), ("otra_clave","soy un string")])
diccionario

In [None]:
# Add elementos a un diccionario existente
mi_diccionario['nuevo'] = 'dato'
# Modificar elementos de un diccionario existente
mi_diccionario['foo'] = 'bar'
# Acceso a los valores del diccionario
mi_diccionario['foo']
# Uso del operador get
mi_diccionario.get('lista')
mi_diccionario.get('valor2', 'Ahora es el valor por defecto')
mi_diccionario
# Comprobamos que no ha sido añadido el 'valor2 al dict

In [None]:
# Obtener las claves
mi_diccionario.keys()
# Podemos convertirlo en una lista para ser iterada
list(mi_diccionario.keys())

In [None]:
# Acceso a los items. Para trabajar con ellos se usa un bucle for e iterar
for k,v in mi_diccionario.items():
    print(k,v)

# Otro metodo
for k in mi_diccionario.keys():
    print(k, mi_diccionario[k])

In [None]:
len(mi_diccionario)

---

<a id="section3"></a>
# <font color="#004D7F"> 3. Serialización de datos. Formato JSON</font>

Serialización es el proceso de traducir estructuras de datos o objetos en un formato que pueda ser almacenado (por ejemplo, en un fichero o en memoria) o transmitido (por ejemplo, a través de una conexión de red) y reconstruido después (posiblemente en un entorno diferente).

## <font color="#004D7F"> Formato JSON</font>
Los tipos de valores que podemos encontrar en JSON son los siguientes:

* Un número (entero o float)
* Un string (entre comillas dobles)
* Un booleano (true o false)
* Un array (entre corchetes [] )
* Un objeto (entre llaves {})
* Null

Los objetos JSON se identifican entre llaves:

```json
{
  "Curso": "Introducción a la ciencia de datos",
  "Empresa": "Etic sistemes"
}

```
También podemos incluir arrays, insertando su contenido entre corchetes:
```json
{
  "Curso": "Introducción a la ciencia de datos",
  "Empresa": "Etic sistemes",
  "Modulos": [
      "1. Introducción a la ciencia de datos. Herramientas básicas",
      "2. Recolección, preparación y almacenamiento de datos"
  ],
  "Colaboradores": [
      {
          "nombre": "Antonio Jesús Gil",
          "equipo": "Engineering Manager"
      },
      {
          "nombre": "Ada Colau",
          "afiliación": "Alcaldesa de Barcelona"
      }
  ]
}

```

### <font color="#004D7F"> <i class="fa fa-book" aria-hidden="true" style="color:#113D68"></i> Demo</font>
Vamos a ver las operaciones básicas que se pueden realizar en python trabajando con JSON.
* Convertir un diccionario en un string json (json.dumps())
* Convertir un string json en un diccionario (json.loads())

---

<a id="section4"></a>
# <font color="#004D7F"> 4. Consumo de APIs</font>

Las APIs se alojan en servidores web. Cuando escribimos www.google.com en la barra de direcciones de nuestro navegador, el ordenador le pide a www.google.com que sirve una página web que es devuelta a nuestro navegador.

Las APIs funciona de la misma forma, sólo que en lugar de solicitar al navegador web una página web, solicitamos datos. Los datos son devueltos generalmente en formato JSON.



## <font color="#004D7F">Tipos de peticiones</font>

Hay distintos tipos de peticiones, aunque la más común es la de tipo GET, que es la que utilizaremos para solicitar datos.

Un **endpoint** es una ruta en el servidor que se puede usar para obtener datos desde la API. Por ejemplo, `/users`  podría ser un endpoint de un API que nos daría información acerca de los usuarios. Para acceder a los endpoints, debemos añadir a la **url base** de la API el endpoint al que queremos acceder.

## <font color="#004D7F">Códigos de respuesta</font>

Las peticiones a un servidor web devolverán un código de respuesta. Los códigos de respuesta indican qué ha pasado con la petición. A continuación se muestran algunos de los códigos de respuesta más comunes:

* 200: Todo ha ido bien y el resultado (si lo hay) ha sido devuelvo
* 301: El servidor te está dirigiendo a un endpoint diferente. Esto puede ocurrir cuando el API ha cambiado de dominio o de nombre.
* 400: El servidor devuelve error porque el formato de la petición no es correcto
* 401: El servidor devuelve error porque no estás correctamente autentificado.
* 403: El servidor devuelve error porque no tienes permisos para acceder al recurso que estás solicitando.
* 404: El servidor devuelve error porque el recurso solicitado no se encuentra en el servidor
* 500: Error interno del servidor

## <font color="#004D7F">Parámetros de búsqueda</font>

En algunas ocasiones se pueden añadir parámetros (**query parameters**) a las llamadas. Estos parámetros se añaden al final de la URL con el siguiente formato:
```
http://base_url/endpoint?param1=XXX&param2=YYY&...&paramN=ZZZ
```

### <font color="#004D7F"> <i class="fa fa-book" aria-hidden="true" style="color:#113D68"></i> Demo</font>
Vamos a explorar el API de Github viendo como podemos obtener datos de usuarios y repositorios.

La url base del API es https://api.github.com y las partes más relevantes de la documentación son las siguientes:
* usuarios: https://developer.github.com/v3/users
* repositorios: https://developer.github.com/v3/repos


In [None]:
import pprint
import requests
base_url = 'https://api.github.com'

issues = requests.get(base_url + '/repos/requests/requests/issues')
pp = pprint.PrettyPrinter(indent=4)
pp.pprint(issues.json())


---

### <font color="#004D7F"> <i class="fa fa-pencil-square-o" aria-hidden="true" style="color:#113D68"></i> Ejercicio</font>

Crear una función que dado un nombre de usuario y el nombre de un repositorio obtenga un string JSON con el siguiente formato: 

```json
{
    "name": "name_of_the_repo",
    "open_issues": 124,
    "issues": [
        {
            "title": "titulo de la issue",
            "user": "campo login del user que reporta el issue"
        }
    ]
}
```

El máximo de issues que se deben reportar es 50 y deben estar abiertas (`closed_at: None`)

In [None]:
def get_repo_and_issues(user, repo_name):
    pass

get_repo_and_issues('requests', 'requests')
    


---

<a id="section5"></a>
# <font color="#004D7F">5. Otros formatos de serialización</font>

Además de JSON, en Python podemos utilizar otros formatos de serialización como son el formato YAML (YAML Ain't Markup Language) o el formato Pickle.

## <font color="#004D7F">YAML</font>


YAML es un formato de serialización de datos legible por humanos inspirado en lenguajes como XML, C, Python, Perl...

### <font color="#004D7F">Ejemplos</font>

* Listas (formato bloque)

```yaml
- python
- requests
- BeautifulSoup
- selenium
```

* Listas (formato linea)

```yaml
[python, requests, BeautifulSoup, selenium]
```

* Arrays asociativos (bloque)

```yaml
nombre: Juan Ignacio Alonso Barba,
afiliación: Grupo Vermon
```

* Arrays asociativos (en línea)
```yaml
{nombre: Juan Ignacio Alonso Barba, afiliación: Grupo Vermon}
```

* Listas de arrays asociativos

```yaml
- {nombre: Juan Ignacio Alonso Barba, afiliación: Grupo Vermon}
- nombre: Jacinto Arias
  afiliación: Universidad de Castilla-La Mancha
```

* Arrays asociativos de listas
```yaml
clases: [Expresiones regulares, web scraping, APIs]
tecnologías:
  - python
  - requests
  - BeautifulSoup
  - selenium
```

### <font color="#004D7F"> <i class="fa fa-book" aria-hidden="true" style="color:#113D68"></i> Demo</font>
Vamos a ver como utilizar la librería PyYAML para realizar conversiones entre diccionarios de python y strings en formato YAML y viceversa.
* Convertir un diccionario en un string json (yaml.dump())
* Convertir un string json en un diccionario (yaml.load())

In [None]:
!pip install pyyaml

In [None]:
import yaml

## <font color="#004D7F">Pickle</font>

Pickle es el formato de serialización más utilizado en Python. Las diferencias fundamentales entre pickle y JSON son las siguientes:

* JSON es un formato de serialización de texto (generalmente codificado en utf-8), mientras que pickle es un formato de serialización binario.
* JSON es leíble por humanos, pickle no.
* JSON es interoperable y ampliamente usado fuera del ecosistema Python, pickle es específico de Python.
* JSON por defecto sólo puede representar un subconjunto de los tipos predefinidos de python y no puede trabajar con clases propias Pickle puede representar la gran mayoría de tipos de Python (muchos de ellos automáticamente) y, en casos complejos, los desarrolladores pueden implementar interfaces específicas para hacer sus objetos serializables con pickle.


---

<a id="referencias"></a>
# <font color="#004D7F"> Referencias</font>

* [pickle](https://docs.python.org/3/library/pickle.html)