In [1]:
# initial setup
# %run "../../../common/0_notebooks_base_setup.py"


<link rel="stylesheet" href="../../../common/dhds.css">
<div class="Table">
    <div class="Row">
        <div class="Cell grey left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_portada.png" align="center" width="90%"/></div>                
        <div class="Cell right">
            <div class="div-logo"><img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/common/logo_DH.png" align="center" width=70% /></div>
            <div class="div-curso">DATA SCIENCE</div>
            <div class="div-modulo">MÓDULO 7</div>
            <div class="div-contenido">APIs <br/> JSON</div>
        </div>
    </div>
</div>

## Agenda

---

- APIs

- HTTP

- JSON


<div class="div-dhds-fondo-1"> Introducción
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />

</div>


## Introducción

---
 
En esta clase vamos a aprender a hacer **llamadas a APIs para obtener datos y crear los datasets** que vamos a usar en la construcción de modelos de machine learning.

**Nuestro objetivo es construir programáticamente datasets a partir de datos disponibilizados por distintos organismos y empresas**.

La forma más sencilla de pensar qué es una API es utilizar como analogía a un restaurante. 

Todo lo que está disponible en el menú del restaurante sería esencialmente la API pública. 

Dos puntos clave que hacen que la analogía funcione:

* el restaurante está repartiendo la comida gratis

* podemos usar esa comida para abrir nuestro propio pequeño restaurante.



¿Por qué es importante una **API pública**? 

Las API permiten a los desarrolladores crear aplicaciones que consumen recursos desde un servicio. 

También hay **APIs privadas** que no están expuestas al usuario general. (Sería el menú especial que el chef cocina para el personal que no puede ser ordenado por el público en general.) 

Las APIs privadas son esencialmente las que se utilizan como backend para construir el servicio que sí es público.


**API** significa Application Programming Interface, y refiere a cualquier interfaz que se utilice programáticamente. 

Una **interfaz** (también llamada protocolo) es un "contrato" que define cómo se comunican distintos objetos

El protocolo es una descripción de:

* Los mensajes que el objeto entiende.

* Los argumentos con los que estos mensajes pueden ser suministrados.
    
* Los tipos de resultados que devuelven estos mensajes.
    
* Los invariantes que se conservan a pesar de las modificaciones en el estado de un objeto.
    
* Las situaciones excepcionales que serán requeridas para ser manejadas por los clientes al objeto.



En lo que respecta a la clase de hoy, estudiaremos las **REST API** como una forma de hacer pedidos HTTP a un endpoint, para **enviar y recibir** datos estructurados, donde en vez de recibir páginas HTML, se reciben datos en una variedad de formatos: **JSON**, **XML**, **CSV**, etc.

**REST** es actualmente el tipo de arquitectura más común para pasaje de información desde y hacia endpoints (si trabajan con APIs antiguas, pueden tratar también con la arquitectura **SOAP**).

Antes de empezar a consumir APIs REST, es importante entender los fundamentos de la capa de comunicación sobre la que REST está montado: **HTTP**.


<div class="div-dhds-fondo-1"> HTTP
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />
</div>


## HTTP

---

**HTTP**, de sus siglas en inglés: "Hypertext Transfer Protocol", es el nombre de un **protocolo que nos permite realizar una petición de datos y recursos**, como pueden ser documentos HTML. 

Es la **base de cualquier intercambio de datos en la Web**, y un **protocolo de estructura cliente-servidor**, esto quiere decir que una petición de datos es iniciada por el elemento que recibirá los datos (el cliente), normalmente un navegador Web. 



Así, una página web completa resulta de la unión de distintos sub-documentos recibidos, como por ejemplo: un documento que especifique el estilo de maquetación de la página web (CSS), el texto, las imágenes, vídeos, scripts, etc...    

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_fetching_a_page.png" align="center"/>


Clientes y servidores se comunican intercambiando mensajes individuales. 

Los mensajes que envía el cliente, normalmente un navegador Web, se llaman request (peticiones), y los mensajes enviados por el servidor se llaman response (respuestas).

**HTTP** define, entre otras cosas, el formato de los mensajes pasados entre los **clientes HTTP** (Navegadores, programas de lineas de comando… ) y los **servidores HTTP**.

Como la web es un servicio, esta funciona mediante la combinación de clientes que hacen pedidos y servidores que reciben los pedidos.

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_http.png" align="center"/>


## Aplicaciones server-side
---

Las aplicaciones del lado del servidor son programas que corren en los web servers, procesan las solicitudes que el servidor recibe, y generan respuestas que espera el cliente.

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_aplicacion.png" align="center"/>


1. El cliente envía una solicitud **HTTP Request** al Servidor Web

2. El Servidor Web interpreta la solicitud y ejecuta la Aplicación correspondiente

3. La Aplicación del lado del servidor accede a la base de datos y genera la respuesta

4. El Servidor Web envía la respuesta **HTTP Response** al cliente



## URL

---

¿Cómo sabe el servidor qué es lo que se está pidiendo en la solicitud? 

Esto es especificado en la **URL** (Uniform Resource Locator), una especie de ruta que indica donde se puede encontrar un recurso.


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_url.png" align="center" />

* protocol: Indica el protocolo que será utilizado para acceder. ej HTTP, FTP, HTTPS

* host: Indica cómo encontrar en la red el servidor que tiene el recurso.

* port: Indica en qué puerto TCP/IP está escuchando el servidor

* path: Indica la ruta para localizar el recurso dentro del servidor

* query: Indica cuál es la consulta que se está realizando



## Mensajes HTTP

---

### HTTP Request


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_HTTP_Request.png" align="center" />


Una petición de HTTP (request), está formado  por los siguientes campos:

* Un método HTTP,  normalmente pueden ser un verbo, como: GET, POST o un nombre como: OPTIONS (en-US) o HEAD (en-US), que defina la operación que el cliente quiera realizar. 

    El objetivo de un cliente, suele ser una petición de recursos, usando GET, o presentar un valor de un formulario HTML, usando POST, aunque en otras ocasiones puede hacer otros tipos de peticiones. 

* La dirección del recurso pedido; la URL del recurso, sin los elementos obvios por el contexto, como pueden ser: sin el  protocolo (http://),  el dominio (aquí developer.mozilla.org), o el puerto TCP (aquí el 80). 

* La versión del protocolo HTTP.

* Cabeceras HTTP opcionales, que pueden aportar información adicional a los servidores.

* O un cuerpo de mensaje, en algún método, como puede ser POST, en el cual envía la información para el servidor.


## Mensajes HTTP

---

### HTTP Response


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_HTTP_Response.png" align="center" />



Las respuestas (response) están formadas por los siguentes campos:

* La versión del protocolo HTTP que están usando.
Los status codes de HTTP Responses tienen significados estandarizados:

* 2XX  Peticiones correctas, procesadas correctamente

* 4XX  Errores del cliente

* 5XX  Errores del servidor
* Un código de estado, indicando si la petición ha sido exitosa, o no, y debido a que.

* Un mensaje de estado, una breve descripción del código de estado. 

* Cabeceras HTTP, como las de las peticiones.

* Opcionalmente, el recurso que se ha pedido.

## Status Codes

---

Los códigos de estado de respuesta HTTP indican si se ha completado satisfactoriamente una solicitud HTTP específica. 

Las respuestas se agrupan en cinco clases:

1. Respuestas informativas (100–199),
2. Respuestas satisfactorias (200–299),
3. Redirecciones (300–399),
4. Errores de los clientes (400–499),
5. y errores de los servidores (500–599).

Pueden consultar todos los detalles <a href="https://developer.mozilla.org/es/docs/Web/HTTP/Status">aquí</a>



Los que vamos a ver con frecuencia son 

* 200 OK: La solicitud ha tenido éxito.

* 400 Bad Request: Esta respuesta significa que el servidor no pudo interpretar la solicitud dada una sintaxis inválida.

* 401 Unauthorized: Es necesario autenticar para obtener la respuesta solicitada.

* 403 Forbidden: El cliente no posee los permisos necesarios para cierto contenido, por lo que el servidor está rechazando otorgar una respuesta apropiada.

* 404 Not Found: El servidor no pudo encontrar el contenido solicitado. Este código de respuesta es uno de los más famosos dada su alta ocurrencia en la web.

* 500 Internal Server Error: En el servidor se ha producido un error que no sabe cómo manejar.



## HTTP Request Methods (Verbos)

---

GET => Solicita el recurso especificado.

POST => Crea un recurso.

PUT => Modifica el recurso especificado

PATCH => Modifica partes del recurso especificado.

DELETE => Borra el recurso.

HEAD => Obtiene los headers del recurso.

De los anteriores, GET y POST son los más comúnmente utilizados.


## Autenticación 

---

Muchas APIs no son accesibles de forma libre. 

Primero hay que registrarse como desarrollador para obtener una clave de autorización. 

El objetivo detrás de solicitar la identificación y autorización de los clientes es evitar el acceso a datos restringidos, así como poder proteger el servidor de clientes abusivos que pudieran degradar el servicio para otros.

Por ejemplo las APIs de twitter y facebook sólo permiten obtener información propia del usuario que se ha identificado, pero no datos de otros. Al mismo tiempo establecen cuotas muy granulares para cada tipo de recurso, impidiendo la degradación del servicio por usuarios abusivos.


<div class="div-dhds-fondo-1"> Demo HTTP
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />

</div>


## Demo

---

Exploremos los recursos HTTP, mirando las solicitudes (**HTTP Requests**) y las respuestas (**HTTP Responses**), usando las herramientas para desarrolladores de Chrome (Ctrl + Shit + i).  

Seleccionando la tab **Network** y la pestaña **Headers**:

Navegamos la url `digitalhouse.com`

Observemos

* El código de respuesta es 301 que indica que hace una redirección. La url a la que redirige es www.digitalhouse.com (que se ve como segundo pedido en Network)

* El request se hizo con el método GET y se uso https



<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_demo_1.png" align="center" width="100%"/>

Haciendo click sobre la segunda linea (www.digitalhouse.com)

Observemos

* El código de respuesta es 200

* El contenido del response es html con encoding UTF-8

* El request se hizo con el método GET y la conexión es segura (https)

* Cada linea bajo Name es un recurso solicitado por el cliente (browser) al servidor.

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_demo_2.png" align="center" width="100%"/>

<div class="div-dhds-fondo-1"> JSON
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />
</div>


## JSON

---

**JSON** es el acrónimo de JavaScript Object Notation. 

Se trata de un formato para guardar e intercambiar información de forma organizada y fácil de interpretar. Básicamente, nos da una colección de datos muy fácil de leer.

Los archivos json contienen solo texto y usan la extensión .json.

JSON es un formato que almacena información estructurada y se utiliza principalmente para transferir datos entre un servidor y un cliente.

El archivo es una alternativa más simple y liviana al XML que cuenta con funciones similares.



JSON está construído por solo dos estructuras:

* **Objetos**: Son colecciones de pares nombre/valor, en muchos lenguajes este tipo de colección se realiza mediante diccionarios, estructuras, tablas de hash, objetos, etc.

* **Arrays**: Son una lista ordenada de valores. En muchos lenguajes esto es realizado mediante arreglos, vectores, listas, secuencias, etc.

Estas son estructuras de datos universales (prácticamente todos los lenguajes de programación las soportan). 

Como JSON fue ideado como un formato de intercambio de datos universal, tiene sentido que se utilicen estas estructuras.

Además de estas estructuras, JSON define otros tipos básicos: **string**, **número** y **booleanos**.


* Objetos: Un objeto es un conjunto no ordenado de pares nombre/valor, como en Python un diccionario. 
    Un objeto comienza con { (llave izquierda) y termina con } (llave derecha). 
    Cada nombre es seguido por : (dos puntos) y los pares nombre/valor son separados por , (coma).

    La sintaxis es la siguiente:
    
    { nombre : valor,   nombre : valor,  ...}
    
    ejemplo:
    
    {"jugador": "Diego", "numero": 10,  ...}


* Arrays: Un array es una colección ordenada de valores. Un array comienza con [ y termina con ] (corchetes). 
    Entre ellos puede haber una cantidad arbitraria de valores separados por ,.

    La sintaxis es la siguiente:
    
    [ valor , valor,  ...]
    
    ejemplo:
    
    [2, 3, 5, 7, 11, ...]


## Sintaxis

---

* Todos los archivos de JSON representan una de estas dos estructuras: 1) un objeto, es decir, una lista de pares clave / valor. 2) una colección de elementos, lo que se conoce como array o arreglo.

* Los archivos JSON que representan objetos comienzan siempre con una llave de inicio { y acaban con la llave de cierre }.

* Los archivos JSON que representan una lista de valores, es decir, un arreglo, comienzan por [ y terminan por ].

* Se deben usar siempre comillas dobles a la hora de encerrar cadenas y nombres de los atributos del objeto.

* Todos los nombres de los atributos del objeto deben tener comillas necesariamente.

* Cada elemento del objeto JSON se separa del siguiente con una coma (,). Pero no debe haber una coma después del último.

* El archivo transferido en un JSON debe ser necesariamente codificado como UTF8

## Ejemplo JSON

---

<code>
{
  "nombre":"Jonh Doe",
  "profesion":"Programador",
  "edad":25,
  "lenguajes":["PHP","Javascript","Dart"],
  "disponibilidadParaViajar":true,
  "rangoProfesional": {
      "aniosDeExperiencia": 12,
      "nivel": "Senior"
  }
}
</code>

¿Cuáles son los objetos?

¿Identifican objetos anidados?

¿Identifican un array?


Un recurso para validar la sintaxis (Validate) y dar formato (Beautify) un documento JSON es <a href="http://codebeautify.org/jsonviewer" target = "_blank">JSON Viewer</a>. 

Observen que los valores booleanos en json se representan como `true` y `false` mientras que en python se representan como `True` y `False`


<div class="div-dhds-fondo-1"> Hands-on
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />
</div>


## Ejercicio

---

Vamos a ver ahora un ejemplo de uso de una api de mercado libre.

La documentación de las APIs disponibles está en 

https://developers.mercadolibre.com.ar/es_ar/api-docs-es

Recursos de la API: https://developers.mercadolibre.com.ar/es_ar/categorias-y-publicaciones Haciendo click en GET vemos un ejemplo 
    
**Queremos saber cuáles fueron las preguntas realizadas sobre determinado item.**


1) Elijan un producto en mercadolibre y extraigan su id de la url.
Por ejemplo 

 * https://articulo.mercadolibre.com.ar/MLA-931469458-todo-eso-que-somos-szela-juan-libro-_JM
el id es MLA931469458

* https://articulo.mercadolibre.com.ar/MLA-792179822-cemento-el-semillero-del-rock-igarzabal-nicolas-libro-_JM
el id es MLA792179822

* https://articulo.mercadolibre.com.ar/MLA-910229075-oro-de-rey-herrera-javier-leon-libro-_JM#
el id es MLA910229075

Nota: si consultan varias veces por el mismo item van a obtenerun código de error en el response por un rato.



2) Usando 

* la biblioteca `requests` https://docs.python-requests.org/en/master/ y 

* la documentación del método que provee mercadolibre en https://developers.mercadolibre.com.ar/es_ar/preguntas-y-respuestas#

Construir un dataframe con las preguntas realizadas sobre el item que eligieron.

¿Qué tipo de datos tiene la columna `answer`?

Usando el método `json_normalize` https://pandas.pydata.org/pandas-docs/version/1.1.3/reference/api/pandas.json_normalize.html construir un DataFrame las preguntas realizadas sobre el item que eligieron. ¿Cómo están representados ahora los datos de `answer`?



3 ) Determinar 

* el `status_code` devuelto

* la lista de `headers` del response

* el valor de `Content-Type` del header del response

* el contenido del response en formato json

In [13]:
import requests
import json
import pandas as pd

## Solución

---

In [14]:
import requests
import json
import pandas as pd

In [24]:
#item_id = "MLA931469458"
item_id = "MLA18577306"
#item_id = "MLA910229075"
url = "https://api.mercadolibre.com/questions/search?item_id=" + item_id
print(url)
response = requests.get(url)

https://api.mercadolibre.com/questions/search?item_id=MLA18577306


In [25]:
data_response = response.json()
data_response

{'total': 0,
 'limit': 50,
 'questions': [],
 'filters': {'limit': 50,
  'offset': 0,
  'api_version': '4',
  'is_admin': False,
  'sorts': [],
  'caller': None,
  'item': 'MLA18577306'},
 'available_filters': [{'id': 'from',
   'name': 'From user id',
   'type': 'number'},
  {'id': 'seller', 'name': 'Seller id', 'type': 'number'},
  {'id': 'totalDivisions', 'name': 'total divisions', 'type': 'number'},
  {'id': 'division', 'name': 'Division', 'type': 'number'},
  {'id': 'status',
   'name': 'Status',
   'type': 'text',
   'values': ['ANSWERED',
    'BANNED',
    'CLOSED_UNANSWERED',
    'DELETED',
    'DISABLED',
    'UNANSWERED',
    'UNDER_REVIEW']}],
 'available_sorts': ['item_id', 'from_id', 'date_created', 'seller_id']}

In [17]:
questions = data_response["questions"]
questions_df = pd.DataFrame(questions)
print(questions_df.shape)
questions_df

(0, 0)


In [18]:
if(questions_df.shape[0] > 0):
    print(questions_df.answer[0])
    print(type(questions_df.answer[0]))

In [19]:
pd.json_normalize(questions)

In [20]:
response.status_code

200

In [21]:
response.headers

{'Content-Type': 'application/json;charset=UTF-8', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Fri, 27 Jan 2023 15:53:20 GMT', 'cache-control': 'max-age=0, stale-while-revalidate=0, stale-if-error=0', 'vary': 'Accept,Accept-Encoding', 'etag': '2fb70e279e33b17c2306343ee8bbb432', 'X-Content-Type-Options': 'nosniff', 'X-Request-Id': 'c2057829-3cda-487e-95ea-8e60d53face0', 'X-Frame-Options': 'DENY', 'X-XSS-Protection': '1; mode=block', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Headers': 'Content-Type', 'Access-Control-Allow-Methods': 'PUT, GET, POST, DELETE, OPTIONS', 'Access-Control-Max-Age': '86400', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 1f60c66f5a68e4f3bcea1b8427b33b12.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'EZE50-P1', 'X-Amz-Cf-Id': 'YCuaWbHRksKLppHqPj9k3cNHZJ4CMdnKyetfXArLRtl5dt6szwGO1g=='}

In [22]:
response.headers["Content-Type"]

'application/json;charset=UTF-8'

In [23]:
response.json()

{'total': 0,
 'limit': 50,
 'questions': [],
 'filters': {'limit': 50,
  'offset': 0,
  'api_version': '4',
  'is_admin': False,
  'sorts': [],
  'caller': None,
  'item': 'MLA792179822'},
 'available_filters': [{'id': 'from',
   'name': 'From user id',
   'type': 'number'},
  {'id': 'seller', 'name': 'Seller id', 'type': 'number'},
  {'id': 'totalDivisions', 'name': 'total divisions', 'type': 'number'},
  {'id': 'division', 'name': 'Division', 'type': 'number'},
  {'id': 'status',
   'name': 'Status',
   'type': 'text',
   'values': ['ANSWERED',
    'BANNED',
    'CLOSED_UNANSWERED',
    'DELETED',
    'DISABLED',
    'UNANSWERED',
    'UNDER_REVIEW']}],
 'available_sorts': ['item_id', 'from_id', 'date_created', 'seller_id']}

<div class="div-dhds-fondo-1"> Referencias
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M7/CLASE_51_APIs/Presentacion/img/M7_CLASE_51_separador.png" align="center" />

</div>


## Referencias 

---

<a href="https://www.youtube.com/watch?v=OVvTv9Hy91Q"> What Are APIs? - Simply Explained</a>

<a href="https://developer.mozilla.org/es/docs/Web/HTTP/Overview">HTTP</a>

<a href="https://www.geeksforgeeks.org/get-post-requests-using-python/">GET and POST requests using Python</a>

<a href="http://codebeautify.org/jsonviewer">jsonviewer</a>

<a href="https://medium.com/edureka/what-is-rest-api-d26ea9000ee6">What is REST API? — A Comprehensive Guide To RESTful APIs</a>