# Recursos Web
![](https://assets.grepsr.com/grepsr-homepage-v2/wp-content/uploads/2013/12/web.png)

Hasta ahora hemos recurrido a muchas fuentes de información: entrada de usuarios, archivos de diferentes formatos, bases de datos y tablas web. Pero el gran reporitorio de información actualmente es la World Wide Web. Actualmente todo esta en el web y tenemos dos formas de sacarle provecho: utilizando servicios de consultas abiertos basados en APIs, o recorriendo las páginas web desde el código HTML para extraer lo que requerimos utilizando una técnica llamada webscrapping.

Luis A. Muñoz

# API REST
Igual que una interfaz de usuario permite la interacción y comunicación entre un software y una persona, una API (acrónimo de Application Programming Interface) facilita la relación entre dos aplicaciones para el intercambio de mensajes o datos. Un conjunto de funciones y procedimientos que ofrece una biblioteca para que otro software la utilice como capa de abstracción, un espacio de acceso e intercambio de información adicional en la parte superior. Así una se sirve de la información de la otra sin dejar de ser independientes. 

REST es un estilo de arquitectura de software que se utiliza para describir cualquier interfaz entre diferentes sistemas que utilice HTTP para comunicarse. Este término significa REpresentational State Transfer (transferencia de estado representacional), lo que quiere decir que entre dos llamadas cualquiera, el servicio no guarda los datos. Por ejemplo, podemos autenticar a un usuario con su email y contraseña en una llamada, pero la siguiente que hagamos ya se habrá olvidado de la anterior petición de autenticación.

Una API REST es un backend capaz de contestar a las llamadas a una serie de URLs en formato JSON. Es utilizado por muchas empresas gracias a su versatilidad y eficiencia.

La principal ventaja de las API REST es que podemos desarrollar una API en el backend y utilizarla en cualquier dispositivo, ahorrando así mucho tiempo de desarrollo. En el caso de Twitter, la misma API se consume desde Android, iOS y el navegador web.

<img src="https://phpenthusiast.com/theme/assets/images/blog/what_is_rest_api.png" alt="drawing" width="500"/>

## API REST con request
Para utilizar las facilidades de un API REST, es necesario contar con el URI (Uniform Resource Identifier) del recurso y un método de obtener las respuestas ante las peticiones de recursos o acciones sobre el servicio.

![](https://avaldes.com/wp-content/uploads/2017/08/REST_URL_structure.png)

Para manipular los recursos, HTTP nos dota de los siguientes métodos con los cuales debemos operar:

* GET: Para consultar y leer recursos
* POST: Para crear recursos
* PUT: Para editar recursos
* DELETE: Para eliminar recursos.
* PATCH: Para editar partes concretas de un recurso.

Los métodos de uso más común son GET y POST. Por ejemplo, se puede utilizar GET para saber las ultimas actualizaciones de una cuenta de Twitter, o utilizar POST para enviar un Twitter bajo una cuenta de usuario.

In [1]:
import requests
import json

### Public API REST
Existen API REST públicas, es decír de libre consulta para obtener información sobre algunos recursos disponibles de dominio público. Por ejemplo, se puede obtener información libre de la Estación Espacial Internacional (IIS) en el proyecto de fuente abierta [Open Notify](http://open-notify.org/). Aquí podemos obtener algunos datos sobre la Estación Espacial y sus tripulantes.

In [2]:
URL = "http://api.open-notify.org/iss-now.json"
r = requests.get(URL)

In [3]:
r.status_code == requests.codes.ok

True

In [4]:
URL = "http://api.open-notify.org/iss-now.json"
r = requests.get(URL)

if r.status_code == requests.codes.ok:
    data = r.json()
    
    print(json.dumps(data, indent=4))
else:
    print(f"ERROR: Reponse: {r.status_code}")

{
    "message": "success",
    "timestamp": 1604270773,
    "iss_position": {
        "latitude": "51.1751",
        "longitude": "83.3245"
    }
}


In [5]:
from datetime import datetime

print(f"Date & Time: {datetime.fromtimestamp(int(data['timestamp']))}")
print(f"Lat: {data['iss_position']['latitude']}, Lon:{data['iss_position']['longitude']}")

Date & Time: 2020-11-01 17:46:13
Lat: 51.1751, Lon:83.3245


### API REST con parametros
La librería `request` tiene como principal utilidad la conformación de un URI a partir de un URL; esto quiere decir, agregarle los parametros requeridos por un GET para obtener la información necesaria.

Por ejemplo, para obtener los momentos en los que se puede tener visibilidad de la Estacion Espacial, se puede hacer una consulta sobre el servicio, agregandole la locación de observación.

In [6]:
# URI: "http://api.open-notify.org/iss-pass.json?lat=LAT&lon=LON"
URL = "http://api.open-notify.org/iss-pass.json"
payload={'lat': '-12.0500',
         'lon': '-77.0500'}
r = requests.get(URL, params=payload)
print(f"GET {r.url}")

if r.status_code == requests.codes.ok:
    data = r.json()
    
    print(json.dumps(data, indent=4))

    # Guardar en un archivo
    with open("temp.json", mode='w') as file:
        json.dump(data, file)
else:
    print(r.status_code)

GET http://api.open-notify.org/iss-pass.json?lat=-12.0500&lon=-77.0500
{
    "message": "success",
    "request": {
        "altitude": 100,
        "datetime": 1604270778,
        "latitude": -12.05,
        "longitude": -77.05,
        "passes": 5
    },
    "response": [
        {
            "duration": 635,
            "risetime": 1604285579
        },
        {
            "duration": 486,
            "risetime": 1604291444
        },
        {
            "duration": 647,
            "risetime": 1604333449
        },
        {
            "duration": 440,
            "risetime": 1604339363
        },
        {
            "duration": 581,
            "risetime": 1604369138
        }
    ]
}


### Ejercicio
Escriba un programa en Python que pida al usuario una coordenada y retorne las próximas 5 vistas posibles de la Estación (fecha-hora inicial/final)    

In [7]:
import requests
from datetime import datetime

URL = "http://api.open-notify.org/iss-pass.json"
lat, lon = input("Ingrese coordenadas [NS EO]:").split()

payload={'lat': lat,
         'lon': lon}
r = requests.get(URL, params=payload)

if r.status_code == requests.codes.ok:
    data = r.json()
    
    for idx, item in enumerate(data['response'], start=1):
        print(f"{idx}. INI: {datetime.fromtimestamp(int(item['risetime']))} - FIN: {datetime.fromtimestamp(int(item['risetime'] + item['duration']))}")
        
else:
    print("ERROR:", r.status_code)

Ingrese coordenadas [NS EO]: -12 -15


1. INI: 2020-11-01 18:49:41 - FIN: 2020-11-01 18:59:59
2. INI: 2020-11-02 06:31:26 - FIN: 2020-11-02 06:41:02
3. INI: 2020-11-02 08:07:54 - FIN: 2020-11-02 08:17:47
4. INI: 2020-11-02 16:26:51 - FIN: 2020-11-02 16:33:40
5. INI: 2020-11-02 18:01:43 - FIN: 2020-11-02 18:12:34


### Ejercicio
Escriba una aplicación en tkinter que muestre en tiempo real la ubicación en forma de coordenadas de la Estación Espacial Internacional

In [2]:
import tkinter as tk
import requests
from time import sleep
import threading

class App:
    def __init__(self, master):
        self.master = master
        self.master.geometry("240x100+100+100")
        self.master.resizable(0, 0)
        
        self.URL = "http://api.open-notify.org/iss-now.json"
        
        self.lblNS = tk.Label(self.master, font='Arial 12 bold')
        self.lblWE = tk.Label(self.master, font='Arial 12 bold')
        
        self.lblNS.pack(padx=10, pady=10)
        self.lblWE.pack(padx=10, pady=10)
        
        self.query_iss()
        

    def query_iis(self):
        while True:
            r = requests.get(self.URL)

            if r.status_code == requests.codes.ok:
                data = r.json()
                loc_NS = data['iss_position']['latitude']
                loc_WE = data['iss_position']['longitude']

                self.lblNS.config(text=f"{loc_NS} °N")
                self.lblWE.config(text=f"{loc_WE} °W")
            
            self.master.after(1000, self.query_iss)

        
root = tk.Tk()
app = App(root)
root.mainloop()

### Public Key API REST
Existen API REST que requieren de un tipo de authenticación por parte del usuario simple, en forma de una código alfanumérico llamado llave (ya sea privada, de consumo, etc.) que debe ser generada como parte de un proceso de creación de cuenta de desarrollador. Por ejemplo, el API REST de [MapQuest](https://developer.mapquest.com/) permite obtener muchos servicios geográficos, pero requiere el uso de una llave de autenticación, por lo que será necesario abrir una cuenta y utilizar la llave para utilizar los recursos.

### TIP: Secretos y Variables de Ambiente
Esta llave de autenticación se debe de enviar cada vez que se hace una consulta sobre el API, y es una buena práctica mantenerla secreta y lejos del código. Hay algunas formas de mantener las cosas secretas en Python, y una de ellas es utilizar las *variables de ambiente* y a librería `doyenv`. Será necesario instalar:

    pip install -U python-dotenv
    
Una vez hecho esto, debemos crear un archivo `.env` con un editor de texto en la misma ruta de trabajo con la siguiente informacion (la llave mostrada es ficticia, tendrá que colocar la suya):

    MAPQUEST_KEY = 8sHGh5hHGH69JHJjkiusljsijss
    
Para utilizar la llave utilizaremos el siguiente código:

In [1]:
import os
from dotenv import load_dotenv, find_dotenv

load_dotenv(find_dotenv())

API_KEY = os.environ.get("MAPQUEST_KEY")
#print(API_KEY)

Ahora con la clave en un lugar seguro, podemos llmar al API REST Geocoding. Este permite obtener las coordenadas geográficas a partir de una dirección.

In [2]:
import requests
import json

API_KEY = os.environ.get("MAPQUEST_KEY")
URL = "http://open.mapquestapi.com/geocoding/v1/address"
payload = {'key': API_KEY, 
           'location': 'Av. La Marina 2810, San Miguel, Lima'}   # Av. La Marina 2810, San Miguel, Lima
r = requests.get(URL, params=payload)
print(f"GET {r.url}")

if r.status_code == requests.codes.ok:
    data = r.json()
    
    print(json.dumps(data, indent=4))
    
    # Guardar en un archivo
    with open("temp.json", mode='w') as file:
        json.dump(data, file)
else:
    print(r.status_code)

GET http://open.mapquestapi.com/geocoding/v1/address?key=VSHBijCtLwMxAAzMeITIGuOcdnGPc5O9&location=Av.+La+Marina+2810%2C+San+Miguel%2C+Lima
{
    "info": {
        "statuscode": 0,
        "copyright": {
            "text": "\u00a9 2020 MapQuest, Inc.",
            "imageUrl": "http://api.mqcdn.com/res/mqlogo.gif",
            "imageAltText": "\u00a9 2020 MapQuest, Inc."
        },
        "messages": []
    },
    "options": {
        "maxResults": -1,
        "thumbMaps": true,
        "ignoreLatLngInput": false
    },
    "results": [
        {
            "providedLocation": {
                "location": "Av. La Marina 2810, San Miguel, Lima"
            },
            "locations": [
                {
                    "street": "Avenida La Marina",
                    "adminArea6": "San Miguel",
                    "adminArea6Type": "Neighborhood",
                    "adminArea5": "San Miguel",
                    "adminArea5Type": "City",
                    "adminArea4": "Lim

### Ejercicio
Escriba un programa en Python que pida al usuario una direccion y retorne las próximas 5 vistas posibles de la Estación (fecha-hora inicial/final)

    Ingrese la direccion:
 

In [3]:
import requests
from datetime import datetime

URL = "http://open.mapquestapi.com/geocoding/v1/address"
location = input("Ingrese una ubicacion de observacion: ")

payload = {'key': API_KEY, 
           'location': location}
r = requests.get(URL, params=payload)

if r.status_code == requests.codes.ok:
    data = r.json()
    payload={'lat': data['results'][0]['locations'][0]['latLng']['lat'],
             'lon': data['results'][0]['locations'][0]['latLng']['lng']}
    
    URL = "http://api.open-notify.org/iss-pass.json"

    r = requests.get(URL, params=payload)

    if r.status_code == requests.codes.ok:
        data = r.json()

        for idx, item in enumerate(data['response'], start=1):
            print(f"{idx}. INI: {datetime.fromtimestamp(int(item['risetime']))} - FIN: {datetime.fromtimestamp(int(item['risetime'] + item['duration']))}")
    else:
        print("ERROR:", r.status_code)
else:
    print("ERROR:", r.status_code)

Ingrese una ubicacion de observacion:  Av. Primavera 2122, Santiago de Surco


1. INI: 2020-08-04 22:13:24 - FIN: 2020-08-04 22:23:38
2. INI: 2020-08-04 23:50:38 - FIN: 2020-08-04 23:59:48
3. INI: 2020-08-05 08:08:35 - FIN: 2020-08-05 08:16:50
4. INI: 2020-08-05 09:44:11 - FIN: 2020-08-05 09:54:47
5. INI: 2020-08-05 21:26:34 - FIN: 2020-08-05 21:35:29


El API REST Directions permite obtener las direcciones a seguir para llegar desde un punto a otro, utilizando geolocalización.

In [5]:
URL = "http://www.mapquestapi.com/directions/v2/route"
payload = {'key': API_KEY, 
           'from': 'Av. Primavera 2310, Santiago de Surco, Lima', 
           'to': 'La Marina 2810, San Miguel, Lima', 
           'unit': 'k'}
r = requests.get(URL, params=payload)
print(f"GET {r.url}")

if r.status_code == requests.codes.ok:
    data = r.json()
    
    # Guardar en un archivo
    with open("temp.json", mode='w') as file:
        json.dump(data, file)
else:
    print(r.status_code)

GET http://www.mapquestapi.com/directions/v2/route?key=VSHBijCtLwMxAAzMeITIGuOcdnGPc5O9&from=Av.+Primavera+2310%2C+Santiago+de+Surco%2C+Lima&to=La+Marina+2810%2C+San+Miguel%2C+Lima&unit=k


## Ejercicio
Escriba un script que pida dos direcciones (inicio y fin) y muestre un listado informativo de la ruta.

In [14]:
URL = "http://www.mapquestapi.com/directions/v2/route"

_from = input("Ingrese origen: ") 
_to = input("Ingrese destino: ")

payload = {'key': API_KEY, 
           'from': _from, 
           'to': _to, 
           'unit': 'k'}

r = requests.get(URL, params=payload)

if r.status_code == requests.codes.ok:
    data = r.json()
    
    # Muestra la ruta del viaje
    for idx, item in enumerate(data['route']['legs'][0]['maneuvers'], start=1):
        print(f"[{idx}]. {item['narrative']}")
else:
    print("ERROR:", r.status_code)

Ingrese origen:  -12 -12
Ingrese destino:  12


NameError: name 'API_KEY' is not defined

## Clientes API a servicios (SDK)
Existen clientes que pueden ser importados como modulos en Python que se encargan de gestionar todas las llamadas a los diferentes servicios, sin tener que recurrir a llamadas directas. Estos se conocen como DSK (Software Development Kit). Algunos ejemplos de estos son:

* geopy
* folium

In [19]:
#pip install geopy
from geopy.geocoders import Nominatim

# geolocator = Nominatim(user_agent="my_app")
# location = geolocator.geocode("UPC Campus San Miguel")

ModuleNotFoundError: No module named 'geopy'

In [7]:
location.address

'UPC - Campus San Miguel, 2810, Avenida La Marina, Virgen de Fatima, San Miguel, Lima, 15087, Peru'

In [8]:
location.raw

{'place_id': 181653896,
 'licence': 'Data © OpenStreetMap contributors, ODbL 1.0. https://osm.org/copyright',
 'osm_type': 'way',
 'osm_id': 418674556,
 'boundingbox': ['-12.0770408', '-12.0758134', '-77.0942605', '-77.0929534'],
 'lat': '-12.076417849999999',
 'lon': '-77.09360681318614',
 'display_name': 'UPC - Campus San Miguel, 2810, Avenida La Marina, Virgen de Fatima, San Miguel, Lima, 15087, Peru',
 'class': 'amenity',
 'type': 'university',
 'importance': 0.401,
 'icon': 'https://nominatim.openstreetmap.org/images/mapicons/education_university.p.20.png'}

In [9]:
# pip install folium
import folium

In [8]:
m = folium.Map(location=[location.latitude, location.longitude],
               zoom_start=18)

NameError: name 'folium' is not defined

In [11]:
folium.Marker(location=[location.latitude, location.longitude], popup='UPC San Miguel', icon=folium.Icon()).add_to(m)

<folium.map.Marker at 0x1c40f0339c8>

In [12]:
m

---
# Web Scraping - BeautifulSoup
En muchas oportunidades, no se tiene un archivo de base de datos o un REST API JSON o no es posible descargar información como XLM, CSV o JSON file: la información esta en la misma página web. Por lo tanto, será necesario leer y análizar el contenido de la web, "escarbando" el código HTML en busqueda de patrones de búsqueda, basado en las etiquetas HTML. A esta proceso se le conoce como Web Scraping

In [2]:
# pip install bs4
# pip install lxml
from bs4 import BeautifulSoup
import requests

Considere la siguiente pagina web de referencia (*main.html*, haga click en las lineas abajo para ver el código):

<!DOCTYPE html>
<html class="no-js" lang="">
 <head>
  <title>
   Test - Pagina Web
  </title>
  <meta charset="utf-8"/>
  <link href="css/normalize.css" rel="stylesheet"/>
  <link href="css/main.css" rel="stylesheet"/>
 </head>
 <body>
  <h1 id="site_title">
   Test Website
  </h1>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_1.html">
     Articulo 1 Encabezado
    </a>
   </h2>
   <p>
    Este es el resumen del articulo 1
   </p>
  </div>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_2.html">
     Articulo 2 Encabezado
    </a>
   </h2>
   <p>
    Este es del resumen del articulo 2
   </p>
  </div>
  <hr/>
  <div class="footer">
   <p>
    Informacion de pie de pagina
   </p>
  </div>
  <script src="js/vendor/modernizr-3.5.0.min.js">
  </script>
  <script src="js/plugins.js">
  </script>
  <script src="js/main.js">
  </script>
 </body>
</html>

Para poder hacer un scrapping de una página web, lo primero que debemos hacer es obtener el código HTML de la página. En este caso, como tenemos el archivo, lo abriremos directamente y generaremos un objeto `BeautifulSoup` con el parser `lxml`:

In [3]:
with open("main.html") as html_file:
    soup = BeautifulSoup(html_file, 'lxml')
    
#print(soup)
print(soup.prettify())

<!DOCTYPE html>
<html class="no-js" lang="">
 <head>
  <title>
   Test - Pagina Web
  </title>
  <meta charset="utf-8"/>
  <link href="css/normalize.css" rel="stylesheet"/>
  <link href="css/main.css" rel="stylesheet"/>
 </head>
 <body>
  <h1 id="site_title">
   Test Website
  </h1>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_1.html">
     Articulo 1 Encabezado
    </a>
   </h2>
   <p>
    Este es el resumen del articulo 1
   </p>
  </div>
  <hr/>
  <div class="article">
   <h2>
    <a href="article_2.html">
     Articulo 2 Encabezado
    </a>
   </h2>
   <p>
    Este es del resumen del articulo 2
   </p>
  </div>
  <hr/>
  <div class="footer">
   <p>
    Informacion de pie de pagina
   </p>
  </div>
  <script src="js/vendor/modernizr-3.5.0.min.js">
  </script>
  <script src="js/plugins.js">
  </script>
  <script src="js/main.js">
  </script>
 </body>
</html>


La propiedad `title.text` permite ver todo el título que tenga la página:

In [15]:
soup.title.text

'Test - Pagina Web'

La propiedad `body.text` permite obtener todo el contenido de texto (sin etiquetas HTML) del cuerpo de la página:

In [16]:
soup.body.text

'\nTest Website\n\n\nArticulo 1 Encabezado\nEste es el resumen del articulo 1\n\n\n\nArticulo 2 Encabezado\nEste es del resumen del articulo 2\n\n\n\nInformacion de pie de pagina\n\n\n\n\n'

La propiedad `body.p` permite obtener el primer parrafo de la página. Esto porque extrae la infomación encerrada en la etiqueta \<p> \</p> que encierra un parrafo en HTML:

In [17]:
soup.body.p

<p>Este es el resumen del articulo 1</p>

Existen etiquetas como \<a> \</a> que especifican un link (*anchor*) hacia otra página. Tienen asociado un atributo `href` con la información de link. Se puede especificar este atributo como la llave de la propiedad `a`:

In [18]:
soup.a['href']

'article_1.html'

Observe que hay un patrón en la forma como BeautifulSoup extrae los datos: las etiquetas HTML se convierten en propiedades. Por ejemplo, la etiqueta \<div> (que marca una sección o división en el diseño de un archivo HTML) se especifica:

In [19]:
soup.div

<div class="article">
<h2><a href="article_1.html">Articulo 1 Encabezado</a></h2>
<p>Este es el resumen del articulo 1</p>
</div>

Todos los casos anteriores extraen la primera ocurrencia de una etiqueta, cuando en una página HTML pueden haber muchas ocurrencias, solo que estas se diferenciarán porque tendrán difentes atributos (por ejemplo, puede haber muchos links \<a> pero con atributos `href` diferentes. Para esto utilizaremos el método `find()` para buscar una etiqueta y el atributo asociado con la propiedad `attr={nombre_atributo: valor}`:

In [20]:
article = soup.find('div', attrs={'class':'article'})
print(article.p.text)

Este es el resumen del articulo 1


Para obtener todas las ocurrencias de la misma combinación `attr={nombre_atributo: valor}`, utilizaremos el método `findall()` que nos rertornará una lista con las secciones de la página HTML que podremos iterar para obtener la información que nos interesa.

In [21]:
for article in soup.find_all('div', {'class':'article'}):
    print(article.p.text)

Este es el resumen del articulo 1
Este es del resumen del articulo 2


Lo mismo se puede obtener con el método `select()`, que permite seleccionar una etiqueta o un selector CSS:

In [32]:
for article in soup.select('div[class="article"]'):
    print(article.p.text)

Este es el resumen del articulo 1
Este es del resumen del articulo 2


Aunque una discusión completa de los selectores de CSS escapa del alcance de este curso, se muestran algunos patrones típicos a utilizar en un archivo HTML:

| Selector pasado al método select()  | Busca...                                                                                                                              |
|-------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------|
| `soup.select('div')`                  | Todos los elementos llamados 'div'                                                                                                    |
| `soup.select('#author')`              | Todos los elementos con el atributo id='author'                                                                                       |
| `soup.select('.notice')`              | Todos los elementos que utilizan un atributo CSS  class llamado notice                                                                |
| `soup.select('div span')`             | Todos los elementos llamados \<span> que estan dentro  de un elemento llamado \<div>                                                  |
| `soup.select('div > span')`           | Todos los elementos llamados \<span> que estan directamente dentro de un elemento llamado \<div> sin ningún otro elemento entre ellos |
| `soup.select('input[name]')          | Todos los elementos \<input> que tiene un atributo nombre con algun valor                                                             |
| `soup.select('input[type="button"]')` | Todos los elementos llamados \<input> que tengan un atributo  llamado type con el valor button                                        |