## La libreria requests

Requests es una librería para HTTP escrita en Python, para seres humanos.

In [104]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


### Filosofía

Requests fue desarrollado al estilo PEP 20.

- Hermoso es mejor que feo.
- Implícito es mejor que implícito.
- Simple es mejor que complejo.
- Complejo es mejor que complicado.
- La legibilidad cuenta.

### Instalar requests

In [105]:
pip install requests

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/usr/bin/python3.8 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [4]:
import requests

### Ejemplo de uso

In [107]:
import requests

r = requests.get('http://google.com/')
print(r.status_code)
print(r.encoding)
for name in r.headers:
    print(f" - {name}: {r.headers[name]}")

200
ISO-8859-1
 - Date: Fri, 23 Oct 2020 14:48:05 GMT
 - Expires: -1
 - Cache-Control: private, max-age=0
 - Content-Type: text/html; charset=ISO-8859-1
 - P3P: CP="This is not a P3P policy! See g.co/p3phelp for more info."
 - Content-Encoding: gzip
 - Server: gws
 - Content-Length: 6076
 - X-XSS-Protection: 0
 - X-Frame-Options: SAMEORIGIN
 - Set-Cookie: NID=204=QTw5WRVVfnkIwzc9x12gWst_JU5Fn-WfpYOAMI1Fv0x1qgcBMXUPIQFJ0pAgOX_cvKeFbV50UHm-k3xI-vYPKJ7wgSKmFA_lTGrU0cEybxrdx_Ev-_0ytA_GV64-1A__G2TAM6oISyXepBFcsewmsczTP1SeSQ42cE9C73u0MYE; expires=Sat, 24-Apr-2021 14:48:05 GMT; path=/; domain=.google.com; HttpOnly


'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"><head><meta content="Google.es permite acceder a la información mundial en castellano, catalán, gallego, euskara e ingl'

### Las propiedades status_code y ok



En la propiedad `status_code` del objeto `r` que nos ha devuelto la llamada (que es una
instancia de la clase `Response` definida en requests), podemos acceder al codigo
de respuesta del servidor usando la propiedad `status_dode`. Este es el famoso 
Error **404** que obtenemos a veces en el navegador, si intentamos acceder a una
página que no existe. El codigo para "todo ha ido bien" en **200**.

Por tanto. podemos comprobar si la respueste es correcta accediendo al valor
de `status_code` y ver si es un 200- Pero hay una forma aún más fácil, simplemente comprobar la
propiedad `ok`, que es un booleano, de la respuesta. Si está asignada a `True`, la respuesta es
correcta.


In [108]:
import requests

r = requests.get('https://es.wikipedia.org')
print(r.ok)

True


**Ejercicio**: Escribir un pequeño programa que compruebe que las siguientes páginas web estan
    funcionando: `google.es`, `es.wikipedia.es` y `www.nasa.gov`:

In [117]:
import requests

urls = [
    'http://marca.es',
    'http://google.es/',
    'http://es.wikipedia.org/',
    'http://www.python.org/',
    'http://github.com/',
]

for url in urls:
    print(url, requests.get(url).ok)

http://marca.es True
http://google.es/ True
http://es.wikipedia.org/ True
http://www.python.org/ True
http://github.com/ True


**Post-Ejercicio**: Añade ahora una comprobación para `github.com`

### Usar requests para obtener json

Si la peticion que hacemos nos devuelve contenido formateado en `json`, disponemos de un método 
ya predefinido que nos devuelve los valores ya interpretados como variables python, es decir, no tenemos que utilizar
el módulo `json`. Veamos un ejemplo con una API pública que ofrece el Banco Central Europeo para
el cambio de divisas:

In [122]:
import requests

r = requests.get('https://api.exchangeratesapi.io/latest')

data = r.json()
print("La respuesta es de tipo:", r.headers['content-type'])
print(type(data))


La respuesta es de tipo: application/json
<class 'dict'>


{'CAD': 1.5563,
 'HKD': 9.1885,
 'ISK': 164.9,
 'PHP': 57.388,
 'DKK': 7.4407,
 'HUF': 364.17,
 'CZK': 27.222,
 'AUD': 1.6578,
 'RON': 4.874,
 'SEK': 10.3618,
 'IDR': 17410.24,
 'INR': 87.3245,
 'BRL': 6.6052,
 'RUB': 90.6421,
 'HRK': 7.5778,
 'JPY': 124.17,
 'THB': 37.056,
 'CHF': 1.0715,
 'SGD': 1.6089,
 'PLN': 4.5823,
 'BGN': 1.9558,
 'TRY': 9.4418,
 'CNY': 7.9157,
 'NOK': 10.9178,
 'NZD': 1.7703,
 'ZAR': 19.1905,
 'USD': 1.1856,
 'MXN': 24.753,
 'ILS': 4.0032,
 'GBP': 0.90675,
 'KRW': 1338.52,
 'MYR': 4.9291}

**Ejercicio**: Haz un pequeño script para imprimir por pantalla una lista de 
los tipos de cambio en el momento actual. Usa la API del Banco Central Europeo.

In [125]:
import requests

r = requests.get('https'+'://api.exchangeratesapi.io/latest')
data = r.json()  # Los datos estan referidos al Euro
rates = data['rates']

for rate in rates:
    print(f'Un euro al cambio son {rates[rate]} {rate}')

Un euro al cambio son 1.5563 CAD
Un euro al cambio son 9.1885 HKD
Un euro al cambio son 164.9 ISK
Un euro al cambio son 57.388 PHP
Un euro al cambio son 7.4407 DKK
Un euro al cambio son 364.17 HUF
Un euro al cambio son 27.222 CZK
Un euro al cambio son 1.6578 AUD
Un euro al cambio son 4.874 RON
Un euro al cambio son 10.3618 SEK
Un euro al cambio son 17410.24 IDR
Un euro al cambio son 87.3245 INR
Un euro al cambio son 6.6052 BRL
Un euro al cambio son 90.6421 RUB
Un euro al cambio son 7.5778 HRK
Un euro al cambio son 124.17 JPY
Un euro al cambio son 37.056 THB
Un euro al cambio son 1.0715 CHF
Un euro al cambio son 1.6089 SGD
Un euro al cambio son 4.5823 PLN
Un euro al cambio son 1.9558 BGN
Un euro al cambio son 9.4418 TRY
Un euro al cambio son 7.9157 CNY
Un euro al cambio son 10.9178 NOK
Un euro al cambio son 1.7703 NZD
Un euro al cambio son 19.1905 ZAR
Un euro al cambio son 1.1856 USD
Un euro al cambio son 24.753 MXN
Un euro al cambio son 4.0032 ILS
Un euro al cambio son 0.90675 GBP
Un e

**Post-Ejercicio**: Filtra los resultados para que solo se muestre el cambio a Libras esterlinas (`GBP`), Dolares USA (`USD`) y Coronas checkas (`CZK`) (Más información sobre los códigos de las divisas en la [Wikipedia sobre ISO 4217](https://es.wikipedia.org/wiki/ISO_4217)).

In [127]:
r = requests.get('https://api.exchangeratesapi.io/latest')
data = r.json()  # Los datos estan referidos al Euro
rates = data['rates']
for rate in rates:
    if rate in ['GBP', 'USD', 'CZK']:
        print(f'Un euro al cambio son {rates[rate]} {rate}')

Un euro al cambio son 27.222 CZK
Un euro al cambio son 1.1856 USD
Un euro al cambio son 0.90675 GBP


### Otros tipos de peticiones

La orden o petición `GET` es la más frecuente, pero puedes acceder a todos los
verbos HTTP:

- `requests.post("http://httpbin.org/post")`

- `requests.put("http://httpbin.org/put")`

- `requests.delete("http://httpbin.org/delete")`

- `requests.head("http://httpbin.org/get")`

- `requests.options("http://httpbin.org/get")`

**Ejercicio**: Cambia el código anterior, el que comprobaba que los servidores estuvieran activos comprobando la propiedad`ok` de las respuestas,  para que use el método
`head` en vez de `get`. Va más rapida? Por qué? Devuelven todas los servidores el código `200`?

In [130]:
import requests

urls = [
    'http://google.es',
    'http://es.wikipedia.es/',
    'https://www.python.org/',
    'https://github.com/',
]

for url in urls:
    resp = requests.get(url)
    print(url, resp.ok, resp.status_code)

http://google.es True 200
http://es.wikipedia.es/ True 200
https://www.python.org/ True 200
https://github.com/ True 200


### Pasar parámetros en URLs

Con frecuencia, debes enviar algún tipo de información en el query string de la
URL. Si estuvieses creando la URL a mano, esta información estaría en forma de
pares llave/valor, añadidas despues del signo de interrogación en la URL, por ejemplo
`httpbin.org/get?key=val`. 

Requests te permite proveer estos argumentos en forma
de diccionario. Por ejemplo, si quisieras pasar las claves 
`key1` y `key2` con valores `value1` y `value2` a httpbin.org/get, usarías
algo como esto:

In [133]:
params = {'key1': 'value1', 'key2': 'value2222'}
r = requests.get("http"+"://httpbin.org/get", params=params)
print(r.ok)
print(r.text)

True
{
  "args": {
    "key1": "value1", 
    "key2": "value2222"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.22.0", 
    "X-Amzn-Trace-Id": "Root=1-5f92f73e-1f031a5f1db8f57c7584540c"
  }, 
  "origin": "87.125.76.100", 
  "url": "http://httpbin.org/get?key1=value1&key2=value2222"
}



Puedes ver que la URL ha sido codificada correctamente imprimiéndola:

In [134]:
print(r.url)

http://httpbin.org/get?key1=value1&key2=value2222


Nota: cualquier llave del diccionario cuyo valor es `None` no será agregada 
al *query string* del URL.

### API's que requieren registro

La mayor parte de las API, aun siendo publica, exigen un registro previo del cliente, para
poder evitar abusos al sistema, como por ejemplo, ataques de denegaci'on de servicio.

Normalmente, el registro se hace por correo electronico, al final del cual obtendremos
lgun tipo de token o valor especial que sirve para identificarnos como usuarios de la
API.

Por ejemplo, la API de [Football data](https://www.football-data.org/documentation/quickstart) nos da informacion actializada de varias ligas de futbol entre ellas la premier league y la Champions League. Esta API exige un registro previo, tras el cual podemos hacer uso de la misma. Para ello debemos añadir a la peticion una cabecera propia con la 
entrada `X-Auth-Token`:

In [76]:
AUTH_TOKEN = 'db56f01f8a5842d39fbde97c52b4ece8'

In [143]:
import requests

url = 'http'+'://api.football-data.org/v2/competitions/'
# headers = {'X-Auth-Token': AUTH_TOKEN}
headers = {}
r = requests.get(url, headers=headers)
url


'http://api.football-data.org/v2/competitions/'

In [140]:
response = r.json()
counter = 0
for competition in response['competitions']:
    print("{} ({})".format(
        competition['name'],
        competition['area']['name'],
    ))
    counter += 1
    if counter >= 10:
        print("...")
        break
    

WC Qualification (Africa)
Primera B Nacional (Argentina)
Superliga Argentina (Argentina)
Supercopa Argentina (Argentina)
WC Qualification (Asia)
A League (Australia)
FFA Cup (Australia)
Erste Liga (Austria)
Bundesliga (Austria)
Playoffs 1/2 (Austria)
...


**Ejercicio**: Filtrar para que solo se vean las de España (`Spain`):

In [91]:
import requests

url = 'http://api.football-data.org/v2/competitions/'
headers = {'X-Auth-Token': AUTH_TOKEN}
r = requests.get(url, headers=headers)
response = r.json()
for competition in response['competitions']:
    name = competition['name']
    area = competition['area']
    area_name = area['name']
    if ...:  # Tu codigo aqui
        print(f"{name} ({area_name})")

WC Qualification (Africa)
Primera B Nacional (Argentina)
Superliga Argentina (Argentina)
Supercopa Argentina (Argentina)
WC Qualification (Asia)
A League (Australia)
FFA Cup (Australia)
Erste Liga (Austria)
Bundesliga (Austria)
Playoffs 1/2 (Austria)
ÖFB Cup (Austria)
Coupe de Belgique (Belgium)
Division 1B (Belgium)
Jupiler Pro League (Belgium)
Supercoupe de Belgique (Belgium)
Playoffs II (Belgium)
LFPB (Bolivia)
Premier Liga (Bosnia and Herzegovina)
Copa do Brasil (Brazil)
Série D (Brazil)
Série C (Brazil)
Série B (Brazil)
Série A (Brazil)
Kupa na Bulgarija (Bulgaria)
A PFG (Bulgaria)
Canadian Championship (Canada)
Primera División (Chile)
Playoffs 1/2 (Chile)
Supercopa de Chile (Chile)
Chinese Super League (China PR)
Liga Postobón (Colombia)
Superliga de Colombia (Colombia)
Prva Liga (Croatia)
Synot Liga (Czech Republic)
DBU Pokalen (Denmark)
Superliga (Denmark)
Play Offs 1/2 (Denmark)
Copa Pilsener Serie A (Ecuador)
Football League Cup (England)
FA Community Shield (England)
FA Cup

**Post-Ejercicio**: Modificar para que muestre las ligas de España y Europa, usando una expresion regular

In [93]:
import re
import requests


pat_area = re.compile('Spain|Europe')

url = 'http://api.football-data.org/v2/competitions/'
headers = {'X-Auth-Token': AUTH_TOKEN}
r = requests.get(url, headers=headers)
response = r.json()
for i, competition in enumerate(response['competitions']):
    area = competition['area']
    name = area['name']
    if ...:  # Tu codigo aqui
        print("{} ({})".format(
            competition['name'],
            competition['area']['name'],
        ))

WC Qualification (Africa)
Primera B Nacional (Argentina)
Superliga Argentina (Argentina)
Supercopa Argentina (Argentina)
WC Qualification (Asia)
A League (Australia)
FFA Cup (Australia)
Erste Liga (Austria)
Bundesliga (Austria)
Playoffs 1/2 (Austria)
ÖFB Cup (Austria)
Coupe de Belgique (Belgium)
Division 1B (Belgium)
Jupiler Pro League (Belgium)
Supercoupe de Belgique (Belgium)
Playoffs II (Belgium)
LFPB (Bolivia)
Premier Liga (Bosnia and Herzegovina)
Copa do Brasil (Brazil)
Série D (Brazil)
Série C (Brazil)
Série B (Brazil)
Série A (Brazil)
Kupa na Bulgarija (Bulgaria)
A PFG (Bulgaria)
Canadian Championship (Canada)
Primera División (Chile)
Playoffs 1/2 (Chile)
Supercopa de Chile (Chile)
Chinese Super League (China PR)
Liga Postobón (Colombia)
Superliga de Colombia (Colombia)
Prva Liga (Croatia)
Synot Liga (Czech Republic)
DBU Pokalen (Denmark)
Superliga (Denmark)
Play Offs 1/2 (Denmark)
Copa Pilsener Serie A (Ecuador)
Football League Cup (England)
FA Community Shield (England)
FA Cup

Veamos los siguientes partidos del Real Madrid: Aquí tenemos que añadir el token de seguridad y un argumento con 
el valor de status, ajustado a `scheduled`:

In [147]:
import requests

url = 'https://api.football-data.org/v2/teams'
params = {'status': 'SCHEDULED', 'plan': "FREE"}
headers = {'X-Auth-Token': AUTH_TOKEN}
r = requests.get(url, params=params, headers=headers)
response = r.json()
print(response)

{'message': 'The resource you are looking for is restricted. Please pass a valid API token and check your subscription for permission.', 'errorCode': 403}


In [103]:
COMIC_VINE='ba110d2e84608065438c19db726fee15de7e4224'

In [146]:
import requests

url = 'http://comicvine.gamespot.com/api'
params = {'status': 'SCHEDULED', 'plan': "FREE"}
headers = {'X-Auth-Token': AUTH_TOKEN}
r = requests.get(url, params=params, headers=headers)
response = r.text
print(response)

<html>
<body>
	<h1>Wordpress RSS Reader, Anonymous Bot or Scraper Blocked</h1>
	<p>
		Sorry we do not allow WordPress plugins to scrape our site. They tend to be used maliciously to steal our content. We do not allow scraping of any kind.
		You can load our RSS feeds using any other reader but you may not download our content.
		<a href='/feeds'>Click here more information on our feeds</a>
	</p>
	<p>
		Or you're running a bot that does not provide a unique user agent.
		Please provide a UNIQUE user agent that describes you. Do not use a default user agent like "PHP", "Java", "Ruby", "wget", "curl" etc.
		You MUST provide a UNIQUE user agent. ...and for God's sake don't impersonate another bot like Google Bot that will for sure
		get you permanently banned.
	</p>
	<p>
		Or.... maybe you're running an LG Podcast player written by a 10 year old. Either way, Please stop doing that.
	</p>

</body>
</html>
<!-- This doesn't need to be styled -->



### Contenido de respuesta

Podemos leer el contenido de la respuesta del servidor. Usemos el listado de
eventos de
GitHub nuevamente:

In [44]:
import requests
r = requests.get('https://api.github.com/events')
r.json()[2]['id']

'12115403054'

Requests automáticamente decodificará el contenido que viene del servidor. La
mayoría de caracteres unicode serán decodificados correctamente.

Cuando ejecutas una petición, Requests tratará de obtener la codificación de la
respuesta basándose en las cabeceras HTTP. La codificación del texto que
Requests encontró (o supuso), será utilizada cuando se acceda a `r.text`. Puedes
conocer la codificación que `Requests` está utilizando, y cambiarla, usando la
propiedad r.encoding:

In [4]:
import requests

r = requests.get('https://google.com/')
r.encoding

'ISO-8859-1'

### Contenido de respuesta JSON

Hay un decodificador de JSON incorporado en Requests:

In [39]:
import requests

r = requests.get('https://api.github.com/events')
print(r.json()[0])

{'id': '13949276526', 'type': 'CreateEvent', 'actor': {'id': 30885945, 'login': 'helloapple1', 'display_login': 'helloapple1', 'gravatar_id': '', 'url': 'https://api.github.com/users/helloapple1', 'avatar_url': 'https://avatars.githubusercontent.com/u/30885945?'}, 'repo': {'id': 306618897, 'name': 'helloapple1/double2', 'url': 'https://api.github.com/repos/helloapple1/double2'}, 'payload': {'ref': 'master', 'ref_type': 'branch', 'master_branch': 'master', 'description': None, 'pusher_type': 'user'}, 'public': True, 'created_at': '2020-10-23T11:51:45Z'}


### Cabeceras personalizadas

Si quieres agregar cabeceras HTTP a una petición, simplemente pasa un dict al
parámetro headers.

Por ejemplo, en el ejemplo anterior no especificamos la cabecera content-type:

    import json
    url = '...'
    payload = {'some': 'data'}
    headers = {'content-type': 'application/json'}
    r = requests.post(url, data=json.dumps(payload), headers=headers)

### Peticiones POST más complicadas

Típicamente, quieres enviar información en forma de formulario, como un
formulario HTML. Para hacerlo, pasa un diccionario al parámetro `data`. Este
diccionario será codificado automáticamente como formulario al momento de
realizar la petición:

(Para este ejemplo, asegurate de tener un serivor local corriendo
en otra terminal, con `python -m http.server`).

In [8]:
payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://localhost:8000/post", data=payload)

### Cabeceras de respuesta

Podemos ver las cabeceras de respuesta del servidor utilizando un diccionario:

r.headers
{
    'status': '200 OK',
    'content-encoding': 'gzip',
    'transfer-encoding': 'chunked',
    'connection': 'close',
    'server': 'nginx/1.0.4',
    'x-runtime': '148ms',
    'etag': '"e1ca502697e5c9317743dc078f67693f"',
    'content-type': 'application/json; charset=utf-8'
}

Este diccionario es especial: está hecho únicamente para las cabeceras HTTP. De
acuerdo con el RFC 7230 , los nombres de las cabeceras HTTP no hacen distinción
entre mayúsculas y minúsculas.

Así que podemos acceder a las cabeceras utilizando letras mayúsculas o minúsculas:

In [10]:
r.headers['Content-Type']
'application/json; charset=utf-8'
r.headers.get('content-type')

'text/html;charset=utf-8'

### Cookies

Si una respuesta contiene Cookies, puedes acceder a ellas rápidamente:

    url = 'http://example.com/some/cookie/setting/url'
    r = requests.get(url)
    r.cookies['example_cookie_name']

Para enviar tus propias cookies al servidor, puedes utilizar el parámetro cookies:

    url = 'http://httpbin.org/cookies'
    cookies = dict(cookies_are='working')
    r = requests.get(url, cookies=cookies)
    r.text
 
Devería debolver:

    '{"cookies": {"cookies_are": "working"}}'

### Historial y Redireccionamiento

Requests realizará redireccionamiento para peticiones para todos los verbos,
excepto `HEAD`.

GitHub redirecciona todas las peticiones `HTTP` hacia `HTTPS`. Podemos usar el
método `history` de  la respuesta para rastrear las redirecciones. 

La lista `Response.history` contiene una lista de objetos tipo `Request` que fueron
creados con el fín de completar la petición. La lista está ordenada desde la
petición más antigua, hasta las más reciente.

Si estás utilizando GET u OPTIONS, puedes deshabilitar el redireccionamiento usando el parámetro allow_redirects:

In [36]:
r = requests.get('http://github.com')
print(r.status_code)
print(r.history)

200
[<Response [301]>]


Si estás utilizando HEAD, puedes habilitar el redireccionamento de la misma manera:

In [39]:
r = requests.head('http://github.com', allow_redirects=True)
print(r.status_code, r.url, r.history)

200 https://github.com/ [<Response [301]>]


**Ejercicio**: Arreglar el script para que realize la peticion HEAD pero con
redireccionamiento

### Timeouts

Con el parámetro timeout puedes indicarle a Requests que deje de esperar por una
respuesta luego de un número determinado de segundos.

`timeout` indica el tiempo máximo que se espera por la respuesta. Si no se produce 
la respuesta dentro de ese periodo se elevará una excepcion.

### La clase Session

Los objetos de tipo Session permiten reusar y compartir determinados valores
 y *cookies* entre peticiones que se realizan con esa sesión. Tambien 
usae internamente las conexiones reutilizables definidas en la libreria urllib3.
Este objeto esta pensado para ser usado cunaod se realizan muchas conexiones
al mismo host, ya que en este caso, el hecho de reutilizar la conexión puede
suponer un incfremento sigbnificativo de lrendimiento.

Un objeto de tipo `Session` tiene todos los metodos definidos como funciones
en requests.

Veamos un ejemplo en el que vemos como las conexiones realizadas al mismo
host comparten las cookies:

In [1]:
import requests

s = requests.Session()
primera = s.get('https://httpbin.org/cookies/set/sessioncookie/123456789')
segunda = s.get('https://httpbin.org/cookies')

print(segunda.cookies)

<RequestsCookieJar[]>


### Soluciones

Versión final del programa de chequeo de web, usando head y con el
parametro `allow_redirecs`:

In [11]:
import requests

urls = [
    'https://www.google.com/',
    'http://github.com/',
    'https://www.parcan.es/',
]

for url in urls:
    r = requests.head(url, allow_redirects=True)
    if r.status_code != 200:
        print(f"Error {r.status_code} al acceder a {url}")