Adquisición de datos en Python - PRA02
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

### Ejercicio 1

Hemos visto el uso de la libería [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual.

Mediante esta librería podemos realizar solicitudes como en el ejemplo que hemos visto de [postcodes.io](http://postcodes.io).

`response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')`




Hemos visto que, en realizar una petición a una web API http, recuperamos un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**. Busca la información sobre los códigos de **status.code** y completa la siguiente tabla sobre los códigos de error http. 


**Respuesta**

Descripción de los principales códigos de error http:

- **200: "OK"**; significa que la solicitud ha tenido éxito, el significado de un éxito varía dependiendo del método HTTP.
- **301: "Moved Permanently"**; este código de respuesta significa que la URI  del recurso solicitado ha sido cambiado, probablemente una nueva URI sea devuelta en la respuesta.
- **400: "Bad Request"**; esta respuesta significa que el servidor no pudo interpretar la solicitud dada una sintaxis inválida.
- **401: "Unauthorized"**; esta respuesta significa que es necesario autenticar para obtener la respuesta solicitada. Esta respuesta es similar a la 403, pero en este caso, la autenticación es posible.
- **403: "Forbidden"**; significa que el cliente no posee los permisos necesarios para acceder a cierto contenido, por lo que el servidor está rechazando otorgar una respuesta apropiada.
- **404: "Not Found"**; esta respuesta significa que el servidor no pudo encontrar el contenido solicitado. Este código de respuesta es uno de los más famosos dada su alta ocurrencia en la web.
- **501: "Not Implemented"**; significa que el método solicitado no está soportado por el servidor y no puede ser manejado. Los únicos métodos que los servidores requieren soporte (y por lo tanto no deben retornar este código) son `GET` y `HEAD`.
- **505: "HTTP Version Not Supported"**; esta respuesta significa que la versión de HTTP usada en la petición no está soportada por el servidor.

### Ejercicio 2

En este ejercicio intentaremos hacer una solicitud a tres paginas web diferentes vía el protocolo http mediante el método GET implementado en `requests.get`.

Obtén mediante `requests.get`, el contenido y el correspondiente `status.code` de las siguentes pàginas web: 

- http://google.com
- http://wikipedia.org
- https://mikemai.net/
- http://google.com/noexisto

Para cada web, muestra:

- Los primeros 80 carácteres del contenido de la web 
- El código de `status.code`.



In [1]:
# Importamos la librería requests.
import requests

# Guardamos las urls de las webs en una lista.
urls = ['http://google.com', 'http://wikipedia.org', 'https://mikemai.net/', 'http://google.com/noexisto']

# Iteramos y hacemos la llamadas, pintando por pantalla los datos solicitados.
for url in urls:
    response = requests.get(url)
    print(f"El status code de la url {url} es: \n {response.status_code}")
    print(f"El contenido de la url {url} es: \n {response.text[0:80]}")

El status code de la url http://google.com es: 
 200
El contenido de la url http://google.com es: 
 <!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"
El status code de la url http://wikipedia.org es: 
 200
El contenido de la url http://wikipedia.org es: 
 <!DOCTYPE html>
<html lang="mul" class="no-js">
<head>
<meta charset="utf-8">
<t
El status code de la url https://mikemai.net/ es: 
 406
El contenido de la url https://mikemai.net/ es: 
 <head><title>Not Acceptable!</title><script src="/cdn-cgi/apps/head/Z5kPjcSfsgqj
El status code de la url http://google.com/noexisto es: 
 404
El contenido de la url http://google.com/noexisto es: 
 <!DOCTYPE html>
<html lang=en>
  <meta charset=utf-8>
  <meta name=viewport cont


### Ejercicio 3

En este ejercicio vamos a hacer un poco de *Fun with cats*. Existe una API para *cat-facts* (hechos sobre gatos) en la base de https://cat-fact.herokuapp.com. Esta API tiene dos puntos de acceso:

- **/facts**
- **/users**

Según la documentación, el modelo en el punto de entrada de un **fact** es tal y como se indica a continuación: 

|    Key    |      Type     |                                              Description                                              |   |   |
|:---------:|:-------------:|:-----------------------------------------------------------------------------------------------------:|---|---|
| _id       | ObjectId      | Unique ID for the Fact                                                                                |   |   |
| _v        | Number        | Version number of the Fact                                                                            |   |   |
| user      | ObjectId      | ID of the User who added the Fact                                                                     |   |   |
| text      | String        | The Fact itself                                                                                       |   |   |
| updatedAt | Timestamp     | Date in which Fact was last modified                                                                  |   |   |
| sendDate  | Timestamp     | If the Fact is meant for one time use, this is the date that it is used                               |   |   |
| deleted   | Boolean       | Whether or not the Fact has been deleted (Soft deletes are used)                                      |   |   |
| source    | String (enum) | Can be 'user' or 'api', indicates who added the fact to the DB                                        |   |   |
| used      | Boolean       | Whether or not the Fact has been sent by the CatBot. This value is reset each time every Fact is used |   |   |
| type      | String        | Type of animal the Fact describes (e.g. ‘cat’, ‘dog’, ‘horse’)                                        |   |   |

Así, para obtener el **fact** número *58e0086f0aac31001185ed02*, debemos construir una solicitud a la url:

- *https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02*

El objecto que se nos devolverá, contendrá la información indicada en la tabla en formato *json* serializado. 

a) Contruye la solicitud, convierte el resultado a un diccionario y muestra por pantalla el resultado de los valores de la tabla anterior para el fact id *58e0086f0aac31001185ed02*.



In [2]:
# Importamos la librería json.
import json

# Creamos una función que solicita a la API un cat-fact concreto.
def get_cat_fact(fact_id):
    # Realizamos una petición GET a la API cat-facts.
    response = requests.get(f'https://cat-fact.herokuapp.com/facts/{fact_id}')
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    return dict_response

In [3]:
# Probamos la función con el id proporcionado anteriormente.
get_cat_fact("58e0086f0aac31001185ed02")

{'status': {'verified': True, 'sentCount': 1},
 'type': 'cat',
 'deleted': False,
 '_id': '58e0086f0aac31001185ed02',
 'user': {'name': {'first': 'Kasimir', 'last': 'Schulz'},
  'photo': 'https://lh6.googleusercontent.com/-BS_rskGd3kA/AAAAAAAAAAI/AAAAAAAAADg/yAxrX9QabMg/photo.jpg?sz=200',
  '_id': '58e007480aac31001185ecef'},
 'text': "Cats can't taste sweetness.",
 '__v': 0,
 'source': 'https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/',
 'updatedAt': '2020-08-29T20:20:03.172Z',
 'createdAt': '2018-03-16T20:20:03.622Z',
 'used': True}

b) Para los fact ids:

- *5d38bdab0f1c57001592f156*
- *5ed11e643c15f700172e3856*
- *5ef556dff61f300017030d4c*
- *5d9d4ae168a764001553b388*

Obtén campos *type*, *user*, *user*, *source*, *used*, *text* y imprímelos siguiendo el siguiente formato:


`Type: cat	User: 58e007480aac31001185ecef
Used: True	Id: 58e0086f0aac31001185ed02
Source: https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/
Text: Cats can't taste sweetness.`




In [4]:
# Guardamos los ids de los facts en una lista.
ids = ["5d38bdab0f1c57001592f156", "5ed11e643c15f700172e3856", "5ef556dff61f300017030d4c", "5d9d4ae168a764001553b388"]

# Iteramos y hacemos la llamadas, pintando por pantalla los datos solicitados.
for fact_id in ids:
    fact = get_cat_fact(fact_id)
    print(f"Type: {fact['type']} \t User: {fact['user']['_id']}")
    print(f"Used: {fact['used']} \t Id: {fact['_id']}")
    print(f"Source: {fact['source']}")
    print(f"Text: {fact['text']}")
    print(f"----------------------------------------------------------------------------")

Type: cat 	 User: 5a9ac18c7478810ea6c06381
Used: False 	 Id: 5d38bdab0f1c57001592f156
Source: user
Text: While some cats love being brushed, others don't take to it naturally. Try to groom your cat in the same spot at the same time of day to create a sense of routine.
----------------------------------------------------------------------------
Type: cat 	 User: 5ed11e353c15f700172e3855
Used: False 	 Id: 5ed11e643c15f700172e3856
Source: user
Text: Los gatos tienen más huesos que los seres humanos, nos ganan por 24.
----------------------------------------------------------------------------
Type: cat 	 User: 5e1a9b981fd6150015fa736f
Used: False 	 Id: 5ef556dff61f300017030d4c
Source: user
Text: Lucy, the oldest cat ever, lived to be 39 years old which is equivalent to 172 cat years.
----------------------------------------------------------------------------
Type: cat 	 User: 5d9d4a4468a764001553b387
Used: False 	 Id: 5d9d4ae168a764001553b388
Source: user
Text: Cats conserve energy by sl

## Ejercicio 4

En los ejercicios anteriores, usamos directamente una API para hacer la solicitud que requiramos, y nos encargamos directamente de la gestión de los datos de salida. 

No obstante, hemos visto ya el uso de librerías que facilitan el accesso a una API. La mayoría de estas librerías (y APIs de proyectos populares) requieren de un registro en la web de desarolladores. 


Sigue la documentación proporcionada en clase para conseguir un registro en el panel de desarolladores de Twitter. Obtendrás 4 códigos para autenticar tu aplicación. 

Usa la librería **tweepy** para programar dos funciones. 

- La primera función, se autentica en la API de twitter usando los 4 códigos proporcionados por el registro. A partir de un nombre de usuario en twitter proporcionado en el argumento de la función, esta retorna una tupla `(user, api)` con el objeto `twepy.models.User`, correspondiente a ese usuario y el descriptor de la API ya inicializada. 
- La segunda funcion, aceptará un objeto  `twepy.models.User` de entrada y imprimirá: 
 1. El número de tweets del usuario.
 1. El número de amigos del usuario.
 1. El número de seguidores del usuario.
 1. Los nombres de pantalla de los primeros 10 amigos del usuario (`screen_name`), sus nombres (`name`) junto con sus descripciones.

Ejecuta las dos funciones sobre el usuario de twitter **Space_Station**.




In [5]:
# Importamos la librería tweepy.
import tweepy

In [6]:
# Creamos una función para la recogida de los credenciales.
def get_creds(line):
    keys = []
    for l in line:
        keys.append(l.split("=")[1].splitlines(False)[0])
    return keys

In [7]:
# Creamos un iterador para leer el fichero.
tw_creeds = open("creds.txt", "r")
lines = tw_creeds.readlines()

In [8]:
# Procederemos con los creds de Twitter.
CONSUMER_KEY = get_creds(lines)[0]
CONSUMER_SECRET = get_creds(lines)[1]
ACCESS_TOKEN = get_creds(lines)[2]
ACCESS_TOKEN_SECRET = get_creds(lines)[3]

In [9]:
# Creamos la primera función que inicializa la API de Twitter y obtiene la información de un usuario.
def init_twitter(user_name):
    # Nos autenticamos con la API de Twitter.
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    # Lanzamos la API.
    api = tweepy.API(auth)
    # Obtenemos datos del usuario elegido usando la librería tweepy.
    user = api.get_user(user_name)
    
    return (user, api)
    
    
# Creamos la segunda función que muestra por pantalla información del usuario.
def print_info_twitter(user):
    print(f"El número de tweets del usuario es {user.statuses_count}")
    print(f"El número de amigos del usuario es {user.friends_count}")
    print(f"El número de seguidores del usuario es {user.followers_count}")
    print(f"Los primeros diez amigos del usuario son: ")
    for friend in user.friends()[0:10]:
        print(f"{friend.name} (@{friend.screen_name}): {friend.description}")
        print("---------------------------------------------------------------------")

In [10]:
# Probamos nuestras funciones, comenzando inicializando la API de Twitter y guardando el objeto creado en una variable.
(user, api) = init_twitter("Space_Station")

# Llamamos a la segunda función y mostramos por pantalla la información que nos interesa de ese usuario.
print_info_twitter(user)

El número de tweets del usuario es 13732
El número de amigos del usuario es 219
El número de seguidores del usuario es 4179453
Los primeros diez amigos del usuario son: 
Zebulon Scoville (@Explorer_Flight): 86th NASA Flight Director. Lucky husband and father. Always looking for a challenge. Tweets are my own, so don't blame NASA.
---------------------------------------------------------------------
Stephanie Wilson (@Astro_Stephanie): 
---------------------------------------------------------------------
Jim Morhard (@jmorhard): Serving as @NASA's Deputy Administrator, working to support the agency's many missions including space exploration, Earth sciences, and aeronautics.
---------------------------------------------------------------------
Bob Cabana (@Astro_CabanaBob): Former astronaut and current Center Director of Kennedy Space Center.
---------------------------------------------------------------------
Sergey Kud-Sverchkov (@KudSverchkov): Космонавт Роскосмоса (@Roscosmos) Сер

### Ejercicio 5

[congreso.es](http://www.congreso.es/) es la página web del Congreso de los Diputados en España. En ella se guarda una relación de todos los diputados elegidos en cada una de las legislaturas. 

En una de las páginas se puede observar un mapa del hemiciclo, junto con la posición de cada uno de los diputados, su fotografía, su representación territorial y el partido político al que esté adscrito.  Esta url se encuentra en [Hemiciclo](http://www.congreso.es/portal/page/portal/Congreso/Congreso/Diputados/Hemiciclo).

Usad `scrappy` para extraer la siguiente información:

*Nombre*, *Territorio*, *Partido*, *URL Imagen*, en el formato de un diccionario, como por ejemplo:

`{'Nombre': 'Callejas Cano, Juan Antonio ', 'Territorio': 'Diputado por Ciudad Real', 'Partido': 'G.P. Popular en el Congreso', 'url': '/wc/htdocs/web/img/diputados/peq/35_14.jpg'}`

Para Ello: 

- Utilizad el tutorial de scrappy para encontrar un `xpath` que contenga la información requerida
- Extraed la información requerida en forma de diccionario.

**Nota**: si la ejecución del _crawler_ os devuelve un error `ReactorNotRestartable`, reiniciad el núcleo del Notebook (en el menú: `Kernel` - `Restart`)



In [11]:
# Importamos las librerías.
import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.http import TextResponse
import logging
import re

[Referencia cargar páginas en scrapy directamente](https://stackoverflow.com/questions/26177620/how-to-execute-scrapy-shell-url-with-notebook)

In [12]:
# Primera alternativa para obtener la información mediante scrapeo a través del paquete http de la librería scrapy.
# Obtenemos el HTML de la página web.
res = requests.get('https://www.congreso.es/web/guest/busqueda-de-diputados?p_p_id=diputadomodule&p_p_lifecycle=0&p_p_state=normal&p_p_mode=view&_diputadomodule_mostrarFicha=true&codParlamentario=319&idLegislatura=XIV&false=false')

# Cargamos el HTML con scrapy para poder extraer información.
response = TextResponse(res.url, body = res.text, encoding = 'utf-8')

In [13]:
def get_info_congress(response):
    # Creamos el diccionario y vamos añadiendo la información clave-valor.
    congress = {}
    # Utilizamos la función `extract` para obtener el contenido del elemento que nos interesa y la función `strip` para
    # eliminar los espacios en blanco antes y después del contenido elegido.
    congress['Nombre'] = response.xpath('//div[@class="nombre-dip"]/text()').extract()[0].strip()
    congress['Territorio'] = response.xpath('//div[@class="cargo-dip"]/text()').extract()[0].strip()
    group = response.xpath('//div[@class="grupo-dip"]/a/text()').extract()[0].strip()
    # Aplicamos una regrex para eliminar el exceso de espacios en blanco entre palabras.
    congress['Partido'] = re.sub(r"\s+", " " , group)
    congress['url'] = response.xpath('//div[@class="img-dip"]/img/@src').extract()[0]
    
    return congress

In [14]:
# Probamos la función.
get_info_congress(response)

{'Nombre': 'Iglesias Turrión, Pablo',
 'Territorio': 'Diputado por Madrid',
 'Partido': 'G.P. Confederal de Unidas Podemos-En Comú Podem-Galicia en Común ( GCUP-EC-GC )',
 'url': '/docu/imgweb/diputados/319_14.jpg'}

[Referencia usar araña dentro de un notebook](https://www.mikulskibartosz.name/how-to-scrape-a-single-web-page-using-scrapy-in-jupyter-notebook/)   
[Referencia guardar resultado en variable en vez de archivo](https://stackoverflow.com/questions/48573298/saving-the-output-of-spider-in-a-variable-rather-than-in-a-file)

In [15]:
# Segunda alternativa para obtener la información mediante scrapeo a través del paquete crawler de la librería scrapy.
# Creamos una clase araña que define el método para recolectar información.
class PoliticianData(scrapy.Spider):
    name = "PoliticianData"
    # Determinamos la url que queremos scrapear.
    start_urls = [
        'https://www.congreso.es/web/guest/busqueda-de-diputados?p_p_id=diputadomodule&p_p_lifecycle=0&p_p_state=normal&p_p_mode=view&_diputadomodule_mostrarFicha=true&codParlamentario=43&idLegislatura=XIV&false=false'
    ]
    # Configuramos el log_level para mostrar solo los warnings.
    custom_settings = {
        'LOG_LEVEL': logging.WARNING
    }
    # Definimos el método para extraer la información deseada,   
    def parse(self, response):
        self.output["Nombre"] = response.xpath('//div[@class="nombre-dip"]/text()').extract()[0].strip()
        self.output['Territorio'] = response.xpath('//div[@class="cargo-dip"]/text()').extract()[0].strip()
        group = response.xpath('//div[@class="grupo-dip"]/a/text()').extract()[0].strip()
        # Aplicamos una regrex para eliminar el exceso de espacios en blanco entre palabras.
        self.output['Partido'] = re.sub(r"\s+", " " , group)
        self.output['url'] = response.xpath('//div[@class="img-dip"]/img/@src').extract()[0]

# Creamos un diccionario en el que guardaremos los datos.
data_diputado = {}

# Inicializamos el crawler.
process = CrawlerProcess()
# Indicamos al crawler la araña que tiene que ejecutar y pasamos por parámetro el objeto en el que guardaremos el resultado.
process.crawl(PoliticianData, output=data_diputado)
process.start()

2021-01-11 14:34:03 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-01-11 14:34:03 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 20.3.0, Python 3.8.5 (default, Sep  3 2020, 21:29:08) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1i  8 Dec 2020), cryptography 3.1.1, Platform Windows-10-10.0.18362-SP0
2021-01-11 14:34:03 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-01-11 14:34:03 [scrapy.crawler] INFO: Overridden settings:
{'LOG_LEVEL': 30}


In [16]:
# Mostramos el resultado del crawleo.
data_diputado

{'Nombre': 'Abascal Conde, Santiago',
 'Territorio': 'Diputado por Madrid',
 'Partido': 'G.P. VOX ( GVOX )',
 'url': '/docu/imgweb/diputados/43_14.jpg'}

### Ejercicio opcional

Consultad la paǵina web de Open Notify, indicando la información sobre los humanos residentes fuera de la tierra (es decir, en el espacio). Dirección url en  [Open Notify](http://api.open-notify.org).

Codificad una función que imprima por pantalla el número total de astronautas en el espacio, numero de naves tripuladas actualmente en órbita, así como el nombre de los astronautas que habitan para cada una de estas naves. 



In [17]:
# Creamos la función que extrae la información de los astronautas y las naves en el espacio.
def get_space_info():
    # Realizamos una petición GET a la API People in Space.
    response = requests.get('http://api.open-notify.org/astros.json')
    # Deserializamos el objeto json.
    dict_response = json.loads(response.text)
    
    # Obtenemos el número de astronautas.
    n_astronauts = dict_response["number"]
    # Guardamos las naves utilizando un list comprehension y un set para eliminar duplicados y quedarnos solo con las naves 
    # que no estén repetidas.
    ships = set([person["craft"] for person in dict_response["people"]])
    # Obtenemos el número de naves distintas.
    n_ships = len(ships)
    # Creamos un diccionario para almacenar las tripulaciones.
    crews = {}
    
    # Iteramos sobre las naves para saber qué personas hay en cada nave y obtener el nombre.
    for ship in ships:
        # Asignamos a la key de la nave la lista de nombres que están en dicha nave.
        crews[ship] = [person["name"] for person in dict_response["people"] if person["craft"] == ship]
    
    # Mostramos por pantalla la información que nos interesa.
    print(f"El número de astronautas en el espacio es {n_astronauts}")
    print(f"-----------------------------------------------------------------")
    print(f"El número de naves en el espacio es {n_ships}")
    print(f"-----------------------------------------------------------------")
    print(f"Las diferentes tripulaciones son: \n {crews}")

In [18]:
# Probamos la función.
get_space_info()

El número de astronautas en el espacio es 7
-----------------------------------------------------------------
El número de naves en el espacio es 1
-----------------------------------------------------------------
Las diferentes tripulaciones son: 
 {'ISS': ['Sergey Ryzhikov', 'Kate Rubins', 'Sergey Kud-Sverchkov', 'Mike Hopkins', 'Victor Glover', 'Shannon Walker', 'Soichi Noguchi']}
