Adquisición de datos en Python - PRA02
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

### Ejercicio 1

Hemos visto el uso de la libería [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual.

Mediante esta librería podemos realizar solicitudes como en el ejemplo que hemos visto de [postcodes.io](http://postcodes.io).

`response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')`




Hemos visto que, en realizar una petición a una web API http, recuperamos un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**. Busca la información sobre los códigos de **status.code** y completa la siguiente tabla sobre los códigos de error http. 


**Respuesta**

Descripción de los principales códigos de error http:

- 200:
- 301:
- 400: 
- 401: 
- 403:
- 404:
- 505:
- 501:

### Ejercicio 2

En este ejercicio intentaremos hacer una solicitud a tres paginas web diferentes vía el protocolo http mediante el método GET implementado en `requests.get`.

Obtén mediante `requests.get`, el contenido y el correspondiente `status.code` de las siguentes pàginas web: 

- http://google.com
- http://wikipedia.org
- https://mikemai.net/
- http://google.com/noexisto

Para cada web, muestra:

- Los primeros 80 carácteres del contenido de la web 
- El código de `status.code`.



In [1]:
import requests
import json

In [2]:
# Necesitamos obtener el status.code y los primeros 80 carácteres del contenido de la web
# Definimos una función simple:
def solicitudes(url):
    url = url
    rurl = requests.get(url)
    print(f"Primeros 80 carácteres del contenido web : {rurl.content[:80]}")
    print(f"Código de status.code : {rurl.status_code}")

In [3]:
# http://google.com
solicitudes('http://google.com/')

Primeros 80 carácteres del contenido web : b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"'
Código de status.code : 200


In [4]:
# http://wikipedia.org
solicitudes('http://wikipedia.org')

Primeros 80 carácteres del contenido web : b'<!DOCTYPE html>\n<html lang="mul" class="no-js">\n<head>\n<meta charset="utf-8">\n<t'
Código de status.code : 200


In [5]:
# https://mikemai.net/
solicitudes('https://mikemai.net/')

Primeros 80 carácteres del contenido web : b'<head><title>Not Acceptable!</title><script src="/cdn-cgi/apps/head/Z5kPjcSfsgqj'
Código de status.code : 406


In [6]:
# http://google.com/noexisto
solicitudes('http://google.com/noexisto')

Primeros 80 carácteres del contenido web : b'<!DOCTYPE html>\n<html lang=en>\n  <meta charset=utf-8>\n  <meta name=viewport cont'
Código de status.code : 404


### Ejercicio 3

En este ejercicio vamos a hacer un poco de *Fun with cats*. Existe una API para *cat-facts* (hechos sobre gatos) en la base de https://cat-fact.herokuapp.com. Esta API tiene dos puntos de acceso:

- **/facts**
- **/users**

Según la documentación, el modelo en el punto de entrada de un **fact** es tal y como se indica a continuación: 

|    Key    |      Type     |                                              Description                                              |   |   |
|:---------:|:-------------:|:-----------------------------------------------------------------------------------------------------:|---|---|
| _id       | ObjectId      | Unique ID for the Fact                                                                                |   |   |
| _v        | Number        | Version number of the Fact                                                                            |   |   |
| user      | ObjectId      | ID of the User who added the Fact                                                                     |   |   |
| text      | String        | The Fact itself                                                                                       |   |   |
| updatedAt | Timestamp     | Date in which Fact was last modified                                                                  |   |   |
| sendDate  | Timestamp     | If the Fact is meant for one time use, this is the date that it is used                               |   |   |
| deleted   | Boolean       | Whether or not the Fact has been deleted (Soft deletes are used)                                      |   |   |
| source    | String (enum) | Can be 'user' or 'api', indicates who added the fact to the DB                                        |   |   |
| used      | Boolean       | Whether or not the Fact has been sent by the CatBot. This value is reset each time every Fact is used |   |   |
| type      | String        | Type of animal the Fact describes (e.g. ‘cat’, ‘dog’, ‘horse’)                                        |   |   |

Así, para obtener el **fact** número *58e0086f0aac31001185ed02*, debemos construir una solicitud a la url:

- *https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02*

El objecto que se nos devolverá, contendrá la información indicada en la tabla en formato *json* serializado. 

a) Contruye la solicitud, convierte el resultado a un diccionario y muestra por pantalla el resultado de los valores de la tabla anterior para el fact id *58e0086f0aac31001185ed02*.



In [7]:
# Respuesta a) 
# Construimos la solicitud
def fact_solicitud(ids):
    ids = ids
    url = ('https://cat-fact.herokuapp.com/facts/')
    r1 = requests.get(url+ids)
    print(r1.url)
    # Convertimos el resultado en un diccionario
    diccionario = json.loads(r1.text)
    return diccionario

fact_solicitud('58e0086f0aac31001185ed02')

https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02


{'status': {'verified': True, 'sentCount': 1},
 'type': 'cat',
 'deleted': False,
 '_id': '58e0086f0aac31001185ed02',
 'user': {'name': {'first': 'Kasimir', 'last': 'Schulz'},
  'photo': 'https://lh6.googleusercontent.com/-BS_rskGd3kA/AAAAAAAAAAI/AAAAAAAAADg/yAxrX9QabMg/photo.jpg?sz=200',
  '_id': '58e007480aac31001185ecef'},
 'text': "Cats can't taste sweetness.",
 '__v': 0,
 'source': 'https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/',
 'updatedAt': '2020-08-29T20:20:03.172Z',
 'createdAt': '2018-03-16T20:20:03.622Z',
 'used': True}

b) Para ara los fact ids:

- *5d38bdab0f1c57001592f156*
- *5ed11e643c15f700172e3856*
- *5ef556dff61f300017030d4c*
- *5d9d4ae168a764001553b388*

Obtén campos *type*, *user*, *user*, *source*, *used*, *text* y imprímelos siguiendo el siguiente formato:


`Type: cat	User: 58e007480aac31001185ecef
Used: True	Id: 58e0086f0aac31001185ed02
Source: https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/
Text: Cats can't taste sweetness.`




In [8]:
# Respuesta b)
def fact_solicitud(ids):
    ids = ids
    url = ('https://cat-fact.herokuapp.com/facts/')
    r1 = requests.get(url+ids)
    print(r1.url)
    # Convertimos el resultado en un diccionario
    diccionario = json.loads(r1.text)
    print (f"Type: {diccionario['type']}     User: {diccionario['user']['_id']}")
    print(f"Used: {diccionario['used']}    Id: {diccionario['_id']} ")
    print(f"Source: {diccionario['source']}")
    print(f"Text: {diccionario['text']}")

fact_solicitud('5d38bdab0f1c57001592f156')
fact_solicitud('5ed11e643c15f700172e3856')
fact_solicitud('5ef556dff61f300017030d4c')
fact_solicitud('5d9d4ae168a764001553b388')

https://cat-fact.herokuapp.com/facts/5d38bdab0f1c57001592f156
Type: cat     User: 5a9ac18c7478810ea6c06381
Used: False    Id: 5d38bdab0f1c57001592f156 
Source: user
Text: While some cats love being brushed, others don't take to it naturally. Try to groom your cat in the same spot at the same time of day to create a sense of routine.
https://cat-fact.herokuapp.com/facts/5ed11e643c15f700172e3856
Type: cat     User: 5ed11e353c15f700172e3855
Used: False    Id: 5ed11e643c15f700172e3856 
Source: user
Text: Los gatos tienen más huesos que los seres humanos, nos ganan por 24.
https://cat-fact.herokuapp.com/facts/5ef556dff61f300017030d4c
Type: cat     User: 5e1a9b981fd6150015fa736f
Used: False    Id: 5ef556dff61f300017030d4c 
Source: user
Text: Lucy, the oldest cat ever, lived to be 39 years old which is equivalent to 172 cat years.
https://cat-fact.herokuapp.com/facts/5d9d4ae168a764001553b388
Type: cat     User: 5d9d4a4468a764001553b387
Used: False    Id: 5d9d4ae168a764001553b388 
Source: user

## Ejercicio 4

En los ejercicios anteriores, usamos directamente una API para hacer la solicitud que requiramos, y nos encargamos directamente de la gestión de los datos de salida. 

No obstante, hemos visto ya el uso de librerías que facilitan el accesso a una API. La mayoría de estas librerías (y APIs de proyectos populares) requieren de un registro en la web de desarolladores. 


Sigue la documentación proporcionada en clase para conseguir un registro en el panel de desarolladores de Twitter. Obtendrás 4 códigos para autenticar tu aplicación. 

Usa la librería **tweepy** para programar dos funciones. 

- La primera función, se autentica en la API de twitter usando los 4 códigos proporcionados por el registro. A partir de un nombre de usuario en twitter proporcionado en el argumento de la función, esta retorna una tupla `(user, api)` con el objeto `twepy.models.User`, correspondiente a ese usuario y el descriptor de la API ya inicializada. 
- La segunda funcion, aceptará un objeto  `twepy.models.User` de entrada y imprimirá: 
 1. El número de tweets del usuario.
 1. El número de amigos del usuario.
 1. El número de seguidores del usuario.
 1. Los nombres de pantalla de los primeros 10 amigos del usuario (`screen_name`), sus nombres (`name`) junto con sus descripciones.

Ejecuta las dos funciones sobre el usuario de twitter **Space_Station**.




[Documentacion Tweepy]("http://docs.tweepy.org/en/latest/api.html")

In [9]:
# Importamos
import tweepy
import os

In [10]:
# Utilizamos una función para recoger nuestras credenciales, 
# este procedimiento fue realizado en clase.
def get_creds(line):
    keys = []
    for l in line:
        keys.append(l.split("=")[1].splitlines(False)[0])
    return keys

# Interactuamos con el sistema
tw_creeds = open("/Users/victoriasofia93/Desktop/Clases/Python/CR.txt", "r")
lines = tw_creeds.readlines()

# Procederemos con los creds de Twitter
CONSUMER_KEY = get_creds(lines)[0]
CONSUMER_SECRET = get_creds(lines)[1]
ACCESS_TOKEN = get_creds(lines)[2]
ACCESS_TOKEN_SECRET = get_creds(lines)[3]

# Primera Función ejercicio
def autenticacion(user):
    # Interactuamos con la api de Twitter
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    # Lanzamos la api
    api = tweepy.API(auth, wait_on_rate_limit = True, wait_on_rate_limit_notify= True)
    # Api.get_user devuelve la información del usuario específicado
    user = api.get_user(user)
    return (user.name, api)
autenticacion('Space_Station')

('International Space Station', <tweepy.api.API at 0x10ae3d890>)

In [11]:
# Segunda función:
def autenticacion2(user):
    # Interactuamos con la api de Twitter
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    # Lanzamos la api
    api = tweepy.API(auth, wait_on_rate_limit = True, wait_on_rate_limit_notify= True)
    # Api.get_user devuelve la información del usuario específicado
    user = api.get_user(user)
    print("El numero de tweets: {}".format(user.statuses_count))
    print("El numero de amigos: {}".format(user.friends_count))
    amigos = user.friends()
    print("El numero de followers: {}".format(user.followers_count))
    for i in amigos[0:10]:
        print(f"Usuario: {i.name} , Descripcion: {i.description}")
autenticacion2('Space_Station')

El numero de tweets: 13758
El numero de amigos: 218
El numero de followers: 4198477
Usuario: Zebulon Scoville , Descripcion: 86th NASA Flight Director. Lucky husband and father. Always looking for a challenge. Tweets are my own, so don't blame NASA.
Usuario: Stephanie Wilson , Descripcion: 
Usuario: Jim Morhard , Descripcion: Serving as @NASA's Deputy Administrator, working to support the agency's many missions including space exploration, Earth sciences, and aeronautics.
Usuario: Bob Cabana , Descripcion: Former astronaut and current Center Director of Kennedy Space Center.
Usuario: Sergey Kud-Sverchkov , Descripcion: Космонавт Роскосмоса (@Roscosmos) Сергей Кудь-Сверчков
//
@Roscosmos cosmonaut Sergey Kud-Sverchkov
Usuario: U.S. Space Command , Descripcion: The OFFICIAL Twitter Page of United States Space Command, the 11th Combatant Command in the Department of Defense. #USSPACECOM
Usuario: Joshua Kutryk , Descripcion: Canadian Space Agency Astronaut and RCAF Test Pilot.
Usuario: Iva

### Ejercicio 5

[congreso.es](http://www.congreso.es/) es la página web del Congreso de los Diputados en España. En ella se guarda una relación de todos los diputados elegidos en cada una de las legislaturas. 

En una de las páginas se puede observar un mapa del hemiciclo, junto con la posición de cada uno de los diputados, su fotografía, su representación territorial y el partido político al que esté adscrito.  Esta url se encuentra en [Hemiciclo](http://www.congreso.es/portal/page/portal/Congreso/Congreso/Diputados/Hemiciclo).

Usad `scrappy` para extraer la siguiente información:

*Nombre*, *Territorio*, *Partido*, *URL Imagen*, en el formato de un diccionario, como por ejemplo:

`{'Nombre': 'Callejas Cano, Juan Antonio ', 'Territorio': 'Diputado por Ciudad Real', 'Partido': 'G.P. Popular en el Congreso', 'url': '/wc/htdocs/web/img/diputados/peq/35_14.jpg'}`

Para Ello: 

- Utilizad el tutorial de scrappy para encontrar un `xpath` que contenga la información requerida
- Extraed la información requerida en forma de diccionario.

**Nota**: si la ejecución del _crawler_ os devuelve un error `ReactorNotRestartable`, reiniciad el núcleo del Notebook (en el menú: `Kernel` - `Restart`)



In [None]:
# Respuesta


### Ejercicio opcional

Consultad la paǵina web de Open Notify, indicando la información sobre los humanos residentes fuera de la tierra (es decir, en el espacio). Dirección url en  [Open Notify](http://api.open-notify.org).

Codificad una función que imprima por pantalla el número total de astronautas en el espacio, numero de naves tripuladas actualmente en órbita, así como el nombre de los astronautas que habitan para cada una de estas naves. 



In [None]:
# Respuesta
