Adquisición de datos en Python - PRA02
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

### Ejercicio 1

Hemos visto el uso de la libería [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual.

Mediante esta librería podemos realizar solicitudes como en el ejemplo que hemos visto de [postcodes.io](http://postcodes.io).

`response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')`




Hemos visto que, en realizar una petición a una web API http, recuperamos un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**. Busca la información sobre los códigos de **status.code** y completa la siguiente tabla sobre los códigos de error http. 


**Respuesta**

Descripción de los principales códigos de error http:

- 200: La solicitud se ha realizado con éxito.  
- 301: Indica que la URL utilizada para realizar la consulta ha sido cambiada permanentemente. Es posible que nos devuelvan la nueva URL en la respuesta.  
- 400: No se puedo interpretar la consulta por una sintaxis inválida.  
- 401: Se requiere una autentificación para realizar la consulta.   
- 403: Similar al error 401 pero no es posible en este caso obtener la autentificación de ninguna manera.  
- 404: El servidor no pudo encontrar la información solicitada.  
- 505: La versión HTTP usada en la consulta no es soportada por el servidor.
- 501: El método de consulta usado no está soportado por el servidor.  

Fuente: https://developer.mozilla.org/es/docs/Web/HTTP/Status

### Ejercicio 2

En este ejercicio intentaremos hacer una solicitud a tres paginas web diferentes vía el protocolo http mediante el método GET implementado en `requests.get`.

Obtén mediante `requests.get`, el contenido y el correspondiente `status.code` de las siguentes pàginas web: 

- http://google.com
- http://wikipedia.org
- https://mikemai.net/
- http://google.com/noexisto

Para cada web, muestra:

- Los primeros 80 carácteres del contenido de la web 
- El código de `status.code`.



In [1]:
# Lo primero cargo la libreria
import requests
import json
import tweepy
import scrapy
from scrapy.crawler import CrawlerProcess 
import numpy as np

#### Google

In [38]:
# Respuesta
google = requests.get('http://google.com')

In [23]:
google.status_code

200

In [35]:
google_text = google.text
print(google_text[0:80])

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"


#### Wikipedia

In [37]:
# Respuesta
wikipedia = requests.get('http://wikipedia.org')

In [40]:
wikipedia.status_code

200

In [39]:
wikipedia_text = wikipedia.text
print(wikipedia_text[0:80])

<!DOCTYPE html>
<html lang="mul" class="no-js">
<head>
<meta charset="utf-8">
<t


#### Mikemai

In [43]:
mikemai = requests.get('https://mikemai.net/')

In [44]:
mikemai.status_code

406

In [46]:
mikemai_text = mikemai.text
print(mikemai_text[0:80])

<head><title>Not Acceptable!</title><script src="/cdn-cgi/apps/head/Z5kPjcSfsgqj


#### Google - no existo

In [48]:
no_existo = requests.get('http://google.com/noexisto')

In [49]:
no_existo.status_code

404

In [50]:
no_existo_text = no_existo.text
print(no_existo_text[0:80])

<!DOCTYPE html>
<html lang=en>
  <meta charset=utf-8>
  <meta name=viewport cont


### Ejercicio 3

En este ejercicio vamos a hacer un poco de *Fun with cats*. Existe una API para *cat-facts* (hechos sobre gatos) en la base de https://cat-fact.herokuapp.com. Esta API tiene dos puntos de acceso:

- **/facts**
- **/users**

Según la documentación, el modelo en el punto de entrada de un **fact** es tal y como se indica a continuación: 

|    Key    |      Type     |                                              Description                                              |   |   |
|:---------:|:-------------:|:-----------------------------------------------------------------------------------------------------:|---|---|
| _id       | ObjectId      | Unique ID for the Fact                                                                                |   |   |
| _v        | Number        | Version number of the Fact                                                                            |   |   |
| user      | ObjectId      | ID of the User who added the Fact                                                                     |   |   |
| text      | String        | The Fact itself                                                                                       |   |   |
| updatedAt | Timestamp     | Date in which Fact was last modified                                                                  |   |   |
| sendDate  | Timestamp     | If the Fact is meant for one time use, this is the date that it is used                               |   |   |
| deleted   | Boolean       | Whether or not the Fact has been deleted (Soft deletes are used)                                      |   |   |
| source    | String (enum) | Can be 'user' or 'api', indicates who added the fact to the DB                                        |   |   |
| used      | Boolean       | Whether or not the Fact has been sent by the CatBot. This value is reset each time every Fact is used |   |   |
| type      | String        | Type of animal the Fact describes (e.g. ‘cat’, ‘dog’, ‘horse’)                                        |   |   |

Así, para obtener el **fact** número *58e0086f0aac31001185ed02*, debemos construir una solicitud a la url:

- *https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02*

El objecto que se nos devolverá, contendrá la información indicada en la tabla en formato *json* serializado. 

a) Contruye la solicitud, convierte el resultado a un diccionario y muestra por pantalla el resultado de los valores de la tabla anterior para el fact id *58e0086f0aac31001185ed02*.




In [51]:
# Respuesta
cat_fact_1 = requests.get('https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02')
cat_fact_1

<Response [200]>

In [52]:
cat_fact_1.text

'{"status":{"verified":true,"sentCount":1},"type":"cat","deleted":false,"_id":"58e0086f0aac31001185ed02","user":{"name":{"first":"Kasimir","last":"Schulz"},"photo":"https://lh6.googleusercontent.com/-BS_rskGd3kA/AAAAAAAAAAI/AAAAAAAAADg/yAxrX9QabMg/photo.jpg?sz=200","_id":"58e007480aac31001185ecef"},"text":"Cats can\'t taste sweetness.","__v":0,"source":"https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/","updatedAt":"2020-08-29T20:20:03.172Z","createdAt":"2018-03-16T20:20:03.622Z","used":true}'

In [53]:
cat_fact_1_dict = json.loads(cat_fact_1.text)
cat_fact_1_dict

{'status': {'verified': True, 'sentCount': 1},
 'type': 'cat',
 'deleted': False,
 '_id': '58e0086f0aac31001185ed02',
 'user': {'name': {'first': 'Kasimir', 'last': 'Schulz'},
  'photo': 'https://lh6.googleusercontent.com/-BS_rskGd3kA/AAAAAAAAAAI/AAAAAAAAADg/yAxrX9QabMg/photo.jpg?sz=200',
  '_id': '58e007480aac31001185ecef'},
 'text': "Cats can't taste sweetness.",
 '__v': 0,
 'source': 'https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/',
 'updatedAt': '2020-08-29T20:20:03.172Z',
 'createdAt': '2018-03-16T20:20:03.622Z',
 'used': True}

b) Para ara los fact ids:

- *5d38bdab0f1c57001592f156*
- *5ed11e643c15f700172e3856*
- *5ef556dff61f300017030d4c*
- *5d9d4ae168a764001553b388*

Obtén campos *type*, *user*, *user*, *source*, *used*, *text* y imprímelos siguiendo el siguiente formato:


`Type: cat	User: 58e007480aac31001185ecef
Used: True	Id: 58e0086f0aac31001185ed02
Source: https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/
Text: Cats can't taste sweetness.`




In [100]:
# Respuesta


In [93]:
# Voy a crear una función para obtener los datos en ese formato
def get_catfacts(fact_Id):
    cat_fact = requests.get('https://cat-fact.herokuapp.com/facts/'+str(fact_Id))
    cat_fact = json.loads(cat_fact.text)
    # Imprimo los valores que piden. En el apartado user, le digo que solamente imprima el _id
    print('Type: '+str(cat_fact['type'])+'\t User: '+str(cat_fact['user']['_id']) + '\n'+
         'Used: '+str(cat_fact['used'])+'\t Id: '+str(cat_fact['_id']) + '\n'+
         'Source: '+str(cat_fact['source'])+'\n'+
         'Text: '+str(cat_fact['text'])+'\n')

In [94]:
get_catfacts('5d38bdab0f1c57001592f156')

Type: cat	 User: 5a9ac18c7478810ea6c06381
Used: False	 Id: 5d38bdab0f1c57001592f156
Source: user
Text: While some cats love being brushed, others don't take to it naturally. Try to groom your cat in the same spot at the same time of day to create a sense of routine.



In [91]:
get_catfacts('5ed11e643c15f700172e3856')

Type: cat	 User: 5ed11e353c15f700172e3855
Used: False	 Id: 5ed11e643c15f700172e3856
Source: user
Text: Los gatos tienen más huesos que los seres humanos, nos ganan por 24.



In [92]:
get_catfacts('5ef556dff61f300017030d4c')

Type: cat	 User: 5e1a9b981fd6150015fa736f
Used: False	 Id: 5ef556dff61f300017030d4c
Source: user
Text: Lucy, the oldest cat ever, lived to be 39 years old which is equivalent to 172 cat years.



In [85]:
get_catfacts('5d9d4ae168a764001553b388')

Type: cat	 User: 5d9d4a4468a764001553b387
Used: False	 Id: 5d9d4ae168a764001553b388
Source: user
Text: Cats conserve energy by sleeping for an average of 13 to 14 hours a day.



## Ejercicio 4

En los ejercicios anteriores, usamos directamente una API para hacer la solicitud que requiramos, y nos encargamos directamente de la gestión de los datos de salida. 

No obstante, hemos visto ya el uso de librerías que facilitan el accesso a una API. La mayoría de estas librerías (y APIs de proyectos populares) requieren de un registro en la web de desarolladores. 


Sigue la documentación proporcionada en clase para conseguir un registro en el panel de desarolladores de Twitter. Obtendrás 4 códigos para autenticar tu aplicación. 

Usa la librería **tweepy** para programar dos funciones. 

- La primera función, se autentica en la API de twitter usando los 4 códigos proporcionados por el registro. A partir de un nombre de usuario en twitter proporcionado en el argumento de la función, esta retorna una tupla `(user, api)` con el objeto `twepy.models.User`, correspondiente a ese usuario y el descriptor de la API ya inicializada. 
- La segunda funcion, aceptará un objeto  `twepy.models.User` de entrada y imprimirá: 
 1. El número de tweets del usuario.
 1. El número de amigos del usuario.
 1. El número de seguidores del usuario.
 1. Los nombres de pantalla de los primeros 10 amigos del usuario (`screen_name`), sus nombres (`name`) junto con sus descripciones.

Ejecuta las dos funciones sobre el usuario de twitter **Space_Station**.




In [109]:
# Respuesta
# Lo primero cargo las credenciales de twitter 
CONSUMER_KEY= ""
CONSUMER_SECRET=""
ACCESS_TOKEN=""
ACCESS_SECRET=""
# he ejecutado el codigo con las credenciales, al subirlo las he borrado

In [115]:
# Función
def get_tw_api_user(user_name):
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET) # con esto lo que hacemos es meter las claves en una variable que servirán para autentificarnos.
    auth.set_access_token(ACCESS_TOKEN, ACCESS_SECRET)
    # obtengo la API que me permite hacer las consultas
    api = tweepy.API(auth)
    # busco los datos del usuario
    user = api.get_user("Space_Station")
    return (user,api)

In [116]:
get_tw_api_user("Space_Station")

(User(_api=<tweepy.api.API object at 0x7fcde41e5220>, _json={'id': 1451773004, 'id_str': '1451773004', 'name': 'International Space Station', 'screen_name': 'Space_Station', 'location': 'Low Earth Orbit', 'profile_location': None, 'description': "NASA's page for updates from the International Space Station, the world-class lab orbiting Earth 250 miles above. For the latest research, follow @ISS_Research.", 'url': 'https://t.co/9Gk2H0gekn', 'entities': {'url': {'urls': [{'url': 'https://t.co/9Gk2H0gekn', 'expanded_url': 'http://www.nasa.gov/station', 'display_url': 'nasa.gov/station', 'indices': [0, 23]}]}, 'description': {'urls': []}}, 'protected': False, 'followers_count': 4157142, 'friends_count': 219, 'listed_count': 12734, 'created_at': 'Thu May 23 15:25:28 +0000 2013', 'favourites_count': 18316, 'utc_offset': None, 'time_zone': None, 'geo_enabled': False, 'verified': True, 'statuses_count': 13715, 'lang': None, 'status': {'created_at': 'Mon Jan 04 03:42:01 +0000 2021', 'id': 13459

In [171]:
def get_user_tw_data(user_name):
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET) # con esto lo que hacemos es meter las claves en una variable que servirán para autentificarnos.
    auth.set_access_token(ACCESS_TOKEN, ACCESS_SECRET)
    # obtengo la API que me permite hacer las consultas
    api = tweepy.API(auth)
    # busco los datos del usuario
    user = api.get_user(user_name)
    # finalmente le digo que me devuelva los valores pedidos: 
    print("El numero de Tweets: {}".format(user.statuses_count))
    print("El numero de amigos: {}".format(user.friends_count))
    print("El numero de followers: {}".format(user.followers_count))
    # para obtener los amigos uso friends_ids que obtiene los Ids de todos los amigos de un usario concreto. Selecciono los diez primeros. 
    friends = api.friends_ids(user_name)[0:10]
    # posteriormente hago un for que recorra la lista y muestro los valores que se pude, screen_name, name y descripción. 
    for friend in friends:
        user1 = api.get_user(friend)
        print("\n" + user1.screen_name + "\n" + user1.name + "\n" + user1.description)

In [172]:
get_user_tw_data("Space_Station")

El numero de Tweets: 13715
El numero de amigos: 219
El numero de followers: 4157230

Explorer_Flight
Zebulon Scoville
86th NASA Flight Director. Lucky husband and father. Always looking for a challenge. Tweets are my own, so don't blame NASA.

Astro_Stephanie
Stephanie Wilson


jmorhard
Jim Morhard
Serving as @NASA's Deputy Administrator, working to support the agency's many missions including space exploration, Earth sciences, and aeronautics.

Astro_CabanaBob
Bob Cabana
Former astronaut and current Center Director of Kennedy Space Center.

KudSverchkov
Sergey Kud-Sverchkov
Космонавт Роскосмоса (@Roscosmos) Сергей Кудь-Сверчков
//
@Roscosmos cosmonaut Sergey Kud-Sverchkov

US_SpaceCom
U.S. Space Command
The OFFICIAL Twitter Page of United States Space Command, the 11th Combatant Command in the Department of Defense. #USSPACECOM

Astro_Kutryk
Joshua Kutryk
Canadian Space Agency Astronaut and RCAF Test Pilot.

ivan_mks63
Ivan Vagner
Космонавт Роскосмоса (@Roscosmos) Иван Вагнер
//
@Rosc

### Ejercicio 5

[congreso.es](http://www.congreso.es/) es la página web del Congreso de los Diputados en España. En ella se guarda una relación de todos los diputados elegidos en cada una de las legislaturas. 

En una de las páginas se puede observar un mapa del hemiciclo, junto con la posición de cada uno de los diputados, su fotografía, su representación territorial y el partido político al que esté adscrito.  Esta url se encuentra en [Hemiciclo](http://www.congreso.es/portal/page/portal/Congreso/Congreso/Diputados/Hemiciclo).

Usad `scrappy` para extraer la siguiente información:

*Nombre*, *Territorio*, *Partido*, *URL Imagen*, en el formato de un diccionario, como por ejemplo:

`{'Nombre': 'Callejas Cano, Juan Antonio ', 'Territorio': 'Diputado por Ciudad Real', 'Partido': 'G.P. Popular en el Congreso', 'url': '/wc/htdocs/web/img/diputados/peq/35_14.jpg'}`

Para Ello: 

- Utilizad el tutorial de scrappy para encontrar un `xpath` que contenga la información requerida
- Extraed la información requerida en forma de diccionario.

**Nota**: si la ejecución del _crawler_ os devuelve un error `ReactorNotRestartable`, reiniciad el núcleo del Notebook (en el menú: `Kernel` - `Restart`)



In [4]:
# Respuesta
# creamos primero el bicho "araña"
class congreso_spider(scrapy.Spider):
    # Asignamos un nombre al bicho
    name = "congreso_spider"
    
    # Indicamos la url que queremos analizar
    start_urls = [
        "https://www.congreso.es/web/guest/busqueda-de-diputados"
    ]
    
    # Definimos el analizador
    def parse(self, response):
        for diputado in response.xpath('/html/body/div[1]/div[2]/div[1]/div[2]/section/div/div[2]/div[2]/div/div/section/div/div[2]/div/div[1]/div/div/div[2]/div[2]/table'):
            yield {
                'Nombre': diputado.extract(),
                'Terrotorio': territorio.extract(),
                'Partido': partido.extract()
                
            }

In [5]:
if __name__ == "__main__":

    # Creamos un crawler.
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': True
    })

    # Inicializamos el crawler con nuestra araña.
    process.crawl(congreso_spider)
    
    # Lanzamos la araña.
    process.start()

2021-01-08 16:30:35 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-01-08 16:30:36 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 | packaged by conda-forge | (default, Oct  7 2020, 19:08:05) - [GCC 7.5.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-128-generic-x86_64-with-glibc2.10
2021-01-08 16:30:36 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-01-08 16:30:36 [scrapy.crawler] INFO: Overridden settings:
{'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2021-01-08 16:30:36 [scrapy.extensions.telnet] INFO: Telnet Password: 33382e69e5123ff3
2021-01-08 16:30:36 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']


<scrapy.crawler.CrawlerProcess at 0x7f98caa79ee0>

### Ejercicio opcional

Consultad la paǵina web de Open Notify, indicando la información sobre los humanos residentes fuera de la tierra (es decir, en el espacio). Dirección url en  [Open Notify](http://api.open-notify.org).

Codificad una función que imprima por pantalla el número total de astronautas en el espacio, numero de naves tripuladas actualmente en órbita, así como el nombre de los astronautas que habitan para cada una de estas naves. 



In [3]:
# Respuesta
datos_iss = requests.get('http://api.open-notify.org/astros.json')
datos_iss

<Response [200]>

In [49]:
datos_iss_dict = json.loads(datos_iss.text)
datos_iss_dict['people'][0]['name']

'Sergey Ryzhikov'

El objetivo es contar el numero de 'craft' diferentes que hay, así como el numero de astronautas. 

In [34]:
def get_names_iss(dict): # coge un diccionario. 
    nombres = [] # creo una lista donde meteré los nombres
    category1 = list(dict)[2] # la variable categoría 1 cogerá el elemento número 2 del dict de la ISS, que es 'people'
    for i in range(0, len(dict[category1])): # hago un for que va a recorrer 'people'.
        category2 = list(dict[category1][i]) # creo una variable que dentro de 'people' va a convertir en lista cada una de las filas, devolverá 'craft' y 'name'
        nombres.append(dict[category1][i][category2[1]])  # que de cada posición i de 'people' me de el valor 1 de la category2 que es name. Es decir me da los nombres y los añado a nombres
    return nombres

In [36]:
def get_ships_iss(dict): # coge un diccionario. 
    ships = [] # creo una lista donde meteré los nombres
    category1 = list(dict)[2] # la variable categoría 1 cogerá el elemento número 2 del dict de la ISS, que es 'people'
    for i in range(0, len(dict[category1])): # hago un for que va a recorrer 'people'.
        category2 = list(dict[category1][i]) # creo una variable que dentro de 'people' va a convertir en lista cada una de las filas, devolverá 'craft' y 'name'
        ships.append(dict[category1][i][category2[0]])  # que de cada posición i de 'people' me de el valor 1 de la category2 que es name. Es decir me da los nombres y los añado a nombres
    return ships

In [56]:
np.unique(get_names_iss(datos_iss_dict))

array(['Kate Rubins', 'Mike Hopkins', 'Sergey Kud-Sverchkov',
       'Sergey Ryzhikov', 'Shannon Walker', 'Soichi Noguchi',
       'Victor Glover'], dtype='<U20')

In [88]:
def people_space(URL):
    datos = requests.get(URL)
    datosdict = json.loads(datos_iss.text)
    astronautas = get_names_iss(datosdict)
    naves = get_ships_iss(datosdict)
    print('El numero de naves es {} y numero total de astonautas es {}'.format(len(np.unique(naves)),len(np.unique(astronautas))))
    for nave in np.unique(naves):
        astronautas_nave = []
        for astronauta in range(0,len(astronautas)):
            if datosdict['people'][astronauta]['craft'] == nave:
                astronautas_nave.append(datosdict['people'][astronauta]['name'])
        print('Los astronautas de la nave '+str(nave)+' son: {}'.format(astronautas_nave))

In [89]:
people_space('http://api.open-notify.org/astros.json')

El numero de naves es 1 y numero total de astonautas es 7
Los astronautas de la nave ISS son: ['Sergey Ryzhikov', 'Kate Rubins', 'Sergey Kud-Sverchkov', 'Mike Hopkins', 'Victor Glover', 'Shannon Walker', 'Soichi Noguchi']
