Adquisición de datos en Python - PRA02
--------------------------------------


En este Notebook encontraréis dos conjuntos de ejercicios: un primer conjunto de **ejercicios para practicar** y un segundo conjunto de **actividades evaluables** como PRÁCTICAS de la asignatura.

### Ejercicio 1

Hemos visto el uso de la libería [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual.

Mediante esta librería podemos realizar solicitudes como en el ejemplo que hemos visto de [postcodes.io](http://postcodes.io).

`response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')`




Hemos visto que, en realizar una petición a una web API http, recuperamos un objeto que contiene, entre otros, los siguientes atributos: **status.code**, **content** y **headers**. Busca la información sobre los códigos de **status.code** y completa la siguiente tabla sobre los códigos de error http. 


**Respuesta**

Descripción de los principales códigos de error http:

* 200: OK. Conexión > realizada
* 301: Moved Permanently > Hay que lanzar la petición a una web que te facilitan
* 400: Bad Request > El servidor no procesa la solicitud por algún error
* 401: Unauthorized > La autentificación es posible pero ha fallado
* 403: Forbidden > No tienes los accesos para conectarte
* 404: Not Found > La web no se encuentra o no existe
* 505: HTTP Version Not Supported > El servidor no soporta la versión del protocolo HTTP que esta utilizando el navegador
* 501: Not Implemented > El servidor no soporta alguna funcionalidad

### Ejercicio 2

En este ejercicio intentaremos hacer una solicitud a tres paginas web diferentes vía el protocolo http mediante el método GET implementado en `requests.get`.

Obtén mediante `requests.get`, el contenido y el correspondiente `status.code` de las siguentes pàginas web: 

- http://google.com
- http://wikipedia.org
- https://mikemai.net/
- http://google.com/noexisto

Para cada web, muestra:

- Los primeros 80 carácteres del contenido de la web 
- El código de `status.code`.



In [1]:
# Importo las librerías necesarias
import requests
import urllib.request

In [2]:
# Google
# Extraigo el status y lo imprimo
print(
    requests.get('http://google.com')
    )
# Extraigo los primeros 80 caracteres y los imprimo
print(
    urllib.request.urlopen('http://google.com').read()[:80]
    )

<Response [200]>
b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="es"'


In [3]:
# Wikipedia
# Extraigo el status y lo imprimo
print(
    requests.get('http://wikipedia.org')
    )
# Extraigo los primeros 80 caracteres y los imprimo
print(
    urllib.request.urlopen('http://wikipedia.org').read()[:80]
    )

<Response [200]>
b'<!DOCTYPE html>\n<html lang="mul" class="no-js">\n<head>\n<meta charset="utf-8">\n<t'


In [4]:
# Mikemai
# Extraigo el status y lo imprimo
print(
    requests.get('https://mikemai.net/')
    )
# Como obtengo un error 406 no puedo extraer los primeros 80 caracteres

<Response [406]>


In [5]:
# google.com/no.existo
# Extraigo el status y lo imprimo
print(
    requests.get('http://google.com/noexisto')
    )
# Como obtengo un error 404 no puedo extraer los primeros 80 caracteres

<Response [404]>


### Ejercicio 3

En este ejercicio vamos a hacer un poco de *Fun with cats*. Existe una API para *cat-facts* (hechos sobre gatos) en la base de https://cat-fact.herokuapp.com. Esta API tiene dos puntos de acceso:

- **/facts**
- **/users**

Según la documentación, el modelo en el punto de entrada de un **fact** es tal y como se indica a continuación: 

|    Key    |      Type     |                                              Description                                              |   |   |
|:---------:|:-------------:|:-----------------------------------------------------------------------------------------------------:|---|---|
| _id       | ObjectId      | Unique ID for the Fact                                                                                |   |   |
| _v        | Number        | Version number of the Fact                                                                            |   |   |
| user      | ObjectId      | ID of the User who added the Fact                                                                     |   |   |
| text      | String        | The Fact itself                                                                                       |   |   |
| updatedAt | Timestamp     | Date in which Fact was last modified                                                                  |   |   |
| sendDate  | Timestamp     | If the Fact is meant for one time use, this is the date that it is used                               |   |   |
| deleted   | Boolean       | Whether or not the Fact has been deleted (Soft deletes are used)                                      |   |   |
| source    | String (enum) | Can be 'user' or 'api', indicates who added the fact to the DB                                        |   |   |
| used      | Boolean       | Whether or not the Fact has been sent by the CatBot. This value is reset each time every Fact is used |   |   |
| type      | String        | Type of animal the Fact describes (e.g. ‘cat’, ‘dog’, ‘horse’)                                        |   |   |

Así, para obtener el **fact** número *58e0086f0aac31001185ed02*, debemos construir una solicitud a la url:

- *https://cat-fact.herokuapp.com/facts/58e0086f0aac31001185ed02*

El objecto que se nos devolverá, contendrá la información indicada en la tabla en formato *json* serializado. 

a) Contruye la solicitud, convierte el resultado a un diccionario y muestra por pantalla el resultado de los valores de la tabla anterior para el fact id *58e0086f0aac31001185ed02*.



In [6]:
# Respuesta
import pandas as pd

URL1= 'https://cat-fact.herokuapp.com/facts/'
URL2= '58e0086f0aac31001185ed02'
requests.get(URL1+URL2).json()

{'status': {'verified': True, 'sentCount': 1},
 'type': 'cat',
 'deleted': False,
 '_id': '58e0086f0aac31001185ed02',
 'user': {'name': {'first': 'Kasimir', 'last': 'Schulz'},
  'photo': 'https://lh6.googleusercontent.com/-BS_rskGd3kA/AAAAAAAAAAI/AAAAAAAAADg/yAxrX9QabMg/photo.jpg?sz=200',
  '_id': '58e007480aac31001185ecef'},
 'text': "Cats can't taste sweetness.",
 '__v': 0,
 'source': 'https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/',
 'updatedAt': '2020-08-29T20:20:03.172Z',
 'createdAt': '2018-03-16T20:20:03.622Z',
 'used': True}

b) Para los fact ids:

- *5d38bdab0f1c57001592f156*
- *5ed11e643c15f700172e3856*
- *5ef556dff61f300017030d4c*
- *5d9d4ae168a764001553b388*

Obtén campos *type*, *user*, *user*, *source*, *used*, *text* y imprímelos siguiendo el siguiente formato:


`Type: cat	User: 58e007480aac31001185ecef
Used: True	Id: 58e0086f0aac31001185ed02
Source: https://www.scientificamerican.com/article/strange-but-true-cats-cannot-taste-sweets/
Text: Cats can't taste sweetness.`

In [7]:
# Respuesta: 5d38bdab0f1c57001592f156

URL2= '5d38bdab0f1c57001592f156'
CATS=requests.get(URL1+URL2).json()
print('Type: '+str(CATS['type'])+' User: '+str(CATS['user']['_id']))
print('Used: '+str(CATS['used'])+ ' Id: '+str(CATS['_id']))
print('Source: '+str(CATS['source']))
print('Text: '+str(CATS['text']))


Type: cat User: 5a9ac18c7478810ea6c06381
Used: False Id: 5d38bdab0f1c57001592f156
Source: user
Text: While some cats love being brushed, others don't take to it naturally. Try to groom your cat in the same spot at the same time of day to create a sense of routine.


In [8]:
# Respuesta: 5ed11e643c15f700172e3856

URL2= '5ed11e643c15f700172e3856'
CATS=requests.get(URL1+URL2).json()
print('Type: '+str(CATS['type'])+' User: '+str(CATS['user']['_id']))
print('Used: '+str(CATS['used'])+ ' Id: '+str(CATS['_id']))
print('Source: '+str(CATS['source']))
print('Text: '+str(CATS['text']))



Type: cat User: 5ed11e353c15f700172e3855
Used: False Id: 5ed11e643c15f700172e3856
Source: user
Text: Los gatos tienen más huesos que los seres humanos, nos ganan por 24.


In [9]:
# Respuesta: 5ef556dff61f300017030d4c

URL2= '5ef556dff61f300017030d4c'
CATS=requests.get(URL1+URL2).json()
print('Type: '+str(CATS['type'])+' User: '+str(CATS['user']['_id']))
print('Used: '+str(CATS['used'])+ ' Id: '+str(CATS['_id']))
print('Source: '+str(CATS['source']))
print('Text: '+str(CATS['text']))



Type: cat User: 5e1a9b981fd6150015fa736f
Used: False Id: 5ef556dff61f300017030d4c
Source: user
Text: Lucy, the oldest cat ever, lived to be 39 years old which is equivalent to 172 cat years.


In [10]:
# Respuesta: 5d9d4ae168a764001553b388

URL2= '5d9d4ae168a764001553b388'
CATS=requests.get(URL1+URL2).json()
print('Type: '+str(CATS['type'])+' User: '+str(CATS['user']['_id']))
print('Used: '+str(CATS['used'])+ ' Id: '+str(CATS['_id']))
print('Source: '+str(CATS['source']))
print('Text: '+str(CATS['text']))


Type: cat User: 5d9d4a4468a764001553b387
Used: False Id: 5d9d4ae168a764001553b388
Source: user
Text: Cats conserve energy by sleeping for an average of 13 to 14 hours a day.


## Ejercicio 4

En los ejercicios anteriores, usamos directamente una API para hacer la solicitud que requiramos, y nos encargamos directamente de la gestión de los datos de salida. 

No obstante, hemos visto ya el uso de librerías que facilitan el accesso a una API. La mayoría de estas librerías (y APIs de proyectos populares) requieren de un registro en la web de desarolladores. 


Sigue la documentación proporcionada en clase para conseguir un registro en el panel de desarolladores de Twitter. Obtendrás 4 códigos para autenticar tu aplicación. 

Usa la librería **tweepy** para programar dos funciones. 

- La primera función, se autentica en la API de twitter usando los 4 códigos proporcionados por el registro. A partir de un nombre de usuario en twitter proporcionado en el argumento de la función, esta retorna una tupla `(user, api)` con el objeto `twepy.models.User`, correspondiente a ese usuario y el descriptor de la API ya inicializada. 
- La segunda funcion, aceptará un objeto  `twepy.models.User` de entrada y imprimirá: 
 1. El número de tweets del usuario.
 1. El número de amigos del usuario.
 1. El número de seguidores del usuario.
 1. Los nombres de pantalla de los primeros 10 amigos del usuario (`screen_name`), sus nombres (`name`) junto con sus descripciones.

Ejecuta las dos funciones sobre el usuario de twitter **Space_Station**.




In [11]:
# Respuesta Función 1
import tweepy
import requests
import sys, os

def funcion_1(TwitterUser):
    
    # Carga de claves
    tw_creeds = open("Twitter_creds.txt", "r")
    lines = tw_creeds.readlines()
    keys= []
    for l in lines:
        keys.append(l.split("=")[1].splitlines(False)[0])      
    CONSUMER_KEY = keys[0]
    CONSUMER_SECRET = keys[1]
    ACCESS_TOKEN = keys[2]
    ACCESS_TOKEN_SECRET = keys[3]
    
    # Interactuamos con la API de Twitter
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    
    # Lanzamos la api
    api = tweepy.API(auth)
        #obtenemos los datos del usuario
    # Obtenemos datos del usuario "Space Station" usando la librería tweepy
    user = tweepy.API(auth).search_users(str(TwitterUser))
    return (user[0]._api,user[0].name)
 
        
# Ejecuto la funcion_1!        
funcion_1('Space_Station')

(<tweepy.api.API at 0xfb82fe8>, 'International Space Station')

In [12]:
# Respuesta: Funcion_2

import tweepy
import requests
import sys, os

def funcion_2(TwitterUser):
    
    # Carga de claves
    tw_creeds = open("Twitter_creds.txt", "r")
    lines = tw_creeds.readlines()
    keys= []
    for l in lines:
        keys.append(l.split("=")[1].splitlines(False)[0])  
        
    CONSUMER_KEY = keys[0]
    CONSUMER_SECRET = keys[1]
    ACCESS_TOKEN = keys[2]
    ACCESS_TOKEN_SECRET = keys[3]
    
    # Interactuamos con la API de Twitter
    auth = tweepy.OAuthHandler(CONSUMER_KEY, CONSUMER_SECRET)
    auth.set_access_token(ACCESS_TOKEN, ACCESS_TOKEN_SECRET)
    
    # Lanzamos la api
    api = tweepy.API(auth)
        #obtenemos los datos del usuario
    # Obtenemos datos del usuario "Space Station" usando la librería tweepy
    user = tweepy.API(auth).search_users(str(TwitterUser))
    # Saco número de tweets, de amigos y de seguidores
    Tw = user[0].listed_count
    Fr = user[0].friends_count
    Fl = user[0].followers_count
    print('El usuario {} ha publicado {} tweets. \nEl usuario {} tiene {} amigos. \nEl usuario {} tiene seguidores.'.format(TwitterUser,Tw,TwitterUser,Fr,TwitterUser,Fl))
    # 10 primeros amigos: nombre y descripcion
    Fr10 = tweepy.API(auth).friends(TwitterUser)[0:10]
    # Mediante un for extraigo e imprimo los datos
    for Fr in Fr10:
        print("Usuario: {} Descripción: {} \n".format(Fr.name, Fr.description))


# Ejecuto la funcion_!        
funcion_2('Space_Station')


El usuario Space_Station ha publicado 12746 tweets. 
El usuario Space_Station tiene 219 amigos. 
El usuario Space_Station tiene seguidores.
Usuario: Zebulon Scoville Descripción: 86th NASA Flight Director. Lucky husband and father. Always looking for a challenge. Tweets are my own, so don't blame NASA. 

Usuario: Stephanie Wilson Descripción:  

Usuario: Jim Morhard Descripción: Serving as @NASA's Deputy Administrator, working to support the agency's many missions including space exploration, Earth sciences, and aeronautics. 

Usuario: Bob Cabana Descripción: Former astronaut and current Center Director of Kennedy Space Center. 

Usuario: Sergey Kud-Sverchkov Descripción: Космонавт Роскосмоса (@Roscosmos) Сергей Кудь-Сверчков
//
@Roscosmos cosmonaut Sergey Kud-Sverchkov 

Usuario: U.S. Space Command Descripción: The OFFICIAL Twitter Page of United States Space Command, the 11th Combatant Command in the Department of Defense. #USSPACECOM 

Usuario: Joshua Kutryk Descripción: Canadian Sp

### Ejercicio 5

[congreso.es](http://www.congreso.es/) es la página web del Congreso de los Diputados en España. En ella se guarda una relación de todos los diputados elegidos en cada una de las legislaturas. 

En una de las páginas se puede observar un mapa del hemiciclo, junto con la posición de cada uno de los diputados, su fotografía, su representación territorial y el partido político al que esté adscrito.  Esta url se encuentra en [Hemiciclo](http://www.congreso.es/portal/page/portal/Congreso/Congreso/Diputados/Hemiciclo).

Usad `scrappy` para extraer la siguiente información:

*Nombre*, *Territorio*, *Partido*, *URL Imagen*, en el formato de un diccionario, como por ejemplo:

`{'Nombre': 'Callejas Cano, Juan Antonio ', 'Territorio': 'Diputado por Ciudad Real', 'Partido': 'G.P. Popular en el Congreso', 'url': '/wc/htdocs/web/img/diputados/peq/35_14.jpg'}`

Para Ello: 

- Utilizad el tutorial de scrappy para encontrar un `xpath` que contenga la información requerida
- Extraed la información requerida en forma de diccionario.

**Nota**: si la ejecución del _crawler_ os devuelve un error `ReactorNotRestartable`, reiniciad el núcleo del Notebook (en el menú: `Kernel` - `Restart`)



In [1]:
import scrapy
from scrapy.crawler import CrawlerProcess

class Cong_Spider(scrapy.Spider):
    # Nombre de la araña
    name = "Cong_spider"
    # Url de la que extraer la información
    start_urls = ["https://www.congreso.es/web/guest/hemiciclo"] 
    
    # Función de parseo

    def parse (self, response):
        # Indicamos que extraiga toda la informacion de los diputados
        for dip in response.xpath('//map[@name="hemiciclo"]/area/@onmouseover').getall():
            # elimino el texto del principio y los paréntesis de principio y final para así poder convertir en lista
            # la extracción
            dipdatos = dip.replace('javascript:mostrarFotografiaHemiciclo( ','').replace(");","").split(",")
            
            #Creo cada uno de los campos a buscar y les quito `'`
            Nombre = dipdatos[2].replace("'","")+", "+ dipdatos[3].split("(")[0].replace("'","")
            Territorio = dipdatos[4].replace("'","")
            Partido = dipdatos[5].replace("'","")
            Foto  =  dipdatos[0].replace("'","")
            diccionario = {"Nombre":Nombre,"Territorio":Territorio,"Partido":Partido,"Foto":Foto}
        
            print(diccionario,"\n\n")


In [2]:
# una vez definida la araña con la class ahora lanzamos
if __name__ == "__main__":
    # Creamos un crawler.
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': True
    })
    # Inicializamos el crawler con nuestra araña.
    process.crawl(Cong_Spider)
    # Lanzamos la araña.
    process.start()

2021-01-11 18:24:03 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-01-11 18:24:03 [scrapy.utils.log] INFO: Versions: lxml 4.6.2.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.5 (tags/v3.8.5:580fbb0, Jul 20 2020, 15:43:08) [MSC v.1926 32 bit (Intel)], pyOpenSSL 20.0.1 (OpenSSL 1.1.1i  8 Dec 2020), cryptography 3.3.1, Platform Windows-10-10.0.19041-SP0
2021-01-11 18:24:03 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2021-01-11 18:24:03 [scrapy.crawler] INFO: Overridden settings:
{'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)'}
2021-01-11 18:24:03 [scrapy.extensions.telnet] INFO: Telnet Password: 10cf1bcfb2007bbe
2021-01-11 18:24:04 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2021-01-11 18:24:04 [scrapy.middleware] INFO: Enabled downloader m

{'Nombre': ' Batet Lamaña,  Meritxell ', 'Territorio': 'Diputada por Barcelona', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/diputados/215_14.jpg'} 


{'Nombre': ' Rodríguez Gómez de Celis,  Alfonso ', 'Territorio': 'Diputado por Sevilla', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/diputados/168_14.jpg'} 


{'Nombre': ' Pastor Julián,  Ana María ', 'Territorio': 'Diputada por Madrid', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/diputados/31_14.jpg'} 


{'Nombre': ' Elizo Serrano,  María Gloria ', 'Territorio': 'Diputada por Madrid', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/diputados/300_14.jpg'} 


{'Nombre': ' Gil Lázaro,  Ignacio ', 'Territorio': 'Diputado por Valencia/València', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/diputados/295_14.jpg'} 


{'Nombre': ' Pisarello Prados,  Gerardo ', 'Territorio': 'Diputado por Barcelona', 'Partido': ' G. P. Mesa del Congreso ', 'Foto': '/docu/imgweb/

### Ejercicio opcional

Consultad la paǵina web de Open Notify, indicando la información sobre los humanos residentes fuera de la tierra (es decir, en el espacio). Dirección url en  [Open Notify](http://api.open-notify.org).

Codificad una función que imprima por pantalla el número total de astronautas en el espacio, numero de naves tripuladas actualmente en órbita, así como el nombre de los astronautas que habitan para cada una de estas naves. 

