Programación para *Data Science*

Unidad 5: Adquisición de datos en Python - Ejercicios y preguntas
------------------------------------------------------

## Ejercicio 1

Seleccionad y descargad cualquier fichero de datos de alguno de los portales comentados en el Notebook de esta unidad. 

Cargad los datos en una variable Python (podéis usar [pandas](http://pandas.pydata.org/) si queréis). Mostrad el número de muestras que contiene el conjunto de datos y los atributos disponibles para cada muestra. **(1 punto)**








He triat baixar algun fitxer de dades del repositori de la Universitat de California a Irvine. D'entre tots els que hi havia he baixat el conjunt de dades *Wine Quality*. Aquestes venen en un fitxer *csv*, el fitxer *winequality-red.csv*. L'emmagatzemaré en un *dataframe* de pandas i mostraré les 10 primeres files:

In [3]:
# Respuesta

# Importem la llibreria pandas i li assignem un àlies per fer més còmodes les crides.
import pandas as pd

# Llegeix el fitxer i l'emmagatzema en un dataframe de pandas.
data = pd.read_csv('winequality-red.csv', sep=';')

# Mostra les 10 primeres files.
print data.head(n=10)

   fixed acidity  volatile acidity  citric acid  residual sugar  chlorides  \
0            7.4              0.70         0.00             1.9      0.076   
1            7.8              0.88         0.00             2.6      0.098   
2            7.8              0.76         0.04             2.3      0.092   
3           11.2              0.28         0.56             1.9      0.075   
4            7.4              0.70         0.00             1.9      0.076   
5            7.4              0.66         0.00             1.8      0.075   
6            7.9              0.60         0.06             1.6      0.069   
7            7.3              0.65         0.00             1.2      0.065   
8            7.8              0.58         0.02             2.0      0.073   
9            7.5              0.50         0.36             6.1      0.071   

   free sulfur dioxide  total sulfur dioxide  density    pH  sulphates  \
0                 11.0                  34.0   0.9978  3.51       0

## Pregunta 1

Queremos saber cuántas personas hay en el espacio en un momento dado. Identificad qué método de la [siguiente API](http://open-notify.org/Open-Notify-API) podemos utilizar para obtener este dato y contestad a las siguientes preguntas. **(1 punto)**

1. ¿A qué URL realizaremos la petición?
2. ¿Qué tipo de petición HTTP (qué acción) tendremos que realizar a la API para obtener los datos deseados?
3. ¿En qué formato obtendremos la respuesta de la API seleccionada?
4. ¿En qué campo de la respuesta encontraremos la información que buscamos?



#### Respuesta

La petició la farem a la URL: http://api.open-notify.org/astros.json

El tipus de petició serà un GET.

La resposta de l'API vindrà donada en format JSON.

La informació la trobarem en el camp *number*.

## Ejercicio 2

Implementad una función que devuelva el número de personas que hay actualmente en el espacio. **(1.5 puntos)**

In [1]:
# Respuesta

# Importem les llibreries que farem servir.
import json
import requests

# Definim una funció que ens retorna el número de persones que hi ha actualment a l'espai.
def num_people_in_space():
    # Realitzem una petició GET a l'API.
    response = requests.get('http://api.open-notify.org/astros.json')
    # Transformem el resultat obtingut en un diccionari.
    response_dict = json.loads(response.content)
    # Retornem el valor del camp number del diccionari.
    return response_dict['number']

# Fem una crida a la funció i guardem el resultat en una variable.
people_in_space = num_people_in_space()
# Mostrem el resultat.
print "Persones que hi ha actualment a l'espai: %d" % people_in_space

Persones que hi ha actualment a l'espai: 6


## Ejercicio 3

Programad una función que muestre la fecha y hora de los diez próximos pases de la estación espacial internacional (ISS) por encima de una localización concreta (especificada por su dirección postal). **(2 puntos)**

**Pista**: ¡pensad que podéis combinar resultados de varias API!

In [2]:
# Respuesta

# Importem la llibreria googlemaps, que interactuarà amb l'API de google maps.
import googlemaps

# Importem la llibreria time, que ens ofereix funcions per manejar dates i temps.
import time

# Importem altres llibreries que farem servir.
import json
import requests

def ISS_passes(address, num_passes=10):

    # Asignem a la variable api_key la clau que he obtingut de Google.
    api_key = "AIzaSyAxBfKgd1HpX1to2vUbrj2EWkpY04I-xGw"

    # Inicialitzem el client, indicant la clau d'autenticació.
    gmaps = googlemaps.Client(key=api_key)

    # Utilitzem l'API de geocodificació per obtenir dades d'una adreça.
    geocode_result = gmaps.geocode(address)

    # Prenem únicament les coordenades geogràfiques de la'adreça.
    coords = geocode_result[0]["geometry"]["location"]

    # Extreiem la latitud i la longitud.
    lat = coords['lat']
    lng = coords['lng']

    # Construim el cos de la petició a l'API.
    request = 'http://api.open-notify.org/iss-pass.json?lat=%s&lon=%s&n=%d' % (lat, lng, num_passes)

    # Realitzem la petició GET a l'API.
    response = requests.get(request)

    # Transformem el resultat obtingut en un diccionari.
    response_dict = json.loads(response.content)
    # Retornem el valor del camp number del diccionari.
    passes = response_dict[u'response']   

    # Mostrem un missatge de presentació.
    print u'Dates i temps de les pròximes %d vegades que la ISS passarà per %s:' % (num_passes, address)

    # Iterem sobre la llista.
    for idx, pass_time in enumerate(passes):
        # Índex de cada iteració.
        idx += 1
        # Prenem el timestamp de cada passada de la ISS.
        rise_time = pass_time[u'risetime']
        # Convertim el timestamp en un string amb data i temps.
        date_time = time.ctime(rise_time)
        # Convertim el string en una llista.
        date_time_list = date_time.split(" ")
        # De la llista, prenem el dia de la setmana.
        day_of_the_week = date_time_list[0]
        # De la llista, prenem el mes.
        month = date_time_list[1]
        # De la llista, prenem el dia.
        day = date_time_list[2]
        # De la llista, prenem el temps, en format HH:MM:SS.
        hms = date_time_list[3]
        # De la llista, prenem l'any.
        year = date_time_list[4]
        # Mostrem per pantalla la informació de data i temps de cada passada
        print "%d\t%s\t%s-%s-%s\t%s" % (idx, day_of_the_week, day, month, year, hms)


# Aplico la funció amb les dades de la meva adreça.        
my_address = 'Carrer Hannover, 2, Alaior'
ISS_passes(my_address)


Dates i temps de les pròximes 10 vegades que la ISS passarà per Carrer Hannover, 2, Alaior:
1	Wed	29-Nov-2017	22:10:09
2	Wed	29-Nov-2017	23:46:47
3	Thu	30-Nov-2017	01:23:16
4	Thu	30-Nov-2017	03:02:22
5	Thu	30-Nov-2017	16:27:13
6	Thu	30-Nov-2017	18:02:08
7	Thu	30-Nov-2017	19:39:34
8	Thu	30-Nov-2017	21:17:32
9	Thu	30-Nov-2017	22:54:28
10	Fri	-Dec-00:30:50	1


## Pregunta 2

¿Qué es la _scrapy shell_? Describid para qué sirve y poned algún ejemplo de su uso. **(1 punto)**


**Respuesta**

El *Scrapy shell* és un shell interactiu en el que es pot provar i depurar un codi per fer scrape d'una manera bastant ràpida, sense hever de menester executar l'aranya. Està pensat per ser usat pel testeig de codi d'extracció de dades, però es por utilitzar per testejar qualsevol tipus de codi ja que també és un shell de Python amb totes les seves funcions.

El shell s'utilitza per testejar expressions CSS o XPath i veure com es comporten i quines dades extreuen de les pàgines web que s'intenten *"scrapejar"*. Permet testejar interactivament les expressions que es desitgin mentre s'està escrivint l'aranya, sense necessitat d'executar l'aranya per testejar cada canvi.

El *Scrapy shell* no és més que una consola Python normal (o bé una consola IPython, si està disponible) que proporciona algunes funcions addicionals per conveniència. A més, el *Scrapy shell* automàticament crea objectes convenients a partir de la pàgina baixada, tals com els objectes *Response* i *Selector*, per contingut tant en HTML com en XML.

Per exemple, podem veure l'exemple que apareix en el web https://doc.scrapy.org/en/latest/intro/overview.html. A continuació es mostra una aranya que *"escrapeja"* cites famoses del web http://quotes.toscrape.com, seguint la paginació:

Ara es tractaria de guardar aquest codi en algun fitxer, per exemple *quotes_spider.py* i executar l'aranya emprant la comanda *runspider*:

Quan acaba d'executar-se tindrem al fitxer *quotes.json* una llista de les cites en format JSON, contenint el text i l'autor, amb aquest aspecte:

Què és el que ha passat? Quan s'executa la commanda *scrapy runspider quotes_spider.py*, *Scrapy* busca una definició d'una aranya i l'executa mitjançant el seu motor *crawler*. El *crawl* comença fent peticions a les URLs definides a l'atribut *start_urls*, en el nostre cas només una URL, i crida el mètode de la classe, *parse*, passant l'objecte resposta com a argument. En el mètode, s'itera sobre totes les cites emprant un selector CSS, i s'obté un diccionari Python amb l'autor i el text de la cita extrets, busca un link a la següent pàgina i prepara una altra petició emprant el mateix mètode.

Aquí es pot veure un dels grans avantatges de *Scrapy*: les peticions són previstes i procesades asíncronament. Això vol dir que *Scrapy * no necessita esperar que una petició finalitzi i estigui procesada, ja que pot enviar una altra petició o fer altres coses al mateix moment. Això també significa que altres peticions poden estar executant-se inclús si alguna petició falla o un error té lloc.

A la vegada que això permet fer *crawls* molt ràpids, enviant múltiples peticions concurrents al mateix moment, en un ambient tolerant als falls, *Scrapy* també dona control del *crawl* mitjançant alguns *settings*. 

## Ejercicio 4

[KDnuggets](http://www.kdnuggets.com/) es una web con contenido sobre *Data Science*. Entre otros, la web mantiene un listado de ofertas de trabajo relacionadas con el ámbito.  

Programad un *crawler* que extraiga los títulos de todas las ofertas de trabajo de KDnuggets. **(2.5 puntos)**

Para hacerlo, utilizad la estructura de *crawler* que hemos visto en el Notebook de esta unidad, **modificando únicamente dos líneas de código**:
- La URL de inicio.
- La expresión XPath que selecciona el contenido que hay que capturar.

**Nota**: si la ejecución del *crawler* os devuelve un error `ReactorNotRestartable`, reinciad el *kernel* del Notebook (en el menú, `Kernel` - `Restart`).

In [1]:
# Importamos scrapy.
import scrapy
from scrapy.crawler import CrawlerProcess

# Creamos la araña.
class uoc_spider(scrapy.Spider):
    
    # Asignamos un nombre a la araña.
    name = "uoc_spider"
    
    # Indicamos la URL que queremos analizar en primer lugar
    # Incluid aquí la URL de inicio:
    ################################################
    start_urls = [
        "https://www.kdnuggets.com/jobs/index.html"
    ]
    ################################################
    
    # Definimos el analizador.   
    def parse(self, response):
        # Extraemos el título del grado.   
        # Incluid aquí la expresión 'xpath' que nos devuelve los títulos de las ofertas de trabajo.
        ################################################  
        for t in response.xpath('//ul[@class="three_ul"]/li/b/a/text()'):
        ################################################
            yield {
                'title': t.extract()
            }
            
if __name__ == "__main__":

    # Creamos un crawler.
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': False
    })

    # Inicializamos el crawler con nuestra araña.
    process.crawl(uoc_spider)
    
    # Lanzamos la araña.
    process.start()            

INFO:scrapy.utils.log:Scrapy 1.4.0 started (bot: scrapybot)
INFO:scrapy.utils.log:Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)', 'LOG_ENABLED': False}
INFO:scrapy.middleware:Enabled extensions:
['scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.corestats.CoreStats']
INFO:scrapy.middleware:Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.down

## Pregunta 3

¿Qué es OAuth? Explicad una situación donde sería útil usar OAuth en vez de un protocolo de autenticación tradicional basado en usuario y contraseña. **(1 punto)**

**Respuesta**

OAuth, o *Open Authorization*, és un estàndard obert que permet fluxes simples d'autorització per a llocs web o aplicacions informàtiques. Es tracta d'un protocol que permet realitzar una autorització segura d'una API de mode estàndard i simple per aplicacions d'escritori, telèfons mòbils i pàgines web. Per explicar-ho d'una manera entenedora, podem dir que OAuth permet a un usuari del lloc A compartir la seva informació en el mateix lloc A (proveidor de servei) amb el lloc B (consumidor) sense compartir tota la seva identitat. Per a desenvolupadors de consumidors, OAuth és un mètode per interactuar amb dades protegides i publicar-les. Per desenvolupadors de proveidors de serveis, OAuth proporciona als usuaris un accés a les seves dades a la vegada que protegeix les credencials del seu compte. Aquest mecanisme és utilitzat per companyies com Facebook, Google, Twitter, Github i Microsoft per permetre als usuaris compartir informació sobre els seus comptes amb aplicacions de tercers o llocs web.

Per exemple, a Google cada petició a una API ha d'incloure un identificador únic. Aquests identificadors únics permeten a la consola enllaçar peticions a projectes específics. Google suporta dos mecanismes per crear identificadors únics:

-- Identificadors de clients OAuth 2.0: Per aplicacions que utilitzen el protocol OAuth 2.0 per fer crides a APIS de Google, es pot utilitzar un identificador ID client de OAuth 2.0 per a generar un token d'accés. El token conté un identificador únic.

-- Claus API: Una clau API és un identificador únic que un genera emprant la consola. Utilitzar una clau API no requereix cap mena d'acció ni consentiment per part de l'usuari. Les claus API no garanteixen l'accés a qualsevol informació del compte, i no són utilitzades com a mètode d'autorització.

OAuth és un protocol que ofereix a l'usuari una manera d'assegurar que un altre usuari específic té permisos per fer algo. OAuth no està pensat per fer coses com validar la identitat d'un usuari, això ja ho fa un servei d'autenticació. L'autenticació és quan valides la identitat d'un usuari, per exemple demanant-li un *user* i un *password* per loguejar-se, mentres que l'autorització és quan es vol xequejar quins permisos té un usuari ja existent. Això es pot resumir dient que AOuth és un protocol per autorització, no per autenticació. 

Un exemple molt típic d'una situació en la que és més útil utilitzar OAuth en comptes d'un protocol d'autenticació basat en usuari i contrasenya és el que es veu cada vegada més en voler entrar en certes pàgines en les quals necessitariem loguejar-nos, però en comptes de demanar-nos l'usuari i la contrasenya ens demana si volem rebre l'autorització emprant algun altre proveidor de serveis web, com per exemple Google o Facebook. Així, ens demana d'emprar el fet de ja estar logejats en algun d'aquests proveidors, i si accedim ja rebem l'autorització. Cada vegada és més comú aquest exemple; a mi, particularment, avui mateix m'ha passat, que volguent entrar en el meu compte de Udemy, no he necessitat introduir usuari i contrasenya sinó que ha estat suficient amb acceptar entrar emprant les meves credencials oferides per Google i pel fet d'estar loguejat a Google.