# Programación para *Data Science*

Unidad 5: Adquisición de datos en Python
------------------------------------------------------

## Instrucciones de uso

A continuación se presentarán explicaciones y ejemplos de adquisición de datos en Python. Recordad que podéis ir ejecutando los ejemplos para obtener sus resultados.

## Introducción

Los procesos de adquisición de datos son muy diversos. En esta unidad, veremos ejemplos de adquisición de datos de Internet con tres métodos diferentes:

- descarga directa
- petición a APIs de terceros
- *web crawling*

Por lo que respeta a la interacción con APIs de terceros, repasaremos dos alternativas, la construcción manual de las peticiones HTTP y el uso de librerías Python. 

Con relación al *web crawling*, veremos cómo utilizar la librería [Scrapy](https://scrapy.org/) para construir un pequeño *web crawler* que capture datos de nuestro interés. 


### Primeros pasos

En esta unidad trabajaremos en varias ocasiones con datos en formato JSON (recordad que ya hemos introducido el formato JSON en la xwiki). 




La librería json de Python nos ofrece algunas funciones muy útiles para trabajar en este formato. Por ejemplo, podemos obtener la representación JSON de objetos Python o crear objetos Python a partir de su representación en JSON.

In [7]:
# Construimos un diccionario de ejemplo y mostramos el tipo de datos y el contenido de la variable.
diccionario_ejemplo = {"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}
print(type(diccionario_ejemplo))
print(diccionario_ejemplo)

# Construimos una lista de ejemplo y mostramos el tipo de datos y el contenido de la variable.
lista_ejemplo = [1, 2, 3]
print(type(lista_ejemplo))
print(lista_ejemplo)

<class 'dict'>
{'nombre': 'Yann', 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'}, 'edad': 56}
<class 'list'>
[1, 2, 3]


In [11]:
# Importamos la librería json.
import json

# Mostramos la representación json del diccionario.
json_dict = json.dumps(diccionario_ejemplo)
print(type(json_dict))
print(json_dict)

# Mostramos la representación json de la lista.
json_list = json.dumps(lista_ejemplo)
print(type(json_list))
print(json_list)

<class 'str'>
{"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}
<class 'str'>
[1, 2, 3]


Fijaos que, en ambos casos, obtenemos una cadena de caracteres que nos representa, en formato JSON, los objetos Python. Este proceso se conoce como **serializar** el objeto.

También podemos realizar el proceso inverso (conocido como **deserializar**), creando objetos Python (por ejemplo, listas o diccionarios) a partir de cadenas de texto en formato JSON.


In [12]:
# Deserializamos la cadena json_dict.
diccionario_ejemplo2 = json.loads(json_dict)
print(type(diccionario_ejemplo2))
print(diccionario_ejemplo2)

# Deserializamos la cadena json_list.
lista_ejemplo2 = json.loads(json_list)
print(type(lista_ejemplo2))
print(lista_ejemplo2)

<class 'dict'>
{'nombre': 'Yann', 'apellidos': {'apellido1': 'LeCun', 'apellido2': '-'}, 'edad': 56}
<class 'list'>
[1, 2, 3]


Para mejorar la legibilidad de los datos que obtendremos de las API, definiremos una función que mostrará cadenas JSON por pantalla formateadas para mejorar la lectura. La función aceptará tanto cadenas de carácteres con contenido JSON como objetos Python, y mostrará el contenido por pantalla.

Además, la función recibirá un parámetro opcional que nos permitirá indicar el número máximo de líneas que hay que mostrar. Así, podremos usar la función para visualizar las primeras líneas de un JSON largo, sin tener que mostrar el JSON completo por pantalla.

In [13]:
# Define la función 'json_print', que tiene un parámetro obligatorio 'json_data' y un parámetro opcional limit
# y no devuelve ningún valor.
# La función muestra por pantalla el contenido de la variable 'json_data' en formato JSON, limitando el número 
# de líneas a mostrar si se incluye el parámetro limit.
def json_print(json_data, limit=None):
    if isinstance(json_data, (str, unicode)):
        json_data = json.loads(json_data)
    nice = json.dumps(json_data, sort_keys=True, indent=3, separators=(',', ': '))
    print("\n".join(nice.split("\n")[0:limit]))
    if limit is not None:
        print("[...]")
    

Veamos un ejemplo del resultado de utilizar la función que acabamos de definir.

In [14]:
# Muestra el valor de la variable 'json_ejemplo' con la función 'print'.
json_ejemplo = '{"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}'
print(json_ejemplo)

{"nombre": "Yann", "apellidos": {"apellido1": "LeCun", "apellido2": "-"}, "edad": 56}


In [15]:
# Muestra el valor de la variable 'json_ejemplo' con la función 'json_print' que acabamos de definir.
json_print(json_ejemplo)

NameError: name 'unicode' is not defined

In [16]:
# Mostramos únicamente las tres primeras líneas.
json_print(json_ejemplo, 3)

NameError: name 'unicode' is not defined

## Descarga directa de datos

La descarga directa del conjunto de datos es quizás el método más sencillo de adquisición de datos y consiste en descargar un fichero con los datos de interés ya recopilados por algún otro analista. De hecho, en la unidad anterior ya hemos usado este método para adquirir el fichero con los datos sobre los personajes de cómic de Marvel. Una vez descargado el fichero, el procedimiento para cargarlo en Python dependerá del formato concreto (ya hemos visto un ejemplo de carga de datos desde un fichero .csv).

Algunos de los sitios web donde podéis encontrar conjuntos de datos para analizar son:
- [Open Data gencat](http://dadesobertes.gencat.cat/en/), el portal de datos abiertos de la Generalitat.
- [datos.gov.es](http://datos.gob.es/es/catalogo), el catálogo de conjuntos de datos del Gobierno de España.
- [European Data Sources](https://data.europa.eu/), el portal de datos abiertos de la Unión Europea.
- [Mark Newman network datasets](http://www-personal.umich.edu/~mejn/netdata/), conjuntos de datos en forma de red recopilados por Mark Newman.
- [Stanford Large Network Dataset Collection](http://snap.stanford.edu/data/), otra recopilación de conjuntos de datos en forma de red, en este caso creado por Jure Leskovec.
- [SecRepo.com](http://www.secrepo.com/), datos relacionados con la seguridad.
- [AWS Public Datasets](https://aws.amazon.com/public-datasets/), conjuntos de datos recopilados y hospedados por Amazon.
- [UC Irvine Machine Learning Repository](http://archive.ics.uci.edu/ml/), datos recopilados por un grupo de investigación de la Universidad de California en Irvine.
- El [repositorio de Five Thirty Eight](https://github.com/fivethirtyeight), que recoge datos utilizados en artículos de la publicación y que ya hemos visto en la unidad anterior.



## Uso de API de terceros

### Acceso a API manualmente

Podemos utilizar la librería de Python [Requests](http://docs.python-requests.org/) para realizar peticiones a web API de manera manual. Para ello, tendremos que acceder a la documentación de la API con la que queramos actuar, construir manualmente las peticiones para obtener la información deseada y procesar también manualmente la respuesta recibida.

Veamos un ejemplo de petición HTTP a una API pública. El sitio http://postcodes.io/ ofrece una API de geolocalización sobre códigos postales en el Reino Unido. Leyendo la documentación, podemos ver que tiene un método GET con la URL http://api.postcodes.io/postcodes/:código-postal que nos retorna información del código postal especificado. 

In [17]:
# Importamos la librería.
import requests

# Realizamos una petición get a la API, preguntando sobre el código postal "E98 1TT"
# Notad que el carácter espacio se codifica como %20 en la URL.
response = requests.get('http://api.postcodes.io/postcodes/E98%201TT')

# Mostramos la respuesta recibida.
print "Código de estado de la respuesta: ", response.status_code, "\n"
print "Cabecera de la respuesta: "
json_print(dict(response.headers))
print "\nCuerpo de la respuesta: "
json_print(response.content)

SyntaxError: Missing parentheses in call to 'print'. Did you mean print("Código de estado de la respuesta: ", response.status_code, "\n")? (<ipython-input-17-10b199f300a7>, line 9)

Como podemos ver, el estado de la respuesta es 200, lo que [nos indica](https://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html) que la petición se ha procesado correctamente. Entre otros campos, la cabecera de la respuesta incluye el tipo de contenido que encontraremos en el cuerpo, que será un texto en formato JSON. Por último, el cuerpo de la respuesta incluye datos sobre el código postal consultado. Por ejemplo, podemos ver que corresponde a Inglaterra (concretamente, a la ciudad de Londres).

Notad que podemos visualizar también la respuesta accediendo a la [misma URL](http://api.postcodes.io/postcodes/E98%201TT) con un navegador web. En este caso, se pueden instalar extensiones específicas que gestionen la visualización mejorada del JSON retornado (por ejemplo, [JSONView](https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc) para Chrome o Firefox).

### Acceso a API con librerías de Python

Aunque podríamos usar este método para interactuar con cualquier API HTTP, lo cierto es que cuando la complejidad de las funciones disponibles incrementa (por ejemplo, al incluir autenticación) puede no resultar muy práctico. Cuando queramos acceder a APIs populares, normalmente encontraremos que ya existen librerías de Python diseñadas para interactuar con las estas APIs, de manera que podremos obtener datos sin necesidad de manejar las peticiones HTTP manualmente.

Google maps dispone de un [conjunto de API](https://developers.google.com/maps/) muy populares que permiten, entre otros, obtener las coordenadas geográficas de una dirección, conseguir indicaciones para desplazarse de un punto a otro, o adquirir datos sobre la elevación del terreno en cualquier punto del mundo. La librería [googlemaps](https://googlemaps.github.io/google-maps-services-python/docs/) integra peticiones a la API de Google en código Python.

Para usar las APIs de Google Maps, es necesario registrar un usuario y obtener una clave de autenticación, que adjuntaremos a las peticiones que se realicen contra la API. Además, tendremos que especificar qué APIs concretas vamos a usar. 

Para el siguiente ejemplo, realizaremos estos tres pasos para obtener la clave de autenticación:

1. Crearemos un proyecto en la plataforma de Google Developers.
2. Activaremos las APIs deseadas.
3. Solicitaremos credenciales de acceso.

En primer lugar crearemos un nuevo proyecto en el entorno de desarrolladores de google. Nos dirigiremos a:
https://console.developers.google.com/apis/library
y haremos clic sobre «Project: New project». Asignaremos un nombre cualquiera al proyecto y confirmaremos la creación pulsando «Create».

Una vez creado el proyecto, activaremos las APIs que usaremos después. Primero, seleccionaremos la API de geocodificación ([_Google Maps Geocoding API_](https://console.developers.google.com/apis/api/geocoding_backend)), que se encuentra en la categoría _Google Maps APIs_ (es posible que tengáis que pulsar sobre el botón _more_ para ver la lista completa de APIs). Haremos click sobre _Enable_ para activarla.

Repetiremos el proceso para la API de direcciones ([_Google Maps Directions API_](https://console.developers.google.com/apis/api/directions_backend)), que se encuentra también en la categoría _Google Maps APIs_.

Finalmente, clickaremos sobre el menú «Credentials», indicaremos «Create credentials» y escogeremos «API Key». Nos aparecerá una ventana con una cadena de caracteres que representa nuestra clave. Para que el siguiente ejemplo funcione, **es necesario que asignéis a la variable api_key el valor de vuestra clave**.

In [9]:
# Importamos la librería googlemaps, que interactuará con la API de google maps.
import googlemaps

# Importamos la librería datetime, que nos ofrece funciones de manejos de fechas.
from datetime import datetime

####################################################################################
# ATENCIÓN! Asignad a la variable 'api_key' la clave que hayáis obtenido de Google.
api_key = ""
####################################################################################

# Inicializamos el cliente, indicando la clave de autenticación.
gmaps = googlemaps.Client(key=api_key)


En primer lugar, utilizaremos la [API de geocodificación](https://developers.google.com/maps/documentation/geocoding/start) para obtener datos de una dirección a través del método [geocode](https://googlemaps.github.io/google-maps-services-python/docs/2.4.6/#googlemaps.Client.geocode) del cliente de google maps que nos ofrece la librería (almacenado en la variable `gmaps`).

In [10]:
# Utilizamos la API de geocodificación para obtener datos de una dirección.
geocode_result = gmaps.geocode('Rambla del Poblenou, 156, Barcelona')
print("------ Resultado de geocode ------")
json_print(geocode_result, 20)

------ Resultado de geocode ------
[
   {
      "address_components": [
         {
            "long_name": "156",
            "short_name": "156",
            "types": [
               "street_number"
            ]
         },
         {
            "long_name": "Rambla del Poblenou",
            "short_name": "Rambla del Poblenou",
            "types": [
               "route"
            ]
         },
         {
            "long_name": "Barcelona",
            "short_name": "Barcelona",
[...]


Otro ejemplo del uso de la [API de geocodificación](https://developers.google.com/maps/documentation/geocoding/start) utiliza el método [reverse_geocode](https://googlemaps.github.io/google-maps-services-python/docs/2.4.6/#googlemaps.Client.reverse_geocode) para obtener información sobre unas coordenadas geográficas concretas:

In [11]:
# Obtenemos datos sobre unas coordenadas geográficas.
reverse_geocode_result = gmaps.reverse_geocode((41.2768089, 1.9884642))
print("------ Resultado de reverse geocode ------")
json_print(reverse_geocode_result, 20)



------ Resultado de reverse geocode ------
[
   {
      "address_components": [
         {
            "long_name": "17",
            "short_name": "17",
            "types": [
               "street_number"
            ]
         },
         {
            "long_name": "Avinguda del Canal Ol\u00edmpic",
            "short_name": "Av. del Canal Ol\u00edmpic",
            "types": [
               "route"
            ]
         },
         {
            "long_name": "Castelldefels",
            "short_name": "Castelldefels",
[...]


El siguiente ejemplo interactúa con la [API de direcciones](https://developers.google.com/maps/documentation/directions/), usando el método [_directions_](https://googlemaps.github.io/google-maps-services-python/docs/2.4.6/#googlemaps.Client.directions) de la librería googlemaps de Python, para obtener indicaciones de desplazamiento entre dos puntos.

In [12]:
# Obtenemos indicaciones sobre cómo ir de una dirección a otra, considerando el tráfico del momento actual.
now = datetime.now()
directions_result = gmaps.directions("Carrer Colom, 114, Terrassa",
                                     "Carrer Sant Antoni, 1, Salt",
                                     mode="transit",
                                     departure_time=now)
print("------ Resultado de directions ------")
json_print(directions_result, 15)

------ Resultado de directions ------
[
   {
      "bounds": {
         "northeast": {
            "lat": 41.98102,
            "lng": 2.817006
         },
         "southwest": {
            "lat": 41.481153,
            "lng": 2.014348
         }
      },
      "copyrights": "Map data \u00a92017 Google, Inst. Geogr. Nacional",
      "legs": [
         {
[...]


Notad que, en este caso, no hemos tenido que gestionar las peticiones HTTP manualmente: la librería lo ha hecho por nosotros de forma transparente. 

Además, las funciones de la librería nos devuelven directamente objetos Python, que pueden ser usados como cualquier otro. Por ejemplo, podemos seleccionar solo una parte de las respuestas de las APIs según nuestro interés:

In [17]:
# Mostramos las claves del diccionario que devuelve la llamada a geocode.
geocode_result[0].keys()

[u'geometry',
 u'address_components',
 u'place_id',
 u'formatted_address',
 u'types']

In [18]:
# Mostramos únicamente las coordenadas geográficas de la dirección de interés.
geocode_result[0]["geometry"]["location"]

{u'lat': 41.4063554, u'lng': 2.1947451}

In [30]:
# Mostramos las localizaciones cercanas a las coordenadas geográficas que hemos preguntado con reverse_geocode, 
# imprimiendo las coordenadas exactas y la dirección.
for result in reverse_geocode_result:
    print result["geometry"]["location"], result["formatted_address"]

{u'lat': 41.2772149, u'lng': 1.9892062} Av. del Canal Olímpic, 17, 08860 Castelldefels, Barcelona, Spain
{u'lat': 41.2800161, u'lng': 1.9766294} Castelldefels, Barcelona, Spain
{u'lat': 41.2790599, u'lng': 1.9734743} Castelldefels, Barcelona, Spain
{u'lat': 41.2792267, u'lng': 1.9636914} 08860 Sitges, Barcelona, Spain
{u'lat': 41.3847492, u'lng': 1.949021} El Baix Llobregat, Barcelona, Spain
{u'lat': 41.383401, u'lng': 2.027319} Barcelona Metropolitan Area, Barcelona, Spain
{u'lat': 41.3850477, u'lng': 2.1733131} Barcelona, Spain
{u'lat': 41.5911589, u'lng': 1.5208624} Catalonia, Spain
{u'lat': 40.46366700000001, u'lng': -3.74922} Spain


In [40]:
# Mostramos únicamente la distancia del trayecto entre los dos puntos preguntados a la API de direcciones.
print directions_result[0]["legs"][0]["distance"]

{u'text': u'112 km', u'value': 112026}


## Capturando datos manualmente: _web crawling_

[Scrapy](https://scrapy.org/) es una librería de Python que provee de un _framework_ para la extracción de datos de páginas web. Scrapy es muy completa y dispone de múltiples funcionalidades, pero veremos un ejemplo sencillo de su uso.

Suponed que queremos obtener un listado de las titulaciones de grado que ofrece la UOC. La UOC no ofrece una API con esta información, pero sí que podemos encontrarla en la página http://estudios.uoc.edu/es/grados. De todos modos, no queremos ir copiando manualmente los nombres de todas las titulaciones para obtener el listado de interés, por lo que desarollaremos un pequeño *crawler* que obtenga estos datos por nosotros.

Ya tenemos identificada la url que queremos explorar (http://estudios.uoc.edu/es/grados), así que solo será necesario identificar dónde se encuentran los datos de interés dentro de la página. Para hacerlo, en primer lugar nos fijaremos en algún título de grado que aparezca en la página, por ejemplo, Diseño y Creación Digitales o Multimedia. Seguidamente accederemos al código fuente de la página (podemos usar la combinación de teclas `CTRL + u` en los navegadores Firefox o Chrome) y buscaremos los nombres de los grados que hemos visto anteriormente:




Como se puede apreciar, los datos que queremos recopilar (los nombres de las titulaciones de grado que ofrece la UOC) se encuentran en el atributo título (_title_) de un hipervínculo (un elemento señalado con la etiqueta `<a>`) que tiene el atributo clase fijado a «card-absolute-link». 

Para indicar que queremos seleccionar estos datos, utilizaremos la sintaxis XPath. En concreto, utilizaremos la expresión:
```
//a[@class="card-absolute-link"]/@title
```

que nos indica que queremos seleccionar todas las etiquetas `<a>` que tengan como atributo clase el valor "card-absolute-link" y de ellas extraer el título. Con esto ya podemos programar nuestra araña para que extraiga los datos de interés.

La estructura de un *crawler* con Scrapy viene prefijada. En nuestro caso, solo será necesario definir una araña e incluir un *parser* que extraiga los datos de las titulaciones y que disponga de la URL de inicio.

In [1]:
# Importamos scrapy.
import scrapy
from scrapy.crawler import CrawlerProcess

# Creamos la araña.
class uoc_spider(scrapy.Spider):
    
    # Asignamos un nombre a la araña.
    name = "uoc_spider"
    
    # Indicamos la url que queremos analizar en primer lugar.
    start_urls = [
        "http://estudios.uoc.edu/es/grados"
    ]

    # Definimos el analizador.
    def parse(self, response):
        # Extraemos el título del grado.
        for grado in response.xpath('//a[@class="card-absolute-link"]/@title'):
            yield {
                'title': grado.extract()
            }

Una vez definida la araña, lanzaremos el *crawler* indicando que queremos que use la araña `uoc_spider` que acabamos de definir:

In [2]:
if __name__ == "__main__":

    # Creamos un crawler.
    process = CrawlerProcess({
        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
        'DOWNLOAD_HANDLERS': {'s3': None},
        'LOG_ENABLED': False
    })

    # Inicializamos el crawler con nuestra araña.
    process.crawl(uoc_spider)
    
    # Lanzamos la araña.
    process.start()

INFO:scrapy.utils.log:Scrapy 1.0.3 started (bot: scrapybot)
INFO:scrapy.utils.log:Optional features available: ssl, http11, boto
INFO:scrapy.utils.log:Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)', 'LOG_ENABLED': False}
INFO:scrapy.middleware:Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
INFO:scrapy.middleware:Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
INFO:scrapy.middleware:Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
INFO:scrapy.middleware:Enabled item pipelines: 
INFO:scrapy.core.engine:Spider opened
INFO:scrapy.extensions.logstats:Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
DEB

La ejecución de Scrapy muestra un log detallado con todos los eventos que han ido ocurriendo, lo que es muy útil para identificar problemas, sobre todo en capturas complejas. En nuestro caso, además, podemos ver como se han extraído los nombres de las titulaciones de grado: