# Captura de datos en Python

## 1. Objetivos
El objetivo de esta unidad será presentar tres alternativas de adquisición de datos de internet y proporcionar ejemplos prácticos del uso de estas alternativas.

## 2. Introducción
Internet es una fuente de datos inmensa que podemos aprovechar para nuestros análisis. En esta unidad, revisaremos tres métodos de adquisición de datos de internet:

La descarga directa de los datos.
La petición de datos a otras API de terceros.
El *crawling* de los datos en sitios web.
Antes de empezar con los ejemplos prácticos de adquisición de datos con los tres métodos propuestos, presentaremos a nivel teórico los conceptos necesarios para entender los dos últimos métodos, la petición de datos a otras API de terceros y el crawling, que incluyen algunas tecnologías que quizás desconocéis.

### 2.1 Bibliografía
Web API: https://en.wikipedia.org/wiki/Web_API
JSON: https://www.w3schools.com/js/
XML: https://www.w3schools.com/xml/
HTML: https://www.w3schools.com/html/

## 3.Obtención de datos de API de terceros
En este apartado definiremos qué es una API, describiremos las peticiones y respuestas HTTP que se utilizan para interactuar con API web y, finalmente, presentaremos los dos formatos de representación de datos más utilizados por las API web.

### 3.1 API
Una **API** (del inglés, Application Programming Interface) es un conjunto de métodos de comunicación entre varios componentes de software.

Las API facilitan el trabajo de integración de programas ya que permiten ofrecer una interfaz clara y bien especificada con la que interactuar con una aplicación, ocultando los detalles de la implementación concreta y exponiendo únicamente funciones específicas de interés.

La definición de API es muy genérica y podemos encontrar API en muchos contextos. En esta unidad, nos centraremos en el uso de API web para la adquisición de datos de servicios de terceros. Las API web se definen habitualmente como un conjunto de peticiones HTTP junto con la especificación de la estructura de los datos de las respuestas, normalmente en formato JSON o XML.

El uso de API web está muy extendido actualmente para interactuar con grandes proveedores de servicios en Internet. Algunos ejemplos de API populares son las de [Google maps](https://developers.google.com/maps/), [YouTube](https://developers.google.com/youtube/), [Spotify](https://developer.spotify.com/web-api/), [Twitter](https://developer.spotify.com/web-api/) o [Facebook](https://developer.spotify.com/web-api/).

Decimos que una API es RESTful (o, a veces, simplemente REST) cuando cumple un conjunto de características, entre las cuales destaca que no mantiene el estado entre peticiones. Es decir, toda la información necesaria para responder una petición se encuentra en la petición individual (y no depende de ningún estado almacenado por el servidor). 

### 3.2 Peticiones y respuestas HTTP
Para interactuar con una web API realizaremos una petición HTTP. A su vez, el servidor nos responderá con un mensaje de respuesta HTTP. Las peticiones y respuestas HTTP se estructuran en tres partes:

Una línea inicial de petición, que incluye la acción que hay que realizar (el método de la petición) y la URL del recurso, en las peticiones; y el código de estado y el mensaje asociado, en el caso de las respuestas.
La cabecera, que incluye metadatos con varias finalidades, por ejemplo, para describir el contenido, realizar la autenticación o controlar las cookies.
Una línea en blanco que separa la cabecera del cuerpo.
El cuerpo, que puede estar vacío o contener datos.
En la siguiente imagen se muestra un ejemplo simplificado de una petición y una respuesta HTTP:

![]("../../66_IMG/HTTP request%2Fresponse.png")

La línea inicial de las respuestas HTTP contiene el código de estado, un número entero de tres cifras que informa sobre el intento de entender y procesar la petición HTTP. El primer dígito del número define el tipo de respuesta. Actualmente, existen cinco tipos reconocidos:

- 1xx: informacional.
- 2xx: éxito.
- 3xx: redirección.
- 4xx: error del cliente.
- 5xx: error del servidor.

Así, cuando navegamos por Internet, normalmente nuestras peticiones se responden correctamente, devolviendo el código de estado 200. De vez en cuando nos encontramos también con errores del cliente. Por ejemplo, el error 404 nos indica que nuestra máquina ha sido capaz de comunicarse con el servidor, pero que el recurso que hemos solicitado no existe. Podemos forzar este error accediendo a [URLs no válidas](https://es.wikipedia.org/wiki/HTTP_404).

Las acciones o métodos más usados en interacción con web API son:

- GET: permite obtener información del recurso especificado.
- POST: permite enviar datos al recurso especificado.
- PUT: carga datos actualizando los ya existentes en el recurso especificado.
- DELETE: elimina información del recurso especificado.

### 3.3 JSON y XML
Dos de los formatos más habituales para incluir datos en las respuestas de las web API son JSON y XML. Ambos formatos tienen varias propiedades en común. En primer lugar, fueron diseñados para ser legibles tanto por humanos como por ordenadores, lo que los hace ideales en este contexto. En segundo lugar, ambos incorporan información sobre la estructura de los datos que codifican. Finalmente, ambos almacenan los datos en texto claro. Sin embargo, ambos lenguajes presentan múltiples diferencias.

El formato **XML** (del inglés, eXtensible Markup Language) es un lenguaje de marcas que utiliza un conjunto de etiquetas no predefinido. Los documentos XML tienen un único elemento raíz del cual pueden colgar otros elementos. Los elementos se delimitan con una etiqueta inicial y una etiqueta final. Veamos un ejemplo de un sencillo documento XML:

```
<persona>
  <nombre>Yann</nombre>
  <apellidos>
    <apellido1>LeCun</apellido1>
    <apellido2>-</apellido2>
  </apellidos>
  <edad>56</edad>
</persona>
```

El formato **JSON** (del inglés, *JavaScript Object Notation*) es un subconjunto de la notación de objetos javascript. JSON se basa en dos estructuras de datos, el *array* y el objeto, que serían equivalentes a las listas y los diccionarios de Python que ya hemos introducido. 

Así, un *array* JSON es una lista ordenada de cero o más valores, por ejemplo:

```
["data", "science", "course"]
```

En este caso, el array está formado por cadenas de caracteres. 

Un objeto JSON es una colección no ordenada de pares de clave y valor. Por ejemplo: 

```
{
  "course": "Data Science",
  "year": 2017
}
```

Veamos un ejemplo de los datos que hemos representado anteriormente en XML, usando ahora el formato JSON:

```
{
  "nombre": "Yann",
  "apellidos": {
    "apellido1": "LeCun",
    "apellido2": "-"
  },
  "edad" : 56
}

```
En este caso, hemos usado un objeto con tres claves: la primera tiene como valor una cadena de caracteres, la segunda tiene como valor otro objeto y la tercera tiene como valor un entero.

## 4.  Obtención de datos a partir de web crawling
En ocasiones nos interesará capturar datos que se encuentran en Internet pero para los cuáles no existe una API que nos permita acceder a ellos de forma estructurada. En estos casos, una alternativa es programar una araña (en inglés, un **web crawler**), un programa que analiza páginas web de forma automática en busca del contenido de interés.

El procedimiento esencial de un *web crawler* consiste en explorar una determinada página web en busca de datos de interés, que se almacenarán para el posterior uso, y enlaces a otras páginas web de interés, que serán exploradas posteriormente por el propio *crawler*, en busca de nuevos datos de interés y nuevas páginas.

Para obtener tanto los datos como los enlaces de interés, el *web crawler* utiliza un analizador sintáctico (en inglés, **parser**), que procesa el HTML de la página web y extrae los datos.

### 4.1 HTML
El formato **HTML** (del inglés, *Hypertext Markup Language*) es el lenguaje de marcas estándar para describir la presentación de páginas web. Del mismo modo que XML, utiliza (mayoritariamente) una etiqueta inicial y una final para indicar elementos. A diferencia de XML, las etiquetas se encuentran prefijadas por un estándar. 

Además de señalizar el inicio y el final de un elemento, las etiquetas HTML pueden incluir atributos, que permiten proporcionar información adicional sobre los elementos.

Veamos un ejemplo de un documento HTML sencillo:

```
<html>
  <head>
    <title>El título de la página</title>
  </head>
  <body>
    <div class="clase1" id =”id1”>
       <p> Un texto </p>
    </div>
    <div class="clase1" id =”id2”>
       <p> Otro texto </p>
    </div>
  </body>
</html>

```

### Leer datos de un documentos HTML

La función *pd.read_html* de Pandas recorre un documento HTML en busca de elementos de tipo ```<table>```. El valor devuelto es una lista de objetos de tipo *DataFrame*.

In [11]:
# Ejemplo extraemos las informaciones de wikipedia
# Cargamos las librerías requests y pandas

import requests
import pandas as pd

In [5]:
url = "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid"

In [7]:
respuesta = requests.get(url)
respuesta

<Response [200]>

In [8]:
if respuesta.status_code == 200:
    print('La petición HTTP ha ido bien')
else:
    print('Problemas con la petición')

La petición HTTP ha ido bien


La librería *Requests* permite realizar peticiones HTTP sencillas. La función *requests.get* abre una conexión con el servidor donde se encuentra la url y envía la petición. El objeto almacena muchos datos relacionados con la petición HTTP (cabeceras, cookies, etc.). Observamos las propiedades *status_code* y *text*

In [10]:
codigoHTML = respuesta.text
codigoHTML

'<!DOCTYPE html>\n<html class="client-nojs" lang="es" dir="ltr">\n<head>\n<meta charset="UTF-8"/>\n<title>Anexo:Municipios de la Comunidad de Madrid - Wikipedia, la enciclopedia libre</title>\n<script>document.documentElement.className="client-js";RLCONF={"wgBreakFrames":!1,"wgSeparatorTransformTable":[",\\t.","\xa0\\t,"],"wgDigitTransformTable":["",""],"wgDefaultDateFormat":"dmy","wgMonthNames":["","enero","febrero","marzo","abril","mayo","junio","julio","agosto","septiembre","octubre","noviembre","diciembre"],"wgMonthNamesShort":["","ene","feb","mar","abr","may","jun","jul","ago","sep","oct","nov","dic"],"wgRequestId":"Xd@hoQpAIEIAAKJtESEAAAAY","wgCSPNonce":!1,"wgCanonicalNamespace":"Anexo","wgCanonicalSpecialPageName":!1,"wgNamespaceNumber":104,"wgPageName":"Anexo:Municipios_de_la_Comunidad_de_Madrid","wgTitle":"Municipios de la Comunidad de Madrid","wgCurRevisionId":116373131,"wgRevisionId":116373131,"wgArticleId":22109,"wgIsArticle":!0,"wgIsRedirect":!1,"wgAction":"view","wgUserNa

In [12]:
lista_dataframes = pd.read_html(codigoHTML, header=0)

In [13]:
lista_dataframes

[                      Nombre Población(2017)  Superficie (km²)[1]​  Mapa  \
 0                 La Acebeda              66                  2206   NaN   
 1                    Ajalvir            4455                  1962   NaN   
 2          Alameda del Valle             199                  2501   NaN   
 3                   El Álamo            9149                  2225   NaN   
 4          Alcalá de Henares         194 310                  8772   NaN   
 5                 Alcobendas         114 864                  4498   NaN   
 6                   Alcorcón         168 141                  3373   NaN   
 7           Aldea del Fresno            2616                  5178   NaN   
 8                     Algete          20 419                  3788   NaN   
 9                  Alpedrete          14 240                  1264   NaN   
 10                    Ambite             677                  2600   NaN   
 11                  Anchuelo            1238                  2155   NaN   

In [14]:
len(lista_dataframes)

1

El ejemplo anterior, la lista devuelta contiene un único dataframe

In [15]:
lista_dataframes[0].head(7)

Unnamed: 0,Nombre,Población(2017),Superficie (km²)[1]​,Mapa,Escudo,Capitalidad[1]​,Altitud(msnm)[a]​[2]​
0,La Acebeda,66,2206,,,La Acebeda,1271
1,Ajalvir,4455,1962,,,Ajalvir,680
2,Alameda del Valle,199,2501,,,Alameda del Valle,1104
3,El Álamo,9149,2225,,,El Álamo,608
4,Alcalá de Henares,194 310,8772,,,Alcalá de Henares,587
5,Alcobendas,114 864,4498,,,Alcobendas,669
6,Alcorcón,168 141,3373,,,Alcorcón,711


## Tratamiento de datos en formato XML

### Lectura de documentos XML alojados localmente

In [16]:
from lxml import objectify

In [18]:
xml = objectify.parse("songs.xml")
root = xml.getroot()
root

OSError: Error reading file 'songs.xml': failed to load external entity "songs.xml"

In [None]:
root.cancion.titulo

In [None]:
# tag, text, attrib

### Peticiones de documentos XML

https://datos.madrid.es/egob/catalogo/300032-10037102-turismo-alojamientos.xml

In [19]:
import requests

In [20]:
html = "https://datos.madrid.es/egob/catalogo/300032-10037102-turismo-alojamientos.xml"
html

'https://datos.madrid.es/egob/catalogo/300032-10037102-turismo-alojamientos.xml'

In [21]:
response = requests.get(html)
response

<Response [200]>

In [22]:
data = response.text

In [23]:
data

'\x00\x00\x01\x00\x01\x00  \x00\x00\x01\x00\x18\x00¨\x0c\x00\x00\x16\x00\x00\x00(\x00\x00\x00 \x00\x00\x00@\x00\x00\x00\x01\x00\x18\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00קX$ש�Z�¡„�´��·\xa0�·\xa0�°—ת›{שxMקN\x17צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00ר_-�¸¢\u200fעמ������������������������\u200fטב�£†קN\x16צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00ת�m��ת������������������������������������\u200fלזרm?צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00שƒ\\������������\u200fףן\u200eֲׁ�¹£�«‘�®”�¾©\u200e�ֽ�תר���������\u200fפנר^+צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צG\r\u200fחא������\u200fסלת�hצE\nצ=\x00צ=\x00צ=\x00צ=\x00צ=\x00צ=\x00קO\x18�¨��\u200e\u200e

Para acceder al elemento raíz del documento se usa la función *objectify.fromstring*

In [25]:
root = objectify.fromstring(bytes(bytearray(data, encoding = 'utf-8')))
root

XMLSyntaxError: Document is empty, line 1, column 1 (<string>, line 1)

Si se quiere consultar el número de alojamientos que están registrados en el documento XML, se escribe lo siguiente:

In [26]:
alojamientos = root.getchildren()
print('Número de alojamientos: ', len(alojamientos))

NameError: name 'root' is not defined