# Tratamento de ficheros en formato HTML

Hoy en día existen muchos datos alojados en sitios web. En algunos casos, los datos se encuentran en ficheros (CSV o Excel) y pueden ser descargados libremente para su uso posterior. En otros casos, los datos están integrados en la propia página a través de su código HTML, por lo que resulta muy útil disponer de herramientas capaces de navegar por dicho código en busca de los datos que nos interesen. 

La librería Pandas proporciona herramientas eficientes para manejar documentos en formato HTML. El método `to_html` de la clase `DataFrame` permite transformar dataframes en tablas HTML de forma automática. La operación inversa también es posible; la función `pd.read_html` es  capaz de recorrer el código HTML de una página web en busca de los datos contenidos en tablas. 

## Leer datos de un documento HTML

La función `pd.read_html` de Pandas recorre un documento HTML en busca de elementos de tipo `<table>`.  El valor devuelto por `pd.read_html` es una lista de objetos de tipo `DataFrame`, uno por cada tabla encontrada en el documento. Como argumento de entrada, la función `pd.read_html` recibe un documento HTML alojado localmente o un objeto de tipo `str` que represente el contenido de un documento HTML. 

En el siguiente ejemplo, mostramos cómo extraer la información de la página web con URL "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid". Esta página muestra datos asociados a distintas localidades de la Comunidad de Madrid. Para poder acceder al código HTML de una página web es necesario realizar una petición usando el protocolo HTTP Request/Response.

In [1]:
import requests
import pandas as pd

url = "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid"
respuesta = requests.get(url)
if respuesta.status_code  == 200:
    print('La petición HTTP ha ido bien')    
else:
    print('Problemas con la petición...')

La petición HTTP ha ido bien


La librería [Requests](http://docs.python-requests.org/en/master/) permite realizar peticiones HTTP de forma muy sentilla. Para usarla es necesario importarla. La función `requests.get` abre una conexión con el servidor donde se encuentra la url y manda la petición. La respuesta del servidor se almacena en un objeto de la clase `Response`. El objeto devuelto almacena muchos datos relacionados con la petición HTTP (cabeceras, cookies, etc.). De momento nos interesa conocer si la petición ha tenido éxito (propiedad `status_code`) y el string que representa el documento HTML de la página (propiedad `text`). 

In [2]:
codigoHTML = respuesta.text
lista_dataframes = pd.read_html(codigoHTML, header=0)

La función  `pd.read_html` devuelve una lista de dataframes, en el caso de que la página asociada a la url contenga algún elemento de tipo `<table>`. En otro caso, la función no devuelve la lista vacía, sino que devuelve un error de ejecución.

In [3]:
len(lista_dataframes)

1

En nuestro ejemplo, la lista devuelta contiene un único dataframe:

In [4]:
lista_dataframes[0].head(7)

Unnamed: 0,Nombre,Población (2017),Superficie (km²)[1]​,Mapa,Escudo,Capitalidad[1]​,Altitud (msnm)[a]​[2]​
0,La Acebeda,66,2206,,,La Acebeda,1271
1,Ajalvir,4455,1962,,,Ajalvir,680
2,Alameda del Valle,199,2501,,,Alameda del Valle,1104
3,El Álamo,9149,2225,,,El Álamo,608
4,Alcalá de Henares,194 310,8772,,,Alcalá de Henares,587
5,Alcobendas,114 864,4498,,,Alcobendas,669
6,Alcorcón,168 141,3373,,,Alcorcón,711


Como se puede observar, la función `pd.read_html` ignora todos los elementos contenidos en el documento HTML que no tengan nada que ver con tablas HTML.

## Escritura de dataframes en código HTML

Una tabla HTML viene representada por una estructura jerárquica donde el elemento principal es el elemento `<table>`. Cada fila de la tabla se representa con un elemento de tipo `<tr>` y cada celda es un elemento de tipo `<th>` para las celdas de cabecera y `<td>` para el resto. El siguiente ejemplo muestra el código de una tabla HTML:

In [5]:
from IPython.display import HTML
s = """
<table>
    <tr>
      <th><strong>Ana</strong></th>
      <th><strong>Pablo</strong></th>
      <th><strong>Jaime</strong></th>
    </tr>
 
    <tr>
      <td>10</td>
      <td>20</td>
      <td>30</td>
    </tr>
 
    <tr>
      <td>40</td>
      <td>50</td>
      <td>60</td>
    </tr>
</table>"""
HTML(s)

Ana,Pablo,Jaime
10,20,30
40,50,60


El método `to_html` de la clase `DataFrame` es capaza de crear una tabla HTML a partir de los datos contenidos en el dataframe de forma automática.

In [6]:
dfcsv = pd.read_csv('datos/peliculas.csv', skiprows = [0, 1, 2, 3, 4 , 5, 6, 7, 8, 9])
dfcsv

Unnamed: 0,1992,The Crying Game,War
0,1995,Toy Story,Animation
1,1995,GoldenEye,Action
2,1995,Four Rooms,Thriller


In [7]:
print(dfcsv.to_html())

<table border="1" class="dataframe">
  <thead>
    <tr style="text-align: right;">
      <th></th>
      <th>1992</th>
      <th>The Crying Game</th>
      <th>War</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>1995</td>
      <td>Toy Story</td>
      <td>Animation</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1995</td>
      <td>GoldenEye</td>
      <td>Action</td>
    </tr>
    <tr>
      <th>2</th>
      <td>1995</td>
      <td>Four Rooms</td>
      <td>Thriller</td>
    </tr>
  </tbody>
</table>


Una vez generada la tabla HTML, podemos integrar el código en cualquier documento HTML para ser interpretado por un navegador.

## Referencias



* [Big Data. Análisis de datos con Python. Sarasa Cabezuelo, Antonio; García Ruiz, Yolanda Aditorial Garceta. ISBN: 978-84-1622-883-6](http://www.garceta.es/libro.php?ISBN=978-84-1622-883-6)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
* [librería request](http://docs.python-requests.org/en/master/)
* [`lxml`](http://lxml.de/)

------