# Web scraping con Python

El Web Scraping (o Scraping) son un conjunto de técnicas que se utilizan para obtener de forma automática el contenido que hay en páginas web a través de su código HTML.

## Búsqueda de tablas

Pandas recorre un documento HTML en busca de elementos de tipo `<table>`. 

En el siguiente ejemplo, mostramos cómo extraer la información de la página web con URL "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid". Esta página muestra datos asociados a distintas localidades de la Comunidad de Madrid. Para poder acceder al código HTML de una página web es necesario realizar una petición usando el protocolo HTTP Request/Response.


In [1]:
import requests
import pandas as pd

url = "https://es.wikipedia.org/wiki/Anexo:Municipios_de_la_Comunidad_de_Madrid"
respuesta = requests.get(url)


Si la petición ha ido bien, podemos acceder al código HTML que contiene (puede no contener) tablas para importar.

In [2]:
codigoHTML = respuesta.text
lista_dataframes = pd.read_html(codigoHTML, header=0)

In [3]:
len(lista_dataframes)

1

In [4]:
lista_dataframes[0].head()

Unnamed: 0,Nombre,Población (2016),Superficie (km²)[1],Mapa,Escudo,Capitalidad[1],Altitud (msnm)[a] [2]
0,La Acebeda,66,2206,,,La Acebeda,1271
1,Ajalvir,4440,1962,,,Ajalvir,680
2,Alameda del Valle,208,2501,,,Alameda del Valle,1104
3,El Álamo,9017,2225,,,El Álamo,608
4,Alcalá de Henares,195 907,8772,,,Alcalá de Henares,587


Como se puede observar, la función `pd.read_html` ignora todos los elementos contenidos en el documento HTML que no tengan nada que ver con tablas HTML.

## Otro tipo de búsquedas

Si los datos que buscamos no están en una tabla HTML, podemos usar alguna de las librerías de Python que permiten parsear el texto HTML de forma cómoda.

* BeautifullSoup 
* Scrapy
* Selenium

__BeautifulSoup__ nos aporta los métodos necesarios para obtener el contenido que hay entre las etiquetas HTML.

In [5]:
from bs4 import BeautifulSoup
import requests

url = 'http://busqueda.libros.fnac.es/n710/Libros-mas-vendidos'
codigoHTML = requests.get(url).text

# Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
soup = BeautifulSoup(codigoHTML, 'html.parser')

In [6]:
# recuperamos la información de los títulos
titulos = [e.attrs['alt'] for e in soup.find_all('img',{'class':'Article-itemVisual--type-0' })]

In [7]:
titulos[:4]

['Patria',
 'Norman y Mix',
 'Más allá del invierno',
 'Dragon Ball Serie roja nº 215/216']

In [11]:
# recuperamos la información de las imágenes
imagenes = [e.attrs['data-lazyimage'] for e in soup.find_all('img',{'class':'Article-itemVisual--type-0' })]

In [9]:
imagenes[:4]

['http://static.fnac-static.com/multimedia/Images/ES/NR/4f/60/13/1269839/1535-1.jpg',
 'http://static.fnac-static.com/multimedia/Images/ES/NR/9d/9a/14/1350301/1539-1.jpg',
 'http://static.fnac-static.com/multimedia/Images/ES/NR/17/8a/14/1346071/1539-1.jpg',
 'http://static.fnac-static.com/multimedia/Images/ES/NR/bb/c5/14/1361339/1539-1.jpg']

In [10]:
tabla = pd.DataFrame(list(zip(titulos,imagenes)),columns = ['Título', 'imagenes'])
tabla.head()

Unnamed: 0,Título,imagenes
0,Patria,http://static.fnac-static.com/multimedia/Image...
1,Norman y Mix,http://static.fnac-static.com/multimedia/Image...
2,Más allá del invierno,http://static.fnac-static.com/multimedia/Image...
3,Dragon Ball Serie roja nº 215/216,http://static.fnac-static.com/multimedia/Image...
4,Escrito en el agua,http://static.fnac-static.com/multimedia/Image...


-------------