# Web scraping

Cuando necesitamos extraer información publicada en internet, lo ideal es consultar una API, porque:

* Las respuestas contienen información estructurada
* En general, el propio servicio nos da documentación sobre cómo hacer peticiones y qué tipo de información podemos solicitar

Pero muchas veces nos encontramos con información en páginas web (en formato [HTML](https://es.wikipedia.org/wiki/HTML)) que nos gustaría obtener, pero sin API disponible.

Estas páginas `HTML` tienen cierta estructura, aunque con ciertos contras:

* Es más compleja, puede tener muchos niveles de anidamiento
* Es inestable. Están diseñadas para que se vean bien desde el explorador, no para guardar una estructura de consulta. De un día para otro, puede verse alterada por la incorporación de nuevos elementos visuales u otros motivos.
* Puede ser modificada por código cliente (javascript) en diferentes momentos: al cargar la página, al interaccionar con algún elemento, ...

### Ejercicio

Desde tu explorador, consulta el código fuente de una página de tu interés. Por ejemplo, para hacerlo en chrome:

* Accede a la página, p.e. [esta](https://es.wikipedia.org/wiki/HTML).
* Haz click derecho y pulsa `View page source`. Otra opción es pulsar `Inspect`, que además abrirá las herramientas de desarrollador de Chrome, muy útiles para navegar por la estructura de la página.

## Scraping de elementos html

La librería que vamos a utilizar es [Beautiful Soup](https://pypi.org/project/beautifulsoup4/). Nos permite buscar elementos y navegar por la estructura del html fácilmente.

Vemos dos ejemplos, uno sobre milanuncios y otro sobre spotahome, por si nos _banean_.

### milanuncios

Imaginemos que queremos comparar precios de un determinado modelo de motocicleta de segunda mano. P.e. con [esta búsqueda](https://www.milanuncios.com/motos-de-carretera/duke-390.htm) en milanuncios.

La mayor parte de las webs con contenido interesante (que hacen negocio gracias a su contenido) intentan protegerlas para evitar que les hagan scraping. Hay varias formas de simular que nuestro script es humano en lugar de un bot, algunas más básicas y otras más complejas. Por ahora, vamos a sobrescribir nuestro _user agent_. Es una cabecera que va en las peticiones diciendo quiénes somos (p.e. qué tipo de explorador usamos). Por defecto, la librería `requests` que vamos a usar, avisa que somos un bot. Vamos a sobrescribir esta cabecera para _disimular_ un poco. Podemos copiar uno popular de (aquí)[https://developers.whatismybrowser.com/useragents/explore/software_type_specific/web-browser/].

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

Ahora, nos descargamos el html con `requests`.

In [None]:
page = requests.get('https://www.milanuncios.com/motos-de-carretera/duke-390.htm', headers=headers)
page

Podemos ver el contenido examinando la propiedad `content`.

In [None]:
page.content

Este contenido es solo texto, no tiene estructura. Aún no podemos hacer búsquedas ni navegar por él.

Para hacerlo, creamos una instancia de `Beautiful Soup` y lo parseamos

In [None]:
soup = BeautifulSoup(page.content, 'html.parser')

In [None]:
tags = soup('div')
tags[1]

#### SOS: ¡me han baneado!

Si estamos haciendo esto en clase, es muy probable que a la mayoría, nos detecten como bots y nos baneen. Esto pasa porque somos 30 o 40 personas, haciendo la misma petición desde la misma IP y con el mismo user agent.

Puedes usar el html offline que hay en `dat` para seguir con el ejercicio. Descomenta el siguiente código y sigue adelante

In [None]:
# Descomenta esto si te han baneado
# with open('dat/milanuncios.html') as f:
#     soup = BeautifulSoup(f, 'html.parser')

Sobre esto, podemos hacer búsquedas con `find` y `find_all` (o `select_one` y `select` si prefieres utilizar [selectores css](https://en.wikipedia.org/wiki/Cascading_Style_Sheets#Selector)). Sobre nuestro ejemplo, vamos a buscar todos los precios. Examinando el código fuente, vemos que son etiquetas `div` con clase `aditem-price`.

In [None]:
div_precios = soup.find_all('div', class_='aditem-price')
div_precios

`find_all` devuelve una lista de elementos. Sobre ellos, podemos hacer:

`children` para sacar el listado de todos los hijos.

In [None]:
list(div_precios[0].children)

`get_text()` para sacar el texto de todos los hijos

In [None]:
div_precios[0].get_text()

Por tanto, para sacar el listado de todos los precios podemos hacer:

In [None]:
[list(div_precio.children)[0] for div_precio in div_precios]

Tienes más funciones útiles con pequeños ejemplos [aquí](http://akul.me/blog/2016/beautifulsoup-cheatsheet/)

### Ejercicio

Crea un dataframe de pandas en el que cada fila sea un anuncio y tenga como columnas información que consideres relevante: precio, kilómetros, año, cilindrada, texto del anuncio, ...

In [None]:
import pandas as pd

page = requests.get('https://www.milanuncios.com/motos-de-carretera/duke-390.htm', headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')

columns = ['producto','tipo_anuncio','precio','texto','cc','ano','kms']

df = pd.DataFrame(columns=columns)

for link in soup.find_all('div', class_='aditem ParticularCardTestABClass'):
    producto = link.find('a', class_='aditem-detail-title').get_text()
    tipo_anuncio = link.find('div', class_='x3').get_text()
    if link.find('div', class_='aditem-price') is None:
        precio = 0
    else:
        precio = link.find('div', class_='aditem-price').get_text().replace('€','')
    texto = link.find('div', class_='tx').get_text()
    if link.find('div', class_='cc tag-mobile') is None:
        cc = 0
    else:
        cc = link.find('div', class_='cc tag-mobile').get_text().replace('cc','')
    if link.find('div', class_='ano tag-mobile') is None:
        ano = 0
    else:
        ano = link.find('div', class_='ano tag-mobile').get_text().replace('año','') #¿Alguna solución mejor que un if para esto?
    if link.find('div', class_='kms tag-mobile') is None:
        kms = 0
    else:
        kms = link.find('div', class_='kms tag-mobile').get_text().replace('kms','')

    nueva_fila = {'producto':producto,'tipo_anuncio':tipo_anuncio,'precio':precio,'texto':texto,'cc':cc,'ano':ano,'kms':kms}
    df = df.append(nueva_fila, ignore_index=True)
    
df

### Ejercicio

Modifica el código anterior para que, además de bajarse la página actual, navegue por el resto de páginas e incorpore también esos anuncios a tu dataframe.

In [None]:
page = requests.get('https://www.milanuncios.com/motos-de-carretera/duke-390.htm', headers=headers)
soup = BeautifulSoup(page.content, 'html.parser')

columns = ['producto','tipo_anuncio','precio','texto','cc','ano','kms']
df = pd.DataFrame(columns=columns)
nueva_pag = 1
while len(soup.find_all('div', class_='aditem ParticularCardTestABClass')) > 0:
    for link in soup.find_all('div', class_='aditem ParticularCardTestABClass'):
        producto = link.find('a', class_='aditem-detail-title').get_text()
        tipo_anuncio = link.find('div', class_='x3').get_text()
        if link.find('div', class_='aditem-price') is None:
            precio = 0
        else:
            precio = link.find('div', class_='aditem-price').get_text().replace('€','')
        texto = link.find('div', class_='tx').get_text()
        if link.find('div', class_='cc tag-mobile') is None:
            cc = 0
        else:
            cc = link.find('div', class_='cc tag-mobile').get_text().replace('cc','')
        if link.find('div', class_='ano tag-mobile') is None:
            ano = 0
        else:
            ano = link.find('div', class_='ano tag-mobile').get_text().replace('año','') #¿Alguna solución mejor que un if para esto?
        if link.find('div', class_='kms tag-mobile') is None:
            kms = 0
        else:
            kms = link.find('div', class_='kms tag-mobile').get_text().replace('kms','')

        nueva_fila = {'producto':producto,'tipo_anuncio':tipo_anuncio,'precio':precio,'texto':texto,'cc':cc,'ano':ano,'kms':kms}
        df = df.append(nueva_fila, ignore_index=True)

    nueva_pag += 1
    page = requests.get('https://www.milanuncios.com/motos-de-carretera/duke-390.htm?pagina='+str(nueva_pag), headers=headers)
    soup = BeautifulSoup(page.content, 'html.parser')

df

## Scraping de tablas

A menudo, la información que nos interesa descargar está en tablas y nuestro objetivo es importarlas en tablas de Pandas. Esta conversión suele exigir la manipulación del texto, números y fechas contenidas en la tabla original, lo que nos obligará a repasar cómo realizar esas operaciones y aplicarlas a filas y columnas de las tablas.

La estructura que suelen tener la tablas en `html` es:

```
<table>
    <thead>
        <tr>
            <th>Columna A</th>
            <th>Columna B</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>A1</td>
            <td>B1</td>
        </tr>
        <tr>
            <td>A2</td>
            <td>B2</td>
        </tr>
    </tbody>
</table>   
```

Necesitaremos los siguientes módulos además de `requests` y `BeautifulSoup` importados anteriormente:

In [None]:
import pandas as pd
import re

Primero, hacemos una petición para descargar la página de interés (que contiene las cotizaciones de las acciones del IBEX 35 en tiempo _casi_ real).

In [None]:
base_url = "https://www.eleconomista.es/indice/IBEX-35"
res = requests.get(base_url)
contenido = res.content

La siguiente línea procesa el HTML de la página que hemos descargado:

In [None]:
soup = BeautifulSoup(contenido, "html.parser")

Una vez procesado el HTML, es posible buscar elementos dentro de él. En particular, podemos buscar los elementos de tipo `table`, es decir, tablas.

In [None]:
tablas = soup.find_all('table')

El objeto `tablas` contiene todas las tablas presentes en la página. Hay que tener cuidado con dichas tablas porque muchas páginas utilizan elementos de tipo `table` para estructurar el contenido. Por eso, en algunas páginas, aunque parezca haber una única tabla, puede haber otras con una información no interesante que toca descartar.

In [None]:
len(tablas)

Podemos extraer las filas de todas estas tablas

In [None]:
lineas = [x for tabla in tablas for x in tabla.find_all('tr')]

para luego extraer los contenidos de cada fila individualmente haciendo

In [None]:
datos = [[x.text for x  in linea.find_all('td')] for linea in lineas]

Podemos inspeccionar parte del objeto resultante:

In [None]:
datos[0:3]

Vemos que hay filas que contienen la información de interés junto con otras que contienen cabeceras y otra información irrelevante. En general, la situación puede ser más complicada y se hace necesario estudiar el objeto `tablas` para seleccionar la de interés.

En nuestro caso, podemos filtrar las líneas menos relevantes así:

In [None]:
datos = [x for x in datos if len(x) > 0]

Finalmente, podemos crear una tabla de Pandas:

In [None]:
datos = pd.DataFrame(datos)
datos

#### Ejercicio

Usa los elementos `th` de la primera fila de las tablas para extraer nombres para las columnas de la tabla. 

In [None]:
cabecera = [[x.text for x  in linea.find_all('th')] for linea in lineas]
cabecera = [x for x in cabecera if len(x) > 0]
cabecera = cabecera[0]
cabecera

#### Ejercicio

Elimina las columnas irrelevantes y cambia los nombres de las columnas por otros breves y sin caracteres extraños o que dificulten el posproceso.

In [None]:
cabecera = [[x.text for x  in linea.find_all('th')] for linea in lineas]
cabecera = [x for x in cabecera if len(x) > 0]
cabecera = cabecera[0]
cabecera.pop(2) #Elimino la columna que tiene el nombre en blanco

cabecera = [re.sub('[()/. ]','',x) for x in cabecera]
cabecera = [re.sub('ó','o',x) for x in cabecera]
cabecera = [re.sub('%','pct',x) for x in cabecera]
cabecera = [re.sub('€','Euros',x) for x in cabecera]
cabecera[8] = 'Fecha'

datos = datos.drop([2], axis = 1) #Elimino una columna en blanco

datos.columns = cabecera

datos

#### Ejercicio

Cambia el formato de las columnas adecuadamente: convierte a numéricas, etc., las columnas que lo requieran.

In [None]:
datos['VolumenEuros'] = datos['VolumenEuros'].replace(regex=r'\.',value='')

datos = datos.replace(regex=r'%',value='')
datos = datos.replace(regex=r',',value='.')
datos[['Precio','Varpct','VarEuros','VolumenEuros','Capitalizacion1','PER','RentDiv']] = datos[['Precio','Varpct','VarEuros','VolumenEuros','Capitalizacion1','PER','RentDiv']].astype(float)

datos['Fecha'] = datos['Fecha'] + '/2020'

datos['Fecha'] = pd.to_datetime(datos['Fecha'], format='%d/%m/%Y')

datos.dtypes

## Riesgos del scraping

El scraping es una técnica potente pero tiene varios contras:

* Implica mayor tiempo de desarrollo y mayor esfuerzo en la limpieza de datos (en comparación con otras fuentes como APIs, BDs, ...)
* Si hay que scrapear gran cantidad de páginas, es lento
* Los servidores objetivo de nuestro scraping pueden tener técnicas para evitarlo. Por ejemplo, bloquear la IP temporalmente o introducir delays en las respuestas si hacemos muchas peticiones en poco tiempo. Esto pasa especialmente en las grandes webs recelosas de sus datos (p.e. linkedin, amazon, ...).
* El código de scraping escrito hoy puede no funcionar mañana, si la web destino cambia nombres, etiquetas o estructura. Si se sube a producción para lanzarlo periódicamente, hay que ser conscientes de que en algún momento fallará, y establecer mecanismos de alerta

## Javascript

Es posible que te encuentres con algún caso en el que no puedas descargar tal cual el html y parsearlo, principalmente por dos motivos:

* La estructura de la página se genera parcial o totalmente en cliente
* Debemos interactuar con algún elemento para mostrar la información que queremos (p.e. completar un campo de búsuqeda, hacer click en algún botón, ...)

En estos casos, hay que ejecutar en un navegador local el código javascript de la página destino. Para esta tarea, puedes utilizar [Selenium]().

[Aquí](https://medium.freecodecamp.org/better-web-scraping-in-python-with-selenium-beautiful-soup-and-pandas-d6390592e251) un post con un ejemplo de uso.