# Web scraping

A la hora de recoger información de terceros, lo ideal es consultar una API, porque:

* Las respuestas contienen información estructurada
* En general, el propio servicio nos facilitará documentación sobre la estrucutra del API, (endpoints), cómo realizar peticiones y qué tipo de información podemos solicitar.

Sin embargo, muchas veces encontramos información en páginas web (en formato [HTML](https://es.wikipedia.org/wiki/HTML)) que nos gustaría obtener, pero sin un API disponible.

Estas páginas `HTML` tienen cierta estructura, aunque con ciertos contras:

* Es más compleja, puede tener muchos niveles de anidamiento
* Es inestable. Están diseñadas para que se vean bien desde el explorador, no para guardar una estructura de consulta. Puede verse alterada por la incorporación de nuevos elementos visuales u otros motivos.
* Puede ser modificada por código cliente (javascript) en diferentes momentos: al cargar la página, al interaccionar con algún elemento, ...
* Cada día son más las webs protegidas contra la extracción de datos.

### Ejercicio

Desde tu explorador, consulta el código fuente de una página de tu interés. Por ejemplo, para hacerlo en chrome:

* Accede a la página, p.e. [esta](https://es.wikipedia.org/wiki/HTML).
* Haz click derecho y pulsa `View page source`. Otra opción es pulsar `Inspect`, que además abrirá las herramientas de desarrollador de Chrome, muy útiles para navegar por la estructura de la página.

## Scraping de elementos html

La librería que vamos a utilizar es [Beautiful Soup](https://pypi.org/project/beautifulsoup4/). Nos permite buscar elementos y navegar por la estructura del html fácilmente.

Vemos dos ejemplos, uno sobre milanuncios y otro sobre spotahome, por si nos _banean_.

### milanuncios

Imaginemos que queremos comparar precios de un determinado modelo de motocicleta de segunda mano. P.e. con [esta búsqueda](https://www.milanuncios.com/motos-de-carretera/duke-390.htm) en milanuncios.

La mayor parte de las webs con contenido interesante (que hacen negocio gracias a su contenido) intentan protegerlas para evitar que les hagan scraping. Hay varias formas de simular que nuestro script es humano en lugar de un bot, algunas más básicas y otras más complejas. Por ahora, vamos a sobrescribir nuestro _user agent_. Es una cabecera que va en las peticiones diciendo quiénes somos (p.e. qué tipo de explorador usamos). Por defecto, la librería `requests` que vamos a usar, avisa que somos un bot. Vamos a sobrescribir esta cabecera para _disimular_ un poco. Podemos copiar uno popular de (aquí)[https://developers.whatismybrowser.com/useragents/explore/software_type_specific/web-browser/].

In [1]:
import requests
from bs4 import BeautifulSoup

In [2]:
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}

Ahora, nos descargamos el html con `requests`.

In [3]:
page = requests.get('https://www.milanuncios.com/motos-de-carretera/duke-390.htm', headers=headers)
page

<Response [200]>

Podemos ver el contenido examinando la propiedad `content`.

In [None]:
page.content

b'<!DOCTYPE html>\n<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="es" lang="es">\n<head><title>MIL ANUNCIOS.COM - Duke 390. Motos de carretera de ocasion duke 390: Aprilia, BMW, Gagiva, Dervi, Honda, Yamaha, Kawasaki, Suzuki.</title>\n<meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">\n    <meta name="robots" content="noarchive">\n        <meta name="description" content="Compra venta de motos de carretera de ocasi\xf3n duke 390. Todas las marcas: Aprilia, BMW, Cagiva, Derbi, Honda, Yamaha, Kawasaki, Suzuki">\n<link rel="shortcut icon" href="https://static.milanuncios.com/202011261336-master/favicon.ico">    <link rel="stylesheet" type="text/css" href="https://static.milanuncios.com/202011261336-master/css/estilos.css">\n    <link rel="canonical" href="https://www.milanuncios.com/motos-de-carretera/duke-390.htm" />\n<script src="//c.dcdn.es/borostcf/plugins/BorosTcfAdevintaPlugin.pro.js"></script>\n<script type="text/javascript"><!--\nfunction prebu(c){retur

Este contenido es solo texto, no tiene estructura. Aún no podemos hacer búsquedas ni navegar por él.
 
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Para hacerlo, creamos una instancia de `Beautiful Soup` y lo parseamos

In [4]:
soup = BeautifulSoup(page.content, 'html.parser')
print(soup)

<!DOCTYPE html>

<html lang="es" xml:lang="es" xmlns="http://www.w3.org/1999/xhtml">
<head><title>MIL ANUNCIOS.COM - Duke 390. Motos de carretera de ocasion duke 390: Aprilia, BMW, Gagiva, Dervi, Honda, Yamaha, Kawasaki, Suzuki.</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="noarchive" name="robots"/>
<meta content="Compra venta de motos de carretera de ocasión duke 390. Todas las marcas: Aprilia, BMW, Cagiva, Derbi, Honda, Yamaha, Kawasaki, Suzuki" name="description"/>
<link href="https://static.milanuncios.com/202012021220-master/favicon.ico" rel="shortcut icon"/> <link href="https://static.milanuncios.com/202012021220-master/css/estilos.css" rel="stylesheet" type="text/css"/>
<link href="https://www.milanuncios.com/motos-de-carretera/duke-390.htm" rel="canonical">
<script src="//c.dcdn.es/borostcf/plugins/BorosTcfAdevintaPlugin.pro.js"></script>
<script type="text/javascript"><!--
function prebu(c){return c;}
var esmipri=true;
var esmipri

### Extracción de los diferentes de componentes del fichero HTML. Navigando por la estructura de datos

In [5]:
soup.title

<title>MIL ANUNCIOS.COM - Duke 390. Motos de carretera de ocasion duke 390: Aprilia, BMW, Gagiva, Dervi, Honda, Yamaha, Kawasaki, Suzuki.</title>

In [6]:
soup.title.name

'title'

### EJERCICIO.
Consulta la documentación de `Beautiful Soup` y busca como extraer la cadena de texto que aparece contenido en la etiqueta HTML `Title`

In [None]:
# Respuesta
soup.title.string

'MIL ANUNCIOS.COM - Duke 390. Motos de carretera de ocasion duke 390: Aprilia, BMW, Gagiva, Dervi, Honda, Yamaha, Kawasaki, Suzuki.'

In [None]:
soup.a
#a son enlaces o referencias en html

<a href="/" title="segunda mano">
<div></div>
</a>

### EJERCICIO.
Consultando la documentación de `Beautiful Soup`, encuentra la forma de visualizar todas las etiquetas de referencias (enlaces "a") que aparecen en el HTML de la página descargada.

In [99]:
# Respuesta
soup.find_all('a')

[<a class="nav-link p-0" href="//www.eleconomista.es/">el<span class="economista">Eco</span>nomista.es</a>,
 <a class="nav-link p-0" href="//ecoteuve.eleconomista.es/" itemprop="url">Eco<span class="ecotv">teuve</span></a>,
 <a class="nav-link p-0" href="//informalia.eleconomista.es" itemprop="url"><span class="informalia">Informalia</span></a>,
 <a class="nav-link p-0" href="//www.eleconomista.es/saludable/" itemprop="url"><span class="saludable">Saludable</span></a>,
 <a class="nav-link p-0" href="//www.eleconomista.es/pymes/" itemprop="url"><span class="status">Pymes</span></a>,
 <a class="nav-link p-0" href="//www.eleconomista.es/ecomotor" itemprop="url">Eco<span class="ecomotor">motor</span></a>,
 <a class="nav-link p-0" href="//www.eleconomista.es/ecoley/" itemprop="url">Eco<span class="ecoley">ley</span></a>,
 <a class="nav-link p-0" href="//www.eleconomista.es/ecotrader" itemprop="url">Eco<span class="ecoley">trader</span></a>,
 <a class="nav-link p-0" href="//www.economiahoy.m

### Ejercicio evaluación (PARA REALIZAR EN CASA)
Extrae todas las cadenas que comienzan con `'https://`. Tienes que extraer desde `'https://` hasta el final. Ej.: 'https://img.milanuncios.com/fg/3749/86/374986816_1.jpg?VersionId=eUgig6FRM4L8.a8VbwgAsPfHUxDoCudE'

In [102]:
for link in soup.find_all('a'):
    print("https:",link.get('href'))

https: //www.eleconomista.es/
https: //ecoteuve.eleconomista.es/
https: //informalia.eleconomista.es
https: //www.eleconomista.es/saludable/
https: //www.eleconomista.es/pymes/
https: //www.eleconomista.es/ecomotor
https: //www.eleconomista.es/ecoley/
https: //www.eleconomista.es/ecotrader
https: //www.economiahoy.mx
https: //www.eleconomistaamerica.com
https: /
https: #MercadosyCotizaciones
https: /mercados-cotizaciones/
https: /mercados-cotizaciones/renta-fija/
https: /mercados-cotizaciones/divisas/
https: /mercados-cotizaciones/divisas/
https: /mercados-cotizaciones/materias-primas/
https: /carteras/
https: /fondos/buscador_fondos_avanzado.php
https: #
https: /indice/IBEX-35/
https: /mercados/mercado-continuo/
https: /indices-mundiales/
https: //www.eleconomistaamerica.com/indices-latinoamericanos/
https: /stoxx/
https: #
https: /fondos/
https: /afondo/
https: /fondos/buscador-avanzado/
https: /tressis-cartera-eco30/
https: #Empresas
https: /empresas-finanzas/
https: /empresas-finan

### Ejercicio
Busca las etiquetas `text/css` del fichero.

In [10]:
# Respuesta
soup.find(type = "text/css")

<link href="https://static.milanuncios.com/202012021220-master/css/estilos.css" rel="stylesheet" type="text/css"/>

In [11]:
# Refinando la búsqueda para encontrar los precios que es lo que buscamos
soup.find_all(class_='aditem-price')

[<div class="aditem-price">3.850<sup>€</sup></div>,
 <div class="aditem-price">3.900<sup>€</sup></div>,
 <div class="aditem-price">4.099<sup>€</sup></div>,
 <div class="aditem-price">3.800<sup>€</sup></div>,
 <div class="aditem-price">4.500<sup>€</sup></div>,
 <div class="aditem-price">3.600<sup>€</sup></div>,
 <div class="aditem-price">1.000<sup>€</sup></div>,
 <div class="aditem-price">4.200<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">4.799<sup>€</sup></div>,
 <div class="aditem-price">3.650<sup>€</sup></div>,
 <div class="aditem-price">3.900<sup>€</sup></div>,
 <div class="aditem-price">4.900<sup>€</sup></div>,
 <div class="aditem-price">2.000<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">4.000<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class=

Sobre esto, podemos hacer búsquedas con `find` y `find_all` (o `select_one` y `select` si prefieres utilizar [selectores css](https://en.wikipedia.org/wiki/Cascading_Style_Sheets#Selector)). Sobre nuestro ejemplo, vamos a buscar todos los precios. Examinando el código fuente, vemos que son etiquetas `div` con clase `aditem-price`.

Vemos que los precios se ordanizan en etiquetas `<div>` y `class="aditem-price"`, tal que `<div class="aditem-price">4.500<sup>&euro`

In [22]:
div_precios = soup.find_all('div', class_='aditem-price')
div_precios
#estan los datos dentro de un array[]

[<div class="aditem-price">3.850<sup>€</sup></div>,
 <div class="aditem-price">3.900<sup>€</sup></div>,
 <div class="aditem-price">4.099<sup>€</sup></div>,
 <div class="aditem-price">3.800<sup>€</sup></div>,
 <div class="aditem-price">4.500<sup>€</sup></div>,
 <div class="aditem-price">3.600<sup>€</sup></div>,
 <div class="aditem-price">1.000<sup>€</sup></div>,
 <div class="aditem-price">4.200<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">4.799<sup>€</sup></div>,
 <div class="aditem-price">3.650<sup>€</sup></div>,
 <div class="aditem-price">3.900<sup>€</sup></div>,
 <div class="aditem-price">4.900<sup>€</sup></div>,
 <div class="aditem-price">2.000<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class="aditem-price">4.000<sup>€</sup></div>,
 <div class="aditem-price">3.500<sup>€</sup></div>,
 <div class=

`find_all` devuelve una lista de elementos. Sobre ellos, podemos hacer:

`children` para sacar el listado de todos los hijos.

In [24]:
list(div_precios[0].children)
#devuelve los datos de la posicion 0 en este caso 
#Children interpreta por nosotros los comandos htlm, elimina los div... para presentarnos la info desglosada

['3.850', <sup>€</sup>]

`get_text()` para sacar el texto de todos los hijos

In [26]:
div_precios[0].get_text()
#get.text elimina todos los comandos y SOLO me da el texto, lo que esta fuera de <>

'3.850€'

Por tanto, para sacar el listado de todos los precios podemos ejecutar la siguiente instrucción:

In [27]:
[list(div_precio.children)[0] for div_precio in div_precios]
#bucle for (mas complicado)

['3.850',
 '3.900',
 '4.099',
 '3.800',
 '4.500',
 '3.600',
 '1.000',
 '4.200',
 '3.500',
 '4.799',
 '3.650',
 '3.900',
 '4.900',
 '2.000',
 '3.500',
 '3.500',
 '3.500',
 '4.000',
 '3.500',
 '2.900',
 '4.600',
 '3.000',
 '3.800',
 '3.400',
 '2.850',
 '3.600',
 '3.500',
 '3.000',
 '3.600',
 '3.400']

Tienes más funciones útiles con pequeños ejemplos [aquí](http://akul.me/blog/2016/beautifulsoup-cheatsheet/)

### Ejercicio evaluación (PARA CASA)

Crea un dataframe de pandas en el que cada fila sea un anuncio y tenga como columnas información relevante: precio, kilómetros, año, cilindrada, texto del anuncio, ...

In [103]:
import pandas as pd

In [104]:
page.headers

{'Content-Type': 'text/html; charset=ISO-8859-1', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Wed, 02 Dec 2020 16:17:33 GMT', 'Server': 'nginx', 'Vary': 'Accept-Encoding', 'Set-Cookie': 'PHPSESSID=3fa82c406c3d6b6a8b0a7d69478bf700; path=/; HttpOnly, pv=1; path=/; domain=.milanuncios.com', 'Expires': 'Thu, 01 Jan 1970 00:00:01 GMT', 'Cache-Control': 'no-cache', 'Pragma': 'no-cache', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Methods': 'GET, POST, OPTIONS', 'Access-Control-Allow-Headers': 'DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,mav', 'Content-Encoding': 'gzip', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 8747333bac66b8350649da1b14bbb5e5.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'MAD50-C1', 'X-Amz-Cf-Id': 'saWgiFAAjXjLznrAisVEukOzUktXMdHRn8z-Np07KNntAxA_2wg7Ag=='}

In [107]:
respuesta = {'Content-Type': 'text/html; charset=ISO-8859-1', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Wed, 02 Dec 2020 16:17:33 GMT', 'Server': 'nginx', 'Vary': 'Accept-Encoding', 'Set-Cookie': 'PHPSESSID=3fa82c406c3d6b6a8b0a7d69478bf700; path=/; HttpOnly, pv=1; path=/; domain=.milanuncios.com', 'Expires': 'Thu, 01 Jan 1970 00:00:01 GMT', 'Cache-Control': 'no-cache', 'Pragma': 'no-cache', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Methods': 'GET, POST, OPTIONS', 'Access-Control-Allow-Headers': 'DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,mav', 'Content-Encoding': 'gzip', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 8747333bac66b8350649da1b14bbb5e5.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'MAD50-C1', 'X-Amz-Cf-Id': 'saWgiFAAjXjLznrAisVEukOzUktXMdHRn8z-Np07KNntAxA_2wg7Ag=='}

In [128]:
urll = 'https://www.milanuncios.com/motos-de-carretera/duke-390.htm'

In [129]:
dataa = requests.get(urll).text

In [131]:
soupp = BeautifulSoup(dataa, 'html.parser')
soupp

<!DOCTYPE html>

<html lang="es" xml:lang="es" xmlns="http://www.w3.org/1999/xhtml">
<head><title>MIL ANUNCIOS.COM - Duke 390. Motos de carretera de ocasion duke 390: Aprilia, BMW, Gagiva, Dervi, Honda, Yamaha, Kawasaki, Suzuki.</title>
<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
<meta content="noarchive" name="robots"/>
<meta content="Compra venta de motos de carretera de ocasión duke 390. Todas las marcas: Aprilia, BMW, Cagiva, Derbi, Honda, Yamaha, Kawasaki, Suzuki" name="description"/>
<link href="https://static.milanuncios.com/202012031335-master/favicon.ico" rel="shortcut icon"/> <link href="https://static.milanuncios.com/202012031335-master/css/estilos.css" rel="stylesheet" type="text/css"/>
<link href="https://www.milanuncios.com/motos-de-carretera/duke-390.htm" rel="canonical">
<script src="//c.dcdn.es/borostcf/plugins/BorosTcfAdevintaPlugin.pro.js"></script>
<script defer="" src="//c.dcdn.es/openads/milanuncios/MilanunciosOpenAdsClient.pro.js"></scrip

In [139]:
table = soupp.find_all('div')[0]
table

<div id="htmlContainer">
<script>
    (function(){
        var test = document.createElement('div');
        test.innerHTML = '&nbsp;';
        test.className = 'adsbox';
        document.body.appendChild(test);
        window.setTimeout(function() {
            if (test.offsetHeight === 0) {
                document.body.className = 'normal busquedas pub adbmsg';
            }
            if(typeof test.remove == 'function'){
                //If support  is found 
                test.remove()
            }
            else{
                //If not
               test.outerHTML = '';
            }            
        }, 100);
    })();
    </script>
<div class="contenido ad-Middle ad-Middle-space">
<div class="oas_Top1_wrapper">
<div id="oas_Top1" style="min-height:90px; text-align: center; overflow: hidden"></div>
</div>
<div class="ad-Middle-item" id="oas_Middle1_wrapper" style="position: absolute; left: 980px; top: 0">
<div id="oas_Middle1" style=""></div>
</div>
<div class="ad-M

In [135]:
len(table)

3

In [109]:
respuesta = {'Content-Type': 'text/html; charset=ISO-8859-1', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Date': 'Wed, 02 Dec 2020 16:17:33 GMT', 'Server': 'nginx', 'Vary': 'Accept-Encoding', 'Set-Cookie': 'PHPSESSID=3fa82c406c3d6b6a8b0a7d69478bf700; path=/; HttpOnly, pv=1; path=/; domain=.milanuncios.com', 'Expires': 'Thu, 01 Jan 1970 00:00:01 GMT', 'Cache-Control': 'no-cache', 'Pragma': 'no-cache', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true', 'Access-Control-Allow-Methods': 'GET, POST, OPTIONS', 'Access-Control-Allow-Headers': 'DNT,X-CustomHeader,Keep-Alive,User-Agent,X-Requested-With,If-Modified-Since,Cache-Control,Content-Type,mav', 'Content-Encoding': 'gzip', 'X-Cache': 'Miss from cloudfront', 'Via': '1.1 8747333bac66b8350649da1b14bbb5e5.cloudfront.net (CloudFront)', 'X-Amz-Cf-Pop': 'MAD50-C1', 'X-Amz-Cf-Id': 'saWgiFAAjXjLznrAisVEukOzUktXMdHRn8z-Np07KNntAxA_2wg7Ag=='}
respuesta1 = pd.DataFrame([[key, respuesta[key]] for key in respuesta.keys()], columns=['clave', 'valor'])
respuesta1

Unnamed: 0,clave,valor
0,Content-Type,text/html; charset=ISO-8859-1
1,Transfer-Encoding,chunked
2,Connection,keep-alive
3,Date,"Wed, 02 Dec 2020 16:17:33 GMT"
4,Server,nginx
5,Vary,Accept-Encoding
6,Set-Cookie,PHPSESSID=3fa82c406c3d6b6a8b0a7d69478bf700; pa...
7,Expires,"Thu, 01 Jan 1970 00:00:01 GMT"
8,Cache-Control,no-cache
9,Pragma,no-cache


## Scraping de tablas

A menudo, la información que nos interesa descargar está en tablas y nuestro objetivo es importarlas en tablas de Pandas. Esta conversión suele exigir la manipulación del texto, números y fechas contenidas en la tabla original, lo que nos obligará a repasar cómo realizar esas operaciones y aplicarlas a filas y columnas de las tablas.

La estructura que suelen tener la tablas en `html` es:

```
<table>
    <thead>
        <tr>
            <th>Columna A</th>
            <th>Columna B</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>A1</td>
            <td>B1</td>
        </tr>
        <tr>
            <td>A2</td>
            <td>B2</td>
        </tr>
    </tbody>
</table>   
```

Necesitaremos los siguientes módulos además de `requests` y `BeautifulSoup` importados anteriormente:

In [230]:
import re

Primero, hacemos una petición para descargar la página de interés (que contiene las cotizaciones de las acciones del IBEX 35 en tiempo _casi_ real).

In [231]:
base_url = "https://www.eleconomista.es/indice/IBEX-35"
res = requests.get(base_url)
contenido = res.content

La siguiente línea procesa el HTML de la página que hemos descargado:

In [232]:
soup = BeautifulSoup(contenido, "html.parser")

Una vez procesado el HTML, es posible buscar elementos dentro de él. En particular, podemos buscar los elementos de tipo `table`, es decir, tablas.

In [233]:
tablas = soup.find_all('table')

El objeto `tablas` contiene todas las tablas presentes en la página. Hay que tener cuidado con dichas tablas porque muchas páginas utilizan elementos de tipo `table` para estructurar el contenido. Por eso, en algunas páginas, aunque parezca haber una única tabla, puede haber otras con una información no interesante que toca descartar.

In [234]:
len(tablas)

3

Podemos extraer las filas de todas estas tablas

In [235]:
tablas

[<table class="table tableFlex table-striped footable footable-1 breakpoint-lg" data-expand-first="false" data-show-toggle="true" data-toggle-column="last"><thead><tr class="footable-header"><th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th><th>Precio</th><th data-breakpoints="" data-title=""></th><th data-breakpoints=""><a href="/indice/IBEX-35/resumen/Mejores">Var. (%)</a></th><th data-breakpoints="xs">Var. (€)</th><th data-breakpoints="sm xs" data-title="Volumen (€)"><a href="/indice/IBEX-35/resumen/Volumen">Volumen (€)</a></th><th data-breakpoints="sm xs" data-title="Cap."><a href="/indice/IBEX-35/resumen/Capitalizacion">Capitalización</a><sup>(1)</sup></th><th data-breakpoints="sm xs" data-title="PER"><a href="/indice/IBEX-35/resumen/PER">PER</a></th><th data-breakpoints="sm xs" data-title="Rent. /Div."><a href="/indice/IBEX-35/resumen/Rentabilidad-Dividendo">Rent. /Div.</a></th><th class="footable-last-visible" data-breakpoints="sm xs

### Ejercicio 1
 
Mediante el uso de bucles, todos los elementos de tabla `tr`. Puedes usar `find_all('tr')` para encontrar todos los `tr` de la página.
 
Imprime los resultados en pantalla.

In [236]:
# Respuesta 
for tabla in tablas:
    for x in tabla.find_all("tr"):
        print (x, end="\n\n")
#con \n = retorno de carga, cuando llegues al final de x pone un intro para separar los datos, \n\n para dos espacios
        
#soup.find_all("tr") pero aquí me extrae los tr de TODAS las tablas de la pág web. Y con el bucle me saca los tr
#de las 3 tablas que yo seleccione con el objeto = tablas

<tr class="footable-header"><th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th><th>Precio</th><th data-breakpoints="" data-title=""></th><th data-breakpoints=""><a href="/indice/IBEX-35/resumen/Mejores">Var. (%)</a></th><th data-breakpoints="xs">Var. (€)</th><th data-breakpoints="sm xs" data-title="Volumen (€)"><a href="/indice/IBEX-35/resumen/Volumen">Volumen (€)</a></th><th data-breakpoints="sm xs" data-title="Cap."><a href="/indice/IBEX-35/resumen/Capitalizacion">Capitalización</a><sup>(1)</sup></th><th data-breakpoints="sm xs" data-title="PER"><a href="/indice/IBEX-35/resumen/PER">PER</a></th><th data-breakpoints="sm xs" data-title="Rent. /Div."><a href="/indice/IBEX-35/resumen/Rentabilidad-Dividendo">Rent. /Div.</a></th><th class="footable-last-visible" data-breakpoints="sm xs" data-title="Hora"> Hora </th></tr>

<tr><td class="footable-first-visible" itemscope="" itemtype="http://schema.org/SiteNavigationElement"><a href="/empresa/ACCI

### Ejercicio 2
 
A partir del ejercicio 1, compleméntalo con los siguientes pasos:
* Crea una lista vacía al inicio
* Usando el método `append()` inserta las filas de las tabla en formato lista/array

In [237]:
# Respuesta
lista_vacia = []

for tabla in tablas:
    for x in tabla.find_all("tr"):
        lista_vacia.append(x)
#componer listas de listas

lista_vacia

[<tr class="footable-header"><th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th><th>Precio</th><th data-breakpoints="" data-title=""></th><th data-breakpoints=""><a href="/indice/IBEX-35/resumen/Mejores">Var. (%)</a></th><th data-breakpoints="xs">Var. (€)</th><th data-breakpoints="sm xs" data-title="Volumen (€)"><a href="/indice/IBEX-35/resumen/Volumen">Volumen (€)</a></th><th data-breakpoints="sm xs" data-title="Cap."><a href="/indice/IBEX-35/resumen/Capitalizacion">Capitalización</a><sup>(1)</sup></th><th data-breakpoints="sm xs" data-title="PER"><a href="/indice/IBEX-35/resumen/PER">PER</a></th><th data-breakpoints="sm xs" data-title="Rent. /Div."><a href="/indice/IBEX-35/resumen/Rentabilidad-Dividendo">Rent. /Div.</a></th><th class="footable-last-visible" data-breakpoints="sm xs" data-title="Hora"> Hora </th></tr>,
 <tr><td class="footable-first-visible" itemscope="" itemtype="http://schema.org/SiteNavigationElement"><a href="/empresa/AC

In [238]:
# Otra forma de hacerlo más directa
lineas = [x for tabla in tablas for x in tabla.find_all('tr')]

In [239]:
lineas

[<tr class="footable-header"><th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th><th>Precio</th><th data-breakpoints="" data-title=""></th><th data-breakpoints=""><a href="/indice/IBEX-35/resumen/Mejores">Var. (%)</a></th><th data-breakpoints="xs">Var. (€)</th><th data-breakpoints="sm xs" data-title="Volumen (€)"><a href="/indice/IBEX-35/resumen/Volumen">Volumen (€)</a></th><th data-breakpoints="sm xs" data-title="Cap."><a href="/indice/IBEX-35/resumen/Capitalizacion">Capitalización</a><sup>(1)</sup></th><th data-breakpoints="sm xs" data-title="PER"><a href="/indice/IBEX-35/resumen/PER">PER</a></th><th data-breakpoints="sm xs" data-title="Rent. /Div."><a href="/indice/IBEX-35/resumen/Rentabilidad-Dividendo">Rent. /Div.</a></th><th class="footable-last-visible" data-breakpoints="sm xs" data-title="Hora"> Hora </th></tr>,
 <tr><td class="footable-first-visible" itemscope="" itemtype="http://schema.org/SiteNavigationElement"><a href="/empresa/AC

### Extraer el texto (datos) de las tablas

In [240]:
lista_acciones = []
temp_lista = []

for fila in lista_vacia:
    for linea in fila.find_all('td'):
        temp_lista.append(linea.text) # El método text nos devuelve los datos/texto dentro del código html
    lista_acciones.append(temp_lista)
    temp_lista = []

lista_acciones[0:3] #solo me muestra las primeras 2 filas

#cogo el array, lo voy recorriendo por cada fila saca los td, crea una lista y me añade lista a la lista en formato 
#columnar, para llegar a algo como [[a,b,c],[d,e,f]]. Lo cual se traduce en formato columnar
#por cada una de las lineas sacar el texto, salir del bucle
#https://www.eleconomista.es/indice/IBEX-35

[[],
 ['ACCIONA',
  '107,60',
  '',
  '+0,56%',
  '0,60',
  '1.542.237,90',
  '0,00',
  '32,77',
  '1,83%',
  '12:37'],
 ['ACERINOX',
  '8,92',
  '',
  '-1,02%',
  '-0,09',
  '2.856.795,96',
  '0,00',
  '39,62',
  '5,55%',
  '12:38']]

In [241]:
len(lista_acciones)

38

### Otra forma, más compacta de conseguir el mismo resultado

para luego extraer los contenidos de cada fila individualmente haciendo

In [242]:
datos = [[x.text for x  in linea.find_all('td')] for linea in lineas]

Podemos inspeccionar parte del objeto resultante:

In [243]:
datos[0:3]

[[],
 ['ACCIONA',
  '107,60',
  '',
  '+0,56%',
  '0,60',
  '1.542.237,90',
  '0,00',
  '32,77',
  '1,83%',
  '12:37'],
 ['ACERINOX',
  '8,92',
  '',
  '-1,02%',
  '-0,09',
  '2.856.795,96',
  '0,00',
  '39,62',
  '5,55%',
  '12:38']]

### Ejercicio 2
 
Recorre la lista creada en el apartado anterior `lista_acciones`, en mi caso, y:
* Elimina las filas sin contenido.
* Guarda la lista limpia en una nueva lista. Por ejemplo `lista_acciones_limpia`

In [244]:
# Respuesta
lista_acciones_limpia = []

for i in lista_acciones:
    if len(i) > 0:
        lista_acciones_limpia.append(i)

lista_acciones_limpia[0:2]

[['ACCIONA',
  '107,60',
  '',
  '+0,56%',
  '0,60',
  '1.542.237,90',
  '0,00',
  '32,77',
  '1,83%',
  '12:37'],
 ['ACERINOX',
  '8,92',
  '',
  '-1,02%',
  '-0,09',
  '2.856.795,96',
  '0,00',
  '39,62',
  '5,55%',
  '12:38']]

Vemos que hay filas que contienen la información de interés junto con otras que contienen cabeceras y otra información irrelevante. En general, la situación puede ser más complicada y se hace necesario estudiar el objeto `tablas` para seleccionar la de interés.

En nuestro caso, podemos filtrar las líneas menos relevantes así:

In [245]:
datos = [x for x in datos if len(x) > 0]

### Ejercicio evaluación 1
 
Guarda los datos ya limpios en un dataframe de Pandas con nombre `df_IBEX35`

In [281]:
# Respuesta
import pandas as pd
import numpy as np

Finalmente, podemos crear una tabla de Pandas:

In [247]:
# Respuesta
df_IBEX35 = pd.DataFrame(lista_acciones_limpia)
df_IBEX35

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
0,ACCIONA,10760,,"+0,56%",60,"1.542.237,90",0,3277,"1,83%",12:37
1,ACERINOX,892,,"-1,02%",-9,"2.856.795,96",0,3962,"5,55%",12:38
2,ACS,2743,,"-0,33%",-9,"2.788.578,47",0,1369,"5,72%",12:39
3,AENA,13970,,"-1,48%",-210,"3.246.823,00",0,1476,"0,00%",12:38
4,ALMIRALL,1094,,"+2,24%",24,"2.523.700,39",0,2277,"1,82%",12:38
5,AMADEUS,6358,,"-0,66%",-42,"12.742.407,20",0,2169,"0,00%",12:38
6,ARCELORMITTAL,1755,,"+0,62%",11,"7.049.848,02",0,0,"0,00%",12:38
7,BANKIA,154,,"+0,62%",1,"1.800.426,21",0,5415,"0,00%",12:39
8,BANKINTER,460,,"+2,77%",12,"8.331.201,75",0,1581,"1,96%",12:38
9,BBVA,429,,"-0,44%",-2,"28.572.168,12",0,1104,"0,70%",12:39


#### Ejercicio evaluación 2

Usa los elementos `th` de la primera fila de las tablas para extraer nombres para las columnas de la tabla. 

In [248]:
# Respuesta

lineas_th = [x for tabla in tablas for x in tabla.find_all('th')]
lineas_th

[<th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th>,
 <th>Precio</th>,
 <th data-breakpoints="" data-title=""></th>,
 <th data-breakpoints=""><a href="/indice/IBEX-35/resumen/Mejores">Var. (%)</a></th>,
 <th data-breakpoints="xs">Var. (€)</th>,
 <th data-breakpoints="sm xs" data-title="Volumen (€)"><a href="/indice/IBEX-35/resumen/Volumen">Volumen (€)</a></th>,
 <th data-breakpoints="sm xs" data-title="Cap."><a href="/indice/IBEX-35/resumen/Capitalizacion">Capitalización</a><sup>(1)</sup></th>,
 <th data-breakpoints="sm xs" data-title="PER"><a href="/indice/IBEX-35/resumen/PER">PER</a></th>,
 <th data-breakpoints="sm xs" data-title="Rent. /Div."><a href="/indice/IBEX-35/resumen/Rentabilidad-Dividendo">Rent. /Div.</a></th>,
 <th class="footable-last-visible" data-breakpoints="sm xs" data-title="Hora"> Hora </th>,
 <th class="footable-first-visible" href="/indice/IBEX-35/resumen/Nombre/descendente">Nombre</th>,
 <th>Precio</th>,
 <th data-bre

In [265]:
lista_acciones_th = []
th_lista = []

for fila in lista_vacia:
    for linea in fila.find_all('th'):
        th_lista.append(linea.text) # El método text nos devuelve los datos/texto dentro del código html
    lista_acciones_th.append(th_lista)
    th_lista = []

lista_acciones_th[:]


[['Nombre',
  'Precio',
  '',
  'Var. (%)',
  'Var. (€)',
  'Volumen (€)',
  'Capitalización(1)',
  'PER',
  'Rent. /Div.',
  ' Hora '],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 ['Nombre',
  'Precio',
  '',
  'Var. (%)',
  'Var. (€)',
  'Volumen (€)',
  'Capitalización(1)',
  'PER',
  'Rent. /Div.',
  ' Hora '],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 ['Nombre',
  'Precio',
  '',
  'Var. (%)',
  'Var. (€)',
  'Volumen (€)',
  'Capitalización(1)',
  'PER',
  'Rent. /Div.',
  ' Hora '],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 []]

In [266]:
len(lista_acciones_th)

38

### Ejercicio evaluación 3
 
En el ejecicio evaluación 2:
* Guarda los resultado en forma de lista/array
* Modifica las columnas del dataframe df_IBEX35 por el nombre adecuado, obtenidos en este ejercicio

In [308]:
# Respuesta
lista_acciones_limpia_th = []

for i in lista_acciones_th:
    if len(i) > 0:
        lista_acciones_limpia_th.append(i)

lista_acciones_limpia_th[:1]

[['Nombre',
  'Precio',
  '',
  'Var. (%)',
  'Var. (€)',
  'Volumen (€)',
  'Capitalización(1)',
  'PER',
  'Rent. /Div.',
  ' Hora ']]

In [309]:
df_IBEX35.columns = lista_acciones_limpia_th
df_IBEX35

Unnamed: 0_level_0,Nombre,Precio,Unnamed: 3_level_0,Var. (%),Var. (€),Volumen (€),Capitalización(1),PER,Rent. /Div.,Hora
Unnamed: 0_level_1,Nombre,Precio,Unnamed: 3_level_1,Var. (%),Var. (€),Volumen (€),Capitalización(1),PER,Rent. /Div.,Hora
Unnamed: 0_level_2,Nombre,Precio,Unnamed: 3_level_2,Var. (%),Var. (€),Volumen (€),Capitalización(1),PER,Rent. /Div.,Hora
0,ACCIONA,10760,,"+0,56%",60,"1.542.237,90",0,3277,"1,83%",12:37
1,ACERINOX,892,,"-1,02%",-9,"2.856.795,96",0,3962,"5,55%",12:38
2,ACS,2743,,"-0,33%",-9,"2.788.578,47",0,1369,"5,72%",12:39
3,AENA,13970,,"-1,48%",-210,"3.246.823,00",0,1476,"0,00%",12:38
4,ALMIRALL,1094,,"+2,24%",24,"2.523.700,39",0,2277,"1,82%",12:38
5,AMADEUS,6358,,"-0,66%",-42,"12.742.407,20",0,2169,"0,00%",12:38
6,ARCELORMITTAL,1755,,"+0,62%",11,"7.049.848,02",0,0,"0,00%",12:38
7,BANKIA,154,,"+0,62%",1,"1.800.426,21",0,5415,"0,00%",12:39
8,BANKINTER,460,,"+2,77%",12,"8.331.201,75",0,1581,"1,96%",12:38
9,BBVA,429,,"-0,44%",-2,"28.572.168,12",0,1104,"0,70%",12:39


#### Ejercicio

Elimina las columnas irrelevantes y cambia los nombres de las columnas por otros breves y sin caracteres extraños o que dificulten el posproceso.

In [331]:
df_IBEX35.rename(columns = {"Var. (%)":"Var (Porcentaje)", 
                            "Var. (€)":"Var (Euro)", 
                            "Volumen (€)":"Volumen (Euro)"})

df_IBEX35.drop(["Capitalización(1)"], axis = 1)

  obj = obj._drop_axis(labels, axis, level=level, errors=errors)


Unnamed: 0_level_0,Nombre,Precio,Unnamed: 3_level_0,Var. (%),Var. (€),Volumen (€),PER,Rent. /Div.,Hora
Unnamed: 0_level_1,Nombre,Precio,Unnamed: 3_level_1,Var. (%),Var. (€),Volumen (€),PER,Rent. /Div.,Hora
Unnamed: 0_level_2,Nombre,Precio,Unnamed: 3_level_2,Var. (%),Var. (€),Volumen (€),PER,Rent. /Div.,Hora
0,ACCIONA,10760,,"+0,56%",60,"1.542.237,90",3277,"1,83%",12:37
1,ACERINOX,892,,"-1,02%",-9,"2.856.795,96",3962,"5,55%",12:38
2,ACS,2743,,"-0,33%",-9,"2.788.578,47",1369,"5,72%",12:39
3,AENA,13970,,"-1,48%",-210,"3.246.823,00",1476,"0,00%",12:38
4,ALMIRALL,1094,,"+2,24%",24,"2.523.700,39",2277,"1,82%",12:38
5,AMADEUS,6358,,"-0,66%",-42,"12.742.407,20",2169,"0,00%",12:38
6,ARCELORMITTAL,1755,,"+0,62%",11,"7.049.848,02",0,"0,00%",12:38
7,BANKIA,154,,"+0,62%",1,"1.800.426,21",5415,"0,00%",12:39
8,BANKINTER,460,,"+2,77%",12,"8.331.201,75",1581,"1,96%",12:38
9,BBVA,429,,"-0,44%",-2,"28.572.168,12",1104,"0,70%",12:39


#### Ejercicio

Cambia el formato de las columnas adecuadamente: convierte a numéricas, etc., las columnas que lo requieran.

In [335]:
df_IBEX35.dtypes

Nombre             Nombre             Nombre               object
Precio             Precio             Precio               object
                                                           object
Var. (%)           Var. (%)           Var. (%)             object
Var. (€)           Var. (€)           Var. (€)             object
Volumen (€)        Volumen (€)        Volumen (€)          object
Capitalización(1)  Capitalización(1)  Capitalización(1)    object
PER                PER                PER                  object
Rent. /Div.        Rent. /Div.        Rent. /Div.          object
 Hora               Hora               Hora                object
dtype: object

## Riesgos del scraping

El scraping es una técnica potente pero tiene varios contras:

* Implica mayor tiempo de desarrollo y mayor esfuerzo en la limpieza de datos (en comparación con otras fuentes como APIs, BDs, ...)
* Si hay que scrapear gran cantidad de páginas, es lento
* Los servidores objetivo de nuestro scraping pueden tener técnicas para evitarlo. Por ejemplo, bloquear la IP temporalmente o introducir delays en las respuestas si hacemos muchas peticiones en poco tiempo. Esto pasa especialmente en las grandes webs recelosas de sus datos (p.e. linkedin, amazon, ...).
* El código de scraping escrito hoy puede no funcionar mañana, si la web destino cambia nombres, etiquetas o estructura. Si se sube a producción para lanzarlo periódicamente, hay que ser conscientes de que en algún momento fallará, y establecer mecanismos de alerta

## Javascript

Es posible que te encuentres con algún caso en el que no puedas descargar tal cual el html y parsearlo, principalmente por dos motivos:

* La estructura de la página se genera parcial o totalmente en cliente
* Debemos interactuar con algún elemento para mostrar la información que queremos (p.e. completar un campo de búsuqeda, hacer click en algún botón, ...)

En estos casos, hay que ejecutar en un navegador local el código javascript de la página destino. Para esta tarea, puedes utilizar [Selenium]().

[Aquí](https://medium.freecodecamp.org/better-web-scraping-in-python-with-selenium-beautiful-soup-and-pandas-d6390592e251) un post con un ejemplo de uso.