# 8.2 Web Scraping I.


Web-Scrapping es la forma que tenemos para referirnos a la captura de información de cualquier sitio web. Su objetivo es capturar información de forma automática.

Las librerías principales que vamos a utilizar son beautifulsoup y requests


In [1]:
import pandas as pd
from bs4 import BeautifulSoup
import requests

El proceso se divide principalmente en tres fases:

- Carga de la dirección web a la que realizar el scrapping. A través de  requests.

- Extracción del contenido de la web a partir de Beautifulsoup

- Manipulación del contenido.

- Para tablas podemos extraer directamente el contenido en pandas.


## 1. Carga de la URL

Con requests podemos obtener el contenido de la pagina web.

In [15]:
url = 'https://es.wikipedia.org/wiki/El_lobo_de_Wall_Street'
r = requests.get(url)

Ahora debemos preguntar si la conexion con esa pagina web ha funcionado. Es decir si la propiedad status_code que devuelve re es 200 o 201. Si es así, pasamos a la siguiente fase.

In [16]:
print(r.status_code)

200


En re.content tendremos todo el HTML

In [13]:
r.content

b'\r\n<!DOCTYPE html>\r\n<html lang="es">\r\n  <head data-idioma="es" data-hora-act="Fri, 31 Mar 2023 16:26:11 GMT" data-app-path="/bme-exchange"><meta charset="utf-8" /><meta http-equiv="X-UA-Compatible" content="IE=edge" /><meta name="viewport" content="width=device-width, initial-scale=1" /><meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /><meta id="Description" name="description" content="Inf\xc3\xb3rmate sobre los precios y cotizaciones del IBEX 35. Adem\xc3\xa1s conoce los detalles hist\xc3\xb3ricos que necesites: gr\xc3\xa1fico, valores." /><meta id="copyright" name="copyright" content="Copyright \xc2\xa9 BME 2023" /><meta property="og:site_name" content="BME Exchange"/><meta property="og:locale" content="es"/><meta property="og:type" content="website"/><meta property="twitter:card" content="summary_large_image"/><meta property="twitter:site" content="@GrupoBME"/><meta property="og:title" content="IBEX 35 | Precios y cotizaciones de hoy | BME Exchange"/><meta 

## 2. Extracción del contenido con Pandas

Si usamos la función read_html sobre una URL. Nos data una lista de Dataframes con todas las tablas de la página.
```python
    dfs = pd.read_html(url)
``` 

- Esta función nos da la opcion de filtrar con el parámetro match.

## 3. Extracción del contenido con BeautifulSoup

Lo primero que tenemos que hacer es pasar al contenido que se encuentra en re.text a través de un parser de HTML.

In [17]:
soup = BeautifulSoup(r.text, 'html.parser')

Lo siguiente que tenemos que hacer es identificar qué información es la que nos queremos descargar, y dónde se encuentra dentro del HTML

Todos los elementos de una página tienen un xpath que es unívoco a ese elemento, por lo que puedes usarlo para recuperar la información

- Inspeccionar, botón derecho sobre el elemento, copiar, copiar XPath

<center>
<img src="./imgs/xpath.png"  alt="drawing" width="600"/>
</center>

Cada uno de los resultados tienen la etiqueta li, y la clase list-resultado. Por lo que localizamos todos los elementos que cumplan estas condiciones y los guardamos

<center>
<img src="./imgs/ejemplo_1.png"  alt="drawing" width="600"/>
</center>

Capturamos la ficha técnica de la película (la tabla que está a la derecha)

In [38]:
datos_a_extraer = soup.find_all('table',{'class' : 'infobox plainlist plainlinks'})

In [39]:
len(datos_a_extraer)

1

In [40]:
type(datos_a_extraer[0])

bs4.element.Tag

In [41]:
tabla_html = datos_a_extraer[0]

In [46]:
tablas = pd.read_html(str(tabla_html))

In [48]:
tablas[0]

Unnamed: 0,The Wolf of Wall Street,The Wolf of Wall Street.1,The Wolf of Wall Street.2
0,,,
1,Título,El lobo de Wall Street,El lobo de Wall Street
2,Ficha técnica,Ficha técnica,Ficha técnica
3,Dirección,Martin Scorsese,Martin Scorsese
4,Producción,Riza Aziz Joey McFarland Leonardo DiCaprio Jo...,Riza Aziz Joey McFarland Leonardo DiCaprio Jo...
5,Guion,Terence Winter,Terence Winter
6,Basada en,El lobo de Wall Street de Jordan Belfort,El lobo de Wall Street de Jordan Belfort
7,Música,Howard Shore,Howard Shore
8,Fotografía,Rodrigo Prieto,Rodrigo Prieto
9,Montaje,Thelma Schoonmaker,Thelma Schoonmaker


## 4. Manipulación del contenido

En esta fase vamos iterando sobre lo que hemos conseguido con BeautifulSoup.


Es la primera tabla, por lo que debemos indicar que nos quedamos con únicamente esa tabla

Las filas de la tabla tienen la etiqueta tr, por lo que localizamos todos los elementos que tengan dicha etiqueta, para iterar sobre ellos

In [49]:
datos_a_extraer = datos_a_extraer[0]
trs = datos_a_extraer.find_all('tr')

Al iterar sobre las filas, queremos extraer los elementos de las columnas de la izquierda th y de la derecha td

Extraemos todos e iteramos sobre ellos para extraer la información

In [50]:
rows_th = []
rows_td = []

for tr in trs:
    
    ths = tr.find_all('th')
    tds = tr.find_all('td')
    
    for th in ths:
                        
        texto = th.text
        # print(th.text)
        rows_th.append(texto)
        
    for td in tds:
                
        texto = td.text
        #print(td.text)
        rows_td.append(texto)

In [51]:
resultado = pd.DataFrame(np.column_stack([rows_th, rows_td]))
resultado

Unnamed: 0,0,1
0,The Wolf of Wall Street,\n
1,Título,\nEl lobo de Wall Street
2,Ficha técnica,\nMartin Scorsese
3,Dirección,\nRiza Aziz Joey McFarland Leonardo DiCaprio...
4,Producción,\nTerence Winter
5,Guion,\nEl lobo de Wall Street de Jordan Belfort
6,Basada en,\nHoward Shore
7,Música,\nRodrigo Prieto
8,Fotografía,\nThelma Schoonmaker
9,Montaje,\nSandy Powell


Sin embargo, si analizamos el resultado obtenido, no es exáctamente lo que queremos.

La información está descolocada. Y eso es porque hay varios elementos en la tabla que solo están en una de las dos columnas.

Tenemos que identificarlos, y evitar descargarlos

<center>
<img src="./imgs/tabla_mal.png"  alt="drawing" width="600"/>
</center>

In [52]:
rows_th = []
rows_td = []

for tr in trs:
    
    ths = tr.find_all('th')
    tds = tr.find_all('td')
    
    for th in ths:
        
        if "Ficha técnica" in str(th) or "Datos y cifras" in str(th) or "Compañías" in str(th):
            continue
        
        texto = th.text
        # print(th.text)
        rows_th.append(texto)
        
    for td in tds:
        
        if "Ver todos los créditos" in str(td) or "Ficha" in str(td) or "Wikidata" in str(td):
            continue
        
        texto = td.text
        texto = texto.replace('\n',"")
        #print(td.text)
        rows_td.append(texto)

In [53]:
resultado = pd.DataFrame(np.column_stack([rows_th, rows_td]))
resultado

Unnamed: 0,0,1
0,The Wolf of Wall Street,
1,Título,El lobo de Wall Street
2,Dirección,Martin Scorsese
3,Producción,Riza Aziz Joey McFarland Leonardo DiCaprio J...
4,Guion,Terence Winter
5,Basada en,El lobo de Wall Street de Jordan Belfort
6,Música,Howard Shore
7,Fotografía,Rodrigo Prieto
8,Montaje,Thelma Schoonmaker
9,Vestuario,Sandy Powell


Ahora sí que lo hemos conseguido

## Conclusión

El proceso de Web-Scrapping no es un proceso complicado, pero si tedioso.
Y es tedioso porque hay que comprender cuál es la estructura de la web que queremos scrappear y es posible que con el tiempo, un web-scrapper que funcionase, no nos funcione actualmente por qu hayan cambiado la estructura de la web.

- Para asentar conocimientos, vamos a probar a extraer la misma información que ya obtuvimos haciendo este mismo proceso en R
- Los primeros pasos son exáctamente iguales
- Lo único que tenemos que adaptar es la url

## Ejercicios

**8.2.1** De la página: https://www.expansion.com/mercados/cotizaciones/indices/ibex35_I.IB.html obten un daframe con los contenidos de la tabla de cotizaciones.

In [47]:
dfs = pd.read_html('https://www.expansion.com/mercados/cotizaciones/indices/ibex35_I.IB.html', match='Valor')

In [35]:
len(dfs)

5

In [37]:
dfs[0]

Unnamed: 0,Valor,Último,Var. %,Var.,Ac. % año,Máx.,Mín.,Vol.,Capit.,Hora,Unnamed: 10
0,ACCIONA,184300,126,230,721,184800,180800,38.611,10.11,16:31,
1,ACCIONA ENER,35580,154,54,-155,35660,34900,138.596,11.715,16:35,
2,ACERINOX,9484,83,8,571,9512,9390,227.704,2.566,16:36,
3,ACS,29380,79,23,1166,29490,29180,252.886,8.349,16:36,
4,AENA,148750,-13,-20,2681,149450,147000,45.057,22.312,16:36,
5,AMADEUS IT GROUP,61600,155,94,2688,61640,60040,317.070,27.751,16:35,
6,ARCELORMITTAL,27860,98,27,1330,27910,27460,130.784,24.456,16:36,
7,BANCO SABADELL,992,-174,-2,1267,1016,986,14.750.958,5.584,16:36,
8,BANKINTER,5240,-187,-10,-1493,5310,5156,3.156.694,4.71,16:36,
9,BBVA,6594,-38,-3,1704,6695,6543,7.236.283,42.114,16:35,


In [23]:
url = 'https://www.expansion.com/mercados/cotizaciones/indices/ibex35_I.IB.html'

r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

In [39]:
result = soup.find_all('table',{'id' : 'listado_valores'})

In [40]:
len(result)

1

In [44]:
pd.read_html(str(result[0]))[0]

Unnamed: 0,Valor,Último,Var. %,Var.,Ac. % año,Máx.,Mín.,Vol.,Capit.,Hora,Unnamed: 10
0,ACCIONA,184300,126,230,721,184800,180800,38.611,10.11,16:31,
1,ACCIONA ENER,35600,160,56,-149,35660,34900,138.217,11.721,16:33,
2,ACERINOX,9480,79,7,567,9512,9390,224.349,2.565,16:34,
3,ACS,29390,82,24,1170,29490,29180,252.570,8.352,16:34,
4,AENA,148950,0,0,2698,149450,147000,44.458,22.342,16:28,
5,AMADEUS IT GROUP,61580,152,92,2684,61640,60040,315.395,27.742,16:34,
6,ARCELORMITTAL,27865,100,27,1332,27910,27460,130.316,24.46,16:33,
7,BANCO SABADELL,993,-168,-2,1274,1016,986,14.720.268,5.588,16:34,
8,BANKINTER,5246,-176,-9,-1483,5310,5156,3.151.225,4.715,16:32,
9,BBVA,6593,-39,-3,1702,6695,6543,7.189.112,42.107,16:34,


**8.2.2** Extrae las noticias que aparecen el la web: https://www.expansion.com/mercados/cotizaciones/valores/telefonica_M.TEF.html, Generando un dataframe con la fecha, el título y el resumen de cada noticia.


In [57]:
url = 'https://www.expansion.com/mercados/cotizaciones/valores/telefonica_M.TEF.html'

r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')

In [58]:
noticas = soup.find_all('article',{'class' : 'noticia'})

In [60]:
len(noticas)

10

In [82]:
list_noticias = []

for noticia in noticas:
    
    fecha = noticia.find_all('p',{'class' : 'fecha'})[0].text
    titulo = noticia.find_all('a',)[0].text
    entradilla = noticia.find_all('div',{'class' : 'entradilla'})[0].text

    list_noticias.append(
        {
            'fecha': fecha,
            'titulo': titulo,
            'entradilla': entradilla,
        }
    )

In [84]:
pd.DataFrame(list_noticias)

Unnamed: 0,fecha,titulo,entradilla
0,31-03-2023,"Pallete: ""Un nuevo mundo requiere nuevas reglas""","\nEl presidente de Telefónica, José María Alva..."
1,30-03-2023,La CNMC fija ahora el reparto del servicio uni...,\nLa CNMC acaba de anunciar como se debe repar...
2,28-03-2023,Impecable apoyo de Telefónica en los máximos d...,\nA pesar de las importantes caídas durante gr...
3,28-03-2023,El titán del Ibex que destaca entre sus rivale...,\nUna compañía del Ibex es una joya para la ma...
4,28-03-2023,Telefónica y Asterion cierran la venta de 11 c...,"\nNabiax, la firma conjunta de la 'teleco' y e..."
5,25-03-2023,Las cotizadas disparan un 28% sus ingresos has...,\nEl ebitda conjunto crece un 9%. El beneficio...
6,21-03-2023,Movistar Money abre sus créditos a clientes de...,\n\n
7,21-03-2023,"JPMorgan augura rumbos dispares en Iberdrola, ...",\nLas aguas podrían tardar en volver a su cauc...
8,16-03-2023,Movistar Prosegur Alarmas prevé que el mercado...,"\nMovistar Prosegur Alarmas (MPA), la joint ve..."
9,14-03-2023,"Telefónica, en soporte, consigue aguantar el t...",\nLos títulos de nuestra operadora cayeron aye...
