# Extracción de datos web

## Índice
1. [Recepción de páginas web con urllib](#urllib)
2. [Parsing de HTML mediante BeatifulSoup](#bea)
3. [Ejemplos de web scraping](#ejemplos)
4. [Web scraping con selenium](#sele)

<a id="urllib"></a>
## Recepción de páginas web con urllib

In [3]:
import urllib.request
f = urllib.request.urlopen('https://www.rtve.es')
print(f.read().decode('latin-1'))

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"><html lang="es" xmlns:fb="http://ogp.me/ns/fb#"><head prefix="">



 
<title>Noticias de &uacute;ltima hora, programas y series de televisi&oacute;n - RTVE.es</title>
 
<meta name="Description" content="Noticias, deportes, actualidad, &aacute;lbumes, series y programas, y la &uacute;ltima hora de Espa&ntilde;a y el mundo." />
<meta name="Keywords" content="noticias, ultima hora, actualidad, deportes, television, series, programas, noticias espa&ntilde;a, noticias mundo, noticias internacionales, economia, cultura, sociedad, ultimas noticias, noticias hoy, tecnologia, rtve.es, rtve, tve" />
 

<meta property="og:title" content="Noticias de &uacute;ltima hora, programas y series de televisi&oacute;n - RTVE.es">

 

<meta property="og:description" content="Noticias, deportes, actualidad, &aacute;lbumes, series y programas, y la &uacute;ltima hora de Espa&ntilde;a y el mundo.">

 



Puede ocurrir que urllib devuelva un error de fallo en la verificación del certificado SSL:  

`urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed`

SSL (*Secure Sockets Layer*) es un certificado que asegura que una página web es de confianza. 

Para ignorar la autenticación de certificado SSL no verificado en urllib tenemos dos opciones:

In [4]:
import ssl
import urllib.request
context = ssl._create_unverified_context()

urllib.request.urlopen('https://www.elpais.com',context=context).read().decode()

'<!DOCTYPE html><html lang="es-ES"><head><link rel="preconnect" href="//static.elpais.com"/><link rel="preconnect" href="//ep00.epimg.net"/><link rel="preconnect" href="//imagenes.elpais.com"/><link rel="preconnect" href="//www.googletagservices.com"/><link rel="preconnect" href="//ping.chartbeat.net"/><link rel="preconnect" href="//cdn.krxd.net"/><link rel="preconnect" href="//assets.adobedtm.com"/><link rel="preload" href="https://static.elpais.com/dist/resources/fonts/majrit/majrit-text/Majrit-Text-Bold.woff2" as="font" type="font/woff2" crossorigin=""/><link rel="preload" href="https://static.elpais.com/dist/resources/fonts/majrit/majrit-text/Majrit-Text-Roman.woff2" as="font" type="font/woff2" crossorigin=""/><link rel="preload" href="https://static.elpais.com/dist/resources/fonts/marcin-ant-b/marcinantb-regular-webfont.woff2" as="font" type="font/woff2" crossorigin=""/><link rel="preload" href="https://static.elpais.com/dist/resources/fonts/majrit/majrit-text/Majrit-Text-Bold-Ita

In [5]:
import ssl
import urllib.request
ssl._create_default_https_context = ssl._create_unverified_context

<a id="bea"></a>
## Parsing de HTML mediante BeatifulSoup

BeautifulSoup es una librería de Python que permite analizar documentos HTML y extraer datos de ellos, compensando imperfecciones que puedan existir. Para instalar esta librería escribimos en anaconda Prompt:  
`conda install -c anaconda beautifulsoup4`

Esta librería permite, por ejemplo, extraer los atributos href de las etiquetas de anclaje (a)  
<img src='http://www.cellbiol.com/bioinformatics_web_development/wp-content/uploads/2017/01/attributes_and_values_in_the_a_tag.png'>  
En el siguiente ejemplo, vamos a parsear una entrada HTML y extraer los links utilizando la librería BeautifulSoup. 
Utilizaremos urllib para leer la página y después BeautifulSoup para extraer los atributos href de las etiquetas de tipo ancla (a)

In [7]:
import urllib.request
from bs4 import BeautifulSoup

url = 'https://www.marca.com'
html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)

tags = soup('a')

for tag in tags:
    print(tag.get('href'))

https://www.marca.com/futbol/mercado-fichajes/2023/05/25/646f0dacc83c250028c16f55-directo.html
https://www.marca.com/futbol/primera-division/2023/05/25/646f67f2c83c250028c1b836-directo.html
https://www.marca.com/ciclismo/giro-italia/2023/05/25/646f31845aeb520026e3a2c3-directo.html
https://www.marca.com/tenis/roland-garros/2023/05/25/646f5020ca474149748b45f0.html
https://www.marca.com/radio/marca-daily/2023/05/25/646e8d4946163f91aa8b45cd.html
https://www.marca.com/futbol/laliga-santander/mallorca-valencia/2023/05/25/01_0101_20230525_181_191-directo.html
https://www.marca.com/futbol/liga-japonesa/2023/05/25/646ef430e2704ee7908b45b5.html
https://www.marca.com/futbol/primera-division/2023/05/23/646cc6cc22601d7c3c8b45e4.html
https://www.marca.com/motor/formula1/2023/05/24/646e3ef6268e3efa078b459f.html
https://www.marca.com/futbol/primera-division/2023/05/25/646b912eca4741db1e8b458f.html
https://www.marca.com/motor/formula1/gp-monaco/2023/05/24/646dfa8a46163f96788b45b4.html
https://www.marca

Podemos extraer más campos de las etiquetas

In [8]:
for tag in tags:
    print('URL:', tag.get('href'))
    print('Texto:', tag.text)
    print('\r')

URL: https://www.marca.com/futbol/mercado-fichajes/2023/05/25/646f0dacc83c250028c16f55-directo.html
Texto: Mercado fichajes

URL: https://www.marca.com/futbol/primera-division/2023/05/25/646f67f2c83c250028c1b836-directo.html
Texto: Tebas directo

URL: https://www.marca.com/ciclismo/giro-italia/2023/05/25/646f31845aeb520026e3a2c3-directo.html
Texto: Giro Italia

URL: https://www.marca.com/tenis/roland-garros/2023/05/25/646f5020ca474149748b45f0.html
Texto: Alcaraz Roland Garros

URL: https://www.marca.com/radio/marca-daily/2023/05/25/646e8d4946163f91aa8b45cd.html
Texto: Mbappe Real Madrid

URL: https://www.marca.com/futbol/laliga-santander/mallorca-valencia/2023/05/25/01_0101_20230525_181_191-directo.html
Texto: Mallorca - Valencia

URL: https://www.marca.com/futbol/liga-japonesa/2023/05/25/646ef430e2704ee7908b45b5.html
Texto: Andrés Iniesta

URL: https://www.marca.com/futbol/primera-division/2023/05/23/646cc6cc22601d7c3c8b45e4.html
Texto: Cuentas descenso Liga

URL: https://www.

Puedes encontrar la documentación de beautifulsoup en https://www.crummy.com/software/BeautifulSoup/bs4/doc/

<a id="ejemplos"></a>
## Ejemplos de web scraping

### 1. Frecuencia de las palabras de un discurso  
Vamos a obtener la frecuencia de las palabras del siguiente discurso: https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html

In [None]:
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [35]:
list(contadores.items())

[('señor', 2),
 ('presidente', 2),
 ('cámara', 6),
 ('representantes', 3),
 ('vicepresidente', 1),
 ('miembros', 7),
 ('congreso', 13),
 ('primera', 3),
 ('dama', 1),
 ('estados', 26),
 ('unidos', 27),
 ('compatriotas', 2),
 ('estadounidenses', 33),
 ('transcurrido', 1),
 ('menos', 4),
 ('desde', 9),
 ('subí', 1),
 ('tribuna', 3),
 ('solemne', 1),
 ('hablar', 3),
 ('nombre', 2),
 ('pueblo', 15),
 ('estadounidense', 18),
 ('referirme', 1),
 ('preocupaciones', 1),
 ('esperanzas', 1),
 ('sueños', 1),
 ('aquella', 1),
 ('noche', 23),
 ('nuestro', 28),
 ('gobierno', 13),
 ('había', 4),
 ('tomado', 1),
 ('medidas', 2),
 ('inmediatas', 1),
 ('nueva', 7),
 ('oleada', 1),
 ('optimismo', 1),
 ('recorría', 1),
 ('país', 17),
 ('entonces', 1),
 ('habido', 2),
 ('hayamos', 1),
 ('seguido', 1),
 ('adelante', 5),
 ('visión', 1),
 ('clara', 1),
 ('misión', 2),
 ('justa', 1),
 ('volver', 6),
 ('hacer', 7),
 ('grande', 2),
 ('todos', 20),
 ('largo', 5),
 ('último', 7),
 ('hemos', 27),
 ('realizado', 1),

In [36]:
import urllib.request
from bs4 import BeautifulSoup
url = 'https://elpais.com/internacional/2018/01/31/actualidad/1517387619_036241.html'

html = urllib.request.urlopen(url)
soup2 = BeautifulSoup(html)
tags = soup2('p')

tags

discurso = ''

for tag in tags:
    if tag.text == 'Traducción de New Clips': break
    discurso += tag.text

discurso = discurso.replace(',',' ').replace('.',' ').replace(':',' ').replace('?',' ').replace('"',' ')

palabras = discurso.lower().split()

contadores = {}

for palabra in palabras:
    if len(palabra)>3 and palabra not in ['esta','para','este','estos','esos']:
        contadores[palabra] = contadores.get(palabra, 0) +1
    
import pandas as pd
df = pd.DataFrame(list(contadores.items()), columns=['palabra','contador'])
df.sort_values('contador',ascending=False)

Unnamed: 0,palabra,contador
12,estadounidenses,33
543,nuestros,28
29,nuestro,28
10,unidos,27
55,hemos,27
...,...,...
768,económica,1
767,rendición,1
766,riqueza,1
765,llevaban,1


### 2. Web Scraping de bitcoin
Extraemos el valor más reciente de Bitcoin en https://www.estrategiasdeinversion.com/cotizaciones/criptomonedas/bitcoin

![image.png](attachment:image.png)

In [48]:
import urllib.request
from bs4 import BeautifulSoup

url = 'https://www.estrategiasdeinversion.com/cotizaciones/criptomonedas/bitcoin'
html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)

tags = soup.find_all('td', class_='last-166578 quotation-great')

float(tags[0].text.replace('.','').replace(',','.'))

26252.1

### 3. Web scraping con pandas 

La función `read_html()` de pandas también permite extraer tablas de páginas web, devolviendo una lista de dataframes con todas las tablas que existan.  
Por ejemplo, vamos a hacer scraping de la siguiente tabla: https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/

Es necesario instalar la librería `lxml`: `conda install -c conda-forge lxml`

In [49]:
!pip install lxml



In [55]:
import pandas as pd
url = 'https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list/'
tablas = pd.read_html(url)
tablas[0]#.StateSt.value_counts()

Unnamed: 0,Bank NameBank,CityCity,StateSt,CertCert,Acquiring InstitutionAI,Closing DateClosing,FundFund
0,First Republic Bank,San Francisco,CA,59017,"JPMorgan Chase Bank, N.A.","May 1, 2023",10543
1,Signature Bank,New York,NY,57053,"Flagstar Bank, N.A.","March 12, 2023",10540
2,Silicon Valley Bank,Santa Clara,CA,24735,First–Citizens Bank & Trust Company,"March 10, 2023",10539
3,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020",10538
4,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020",10537
...,...,...,...,...,...,...,...
561,"Superior Bank, FSB",Hinsdale,IL,32646,"Superior Federal, FSB","July 27, 2001",6004
562,Malta National Bank,Malta,OH,6629,North Valley Bank,"May 3, 2001",4648
563,First Alliance Bank & Trust Co.,Manchester,NH,34264,Southern New Hampshire Bank & Trust,"February 2, 2001",4647
564,National State Bank of Metropolis,Metropolis,IL,3815,Banterra Bank of Marion,"December 14, 2000",4646


### 4. Agente de usuario

El **agente de usuario** es un identificador con el que un programa inicia sesión en el servidor web para solicitar datos

Cuando un usuario accede a una página web, la aplicación generalmente envía una cadena de texto que identifica al agente de usuario ante el servidor. Este texto forma parte de la petición a través de HTTP, llevando como prefijo
*User-Agent*, y generalmente incluye información como el nombre de la aplicación, la versión, el sistema operativo, y el idioma. 

La identificación de agente de usuario es uno de los criterios de exclusión utilizado para impedir el acceso a ciertas secciones de un sitio web.

Ejemplo: Obtenemos la altura de los futbolistas desde la web de transfermarkt:  
https://www.transfermarkt.es/lionel-messi/profil/spieler/28003


In [61]:
import urllib.request
from bs4 import BeautifulSoup
url = 'https://www.transfermarkt.es/lionel-messi/profil/spieler/28003'
req = urllib.request.Request(
    url, 
    data=None, 
    headers={
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36'
    }
)

f = urllib.request.urlopen(req)
soup = BeautifulSoup(f)
tags = soup.find_all(attrs={'itemprop':'height'})
altura = float(tags[0].text.replace(' m','').replace(',','.'))
altura

1.7

## <span style="color:red">Do it yourself</span>

Obtén los equipos que hayan ganado LaLiga en los últimos 4 años con su puntuación a partir de la siguiente URL: https://resultados.as.com/resultados/futbol/primera/2021_2022/clasificacion/  

| Temporada | Club        | Puntos |
|-----------|-------------|--------|
| 19/20     | Real Madrid | 87     |
| 18/19     | Barcelona   | 87     |
| ...       | ...         | ...    |

In [76]:
import pandas as pd

df = pd.DataFrame()

for temp in range(18,22):
    temporada = '20' + str(temp) + '_' + '20' + str(temp+1)
    url = 'https://resultados.as.com/resultados/futbol/primera/' + temporada + '/clasificacion/'
    print(url)
    tablas = pd.read_html(url)
    table = tablas[0]
    equipo = table.iloc[0,0].replace('1','').strip()
    puntos = table.iloc[0,1]

    df_temp = pd.DataFrame({'Temporada':[temporada],
                           'Club':[equipo],
                           'Puntos':[puntos]})
    
    df = pd.concat([df, df_temp], axis=0)

df.reset_index(drop=True)

https://resultados.as.com/resultados/futbol/primera/2018_2019/clasificacion/
https://resultados.as.com/resultados/futbol/primera/2019_2020/clasificacion/
https://resultados.as.com/resultados/futbol/primera/2020_2021/clasificacion/
https://resultados.as.com/resultados/futbol/primera/2021_2022/clasificacion/


Unnamed: 0,Temporada,Club,Puntos
0,2018_2019,Barcelona,87
1,2019_2020,Real Madrid,87
2,2020_2021,Atlético,86
3,2021_2022,Real Madrid,86


## <span style="color:red">Do it yourself</span>
Extrae el precio de la leche Pascual entera de 1L en Carrefour

In [80]:
import urllib.request
from bs4 import BeautifulSoup
url = 'https://www.carrefour.es/supermercado/leche-entera-pascual-brik-1-l/R-521006986/p?ic_source=portal-y-corporativo&ic_medium=search-empathy&ic_content=ns'

html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)
tags = soup.find_all('span', class_='buybox__price')
precio = float(tags[0].text.strip().replace(' €','').replace(',','.'))
precio

1.29

In [82]:
import sqlite3
leche = sqlite3.connect('leche.sqlite')

In [84]:
from datetime import datetime
import pandas as pd
fecha_hoy = datetime.today().strftime('%Y-%m-%d')

df = pd.DataFrame({'Producto':['Leche Entera Pascual'],
                  'Fecha':[fecha_hoy],
                  'Precio':[precio]})
df

Unnamed: 0,Producto,Fecha,Precio
0,Leche Entera Pascual,2023-05-25,1.29


In [85]:
df.to_sql('LECHE', con=leche, if_exists='append')

1

Intenta extraer el precio de alguno de estos productos: https://tienda.mercadona.es/search-results?query=leche%20entera

In [86]:
url = 'https://tienda.mercadona.es/search-results?query=leche%20entera'
html = urllib.request.urlopen(url)
soup = BeautifulSoup(html)
tags = soup.find_all('p', class_='product-price__unit-price subhead1-b')
tags

[]

<a id="sele"></a>
## Web Scraping con Selenium

Selenium es una librería que permite automatizar navegadores web

Documentación: https://selenium-python.readthedocs.io/

Instalar librerías `selenium` y `webdriver_manager`

In [None]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
import time

In [None]:
driver = webdriver.Chrome(executable_path=ChromeDriverManager().install())

### Ejemplo 1: Introducir una búsqueda en la web de carrefour y extraer el precio de los productos

In [None]:
# Accedemos a la web


In [None]:
# Aceptar cookies


In [None]:
# Buscar producto


In [None]:
# Extraer el HTML


In [None]:
from datetime import datetime
import pandas as pd
fecha_hoy = datetime.today().strftime('%Y-%m-%d')

df = pd.DataFrame({'Fecha':[fecha_hoy]*len(lista_precios),
                  'Producto':lista_productos,
                  'Precio':lista_precios})
df

In [None]:
driver.get('https://tienda.mercadona.es')

In [None]:
# Aceptar Cookies
driver.find_element('xpath','//*[@id="root"]/div[1]/div/div/button[2]').click()

In [None]:
# Código Postal
driver.find_element('xpath','//*[@id="root"]/div[4]/div/div[2]/div/form/div/input').send_keys('28043')

In [None]:
# Aceptar el código postal
driver.find_element('xpath','//*[@id="root"]/div[4]/div/div[2]/div/form/button/span').click()

In [None]:
# Cuadro de búsqueda
driver.find_element('xpath','//*[@id="search"]').send_keys('Leche entera')

In [None]:
html = driver.page_source

In [None]:
soup = BeautifulSoup(html)
productos = soup.find_all('h4',class_='subhead1-r product-cell__description-name')
lista_productos = [el.text for el in productos]
lista_productos

In [None]:
precios = soup.find_all('p',class_='product-price__unit-price subhead1-b')
lista_precios = [tag.text for tag in precios]
lista_precios

In [None]:
from datetime import datetime
import pandas as pd
fecha_hoy = datetime.today().strftime('%Y-%m-%d')

df2 = pd.DataFrame({'Fecha':[fecha_hoy]*len(lista_precios),
                  'Producto':lista_productos,
                  'Precio':lista_precios})

df3 = df2.loc[df2.Producto.str.contains('Leche')]
df3

In [None]:
driver.quit()

### Ejemplo 3: SIAR

[Link al Notebook](./Web%20Scraping%20con%20Selenium(SIAR).ipynb)