# **Web Scraping Techniques**

### How to perform web scraping using requests, BeautifulSoup, selenium and scrapy among others.

<img src='./img/ws_techniques.jpg'>

### **Consideraciones legales y éticas**

Esta publicación no trata sobre cómo extraer datos de una página web con fines ilegales.
Hay que asegurarse de tener permiso antes de extraer ciertos tipos de datos que puede violar los términos del servicio o incluso regulaciones legales:

- Revise los términos de uso de la página web en relación a los permisos de extracción de datos.
- Priorice el uso de las APIs, si están disponibles, ya que proporcionan acceso legal a los datos.
- Póngase en contacto directamente con el propietario de la página web para comprobar el permiso de extracción de datos.

### **Conocimientos previos sobre HTML**

Además de Python, debemos tener unos conocimientos mínimos de HTML, para poder entender la estructura de la página web y saber buscar la parte que nos interesa extraer.

HTML (HyperText Markup Language) define la estructura básica y un código para la representación de contenido de una página web, que incluye textos, imágenes, videos, juegos, entre otros elementos.

Los **elementos** son la estructura básica de HTML y tienen dos propiedades básicas: **atributos** y **contenido**. Generalmente, están compuestos de una etiqueta de apertura `<nombre_elemento>` y una etiqueta de cierre `</nombre_elemento>`. Los atributos del elemento se especifican dentro de la etiqueta de apertura, mientras que el contenido se sitúa entre ambas etiquetas (por ejemplo, `<nombre-elemento atributo="valor">Contenido</nombre-elemento>`). Algunos elementos, como `<br>`, carecen de contenido y no requieren una etiqueta de cierre. 

<img src='./img/estructura_codigo_HTML.png' width=500>

Elementos HTML ( [Wikipedia](https://es.wikipedia.org/wiki/HTML#/media/Archivo:Etiquetas_en_HTML.png) )

Un documento HTML está dividido en dos partes principales el **header** (contiene los metadatos y el título de la página entre otras cosas) y el **body** (contiene el contenido de la página web: texto, imágenes, vídeos, etc). 

Vemos un ejemplo:

```
<!DOCTYPE html> 
<html> 
    <head> 
        <title> Ejemplo de página web </title> 
    </head> 
    <body> 
        <h1> ¡Bienvenidos! </h1> 
            <p> Esta es una página web de ejemplo. </p> 
    </body> 
</html>
```

**Etiquetas**

Veamos algunas de las etiquetas más comunes que aparecen dentro del **body** y que deberíamos conocer:

- `<article>`: Representa una composición auto-contenida en un documento, página, una aplicación o en el sitio, que se destina a distribuir de forma independiente o re-utilizable.

- `<h1>` a`<h6>`: encabezados o títulos del documento con diferente relevancia.

- `<table>`: define una tabla.

    - `<tr>`: fila de una tabla.

    - `<td>`: celda de una tabla (debe estar dentro de una fila).

- `<footer>` : representa el pie de un documento o sección. La información que se suele añadir en este bloque es el autor del documento, enlaces a contenido relacionado, información de copyright, avisos legales, etc.

- `<a>`: hipervínculo o enlace, dentro o fuera del sitio web. Debe definirse el parámetro de pasada por medio del atributo href. Por ejemplo: `<a href="http://www.example.com" title="Ejemplo" target="_blank" tabindex="1">Ejemplo</a>`.
​
- `<div>`: división de la página. Se recomienda, junto con css, en vez de <table> cuando se desea alinear contenido.

- `<img>`: imagen. Requiere del atributo src, que indica la ruta en la que se encuentra la imagen. Por ejemplo: `<img src="./imágenes/mifoto.jpg" />`.

- `<ol>`: etiqueta para listas ordenadas.

- `<ul>`: etiqueta para listas desordenadas.

- `<li>`: etiqueta elementos de una lista.

- `<p>`: párrafo de texto.

- `<b>`: texto en negrita (etiqueta desaprobada. Se recomienda usar la etiqueta `<strong>`).

- `<i>`: texto en cursiva (etiqueta desaprobada. Se recomienda usar la etiqueta `<em>`).

- `<s>`: texto tachado (etiqueta desaprobada. Se recomienda usar la etiqueta `<del>`).

- `<u>`: Antes texto subrayado. A partir de HTML 5 define porciones de texto diferenciadas o destacadas del resto, para indicar correcciones por ejemplo (etiqueta desaprobada en HTML 4.01 y redefinida en HTML 5).

- `<main>`: división estructural de la página que engloba el contenido principal de la misma. Dentro de esta etiqueta, por ejemplo, encontramos los `<article>`.

- `<span>`: Sirve para diferenciar un texto de otro.

- `<br>`: Sirve para provocar un salto de línea. Esta etiqueta no se cierra.

- `<hr>`: Sirve para provocar un cambio de tema entre párrafos. Esta etiqueta no se cierra.

- `<details>`: Sirve para crear una sección desplegable

- `<summary>`: Sirve para crear el título de la sección desplegable

La mayoría de etiquetas deben cerrarse como se abren pero con una barra </>

**Atributos**

Proporcionan información adicional sobre un elemento HTML. Forman parte de la etiqueta de apertura del elemento y se especifican como un par `nombre = valor`.

Por ejemplo, el atributo `href`de una etiqueta `a`define el destino del hipervínculo.

`<a href="http://www.example.com" title="Ejemplo" target="_blank" tabindex="1">Ejemplo</a>`

**Selectores**

Ayudan a identificar elementos específicos en una página web. Los más comunes:

- `element`: es un selector de elementos que selecciona todas las instancias del elemento HTML especificado.

- `.class`: selector de clase que selecciona todos los elementos con la clase especificada.

- `#id`: selector de ID que selecciona un elemento único con el ID especificado

- `name`: selector de name que selecciona el elemento con el name especificado.



**Inspección del código HTML**

La mayoría de navegadores (Safari, Firefox, Chrome) cuentan con una opción que nos permite ver el código HTML completo de la página web.

Además, existe una opción para poder inspeccionar los elementos que nos interesan. Para ello, haremos click con el botón derecho del ratón sobre el área de la página de la que queremos extraer información y elegimos la opción **Inspeccionar**. De esta manera podremos tener acceso al código HTML. Otras formas de acceder son `F12` o `Ctrl+Shift+C`.

Vemos un ejemplo de inspección de la página [Amazon](https://www.amazon.es/)


<img src='./img/inspeccionar_html.jpg' width = 1000>

### **Introducción al web scraping**

El web scraping es una técnica ampliamente utilizada que consiste en extraer datos de páginas web de manera automatizada. Cada día se genera una cantidad ingente de datos digitales en el mundo y crece a un ritmo exponencial. Para que nos hagamos una idea, la cantidad de datos generados en el mundo en el 2022 fue de 97 zettabytes (1 zettabyte = 1,000,000,000 terabytes) y algunas proyecciones sugieren que en el 2025 se podrían alcanzar los 181 zettabytes.

Sin embargo, acceder a estos datos de forma manual puede ser tedioso y costoso en términos de tiempo. Aquí es donde entra el web scraping, permitiéndonos obtener esa información de manera rápida y eficiente mediante el uso de scripts automatizados.

Aprender web scraping es bastante accesible gracias a diferentes lenguajes de programación y bibliotecas. En este artículo utilizaremos Python, ya que hoy en día es uno de los lenguajes más populares que hay, debido a su simplicidad.

Existen diferentes **métodos o técnicas para hacer web scraping**, cada uno con sus propias ventajas y casos de uso, dependiendo de la estructura de la página y los datos que se desean extraer. A continuación veremos las más comunes y cómo podemos implementarlas en Python.

### **1. Scraping usando la librería "requests"**

Es uno de los métodos más sencillos para hacer HTTP requests en Python. Permite enviar solicitudes HTTP y recibir respuestas de páginas web. Una vez hecho esto, podemos analizar el HTML de la página para extraer los datos deseados.

In [3]:
# importar bibliotecas
import requests

# Solicitar la página web
url = "https://www.amazon.es/"
response = requests.get(url)

# Comprobar si la solicitud ha sido exitosa (código 200)
if response.status_code == 200: 
    # Convertir a texto el contenido de la web
    html_content = response.text
    # Imprimir el contenido web
    print(html_content)
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

<!doctype html><html lang="es-es" class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8"/>
<!-- sp:end-feature:head-start -->
<!-- sp:feature:csm:head-open-part1 -->

<!-- sp:end-feature:csm:head-open-part1 -->
<!-- sp:feature:cs-optimization -->
<meta http-equiv='x-dns-prefetch-control' content='on'>
<link rel="dns-prefetch" href="https://images-eu.ssl-images-amazon.com">
<link rel="dns-prefetch" href="https://m.media-amazon.com">
<link rel="dns-prefetch" href="https://completion.amazon.com">
<!-- sp:end-feature:cs-optimization -->
<!-- sp:feature:csm:head-open-part2 -->

<!-- sp:end-feature:csm:head-open-part2 -->
<!-- sp:feature:aui-assets -->
<link rel="stylesheet" href="https://m.media-amazon.com/images/I/11EIQ5IGqaL._RC|01e5ncglxyL.css,01lF2n-pPaL.css,41VDcCqF+5L.css,31Zhso255KL.css,01JxBjM51UL.css,11GEPqXartL.css,01qPl4hxayL.css,01ti0q+221L.css,413Vvv3GONL.css,11TIuySqr6L.css,01Rw

### **2. Scraping usando la librería "BeautifulSoup" para analizar HTML**

"BeautifulSoup" es una biblioteca de Python que permite navegar y buscar fácilmente a través del contenido HTML o XML de una página web. A menudo se utiliza en combinación con la biblioteca "requests" para analizar y extraer datos específicos del HTML.

Lo que hace básicamente es transformar la información del HTML o XML y convertirla en un árbol de objetos de Python que permite navegar y manipular dicha información de manera más sencilla, es decir nos permite parsear el contenido HTML de una página web y navegar a través de él para poder extraer los datos.

Podemos usarlo de dos maneras:

- 'response.text': nos devuelve el contenido del response en Unicode. Debemos usarlo para respuestas textuales.
- 'response.content': nos devuelve el contenido del response en bytes. Debemos usarlo para archivos binarios como imágenes o PDFs.

**'response.text'**

In [7]:
# importar bibliotecas
import requests
from bs4 import BeautifulSoup

# Solicitar la página web
url = "https://www.amazon.es/"
response = requests.get(url)

# Comprobar si la solicitud ha sido exitosa (código 200)
if response.status_code == 200: 
    # Convertir a texto el contenido de la web
    html_content = response.text
    # Parsear el HTML con BeautifulSoul
    soup = BeautifulSoup(html_content, 'html.parser')
    # Imprimir el contenido web
    print(html_content)
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

<!doctype html><html lang="es-es" class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8"/>
<!-- sp:end-feature:head-start -->
<!-- sp:feature:csm:head-open-part1 -->

<!-- sp:end-feature:csm:head-open-part1 -->
<!-- sp:feature:cs-optimization -->
<meta http-equiv='x-dns-prefetch-control' content='on'>
<link rel="dns-prefetch" href="https://images-eu.ssl-images-amazon.com">
<link rel="dns-prefetch" href="https://m.media-amazon.com">
<link rel="dns-prefetch" href="https://completion.amazon.com">
<!-- sp:end-feature:cs-optimization -->
<!-- sp:feature:csm:head-open-part2 -->

<!-- sp:end-feature:csm:head-open-part2 -->
<!-- sp:feature:aui-assets -->
<link rel="stylesheet" href="https://m.media-amazon.com/images/I/11EIQ5IGqaL._RC|01e5ncglxyL.css,01lF2n-pPaL.css,41VDcCqF+5L.css,31Zhso255KL.css,01JxBjM51UL.css,11GEPqXartL.css,01qPl4hxayL.css,01ti0q+221L.css,413Vvv3GONL.css,11TIuySqr6L.css,01Rw

**'response.content'**

In [10]:
# importar bibliotecas
import requests
from bs4 import BeautifulSoup

# Solicitar la página web
url = "https://www.amazon.es/"
response = requests.get(url)

# Comprobar si la solicitud ha sido exitosa (código 200)
if response.status_code == 200:    
    # Parsear el HTML con BeautifulSoul    
    soup = BeautifulSoup(response.content, 'html.parser')
    # Imprimir el contenido web
    print(html_content)
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

<!doctype html><html lang="es-es" class="a-no-js" data-19ax5a9jf="dingo"><!-- sp:feature:head-start -->
<head><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8"/>
<!-- sp:end-feature:head-start -->
<!-- sp:feature:csm:head-open-part1 -->

<!-- sp:end-feature:csm:head-open-part1 -->
<!-- sp:feature:cs-optimization -->
<meta http-equiv='x-dns-prefetch-control' content='on'>
<link rel="dns-prefetch" href="https://images-eu.ssl-images-amazon.com">
<link rel="dns-prefetch" href="https://m.media-amazon.com">
<link rel="dns-prefetch" href="https://completion.amazon.com">
<!-- sp:end-feature:cs-optimization -->
<!-- sp:feature:csm:head-open-part2 -->

<!-- sp:end-feature:csm:head-open-part2 -->
<!-- sp:feature:aui-assets -->
<link rel="stylesheet" href="https://m.media-amazon.com/images/I/11EIQ5IGqaL._RC|01e5ncglxyL.css,01lF2n-pPaL.css,41VDcCqF+5L.css,31Zhso255KL.css,01JxBjM51UL.css,11GEPqXartL.css,01qPl4hxayL.css,01ti0q+221L.css,413Vvv3GONL.css,11TIuySqr6L.css,01Rw

### **3. Usando la biblioteca "lxml"**

lxml es una biblioteca potente y rápida para procesar XML y HTML en Python. Es similar BeautifulSoup pero más rápida y eficiente, especialmente cuando se trabaja con grandes conjuntos de datos.

In [17]:
# importar bibliotecas
import requests
from lxml import html

# Solicitar la página web
url = "https://www.amazon.es/"
response = requests.get(url)

# Comprobar si la solicitud ha sido exitosa (código 200)
if response.status_code == 200:    
    # Parsear el HTML con html   
    tree = html.fromstring(response.content)
    # Imprimir el contenido web
    print(tree)
else:
    print(f"Failed to retrieve the webpage. Status code: {response.status_code}")

# extraer los datos expecíficos usando XPath
titles = tree.xpath('//title/text()')
for title in titles:
    print(title)

<Element html at 0x15791151bd0>
Amazon.es: compra online de electrónica, libros, deporte, hogar, moda y mucho más.


### **4. Scraping con navegación usando la librería "selenium"**

Selenium es una herramienta de automatización web que puede interactuar con páginas web, lo que le permite extraer contenido cargado dinámicamente por JavaScript, como los sitios construidos con React o Angular. Puede simular un usuario real navegando por la web, haciendo clic en botones y completando formularios.

Selenium necesita un webdriver (navegador). En nuestro caso usaremos chrome. Para instalarlo ejecutaremos en la terminal: `pip install webdriver-manager`.

In [14]:
# Instalar librerías
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# Indicamos el Path dónde está el web driver (por ejemplo, ChromeDriver)
#driver_path = "C:/chromedriver-win64/chromedriver.exe"

# URL de la web que queremos hacer scraping
url = "https://www.amazon.es/"

# Creamos una instancia de Service con la ruta al driver o utilizando ChromeDriverManager
service = Service(ChromeDriverManager().install())

# Creamos una nueva instancia al webdrive
driver = webdriver.Chrome(service=service)

# Abrimos la url
driver.get(url)

# Extraemos el contenido HTML de la url
html_content = driver.page_source
print(html_content)

# Cerramos el navegador
driver.quit()

<html lang="es-es" class=" a-js a-audio a-video a-canvas a-svg a-drag-drop a-geolocation a-history a-webworker a-autofocus a-input-placeholder a-textarea-placeholder a-local-storage a-gradients a-hires a-transform3d a-touch-scrolling a-text-shadow a-text-stroke a-box-shadow a-border-radius a-border-image a-opacity a-transform a-transition null" data-19ax5a9jf="dingo" data-aui-build-date="3.24.7-2024-08-27" data-useragent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36" data-platform="Win32"><!-- sp:feature:head-start --><head><script async="" src="https://images-eu.ssl-images-amazon.com/images/I/31bJewCvY-L.js" crossorigin="anonymous"></script><script>var aPageStart = (new Date()).getTime();</script><meta charset="utf-8">
<!-- sp:end-feature:head-start -->
<!-- sp:feature:csm:head-open-part1 -->

<script type="text/javascript">var ue_t0=ue_t0||+new Date();</script>
<!-- sp:end-feature:csm:head-open-part1 -->
<!-- sp:featu

### **5. Scraping utilizando Selectores CSS y XPath con "Scrapy"**

Scrapy es un framework más avanzado y potente que permite realizar scraping a gran escala,de forma eficiente y rápida, sobre todo cuando se trata de múltiples páginas o sitios complejos. Haciendo uso de selectores CSS y XPath nos permite extraer datos directamente de los elementos HTML.

Para instalarlo debemos ejecutar en la terminal: `pip install scrapy`.

En el caso de que recibamos el warning 'REQUEST_FINGERPRINTER_IMPLEMENTATION' está obsoleto, podemos resolverlo de varias maneras:

- Creamos un script llamado "settings.py" con el siguiente contenido: `REQUEST_FINGERPRINTER_IMPLEMENTATION = '2.7'` y lo guardamos en la carpeta principal del proyecto Scrapy.

- O bien lo configuramos directamente en el script de Spider.

Creamos el script "example_spider.py" y guardamos el siguiente código de ejemplo:

In [None]:
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    custom_settings = {
        'REQUEST_FINGERPRINTER_IMPLEMENTATION': '2.7',
        'ROBOTSTXT_OBEY': True, # validamos el archivo robots.txt
        'FEED_EXPORT_ENCODING': 'utf-8' # codificación usada en la exportación
    }
    start_urls = ['https://www.amazon.es/']

    def parse(self, response):
        # Usamos selectores CSS o XPath para extraer el título
        for title in response.css('title::text'):
            yield {'title': title.get()}

Ejecutamos el spider en la terminal con el siguiente código: `scrapy runspider example_spider.py -o title_amazon.json`

Se generará un archivo json llamado "title_amazon" cuyo contenido es:
```
{"title": "Amazon.es: compra online de electrónica, libros, deporte, hogar, moda y mucho más."}
```

### **6. Scraping a través de APIs**

Muchas veces, los datos que queremos extraer están disponibles a través de APIs (Interfaz de Programación de Aplicaciones). Estas APIs permiten acceder a los datos directamente en un formato estructurado, como JSON, sin necesidad de parsear HTML.

Vemos un ejemplo de uso de NewsAPI: me devuelve 5 titulares de noticias actuales en EE.UU.

In [18]:
import requests

# Parámetros para la consulta
api_key = 'tu_api_key'  # Regístrate en newsapi.org para obtener tu API key
url = f'https://newsapi.org/v2/top-headlines?country=us&apiKey={api_key}'

# Hacer la solicitud GET
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    data = response.json()
    # Mostrar los primeros 5 titulares
    for i, article in enumerate(data['articles'][:5]):
        print(f"{i + 1}. {article['title']}")
else:
    print("Error en la solicitud:", response.status_code)

1. ‘The Legend of Zelda: Echoes of Wisdom’ preview: Zelda’s finally the star - The Washington Post
2. Asteroid will imminently burn up in Earth’s atmosphere over Philippines - CNN
3. Linda Sun: A Ferrari, a Honolulu hideaway, salted duck for alleged China spy - BBC.com
4. UK shares down after Nvidia plunges almost 10% - BBC.com
5. Lady Gaga, Joaquin Phoenix bring ‘Joker: Folie à Deux’ to Venice Film Festival - The Associated Press


### **Conclusión**

El web scraping es una técnica esencial para la recopilación automatizada de datos en el mundo actual, donde la información digital está en constante crecimiento. Existen diferentes enfoques que podemos utilizar dependiendo de la estructura del sitio y los datos que queramos obtener, desde herramientas sencillas como BeautifulSoup, hasta frameworks más avanzados como Scrapy, pasando por soluciones como Selenium para contenido dinámico o simplemente APIs.

Cada técnica tiene su propio conjunto de ventajas y casos de uso. Es importante elegir la más adecuada según el escenario y, por supuesto, tener en cuenta las consideraciones éticas y legales del scraping, como respetar los términos de uso de las páginas web y ser consciente del impacto que nuestras solicitudes pueden tener en el servidor.

### **Referencias**

- [Wikipedia](https://es.wikipedia.org/)

- [Python](https://www.python.org/)

- [Requests](https://pypi.org/project/requests/)

- [BeautifulSoup](https://pypi.org/project/beautifulsoup4/)

- [Selenium](https://pypi.org/project/selenium/)

- [Scrapy](https://scrapy.org/)