| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./1.Aprendiendo_a_Programar_con_Python.ipynb)| [⏩](./3.Una_sola_pagina_estatica.ipynb)|

# **2. Introducción al Web Scraping**

## **¿Qué es Web Scraping?**

El Web Scraping es una técnica utilizada para extraer información de páginas web de manera automatizada. Con Python, puedes realizar Web Scraping de manera efectiva utilizando bibliotecas como `BeautifulSoup` y `requests`. A continuación, te proporcionaré una explicación detallada sobre el Web Scraping en Python con ejemplos:

1. **Instalación de bibliotecas:**

Antes de comenzar, debes asegurarte de tener las bibliotecas necesarias instaladas. Puedes instalarlas utilizando `pip`, el gestor de paquetes de Python. Abre tu terminal y ejecuta los siguientes comandos:

```
pip install beautifulsoup4
pip install requests
```

![web scraping](../imagenes%20Web%20Scraping/web-scraping.webp "web scraping")

Estos comandos instalarán las bibliotecas `BeautifulSoup` y `requests`.

2. **Obtener el contenido HTML de una página web:**

El primer paso en el Web Scraping es obtener el contenido HTML de la página web que deseas analizar. Puedes utilizar la biblioteca `requests` para enviar una solicitud HTTP y obtener la respuesta. Aquí tienes un ejemplo:

In [13]:
import requests

url = "https://es.wikipedia.org/wiki/Anexo:Episodios_de_Naruto:_Shippuden"
response = requests.get(url)
html_content = response.text

print(html_content)

<!DOCTYPE html>
<html class="client-nojs vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled" lang="es" dir="ltr">
<head>
<meta charset="UTF-8">
<title>Anexo:Episodios de Naruto: Shippuden - Wikipedia, la enciclopedia libre</title>
<script>document.documentElement.className="client-js vector-feature-language-in-header-enabled vector-feature-language-in-main-page-header-disabled vector-feature-sticky-header-disabled vector-feature-page-tools-pinned-disabled vector-feature-toc-pinned-enabled vector-feature-main-menu-pinned-disabled vector-feature-limited-width-enabled vector-feature-limited-width-content-enabled vector-feature-zebra-design-disabled";(function(){var cookie=docu

En este ejemplo, utilizamos la función `get()` de requests para enviar una solicitud `GET` a la `URL` especificada y obtener la respuesta. Luego, almacenamos el contenido `HTML` en la variable `html_content` y lo imprimimos.

3. **Analizar el contenido HTML con BeautifulSoup:**

Una vez que tienes el contenido `HTML` de la página, puedes utilizar la biblioteca `BeautifulSoup` para analizarlo y extraer la información relevante. `BeautifulSoup` proporciona una `API` fácil de usar para navegar y buscar elementos `HTML`. Aquí tienes un ejemplo:

In [14]:
from bs4 import BeautifulSoup

# Suponiendo que ya tenemos el contenido HTML en la variable html_content

soup = BeautifulSoup(html_content, "html.parser")

# Ejemplo: Extraer todos los enlaces de la página
links = soup.find_all("a")
for link in links:
    print(link.get("href"))

#bodyContent
/wiki/Wikipedia:Portada
/wiki/Portal:Comunidad
/wiki/Portal:Actualidad
/wiki/Especial:CambiosRecientes
/wiki/Especial:P%C3%A1ginasNuevas
/wiki/Especial:Aleatoria
/wiki/Ayuda:Contenidos
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_es.wikipedia.org&uselang=es
/wiki/Wikipedia:Informes_de_error
#p-lang-btn
/wiki/Wikipedia:Portada
/wiki/Especial:Buscar
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Entrar&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Entrar&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/wiki/Ayuda:Introducci%C3%B3n
/wiki/Especial:MisContribuciones
/wiki/Especial:MiDiscusi%C3%B3n
https://ar.wikipedia.org/wiki/%D9%82%D8%A7%D8%A6%D9%85%D8%A9_%D8%AD%D9%84%D9%82%D8%A7%D8%AA_%D9%86%D8%A7%D8%B1%D9%88

En este ejemplo, importamos la clase `BeautifulSoup` de la biblioteca `bs4`. Luego, creamos una instancia de `BeautifulSoup` pasando el contenido `HTML` y el analizador ("`html.parser`" en este caso). A continuación, utilizamos el método `find_all()` para encontrar todos los elementos `<a>` (`enlaces`) en la página y luego imprimimos sus atributos `href`.

4. **Extraer datos específicos:**

Puedes utilizar los métodos y selectores de `BeautifulSoup` para extraer datos específicos de la página web. Por ejemplo, si deseas extraer el título de la página y una lista de elementos de una tabla, puedes hacerlo de la siguiente manera:

In [15]:
# Suponiendo que ya tenemos la instancia de BeautifulSoup en la variable soup

# Extraer el título de la página
title = soup.title.string
print("Título:", title)

# Extraer elementos de una tabla
table = soup.find("table")
rows = table.find_all("tr")
for row in rows:
    columns = row.find_all("td")
    for column in columns:
        print(column.text)

Título: Anexo:Episodios de Naruto: Shippuden - Wikipedia, la enciclopedia libre

32
15 de febrero de 2007
25 de octubre de 2007

21
8 de noviembre de 2007
3 de abril de 2008

18
3 de abril de 2008
14 de agosto de 2008

17
21 de agosto de 2008
11 de diciembre de 2008

24
18 de diciembre de 2008
4 de junio de 2009

31
11 de junio de 2009
14 de enero de 2010

8
21 de enero de 2010
11 de marzo de 2010

24
25 de marzo de 2010
26 de agosto de 2010

21
2 de septiembre de 2010
27 de enero de 2011

26
10 de febrero de 2011
28 de julio de 2011

20
4 de agosto de 2011
28 de diciembre de 2011

33
5 de enero de 2012
16 de agosto de 2012

20
23 de agosto de 2012
1 de enero de 2013

25
17 de enero de 2013
4 de julio de 2013

28
18 de julio de 2013
30 de enero de 2014

13
6 de febrero de 2014
8 de mayo de 2014

11
15 de mayo de 2014
14 de agosto de 2014

18
21 de agosto de 2014
25 de diciembre de 2014

20
8 de enero de 2015
21 de mayo de 2015

45
28 de mayo de 2015
28 de abril de 2016

21
5 de mayo de

En este ejemplo, utilizamos el método `title.string` para obtener el título de la página y lo imprimimos. Luego, encontramos la tabla en la página utilizando `soup.find("table")` y extraemos las filas y columnas de la tabla utilizando los métodos `find_all()`. Finalmente, imprimimos el contenido de cada columna.

El Web Scraping es una herramienta poderosa para extraer datos de páginas web de manera automatizada. Sin embargo, es importante tener en cuenta las políticas y términos de servicio de los sitios web que deseas rascar. Algunos sitios pueden tener restricciones o requerir permisos antes de realizar Web Scraping en sus páginas. Asegúrate de revisar y cumplir con estas políticas para garantizar un uso ético y legal del Web Scraping.

## **Páginas Web: HTML**

Las páginas web están escritas en lenguaje HTML (HyperText Markup Language), que es un lenguaje de marcado utilizado para estructurar y presentar el contenido en la web. En el contexto del Web Scraping, comprender el HTML es fundamental para extraer la información deseada de una página web. A continuación, te proporcionaré una explicación detallada sobre el HTML y cómo puedes utilizarlo en el Web Scraping con ejemplos:

1. **Estructura básica del HTML:**

Un documento HTML consta de una estructura jerárquica de elementos, donde cada elemento tiene una etiqueta de apertura y cierre. Aquí tienes un ejemplo de la estructura básica de un documento HTML:

![web](../imagenes%20Web%20Scraping/web.jpg "web")


```
<!DOCTYPE html>
<html>
  <head>
    <title>Título de la página</title>
  </head>
  <body>
    <h1>Título principal</h1>
    <p>Este es un párrafo de ejemplo.</p>
  </body>
</html>
```

En este ejemplo, el documento HTML comienza con la declaración `<!DOCTYPE html>`, seguida de la etiqueta `<html>` que envuelve todo el contenido de la página. El contenido se divide en dos secciones principales: `<head>` (encabezado) y `<body>` (cuerpo). El encabezado contiene metadatos y referencias a archivos externos, mientras que el cuerpo contiene el contenido visible de la página.

2. **Etiquetas y atributos:**

Cada elemento HTML se representa mediante etiquetas. Las etiquetas definen el tipo y la función del elemento. Por ejemplo, `<h1>` define un encabezado de nivel 1, `<p>` define un párrafo y así sucesivamente. Los elementos también pueden tener atributos, que proporcionan información adicional sobre el elemento. Aquí tienes un ejemplo:

`<a href="https://www.ejemplo.com">Enlace de ejemplo</a>`

En este ejemplo, `<a>` define un enlace y el atributo `href` especifica la URL a la que se debe dirigir el enlace.

3. **Selección de elementos para Web Scraping:**

Para extraer información específica de una página web utilizando Web Scraping, necesitarás seleccionar los elementos HTML relevantes. Puedes hacerlo utilizando selectores CSS o métodos proporcionados por bibliotecas como `BeautifulSoup`. Aquí tienes un ejemplo utilizando `BeautifulSoup`:

In [16]:
from bs4 import BeautifulSoup

html = """
<html>
  <body>
    <h1>Título principal</h1>
    <p>Este es un párrafo de ejemplo.</p>
    <ul>
      <li>Elemento 1</li>
      <li>Elemento 2</li>
      <li>Elemento 3</li>
    </ul>
  </body>
</html>
"""

soup = BeautifulSoup(html, "html.parser")
title = soup.find("h1").text
paragraphs = soup.find_all("p")
for p in paragraphs:
    print(p.text)

Este es un párrafo de ejemplo.


En este ejemplo, creamos una instancia de `BeautifulSoup` pasando el contenido HTML y el analizador. Luego, utilizamos el método `find()` para seleccionar el elemento `<h1>` y extraer su texto utilizando `.text`. También utilizamos el método `find_all()` para seleccionar todos los elementos `<p>` y recorremos cada uno para imprimir su texto.

4. **Inspeccionar elementos en el navegador:**

Una forma útil de comprender la estructura HTML de una página web es utilizando las herramientas de inspección de tu navegador web. Puedes hacer clic derecho en cualquier elemento de una página web y seleccionar "`Inspeccionar`" para ver el código HTML correspondiente. Esto te permitirá identificar las etiquetas y atributos relevantes que deseas seleccionar en tu código de Web Scraping.

Al comprender la estructura HTML de una página web y utilizar bibliotecas como `BeautifulSoup`, puedes extraer de manera efectiva la información deseada de una página web utilizando Web Scraping. Sin embargo, recuerda revisar las políticas de los sitios web y asegúrate de obtener permiso si es necesario antes de realizar Web Scraping en ellos.

## **Arquitectura Cliente-Servidor**

La arquitectura cliente-servidor es un modelo de diseño comúnmente utilizado en el desarrollo web, donde los roles de cliente y servidor están claramente definidos. En el contexto del Web Scraping, el cliente es la aplicación o script que realiza las solicitudes para obtener datos de un servidor web.

Aquí hay una explicación detallada de la arquitectura cliente-servidor para el Web Scraping:

1. **Cliente:**

El cliente es la parte que solicita y consume los recursos del servidor. En el caso del Web Scraping, el cliente puede ser un script o una aplicación desarrollada en Python. El cliente envía solicitudes HTTP al servidor y procesa las respuestas para extraer datos.

2. **Servidor:**

El servidor es la parte que responde a las solicitudes del cliente y proporciona los recursos solicitados. En el contexto del Web Scraping, el servidor es la página web o API que contiene la información que deseas extraer. El servidor recibe las solicitudes del cliente y envía las respuestas correspondientes.

3. **Protocolo de comunicación:**

La comunicación entre el cliente y el servidor se basa en un protocolo de comunicación, generalmente el Protocolo de Transferencia de Hipertexto (HTTP). El cliente envía solicitudes HTTP al servidor utilizando diferentes métodos como `GET`, `POST`, `PUT`, `DELETE`, etc. El servidor responde con códigos de estado HTTP y los datos solicitados.

4. **Ejemplo de Web Scraping con arquitectura cliente-servidor:**

Aquí hay un ejemplo básico de Web Scraping utilizando la arquitectura cliente-servidor en Python:

![Arquitectura Cliente-Servidor](../imagenes%20Web%20Scraping/Modelo-CLIENTE-SERVIDOR.jpg "Arquitectura Cliente-Servidor")

In [17]:
import requests
from bs4 import BeautifulSoup

# Enviar una solicitud GET al servidor
url = "https://es.wikipedia.org/wiki/Anexo:Episodios_de_Naruto:_Shippuden"
response = requests.get(url)

# Analizar el contenido HTML de la respuesta
soup = BeautifulSoup(response.text, "html.parser")

# Extraer información específica de la página web
title = soup.title.string
print("Título:", title)

# Realizar más solicitudes o procesar los datos extraídos
# ...


Título: Anexo:Episodios de Naruto: Shippuden - Wikipedia, la enciclopedia libre


En este ejemplo, el cliente (el script de Web Scraping) utiliza la biblioteca `requests` para enviar una solicitud `GET` al servidor, especificando la URL del sitio web de destino. El servidor responde con el contenido HTML de la página, y luego utilizamos la biblioteca `BeautifulSoup` para analizar el contenido HTML y extraer información específica, como el título de la página.

La arquitectura cliente-servidor es fundamental en el Web Scraping, ya que el cliente (la aplicación de scraping) necesita interactuar con el servidor (la página web) para obtener los datos deseados. Al comprender y utilizar esta arquitectura de manera efectiva, puedes realizar el Web Scraping de manera eficiente y obtener la información necesaria de los servidores web.

## **URLs**

![urls](../imagenes%20Web%20Scraping/urls.png "urls")

Una URL (Uniform Resource Locator) es una cadena de caracteres que se utiliza para identificar la ubicación de un recurso en la web. En el contexto del Web Scraping, las URLs son fundamentales, ya que te permiten acceder a las páginas web específicas desde las cuales deseas extraer información. A continuación, te proporcionaré una explicación detallada sobre las URLs en el Web Scraping con ejemplos:

1. **Estructura de una URL:**

Una URL generalmente consta de varios componentes que indican la ubicación y el tipo de recurso al que se desea acceder. Aquí tienes un ejemplo de la estructura básica de una URL:

`protocolo://dominio/ruta?parámetros#fragmento`

* **Protocolo:** Especifica el protocolo de comunicación utilizado, como HTTP (HyperText Transfer Protocol) o HTTPS (HTTP Secure).
* **Dominio:** Es el nombre de dominio que identifica el sitio web, como "`www.ejemplo.com`".
* **Ruta:** Especifica la ubicación del recurso dentro del sitio web, como "`/pagina1.html`" o "`/directorio/archivo.html`".
* **Parámetros:** Son datos adicionales que se envían junto con la URL, generalmente en forma de `clave=valor` separados por "`&`".
* **Fragmento:** Es un identificador opcional que especifica una sección específica de la página.

2. **Construcción de URLs en el Web Scraping:**

Al realizar Web Scraping, necesitarás construir y manipular URLs para acceder a las páginas web deseadas. Puedes hacerlo utilizando bibliotecas como `urllib.parse` en Python. Aquí tienes un ejemplo:

In [18]:
from urllib.parse import urljoin, urlencode

base_url = "https://naruto-official.com/es/anime/naruto2"
path = "/buscar"
params = {"q": "python", "page": 1}

# Construir la URL completa
url = urljoin(base_url, path)
url_with_params = f"{url}?{urlencode(params)}"

print(url_with_params)

https://naruto-official.com/buscar?q=python&page=1


En este ejemplo, utilizamos la función `urljoin()` para unir la URL base (`base_url`) con la ruta (`path`) y obtener la URL completa. Luego, utilizamos `urlencode()` para codificar los parámetros (`params`) y agregarlos a la URL utilizando el símbolo "`?`".

3. **Manipulación de URLs:**

En el Web Scraping, es común necesitar manipular las URLs para navegar por diferentes páginas o acceder a recursos específicos. Puedes hacerlo utilizando la biblioteca `urllib.parse` para dividir, modificar y reconstruir las URLs. Aquí tienes un ejemplo:

In [20]:
from urllib.parse import urlparse, urlunparse, urljoin

url = "https://www.ejemplo.com/directorio/archivo.html"

# Dividir la URL en sus componentes
parsed_url = urlparse(url)
print("Esquema:", parsed_url.scheme)
print("Dominio:", parsed_url.netloc)
print("Ruta:", parsed_url.path)

# Modificar la URL
modified_url = parsed_url._replace(scheme="https", path="/nueva-ruta.html")
new_url = urlunparse(modified_url)

# Unir URLs
base_url = "https://www.ejemplo.com"
relative_url = "/pagina.html"
absolute_url = urljoin(base_url, relative_url)

print("URL modificada:", new_url)
print("URL absoluta:", absolute_url)

Esquema: https
Dominio: www.ejemplo.com
Ruta: /directorio/archivo.html
URL modificada: https://www.ejemplo.com/nueva-ruta.html
URL absoluta: https://www.ejemplo.com/pagina.html


En este ejemplo, utilizamos la función `urlparse()` para dividir la URL en sus componentes (esquema, dominio, ruta, etc.). Luego, utilizamos `_replace()` para modificar el esquema y la ruta de la URL y `urlunparse()` para reconstruir la URL modificada. También utilizamos `urljoin()` para unir una URL relativa (`relative_url`) con una URL base (`base_url`) y obtener una URL absoluta.

Las URLs son esenciales en el Web Scraping para acceder a las páginas web específicas desde las cuales deseas extraer datos. Al comprender cómo construir y manipular URLs en el contexto del Web Scraping, puedes navegar eficazmente por los sitios web y obtener la información deseada.

## **Tipos de Web Scraping**

Existen diferentes tipos de Web Scraping que se utilizan para extraer información de páginas web de diversas formas. A continuación, te proporcionaré una explicación detallada de algunos de los tipos más comunes de Web Scraping, junto con ejemplos:

1. **Extracción de datos estática:**

Este tipo de Web Scraping implica extraer datos de páginas web estáticas que no cambian con frecuencia. El proceso generalmente implica enviar solicitudes HTTP a las páginas web y analizar el contenido HTML para extraer la información deseada. Aquí tienes un ejemplo:

In [21]:
import requests
from bs4 import BeautifulSoup

# Enviar una solicitud GET al servidor
url = "https://naruto-official.com/es"
response = requests.get(url)

# Analizar el contenido HTML de la respuesta
soup = BeautifulSoup(response.text, "html.parser")

# Extraer información específica de la página web
title = soup.title.string
print("Título:", title)

# Realizar más solicitudes o procesar los datos extraídos
# ...

Título: [Oficial] SITIO OFICIAL DE NARUTO (NARUTO & BORUTO)


En este ejemplo, utilizamos la biblioteca `requests` para enviar una solicitud `GET` a una página web y obtener su contenido HTML. Luego, utilizamos la biblioteca `BeautifulSoup` para analizar el HTML y extraer información específica, como el título de la página.

2. **Web Scraping dinámico:**

En el Web Scraping dinámico, se extraen datos de páginas web que utilizan tecnologías como JavaScript para cargar o modificar contenido después de que se ha cargado la página inicialmente. Para este tipo de Web Scraping, se utilizan bibliotecas y herramientas específicas, como `Selenium`, que permite controlar un navegador web automatizado para interactuar con el contenido cargado dinámicamente. Aquí tienes un ejemplo:

In [None]:
from selenium import webdriver

# Configurar el controlador del navegador (por ejemplo, Chrome)
driver = webdriver.Chrome()

# Abrir una página web
url = "https://www.example.com"
driver.get(url)

# Interactuar con el contenido dinámico (hacer clic, desplazarse, etc.)
# ...

# Extraer información específica de la página web
title = driver.title
print("Título:", title)

# Realizar más interacciones o procesar los datos extraídos
# ...

# Cerrar el controlador del navegador
driver.quit()

En este ejemplo, utilizamos la biblioteca `Selenium` para controlar un navegador web automatizado (en este caso, Chrome). Abrimos una página web, interactuamos con su contenido dinámico (por ejemplo, haciendo clic en elementos o desplazándonos) y luego extraemos la información deseada, como el título de la página.

3. **API de Web Scraping:**

Algunos sitios web proporcionan APIs (Interfaces de Programación de Aplicaciones) que permiten acceder a sus datos de manera estructurada y programática. En lugar de extraer datos directamente del HTML de una página web, se realizan solicitudes a la API para obtener los datos necesarios. Esto proporciona una forma más eficiente y confiable de obtener la información deseada. Aquí tienes un ejemplo:

In [None]:
import requests

# Realizar una solicitud a una API
url = "https://api.example.com/data"
response = requests.get(url)

# Extraer información de la respuesta JSON
data = response.json()
print("Datos:", data)

# Procesar los datos extraídos
# ...

En este ejemplo, utilizamos la biblioteca `requests` para realizar una solicitud `GET` a una `API` y obtener la respuesta en formato `JSON`. Luego, podemos procesar los datos extraídos de la respuesta `JSON` de manera programática.

Estos son solo algunos ejemplos de los tipos de Web Scraping más comunes. Dependiendo de los requisitos y las características de las páginas web que deseas rascar, puedes utilizar diferentes técnicas y herramientas para extraer la información necesaria. Es importante tener en cuenta las políticas y términos de uso de los sitios web y obtener permiso si es necesario antes de realizar cualquier tipo de Web Scraping.

## **Pasos del Web Scraping**

El Web Scraping es un proceso que consta de varios pasos para extraer datos de las páginas web. A continuación, te proporcionaré una explicación detallada de los pasos comunes del Web Scraping, junto con ejemplos:

1. **Identificar el sitio web y los datos objetivo:**

El primer paso es identificar el sitio web del que deseas extraer datos y determinar qué información específica deseas obtener. Esto puede incluir el análisis de la estructura de la página, la identificación de los elementos HTML relevantes y la comprensión de la ubicación de los datos de interés.

2. **Enviar solicitudes HTTP:**

Una vez que hayas identificado la página web objetivo, debes enviar solicitudes HTTP al servidor para obtener el contenido de la página. Puedes utilizar bibliotecas como `requests` en Python para enviar solicitudes `GET` o `POST` al servidor. Aquí tienes un ejemplo:

In [24]:
import requests

url = "https://naruto-official.com/es"
response = requests.get(url)

# Procesar la respuesta
content = response.text

En este ejemplo, utilizamos la biblioteca `requests` para enviar una solicitud `GET` al servidor y obtener la respuesta en forma de objeto de respuesta (`response`). Luego, podemos acceder al contenido de la respuesta utilizando `response.text`.

3. **Analizar el contenido HTML:**

Una vez que hayas obtenido el contenido de la página, necesitas analizar el código HTML para extraer la información deseada. Para ello, puedes utilizar bibliotecas como `BeautifulSoup` en Python. Aquí tienes un ejemplo:

In [25]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(content, "html.parser")

# Extraer información específica de la página web
title = soup.title.string
print("Título:", title)

# ...

Título: [Oficial] SITIO OFICIAL DE NARUTO (NARUTO & BORUTO)


En este ejemplo, utilizamos la biblioteca `BeautifulSoup` para analizar el contenido HTML (`content`) y crear un objeto soup que representa la estructura del documento HTML. Luego, podemos utilizar métodos y selectores proporcionados por `BeautifulSoup` para extraer información específica de la página web, como el título.

4. **Refinar y procesar los datos extraídos:**

Una vez que hayas extraído los datos de la página web, es posible que desees refinarlos y procesarlos según tus necesidades. Puedes realizar operaciones como filtrar, limpiar, transformar o combinar los datos extraídos para obtener la forma y estructura deseadas.

5. **Almacenar o utilizar los datos extraídos:**

El último paso es decidir qué hacer con los datos extraídos. Puedes almacenarlos en una base de datos, escribirlos en un archivo, utilizarlos para análisis o visualización, o realizar cualquier otra acción según tus objetivos. Esto dependerá de tus necesidades específicas y del propósito del Web Scraping.

Es importante tener en cuenta que el Web Scraping debe realizarse de acuerdo con las políticas y términos de uso de los sitios web y respetando los derechos de autor y la privacidad de los datos. Asegúrate de revisar las políticas de `robots.txt` del sitio web y obtener permiso si es necesario antes de realizar el Web Scraping.

## **Tu espada: Tutorial de XPATH**

XPath (XML Path Language) es un lenguaje de consulta utilizado para seleccionar nodos específicos en un documento XML. Es una forma poderosa y flexible de acceder y navegar por la estructura de un documento XML, lo que lo hace especialmente útil en el contexto del Web Scraping para extraer información de páginas web con contenido XML o HTML.

A continuación, te proporcionaré una explicación detallada de XPath junto con ejemplos:

XPath utiliza una sintaxis similar a una ruta de acceso para describir la ubicación de los nodos en un documento XML. Los nodos pueden ser elementos, atributos, texto u otros componentes de un documento XML.

Aquí tienes algunos conceptos clave de XPath:

1. **Selección de nodos:**

XPath permite seleccionar nodos específicos utilizando varios tipos de expresiones y ejes. Algunos ejemplos comunes de expresiones XPath son:

* `/`: Selecciona el nodo raíz del documento.
* `//`: Selecciona todos los nodos que coinciden con la siguiente expresión sin importar su ubicación en el documento.
* `elemento`: Selecciona todos los nodos del tipo "elemento".
* `@atributo`: Selecciona el valor de un atributo específico.
* `elemento[@atributo='valor']`: Selecciona los nodos del tipo "elemento" que tienen un atributo con un valor específico.

2. **Filtrado de nodos:**

XPath permite filtrar nodos basados en condiciones específicas utilizando predicados. Los predicados se agregan entre corchetes `[ ]` después de una expresión XPath para especificar una condición. Algunos ejemplos de predicados son:

* `elemento[@atributo='valor']`: Filtra los nodos del tipo "elemento" que tienen un atributo con un valor específico.
* `elemento[position()=1]`: Filtra el primer nodo del tipo "elemento".
* `elemento[@atributo='valor'][position()=1]`: Filtra el primer nodo del tipo "elemento" que tiene un atributo con un valor específico.

3. **Navegación entre nodos:**

XPath permite navegar entre diferentes nodos utilizando ejes. Algunos ejemplos comunes de ejes son:

* `parent::`: Selecciona el nodo padre.
* `child::`: Selecciona los nodos hijos.
* `descendant::`: Selecciona todos los nodos descendientes.
* `following-sibling::`: Selecciona los nodos hermanos que están después del nodo actual.
* `preceding-sibling::`: Selecciona los nodos hermanos que están antes del nodo actual.

Aquí tienes un ejemplo de cómo utilizar XPath en Python con la biblioteca lxml para extraer información de un documento HTML:

In [26]:
from lxml import etree

# Crear un objeto ElementTree a partir de un documento HTML
html = "<html><body><div><h1>Título</h1><p>Contenido</p></div></body></html>"
tree = etree.HTML(html)

# Utilizar XPath para seleccionar nodos específicos
titulo = tree.xpath("//h1/text()")
contenido = tree.xpath("//p/text()")

print("Título:", titulo[0])
print("Contenido:", contenido[0])

Título: Título
Contenido: Contenido


En este ejemplo, creamos un objeto `ElementTree` a partir de una cadena de texto que contiene un documento HTML. Luego, utilizamos la función `xpath()` para aplicar expresiones XPath y seleccionar el texto de los elementos `<h1>` y `<p>`. Finalmente, imprimimos los resultados obtenidos.

XPath es una herramienta muy útil en el Web Scraping, ya que permite seleccionar y extraer de manera precisa la información deseada de un documento XML o HTML. Su flexibilidad y capacidad para navegar a través de la estructura del documento lo convierten en una opción poderosa para realizar tareas de extracción de datos.

## **Tu escudo: ÉTICA**

La ética en el Web Scraping es un tema importante que se debe tener en cuenta al realizar actividades de extracción de datos de páginas web. Aunque el Web Scraping puede ser una herramienta poderosa y útil, es fundamental realizarlo de manera ética y respetar las normas y políticas establecidas por los propietarios de los sitios web.

Aquí tienes algunos aspectos clave a considerar en relación con la ética en el Web Scraping:

1. **Cumplir con los términos de servicio y políticas de robots.txt:**

Antes de realizar cualquier Web Scraping, es importante revisar los términos de servicio del sitio web y verificar si existe un archivo robots.txt. Los términos de servicio pueden proporcionar información sobre las restricciones de uso de los datos y las limitaciones impuestas por el sitio web. El archivo robots.txt, por otro lado, es un archivo utilizado por los sitios web para indicar qué partes del sitio pueden ser rastreadas por los bots de los motores de búsqueda. Respetar estas políticas y restricciones es fundamental para realizar el Web Scraping de manera ética.

2. **Obtener permiso cuando sea necesario:**

Algunos sitios web pueden tener políticas más estrictas sobre el uso de sus datos, especialmente aquellos que contienen información confidencial o privada. En estos casos, es importante obtener permiso explícito del propietario del sitio web antes de realizar cualquier Web Scraping. Siempre es recomendable contactar al propietario del sitio y solicitar su consentimiento antes de extraer información de su página web.

3. **Limitar la frecuencia y el volumen de las solicitudes:**

El Web Scraping puede ejercer una carga adicional en los servidores de un sitio web si se realizan demasiadas solicitudes en un corto período de tiempo o si se extrae una gran cantidad de datos. Esto puede afectar negativamente el rendimiento del sitio web y causar interrupciones para los usuarios legítimos. Por lo tanto, es importante ser considerado y limitar la frecuencia y el volumen de las solicitudes al realizar el Web Scraping. Utilizar retrasos entre las solicitudes y establecer límites razonables en la cantidad de datos extraídos puede ayudar a evitar problemas de rendimiento y congestionamiento del servidor.

4. **No violar la privacidad y los derechos de autor:**

Al realizar el Web Scraping, es importante respetar la privacidad de los usuarios y no extraer información personal o confidencial sin el consentimiento adecuado. Además, es esencial respetar los derechos de autor y no utilizar los datos extraídos de manera que infrinja los derechos de propiedad intelectual de los propietarios del sitio web.

5. **Utilizar los datos de manera ética:**

Los datos extraídos a través del Web Scraping deben utilizarse de manera ética y legal. Esto implica utilizar los datos para fines legítimos y respetar cualquier restricción o licencia asociada con los datos. No se deben utilizar los datos extraídos para actividades ilegales, spam, difamación o cualquier otra actividad que pueda causar daño o perjuicio.

En resumen, la ética en el Web Scraping implica respetar las políticas y restricciones establecidas por los propietarios de los sitios web, obtener permiso cuando sea necesario, limitar la frecuencia y el volumen de las solicitudes, respetar la privacidad y los derechos de autor, y utilizar los datos extraídos de manera ética y legal. Al seguir estas pautas, se puede realizar el Web Scraping de manera responsable y ética.

| **Inicio** | **atrás 1** | **Siguiente 3** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./1.Aprendiendo_a_Programar_con_Python.ipynb)| [⏩](./3.Una_sola_pagina_estatica.ipynb)|