| **Inicio** | **atrás 2** | **Siguiente 4** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./2.Introduccion_al_Web_Scraping.ipynb)| [⏩](./4.Varias_Paginas_del_mismo_dominio.ipynb)|

# **3. Una sola pagina estática**

## **Introducción**

El Web Scraping de una sola página estática implica extraer datos de una página web que no cambia dinámicamente y cuyo contenido es fijo. Este tipo de Web Scraping se utiliza cuando se desea obtener información específica de una página web estática sin interactuar con ella.

A continuación, te proporcionaré una explicación detallada junto con un ejemplo de cómo realizar Web Scraping en una sola página estática utilizando Python y la biblioteca `requests`:

1. **Importar las bibliotecas necesarias:**

En primer lugar, debemos importar la biblioteca `requests` para enviar solicitudes HTTP y obtener el contenido de la página web.

In [1]:
import requests

2. **Enviar una solicitud HTTP y obtener el contenido de la página:**

Utilizamos la función `get()` de `requests` para enviar una solicitud `GET` a la URL de la página web y obtener su contenido.

In [6]:
url = "https://es.wikipedia.org/wiki/Anexo:Episodios_de_Naruto:_Shippuden"
response = requests.get(url)
content = response.text

La respuesta de la solicitud se almacena en `response`, y el contenido HTML de la página se almacena en `content`.

3. **Analizar el contenido HTML:**

Para extraer información específica de la página, necesitamos analizar el contenido HTML utilizando una biblioteca como `BeautifulSoup`. Importamos `BeautifulSoup` y creamos un objeto `soup` pasando el contenido HTML y el analizador deseado.

In [7]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(content, "html.parser")

4. **Extraer datos de la página web:**

Utilizando métodos y selectores proporcionados por `BeautifulSoup`, podemos extraer datos específicos de la página web. Por ejemplo, si deseamos extraer todos los enlaces de la página, podemos usar el método `find_all()` junto con el selector "`a`".

In [8]:
links = soup.find_all("a")
for link in links:
    print(link.get("href"))

#bodyContent
/wiki/Wikipedia:Portada
/wiki/Portal:Comunidad
/wiki/Portal:Actualidad
/wiki/Especial:CambiosRecientes
/wiki/Especial:P%C3%A1ginasNuevas
/wiki/Especial:Aleatoria
/wiki/Ayuda:Contenidos
//donate.wikimedia.org/wiki/Special:FundraiserRedirector?utm_source=donate&utm_medium=sidebar&utm_campaign=C13_es.wikipedia.org&uselang=es
/wiki/Wikipedia:Informes_de_error
#p-lang-btn
/wiki/Wikipedia:Portada
/wiki/Especial:Buscar
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Entrar&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Crear_una_cuenta&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/w/index.php?title=Especial:Entrar&returnto=Anexo%3AEpisodios+de+Naruto%3A+Shippuden
/wiki/Ayuda:Introducci%C3%B3n
/wiki/Especial:MisContribuciones
/wiki/Especial:MiDiscusi%C3%B3n
https://ar.wikipedia.org/wiki/%D9%82%D8%A7%D8%A6%D9%85%D8%A9_%D8%AD%D9%84%D9%82%D8%A7%D8%AA_%D9%86%D8%A7%D8%B1%D9%88

Este ejemplo imprime los valores del atributo "`href`" de todos los elementos de anclaje (`<a>`) encontrados en la página.

5. **Procesar y utilizar los datos extraídos:**

Una vez que hayamos extraído los datos de la página web, podemos procesarlos según nuestras necesidades. Esto puede incluir la limpieza de los datos, su transformación a un formato deseado o su almacenamiento en una base de datos.

In [9]:
for link in links:
    clean_link = link.get("href").strip()
    # Realizar acciones adicionales con el enlace extraído
    # ...

En este ejemplo, se realiza una limpieza adicional eliminando los espacios en blanco alrededor del enlace extraído antes de realizar cualquier acción adicional.

Recuerda que al realizar Web Scraping, es importante seguir las buenas prácticas éticas y respetar las políticas del sitio web objetivo. Asegúrate de revisar los términos de servicio y las restricciones de Web Scraping del sitio web antes de extraer datos.

##  **Requests y lxml (Extracción de WIKIPEDIA)**

Para realizar la extracción de datos de Wikipedia utilizando las bibliotecas `requests` y `lxml`, necesitarás enviar una solicitud HTTP a la página de Wikipedia que deseas extraer y luego analizar el contenido HTML para obtener la información relevante.

Aquí tienes una explicación detallada con ejemplos de cómo utilizar `requests` y `lxml` para extraer datos de Wikipedia:

1. **Importar las bibliotecas necesarias:**

Comienza importando las bibliotecas `requests` y `lxml`. `Requests` se utiliza para enviar solicitudes `HTTP` y `lxml` para analizar y extraer datos del contenido `HTML`.

In [15]:
import requests
from lxml import etree

2. **Enviar una solicitud HTTP y obtener el contenido de la página:**

Utiliza la función `get()` de `requests` para enviar una solicitud `GET` a la URL de la página de Wikipedia que deseas extraer.

In [16]:
url = "https://es.wikipedia.org/wiki/Python"
response = requests.get(url)
content = response.text

En este ejemplo, utilizamos la página de Wikipedia en español sobre Python como ejemplo. Asegúrate de reemplazar "`https://es.wikipedia.org/wiki/Python`" con la URL de la página de Wikipedia que deseas extraer.

3. **Analizar el contenido HTML:**

Utiliza la clase `etree.HTML()` de `lxml` para analizar el contenido `HTML` y crear un objeto `ElementTree` que representa la estructura del documento `HTML`.

In [17]:
tree = etree.HTML(content)

4. **Utilizar XPath para extraer datos:**

Utiliza `XPath` para seleccionar y extraer los datos específicos que deseas obtener de la página de Wikipedia. Puedes utilizar la función `xpath()` del objeto `ElementTree` para aplicar expresiones `XPath` y seleccionar los nodos deseados.

In [21]:
# Extraer el título de la página
title = tree.xpath("//h1[@id='firstHeading']/text()")
if title:
    print("Título:", title[0])
else:
    print("No se encontró el título.")

# Extraer el contenido del primer párrafo
first_paragraph = tree.xpath("//div[@id='mw-content-text']//p[1]/text()")
if first_paragraph:
    print("Primer párrafo:", first_paragraph[0])
else:
    print("No se encontró el primer párrafo.")

No se encontró el título.
Primer párrafo:  es un 


En este ejemplo, utilizamos `XPath` para seleccionar el título de la página (que se encuentra dentro de un elemento `<h1>` con el atributo `id='firstHeading'`) y el contenido del primer párrafo (que se encuentra dentro de un elemento `<div>` con el atributo `id='mw-content-text'` y cualquier elemento `<p>` hijo en la posición `1`).

5. **Procesar y utilizar los datos extraídos:**

Una vez que hayas extraído los datos de Wikipedia, puedes procesarlos según tus necesidades y realizar las acciones adicionales deseadas.

In [14]:
# Realizar acciones adicionales con los datos extraídos
# ...

En este punto, puedes realizar cualquier procesamiento adicional en los datos extraídos, como limpiarlos, transformarlos o almacenarlos en una base de datos, según tus requisitos específicos.

Recuerda que al realizar Web Scraping en Wikipedia u otros sitios web, es importante cumplir con las políticas de uso y los términos de servicio del sitio. Asegúrate de revisar y respetar cualquier restricción o política aplicable antes de realizar extracciones de datos.

## **Requests y Beautiful Soup (Extracción de STACKOVERFLOW)**

Para realizar la extracción de datos de Stack Overflow utilizando las bibliotecas `requests` y `BeautifulSoup`, necesitarás enviar una solicitud HTTP a la página de Stack Overflow que deseas extraer y luego utilizar `BeautifulSoup` para analizar y extraer los datos relevantes.

Aquí tienes una explicación detallada con ejemplos de cómo utilizar `requests` y `BeautifulSoup` para extraer datos de Stack Overflow:

1. **Importar las bibliotecas necesarias:**

Comienza importando las bibliotecas `requests` y `BeautifulSoup`. `Requests` se utiliza para enviar solicitudes `HTTP` y `BeautifulSoup` para analizar y extraer datos del contenido `HTML`.

In [22]:
import requests
from bs4 import BeautifulSoup

2. **Enviar una solicitud HTTP y obtener el contenido de la página:**

Utiliza la función `get()` de `requests` para enviar una solicitud `GET` a la URL de la página de Stack Overflow que deseas extraer.

In [23]:
url = "https://stackoverflow.com/questions/tagged/python"
response = requests.get(url)
content = response.text

En este ejemplo, utilizamos la página de preguntas con la etiqueta "`python`" en Stack Overflow como ejemplo. Asegúrate de reemplazar "`https://stackoverflow.com/questions/tagged/python`" con la URL de la página de Stack Overflow que deseas extraer.

3. **Analizar el contenido HTML:**

Utiliza `BeautifulSoup` para analizar el contenido `HTML` y crear un objeto `soup` que representa la estructura del documento `HTML`.

In [24]:
soup = BeautifulSoup(content, "html.parser")

4. **Utilizar métodos de BeautifulSoup para extraer datos:**

Utiliza los métodos y selectores proporcionados por `BeautifulSoup` para seleccionar y extraer los datos específicos que deseas obtener de la página de Stack Overflow. Puedes utilizar métodos como `find_all()` o selectores `CSS` para seleccionar los elementos deseados.

In [25]:
# Extraer los títulos de las preguntas
question_titles = soup.find_all("a", class_="question-hyperlink")
for title in question_titles:
    print("Título:", title.text)

# Extraer las etiquetas de las preguntas
question_tags = soup.select(".tags .post-tag")
for tag in question_tags:
    print("Etiqueta:", tag.text)

Título: 
                    Would electrically powered thrusters on JWST have made it last for decades longer?
                
Título: 
                    Geometry Nodes: Mesh curve index math
                
Título: 
                    Indeclinables: What are the strategies good Latinists use to deal with them?
                
Título: 
                    Why Is Hydrogen in HSO3- Connected to Oxygen Instead of Sulfur?
                
Título: 
                    minting cNFTs with Solana Pay QR code
                
Título: 
                    What adverb could I use before "apologizing" to mean "a lot"?
                
Título: 
                    Why is Putin translated as 普京 but not 普定?
                
Título: 
                    A different way of saying "rest of"
                
Título: 
                    One translation uses "were used" while the other uses "could be used"
                
Título: 
                    If G is a connected Graph with a cycle, if you 

En este ejemplo, utilizamos `find_all()` para extraer los títulos de las preguntas, seleccionando los elementos `<a>` con la clase `question-hyperlink`. También utilizamos `select()` para extraer las etiquetas de las preguntas, utilizando el selector `CSS` `.tags` `.post-tag`.

5. **Procesar y utilizar los datos extraídos:**

Una vez que hayas extraído los datos de Stack Overflow, puedes procesarlos según tus necesidades y realizar las acciones adicionales deseadas.

In [26]:
# Realizar acciones adicionales con los datos extraídos
# ...

En este punto, puedes realizar cualquier procesamiento adicional en los datos extraídos, como limpiarlos, transformarlos o almacenarlos en una base de datos, según tus requisitos específicos.

Recuerda que al realizar Web Scraping en Stack Overflow u otros sitios web, es importante cumplir con las políticas de uso y los términos de servicio del sitio. Asegúrate de revisar y respetar cualquier restricción o política aplicable antes de realizar extracciones de datos.

## **Scrapy: Introducción**


Scrapy es un framework de Python utilizado para realizar web scraping de manera eficiente y estructurada. Proporciona una forma poderosa de extraer datos de sitios web al automatizar el proceso de envío de solicitudes, el manejo de respuestas y la extracción de datos de las páginas. Scrapy es altamente escalable y se utiliza ampliamente en proyectos de web scraping de gran envergadura.

Aquí tienes una explicación detallada de Scrapy con ejemplos:

1. **Instalación de Scrapy:**

Para comenzar, debes instalar `Scrapy` en tu entorno de Python. Puedes hacerlo ejecutando el siguiente comando en tu terminal:

`pip install scrapy`

2. **Creación de un nuevo proyecto Scrapy:**

Utiliza el comando `scrapy startproject` para crear un nuevo proyecto `Scrapy`. Esto creará una estructura básica de directorios y archivos para tu proyecto.

`scrapy startproject mi_proyecto`

3. **Creación de un spider:**

Un spider es un componente fundamental de Scrapy que define cómo se realizará el web scraping en un sitio web específico. Puedes crear un nuevo spider utilizando el comando `scrapy genspider` seguido del nombre del `spider` y el dominio del sitio web que deseas rastrear.

```
cd mi_proyecto
scrapy genspider mi_spider ejemplo.com
```

Esto creará un archivo Python en la carpeta spiders de tu proyecto que contiene la estructura básica de un spider.

4. **Configuración del spider:**

Abre el archivo del spider recién creado y personalízalo según tus necesidades. Deberás definir la URL inicial, los selectores `XPath` o `CSS` para extraer los datos y la lógica para seguir los enlaces y navegar por las páginas.

```
import scrapy

class MiSpider(scrapy.Spider):
    name = 'mi_spider'
    start_urls = ['http://ejemplo.com']

    def parse(self, response):
        # Extracción de datos utilizando selectores XPath o CSS
        # Lógica para seguir los enlaces y navegar por las páginas
        # ...

```

5. **Ejecución del spider:**

Para ejecutar el spider y comenzar el proceso de web scraping, utiliza el comando `scrapy crawl` seguido del nombre del spider que deseas ejecutar.

`scrapy crawl mi_spider`

Scrapy enviará solicitudes HTTP a las URL especificadas, analizará las respuestas y ejecutará el método `parse()` del spider para extraer los datos.

6. **Procesamiento de los datos extraídos:**

Dentro del método `parse()` del spider, puedes utilizar los selectores `XPath` o `CSS` para extraer los datos de la respuesta `HTTP` y procesarlos según tus necesidades. Puedes almacenarlos en un archivo, guardarlos en una base de datos o realizar cualquier otro tipo de procesamiento.

```
def parse(self, response):
    # Extracción de datos utilizando selectores XPath o CSS
    datos = response.xpath('//div[@class="mi-clase"]/text()').getall()

    # Procesamiento de los datos extraídos
    for dato in datos:
        # Realizar acciones adicionales con los datos extraídos
        # ...

```

7. **Configuración adicional:**

Scrapy ofrece muchas opciones de configuración adicional para ajustar el comportamiento del web scraping. Puedes personalizar la velocidad de rastreo, establecer límites de profundidad, habilitar el seguimiento de cookies, entre otras opciones. Revisa la documentación oficial de Scrapy para conocer todas las posibilidades de configuración.

Scrapy es una herramienta poderosa y flexible para realizar web scraping en Python. Permite automatizar el proceso de extracción de datos de sitios web y ofrece una gran cantidad de funcionalidades para manejar de manera eficiente diferentes escenarios de extracción. Recuerda siempre ser ético y respetar los términos de servicio de los sitios web que estás rastreando.

## **Scrapy (Extracción de STACKOVERFLOW)**

Para realizar la extracción de datos de Stack Overflow utilizando Scrapy, seguirás los siguientes pasos:

1. **Crear un nuevo proyecto Scrapy:**

Utiliza el comando `scrapy startproject` para crear un nuevo proyecto `Scrapy` en tu entorno de trabajo. Esto generará una estructura de directorios y archivos para tu proyecto.

`scrapy startproject stackoverflow_scraper`

2. **Crear un spider:**

Un spider en Scrapy define cómo se realizará el web scraping en un sitio web específico. Utiliza el comando `scrapy genspider` para crear un nuevo spider dentro de tu proyecto.

```
cd stackoverflow_scraper
scrapy genspider stackoverflow_spider stackoverflow.com
```

Esto creará un archivo Python en la carpeta `spiders` de tu proyecto que contiene la estructura básica de un `spider`.

3. **Configurar el spider:**

Abre el archivo del `spider` recién creado y personalízalo para extraer los datos específicos de Stack Overflow. Deberás definir las URLs iniciales, los selectores `XPath` o `CSS` para extraer los datos y la lógica para seguir los enlaces y navegar por las páginas.

```
import scrapy

class StackOverflowSpider(scrapy.Spider):
    name = 'stackoverflow'
    start_urls = ['https://stackoverflow.com/questions']

    def parse(self, response):
        # Extracción de datos utilizando selectores XPath o CSS
        # Lógica para seguir los enlaces y navegar por las páginas
        # ...
```

4. **Definir los selectores XPath o CSS:**

Utiliza los selectores `XPath` o `CSS` para identificar y extraer los elementos deseados de las páginas de Stack Overflow. Puedes utilizar el inspector de elementos del navegador para encontrar los selectores adecuados.

```
def parse(self, response):
    # Extracción de datos utilizando selectores XPath o CSS
    question_titles = response.css('.question-summary h3 a::text').getall()

    # Procesamiento de los datos extraídos
    for title in question_titles:
        print("Título:", title)
```

En este ejemplo, utilizamos el selector `CSS` `.question-summary h3 a::text` para extraer los títulos de las preguntas de Stack Overflow.

5. **Ejecutar el spider:**

Para ejecutar el `spider` y comenzar el proceso de web scraping, utiliza el comando `scrapy crawl` seguido del nombre del `spider`.

`scrapy crawl stackoverflow`

Scrapy enviará solicitudes HTTP a las URL especificadas, analizará las respuestas y ejecutará el método `parse()` del spider para extraer los datos.

Scrapy manejará automáticamente el manejo de solicitudes y respuestas, el seguimiento de enlaces y la navegación por las páginas. Puedes agregar más lógica dentro del método `parse()` para seguir enlaces adicionales, paginación o cualquier otra acción requerida para extraer los datos completos que deseas.

Recuerda que al utilizar Scrapy para web scraping, es importante respetar las políticas de uso y los términos de servicio del sitio web que estás raspando. Asegúrate de revisar y cumplir cualquier restricción o política aplicable antes de realizar extracciones.

## **ATENCIÓN: Scrapy no funciona con todas las páginas webs**

Es cierto que Scrapy puede no funcionar con todas las páginas web, especialmente aquellas que tienen estructuras y mecanismos de protección más complejos. A continuación, te explicaré algunas razones por las cuales Scrapy puede no ser efectivo en ciertos casos, junto con ejemplos ilustrativos:

1. **Protección anti-scraping:**

 Algunos sitios web implementan medidas para evitar el web scraping, como el bloqueo de direcciones IP, la detección de patrones de acceso automatizado o el uso de `CAPTCHAs`. Estas medidas pueden dificultar o impedir que Scrapy acceda y extraiga datos del sitio. Por ejemplo, si un sitio web bloquea el acceso a ciertas `IP` sospechosas, Scrapy podría encontrarse con errores de conexión o bloqueo.

2. **Generación dinámica de contenido:**

 Algunos sitios web utilizan tecnologías como JavaScript para generar contenido de manera dinámica. Scrapy no interpreta JavaScript de forma automática, lo que significa que solo obtendrá el código HTML inicial de la página sin ejecutar el JavaScript. Como resultado, los datos generados dinámicamente pueden no estar disponibles para Scrapy. Por ejemplo, si un sitio web carga contenido adicional mediante solicitudes AJAX, es posible que Scrapy no pueda extraer estos datos adicionales.

3. **Estructura compleja de la página:**

 Si la estructura HTML de una página web es compleja o utiliza formatos no estándar, los selectores `XPath` o `CSS` utilizados por Scrapy pueden no ser suficientes para extraer los datos deseables. Puede ser necesario escribir reglas de extracción personalizadas o utilizar otras bibliotecas específicas para analizar y procesar la página. Por ejemplo, si una página web utiliza atributos de datos personalizados o una estructura HTML anidada compleja, los selectores predeterminados de Scrapy pueden no ser suficientes.

4. **Acceso a contenido protegido:**

 Algunos sitios web requieren autenticación o tienen restricciones de acceso para cierto contenido. Scrapy puede tener dificultades para realizar la autenticación o superar estas restricciones. En estos casos, puede ser necesario implementar lógica adicional para enviar datos de inicio de sesión o manejar cookies de manera adecuada.

Si te encuentras con alguna de estas situaciones, podrías considerar alternativas a Scrapy, como utilizar otras bibliotecas de web scraping más específicas para casos especiales o incluso desarrollar un script personalizado para extraer los datos necesarios. En algunos casos, es posible que debas comunicarte directamente con los propietarios del sitio web para obtener permisos o buscar una API oficial para acceder a los datos de manera más estructurada.

Recuerda que cuando realizas web scraping, es importante respetar las políticas de uso de los sitios web y cumplir con los términos de servicio. Asegúrate de leer y comprender las políticas del sitio antes de realizar cualquier extracción de datos.

## **Scrapy (Extracción de DIARIO EL UNIVERSO)**

Para realizar la extracción de datos del Diario El Universo utilizando Scrapy, seguirás los siguientes pasos:

1. **Crear un nuevo proyecto Scrapy:**

Utiliza el comando `scrapy startproject` para crear un nuevo proyecto `Scrapy` en tu entorno de trabajo. Esto generará una estructura de directorios y archivos para tu proyecto.

2. **Crear un spider:**

Un spider en Scrapy define cómo se realizará el web scraping en un sitio web específico. Utiliza el comando `scrapy genspider` para crear un nuevo spider dentro de tu proyecto.

```
cd universo_scraper
scrapy genspider universo_spider www.eluniverso.com
```

Esto creará un archivo Python en la carpeta `spiders` de tu proyecto que contiene la estructura básica de un spider.

3. **Configurar el spider:**

Abre el archivo del `spider` recién creado y personalízalo para extraer los datos específicos del Diario El Universo. Deberás definir las URLs iniciales, los selectores `XPath` o `CSS` para extraer los datos y la lógica para seguir los enlaces y navegar por las páginas.

```
import scrapy

class UniversoSpider(scrapy.Spider):
    name = 'universo'
    start_urls = ['https://www.eluniverso.com/']

    def parse(self, response):
        # Extracción de datos utilizando selectores XPath o CSS
        # Lógica para seguir los enlaces y navegar por las páginas
        # ...
```

4. **Definir los selectores XPath o CSS:**

Utiliza los selectores `XPath` o `CSS` para identificar y extraer los elementos deseados de las páginas del Diario El Universo. Puedes utilizar el inspector de elementos del navegador para encontrar los selectores adecuados.

```
def parse(self, response):
    # Extracción de datos utilizando selectores XPath o CSS
    news_titles = response.css('.post-title a::text').getall()

    # Procesamiento de los datos extraídos
    for title in news_titles:
        print("Título:", title)
```

En este ejemplo, utilizamos el selector `CSS` `.post-title a::text` para extraer los títulos de las noticias del Diario El Universo.

5. **Ejecutar el spider:**

Para ejecutar el spider y comenzar el proceso de web scraping, utiliza el comando `scrapy crawl` seguido del nombre del `spider`.

`scrapy crawl universo`

Scrapy enviará solicitudes HTTP a las URL especificadas, analizará las respuestas y ejecutará el método `parse()` del spider para extraer los datos.

Scrapy manejará automáticamente el manejo de solicitudes y respuestas, el seguimiento de enlaces y la navegación por las páginas. Puedes agregar más lógica dentro del método `parse()` para seguir enlaces adicionales, paginación o cualquier otra acción requerida para extraer los datos completos que deseas.

Recuerda que al utilizar Scrapy para web scraping, es importante respetar las políticas de uso y los términos de servicio del sitio web que estás raspando. Asegúrate de revisar y cumplir cualquier restricción o política aplicable antes de realizar extracciones.

## **Ejecutar Scrapy sin la Terminal (+ Jupyter Notebook, Google Colab o Similares)**

Para ejecutar Scrapy en entornos como Jupyter Notebook, Google Colab o similares sin utilizar la terminal, puedes seguir los siguientes pasos detallados con ejemplos:

1. **Instalar Scrapy:**

Asegúrate de tener `Scrapy` instalado en tu entorno. Puedes instalarlo utilizando el comando `pip`:

`pip install scrapy`

2. **Importar las bibliotecas necesarias:**

En tu entorno, importa las bibliotecas necesarias para ejecutar `Scrapy`:

In [28]:
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider
from scrapy.http import Request

3. **Definir el Spider:**

Crea una clase que herede de Spider y defina la lógica de extracción de datos dentro del método `parse()`:

In [31]:
class MySpider(Spider):
    name = 'myspider'

    def start_requests(self):
        # Definir las URLs iniciales
        start_urls = ['https://naruto-official.com/es']

        for url in start_urls:
            yield Request(url=url, callback=self.parse)

    def parse(self, response):
        # Extracción de datos utilizando selectores XPath o CSS
        # ...


4. **Ejecutar el proceso de Scrapy:**

Crea una instancia de `CrawlerProcess` y pasa tu spider como argumento. Luego, llama al método `start()` para iniciar el proceso de scraping:

In [32]:
process = CrawlerProcess()
process.crawl(MySpider)
process.start()

2023-06-16 19:26:39 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: scrapybot)
2023-06-16 19:26:39 [scrapy.utils.log] INFO: Versions: lxml 4.8.0.0, libxml2 2.9.12, cssselect 1.2.0, parsel 1.6.0, w3lib 1.21.0, Twisted 22.2.0, Python 3.9.12 (main, Apr  5 2022, 06:56:58) - [GCC 7.5.0], pyOpenSSL 21.0.0 (OpenSSL 1.1.1n  15 Mar 2022), cryptography 3.4.8, Platform Linux-5.15.90.1-microsoft-standard-WSL2-x86_64-with-glibc2.31
2023-06-16 19:26:39 [scrapy.crawler] INFO: Overridden settings:
{}
2023-06-16 19:26:39 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2023-06-16 19:26:40 [scrapy.extensions.telnet] INFO: Telnet Password: f01ab8d5085bec13
2023-06-16 19:26:41 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2023-06-16 19:26:43 [scrapy.middleware] INFO: Enabled downloader middlewares:
['s

Al ejecutar el código, Scrapy realizará las solicitudes HTTP a las URL especificadas, analizará las respuestas y ejecutará el método `parse()` para extraer los datos. Puedes adaptar y ampliar la lógica dentro del método `parse()` según tus necesidades de extracción de datos.

Recuerda que al ejecutar Scrapy en entornos diferentes a la línea de comandos, es posible que no veas los registros detallados de Scrapy como lo harías en la ejecución desde la terminal. Sin embargo, los datos extraídos estarán disponibles y puedes manejarlos según tus necesidades.

Ten en cuenta que las limitaciones y consideraciones de recursos y tiempo de ejecución de tu entorno específico también se aplicarán al ejecutar Scrapy de esta manera.

| **Inicio** | **atrás 2** | **Siguiente 4** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./2.Introduccion_al_Web_Scraping.ipynb)| [⏩](./4.Varias_Paginas_del_mismo_dominio.ipynb)|