| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3.Una_sola_pagina_estatica.ipynb)| [⏩](./5.Paginas_Dinamicas.ipynb)|

# **4. Varias Paginas del mismo dominio**

## **Introducción: Scraping Vertical y Horizontal**

El scraping vertical y horizontal se refiere a dos enfoques diferentes para el proceso de extracción de datos mediante web scraping. El scraping vertical se centra en extraer datos de una sola página web, mientras que el scraping horizontal implica la extracción de datos de múltiples páginas web enlazadas. A continuación, te explicaré cómo ejecutar Scrapy sin la terminal en entornos como Jupyter Notebook, Google Colab o similares, utilizando ejemplos tanto de scraping vertical como horizontal.

* **Scraping Vertical:**

1. **Crear un nuevo proyecto Scrapy y un spider:**

Sigue los pasos mencionados anteriormente para crear un nuevo proyecto `Scrapy` y un `spider` dentro de ese proyecto.

2. **Definir el spider para el scraping vertical:**

Dentro del `spider`, define el punto de inicio (URL inicial) y el método `parse()` para extraer los datos deseados de una sola página.

In [2]:
import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider
from scrapy.http import Request

In [3]:
class VerticalSpider(scrapy.Spider):
    name = 'vertical_spider'
    start_urls = ['https://naruto-official.com/es']

    def parse(self, response):
        # Lógica de extracción de datos de una sola página
        # ...

3. **Ejecutar el scraping vertical:**

Utiliza el módulo `CrawlerProcess` de `Scrapy` para ejecutar el `scraping` vertical en tu entorno.

In [4]:
from scrapy.crawler import CrawlerProcess

process = CrawlerProcess()
process.crawl(VerticalSpider)
process.start()

2023-06-16 20:12:14 [scrapy.utils.log] INFO: Scrapy 2.6.1 started (bot: scrapybot)
2023-06-16 20:12:14 [scrapy.utils.log] INFO: Versions: lxml 4.8.0.0, libxml2 2.9.12, cssselect 1.2.0, parsel 1.6.0, w3lib 1.21.0, Twisted 22.2.0, Python 3.9.12 (main, Apr  5 2022, 06:56:58) - [GCC 7.5.0], pyOpenSSL 21.0.0 (OpenSSL 1.1.1n  15 Mar 2022), cryptography 3.4.8, Platform Linux-5.15.90.1-microsoft-standard-WSL2-x86_64-with-glibc2.31
2023-06-16 20:12:14 [scrapy.crawler] INFO: Overridden settings:
{}
2023-06-16 20:12:14 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2023-06-16 20:12:14 [scrapy.extensions.telnet] INFO: Telnet Password: 452b2b666a90b919
2023-06-16 20:12:14 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2023-06-16 20:12:15 [scrapy.middleware] INFO: Enabled downloader middlewares:
['s

Scrapy realizará las solicitudes a la URL especificada, analizará la respuesta y ejecutará el método `parse()` para extraer los datos de la página.

* **Scraping Horizontal:**

1. **Crear un nuevo proyecto Scrapy y un spider:**

Al igual que en el scraping vertical, crea un nuevo proyecto Scrapy y un spider dentro de ese proyecto.

2. **Definir el spider para el scraping horizontal:**

En este caso, el spider debe estar configurado para seguir los enlaces y extraer datos de múltiples páginas enlazadas.

In [6]:
import scrapy
from scrapy.crawler import CrawlerProcess
from scrapy.spiders import Spider, Rule
from scrapy.linkextractors import LinkExtractor

In [7]:
class HorizontalSpider(scrapy.Spider):
    name = 'horizontal_spider'
    start_urls = ['https://naruto-official.com/es']
    allowed_domains = ['naruto-official.com']
    rules = [Rule(LinkExtractor(), callback='parse_page', follow=True)]

    def parse_page(self, response):
        # Lógica de extracción de datos de cada página
        # ...

El spider utiliza el `LinkExtractor` para encontrar enlaces en las páginas y la regla `Rule` para seguir esos enlaces y ejecutar el método `parse_page()` para extraer los datos de cada página.

3. **Ejecutar el scraping horizontal:**

Al igual que en el scraping vertical, utiliza el módulo `CrawlerProcess` de Scrapy para ejecutar el scraping horizontal.

In [None]:
from scrapy.crawler import CrawlerProcess

process = CrawlerProcess()
process.crawl(HorizontalSpider)
process.start()

Scrapy realizará las solicitudes a la URL inicial, seguirá los enlaces, analizará las respuestas y ejecutará el método `parse_page()` para extraer los datos de cada página enlazada.

Al ejecutar el código, Scrapy ejecutará el scraping vertical o horizontal según el spider que hayas configurado. Recuerda personalizar la lógica dentro de los métodos `parse()` o `parse_page()` según tus necesidades de extracción de datos.

Estos ejemplos te permitirán ejecutar Scrapy sin la terminal en entornos como Jupyter Notebook, Google Colab o similares, y realizar scraping vertical o horizontal según tus requerimientos. Asegúrate de tener en cuenta las limitaciones y consideraciones de recursos y tiempo de ejecución de tu entorno específico.

## **Web Scraping Vertical (Extracción de TRIPADVISOR con Scrapy PT. 1)**

Para ejecutar Scrapy sin utilizar la terminal y trabajar con Jupyter Notebook, Google Colab u otro entorno similar, puedes utilizar la biblioteca scrapydo. A continuación, te explicaré los pasos para extraer datos verticales de `TripAdvisor` utilizando Scrapy en un entorno sin terminal:

1. **Instalar las bibliotecas necesarias:**

Asegúrate de tener instaladas las bibliotecas `scrapy` y `scrapydo`. Puedes instalarlas ejecutando el siguiente comando en una celda de código:

`!pip install scrapy scrapydo`

2. **Importar las bibliotecas y configurar scrapydo:**

En la primera celda de código, importa las bibliotecas necesarias y configura scrapydo para trabajar con Jupyter Notebook o Google Colab:

In [None]:
import scrapy
import scrapydo

scrapydo.setup()

Exception in thread CrochetReactor:
Traceback (most recent call last):
  File "/home/puma/anaconda3/lib/python3.9/threading.py", line 973, in _bootstrap_inner
    self.run()
  File "/home/puma/anaconda3/lib/python3.9/threading.py", line 910, in run
    self._target(*self._args, **self._kwargs)
  File "/home/puma/anaconda3/lib/python3.9/site-packages/crochet/_eventloop.py", line 372, in <lambda>
    target=lambda: self._reactor.run(installSignalHandlers=False),
  File "/home/puma/anaconda3/lib/python3.9/site-packages/twisted/internet/base.py", line 1314, in run


    self.startRunning(installSignalHandlers=installSignalHandlers)
  File "/home/puma/anaconda3/lib/python3.9/site-packages/twisted/internet/base.py", line 1296, in startRunning
    ReactorBase.startRunning(cast(ReactorBase, self))
  File "/home/puma/anaconda3/lib/python3.9/site-packages/twisted/internet/base.py", line 840, in startRunning
    raise error.ReactorNotRestartable()
twisted.internet.error.ReactorNotRestartable


3. **Definir el spider de Scrapy:**

Crea una clase que herede de `scrapy.Spider` y defina la lógica de extracción de datos dentro del método `parse()`:

In [11]:
class TripAdvisorSpider(scrapy.Spider):
    name = 'tripadvisor_spider'
    start_urls = ['https://www.tripadvisor.com/Attractions-g294073-Activities-Quito_Pichincha_Province.html']

    def parse(self, response):
        # Lógica de extracción de datos de la página
        # ...

Asegúrate de reemplazar la URL en `start_urls` con la página de `TripAdvisor` que deseas extraer.

4. **Ejecutar el spider:**

En la siguiente celda de código, utiliza `scrapydo.run_spider()` para ejecutar el spider de Scrapy y obtener los resultados:

In [None]:
scrapydo.run_spider(TripAdvisorSpider)

Esto ejecutará el spider y comenzará la extracción de datos de `TripAdvisor`.

5. **Procesar los resultados:**

Después de ejecutar el spider, puedes acceder a los datos extraídos dentro del método `parse()` y procesarlos según tus necesidades. Puedes imprimirlos en la salida, guardarlos en un archivo CSV o JSON, o realizar cualquier otra operación deseada.

Con estos pasos, podrás ejecutar Scrapy en un entorno como Jupyter Notebook o Google Colab sin utilizar la terminal y extraer datos verticales de TripAdvisor. Recuerda personalizar la lógica de extracción de datos dentro del método `parse()` para adaptarla a tus necesidades específicas.

## **Scrapy Map Compose (Extracción de TRIPADVISOR con Scrapy PT.2)**

Para ejecutar Scrapy sin utilizar la terminal y trabajar con Jupyter Notebook, Google Colab u otro entorno similar, y realizar una extracción de datos de TripAdvisor utilizando Scrapy Map Compose, puedes seguir los siguientes pasos:

1. **Instalar las bibliotecas necesarias:**

Asegúrate de tener instaladas las bibliotecas `scrapy`, `scrapydo` y `scrapy-map-compose`. Puedes instalarlas ejecutando el siguiente comando en una celda de código:

`!pip install scrapy scrapydo scrapy-map-compose`

2. **Importar las bibliotecas y configurar scrapydo:**

En la primera celda de código, importa las bibliotecas necesarias y configura scrapydo para trabajar con Jupyter Notebook o Google Colab:

In [None]:
import scrapy
import scrapydo
from scrapy_map_compose import MapCompose

scrapydo.setup()

3. **Definir el spider de Scrapy:**

Crea una clase que herede de `scrapy.Spider` y defina la lógica de extracción de datos dentro del método `parse()` utilizando `Scrapy Map Compose`:

In [14]:
class TripAdvisorSpider(scrapy.Spider):
    name = 'tripadvisor_spider'
    start_urls = ['https://www.tripadvisor.com/Attractions-g294073-Activities-Quito_Pichincha_Province.html']

    def parse(self, response):
        # Extracción de datos utilizando Scrapy Map Compose
        titles = response.css('h3.title::text').getall()
        descriptions = response.css('div.description::text').getall()

        yield {
            'title': MapCompose(str.strip)(titles),
            'description': MapCompose(str.strip)(descriptions)
        }

Asegúrate de reemplazar la URL en `start_urls` con la página de `TripAdvisor` que deseas extraer.

4. **Ejecutar el spider:**

En la siguiente celda de código, utiliza `scrapydo.run_spider()` para ejecutar el spider de Scrapy y obtener los resultados:

In [None]:
scrapydo.run_spider(TripAdvisorSpider)

Esto ejecutará el spider y comenzará la extracción de datos de `TripAdvisor` utilizando `Scrapy Map Compose`.

5. **Procesar los resultados:**

Después de ejecutar el spider, puedes acceder a los datos extraídos dentro del método `parse()` y procesarlos según tus necesidades. En este ejemplo, se utiliza `MapCompose(str.strip)` para aplicar una función de limpieza a los títulos y descripciones extraídas. Puedes modificar esta lógica de procesamiento según tus necesidades.

Con estos pasos, podrás ejecutar Scrapy en un entorno como Jupyter Notebook o Google Colab sin utilizar la terminal y realizar una extracción de datos de TripAdvisor utilizando Scrapy Map Compose. Recuerda personalizar la lógica de extracción de datos dentro del método `parse()` y el procesamiento de resultados según tus necesidades específicas.

## **Web Scraping Horizontal y Vertical (Extracción de MERCADO LIBRE con Scrapy)**

El web scraping horizontal y vertical se refiere a dos enfoques diferentes para extraer datos de un sitio web utilizando Scrapy. En el web scraping horizontal, se recopilan datos de varias páginas dentro de un mismo sitio web, mientras que en el web scraping vertical se recopilan datos de diferentes sitios web que comparten una estructura similar. A continuación, te daré una explicación detallada de cada uno de ellos junto con ejemplos utilizando Scrapy para extraer datos de Mercado Libre.

* **Web Scraping Horizontal:**

El web scraping horizontal implica extraer datos de varias páginas dentro de un mismo sitio web. Por ejemplo, si deseas obtener información de varios productos en Mercado Libre, puedes recorrer las diferentes páginas de resultados de búsqueda y extraer los detalles de cada producto. Aquí tienes un ejemplo de cómo hacerlo con Scrapy:

1. **Definir el spider de Scrapy:**

Crea una clase que herede de `scrapy.Spider` y defina la lógica de extracción de datos dentro del método `parse()`:

In [16]:
class MercadoLibreSpider(scrapy.Spider):
    name = 'mercado_libre_spider'
    start_urls = ['https://www.mercadolibre.com']

    def parse(self, response):
        # Extraer datos de la página actual
        # ...

        # Seguir a la siguiente página
        next_page_url = response.css('a.next-page-link::attr(href)').get()
        if next_page_url:
            yield response.follow(next_page_url, callback=self.parse)

En este ejemplo, se define un spider llamado `MercadoLibreSpider` con una URL inicial de Mercado Libre. En el método `parse()`, se extraen los datos de la página actual y se busca el enlace hacia la siguiente página de resultados. Si se encuentra un enlace, se utiliza `response.follow()` para seguirlo y llamar nuevamente al método `parse()` para extraer datos de la siguiente página.

2. **Definir la lógica de extracción de datos:**

Dentro del método `parse()`, puedes utilizar selectores `CSS` o `XPath` para extraer los datos deseados de la página actual:

In [17]:
def parse(self, response):
    # Extraer datos de la página actual
    product_titles = response.css('.product-title::text').getall()
    product_prices = response.css('.product-price::text').getall()

    for title, price in zip(product_titles, product_prices):
        yield {
            'title': title,
            'price': price
        }

    # Seguir a la siguiente página
    next_page_url = response.css('a.next-page-link::attr(href)').get()
    if next_page_url:
        yield response.follow(next_page_url, callback=self.parse)

En este ejemplo, se utilizan selectores CSS para extraer los títulos y precios de los productos en la página actual. Luego, se itera sobre los datos extraídos y se genera un diccionario con los campos deseados. `Mediante yield`, los datos se envían a la salida del spider. Luego, se busca el enlace hacia la siguiente página de resultados y se sigue el enlace utilizando `response.follow()` para continuar extrayendo datos de las páginas subsiguientes.

3. **Ejecutar el spider:**

Para ejecutar el spider, puedes utilizar el siguiente código:

In [None]:
scrapy.cmdline.execute(['scrapy', 'crawl', 'mercado_libre_spider', '-o', 'output.csv'])

Este comando ejecutará el spider `MercadoLibreSpider` y guardará los datos extraídos en un archivo CSV llamado `output.csv`.

Con estos pasos, podrás realizar web scraping horizontal en Mercado Libre utilizando Scrapy. El spider recorrerá las diferentes páginas de resultados de búsqueda y extraerá los detalles de los productos en cada página.

* **Web Scraping Vertical:**

El web scraping vertical implica extraer datos de diferentes sitios web que comparten una estructura similar. Por ejemplo, si deseas obtener información de productos de diferentes categorías en Mercado Libre, puedes extraer datos de páginas de categorías específicas. Aquí tienes un ejemplo de cómo hacerlo con Scrapy:

1. **Definir el spider de Scrapy:**

Crea una clase que herede de `scrapy.Spider` y defina la lógica de extracción de datos dentro del método `parse()`:

In [19]:
class MercadoLibreSpider(scrapy.Spider):
    name = 'mercado_libre_spider'
    start_urls = [
        'https://www.mercadolibre.com/categorias/celulares',
        'https://www.mercadolibre.com/categorias/laptops',
        'https://www.mercadolibre.com/categorias/televisores'
    ]

    def parse(self, response):
        # Extraer datos de la página actual
        # ...

En este ejemplo, se define un spider llamado `MercadoLibreSpider` con URLs iniciales de diferentes categorías en Mercado Libre. En el método `parse()`, se realizará la extracción de datos de cada página.

2. **Definir la lógica de extracción de datos:**

Dentro del método `parse()`, puedes utilizar selectores CSS o XPath para extraer los datos deseados de la página actual:

In [20]:
def parse(self, response):
    # Extraer datos de la página actual
    product_titles = response.css('.product-title::text').getall()
    product_prices = response.css('.product-price::text').getall()

    for title, price in zip(product_titles, product_prices):
        yield {
            'category': response.url.split('/')[-1],
            'title': title,
            'price': price
        }

En este ejemplo, se utilizan selectores CSS para extraer los títulos y precios de los productos en la página actual. Además, se incluye el campo "`category`" que indica la categoría actual basándose en la URL. Mediante `yield`, los datos se envían a la salida del `spider`.

3. **Ejecutar el spider:**

Para ejecutar el spider, puedes utilizar el siguiente código:

In [None]:
scrapy.cmdline.execute(['scrapy', 'crawl', 'mercado_libre_spider', '-o', 'output.csv'])

Este comando ejecutará el spider `MercadoLibreSpider` y guardará los datos extraídos en un archivo CSV llamado output.csv.

Con estos pasos, podrás realizar web scraping vertical en Mercado Libre utilizando Scrapy. El spider extraerá datos de diferentes categorías y guardará los resultados en un archivo CSV.

## **Varios tipos de Items y 2 dimensiones horizontales (Extracción de IGN)**

Para extraer información de una página web utilizando Scrapy, puedes definir diferentes tipos de elementos llamados "`items`" que representan los datos que deseas extraer. Cada item puede tener diferentes campos para almacenar información específica. En el caso de la extracción de `IGN`, podríamos definir dos tipos de items para representar los artículos y los comentarios de los usuarios. A continuación, te mostraré cómo puedes hacerlo con ejemplos:

1. **Definir los Items:**

Primero, debes definir los items en el archivo `items.py`. Aquí está un ejemplo de cómo podrían ser los items para los artículos y los comentarios:

In [21]:
import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    content = scrapy.Field()

class CommentItem(scrapy.Item):
    username = scrapy.Field()
    comment = scrapy.Field()
    likes = scrapy.Field()

En este ejemplo, hemos definido dos items: `ArticleItem` y `CommentItem`. Cada item tiene diferentes campos que corresponden a los datos que queremos extraer, como el título del artículo, el autor, el contenido, el nombre de usuario del comentario, el texto del comentario y la cantidad de likes.

2. **Configurar el Spider:**

A continuación, debes configurar el spider en el archivo `spiders.py` para realizar la extracción de datos. Aquí hay un ejemplo básico de cómo podría ser el spider para extraer artículos y comentarios de `IGN`:

In [None]:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from myproject.items import ArticleItem, CommentItem

class IGNSpider(CrawlSpider):
    name = 'ign_spider'
    allowed_domains = ['ign.com']
    start_urls = ['https://www.ign.com/articles']

    rules = (
        Rule(LinkExtractor(allow=r'/article/'), callback='parse_article', follow=True),
        Rule(LinkExtractor(allow=r'/comments/'), callback='parse_comment', follow=True),
    )

    def parse_article(self, response):
        article = ArticleItem()
        article['title'] = response.css('h1.article-title::text').get()
        article['author'] = response.css('.author-name::text').get()
        article['content'] = response.css('.article-content > p::text').getall()
        yield article

    def parse_comment(self, response):
        comments = response.css('.comment')
        for comment in comments:
            item = CommentItem()
            item['username'] = comment.css('.username::text').get()
            item['comment'] = comment.css('.comment-body::text').get()
            item['likes'] = comment.css('.comment-likes::text').get()
            yield item

En este ejemplo, hemos configurado un spider llamado `IGNSpider` que sigue dos reglas. La primera regla busca enlaces que coincidan con `/article/` y llama a la función `parse_article()` para extraer los datos del artículo. La segunda regla busca enlaces que coincidan con `/comments/` y llama a la función `parse_comment()` para extraer los datos de los comentarios.

En las funciones `parse_article()` y `parse_comment()`, utilizamos selectores CSS para extraer los datos específicos que nos interesan y los asignamos a los campos correspondientes en los items.

3. **Ejecutar el Spider:**

Para ejecutar el spider y extraer los datos, puedes usar el siguiente comando en la terminal:

In [None]:
scrapy crawl ign_spider -o output.json

Esto ejecutará el spider `ign_spider` y guardará los datos extraídos en un archivo `JSON` llamado `output.json`.

También puedes ejecutar el spider directamente en Jupyter Notebook o Google Colab utilizando el siguiente código:

In [None]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())
process.crawl('ign_spider')
process.start()

Esto ejecutará el spider y mostrará los datos extraídos en la salida de la celda.

Con este enfoque, puedes extraer los artículos y los comentarios de IGN utilizando Scrapy. Asegúrate de ajustar los selectores CSS y las reglas del spider según la estructura específica del sitio web que estás raspando.

## **2 niveles de profundidad (Extracción de TRIP ADVISOR con Scrapy PT.3)**

Para extraer información de varias páginas web con niveles de profundidad utilizando Scrapy, puedes configurar reglas de extracción que te permitan seguir enlaces en diferentes niveles. En el caso de la extracción de datos de `TripAdvisor`, puedes definir un spider que extraiga información de las páginas de hoteles y, a su vez, siga los enlaces a las páginas de comentarios de cada hotel para extraer información adicional. A continuación, te mostraré cómo hacerlo con ejemplos:

1. **Configurar el Spider:**

En el archivo `spiders.py`, puedes definir el spider para extraer información de los hoteles y comentarios de `TripAdvisor`. Aquí hay un ejemplo básico:

In [None]:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from myproject.items import HotelItem, CommentItem

class TripAdvisorSpider(CrawlSpider):
    name = 'tripadvisor_spider'
    allowed_domains = ['tripadvisor.com']
    start_urls = ['https://www.tripadvisor.com/Hotels']

    rules = (
        Rule(LinkExtractor(allow=r'/Hotel_Review-'), callback='parse_hotel', follow=True),
        Rule(LinkExtractor(allow=r'/ShowUserReviews-'), callback='parse_comment', follow=True),
    )

    def parse_hotel(self, response):
        hotel = HotelItem()
        hotel['name'] = response.css('.listing_title::text').get()
        hotel['address'] = response.css('.address .street-address::text').get()
        # Otros campos del hotel

        yield hotel

    def parse_comment(self, response):
        comment = CommentItem()
        comment['username'] = response.css('.info_text .username span::text').get()
        comment['comment'] = response.css('.review-container .partial_entry::text').get()
        # Otros campos del comentario

        yield comment

En este ejemplo, hemos definido un spider llamado `TripAdvisorSpider`. Hemos configurado dos reglas: una para los enlaces que coinciden con `/Hotel_Review-`, que llamará a la función `parse_hotel()` para extraer los datos del hotel, y otra para los enlaces que coinciden con `/ShowUserReviews-`, que llamará a la función `parse_comment()` para extraer los datos de los comentarios.

En las funciones `parse_hotel()` y `parse_comment()`, utilizamos selectores CSS para extraer los datos específicos que nos interesan y los asignamos a los campos correspondientes en los `items HotelItem` y `CommentItem`.

2. **Ejecutar el Spider:**

Para ejecutar el spider y extraer los datos, puedes usar el siguiente comando en la terminal:

In [None]:
scrapy crawl tripadvisor_spider -o output.json

Esto ejecutará el spider `tripadvisor_spider` y guardará los datos extraídos en un archivo `JSON` llamado `output.json`.

También puedes ejecutar el spider directamente en Jupyter Notebook o Google Colab utilizando el siguiente código:

In [None]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())
process.crawl('tripadvisor_spider')
process.start()

Esto ejecutará el spider y mostrará los datos extraídos en la salida de la celda.

Con este enfoque, puedes extraer información de los hoteles y comentarios de `TripAdvisor`, siguiendo enlaces a diferentes niveles de profundidad. Asegúrate de ajustar los selectores CSS y las reglas del spider según la estructura específica del sitio web de `TripAdvisor`.

## **Scrapy Link Extractor (Extracción de FARMACIA CRUZ VERDE)**

Para realizar la extracción de datos de un sitio web como Farmacia Cruz Verde utilizando Scrapy y el módulo `LinkExtractor`, puedes seguir los siguientes pasos:

1. **Configurar el Spider:**

En el archivo `spiders.py`, define el spider para realizar la extracción de datos. Aquí tienes un ejemplo básico:

In [24]:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class CruzVerdeSpider(CrawlSpider):
    name = 'cruzverde_spider'
    allowed_domains = ['cruzverde.cl']
    start_urls = ['https://www.cruzverde.cl/']

    rules = (
        Rule(LinkExtractor(allow=r'/producto/'), callback='parse_product'),
    )

    def parse_product(self, response):
        # Extraer datos del producto
        product = {}
        product['title'] = response.css('h1::text').get()
        product['price'] = response.css('.price::text').get()
        # Otros campos del producto

        yield product

En este ejemplo, hemos definido un spider llamado `CruzVerdeSpider`. Hemos configurado una regla utilizando LinkExtractor que coincide con los enlaces que contienen `/producto/`, y se llamará a la función `parse_product()` para extraer los datos del producto.

Dentro de la función `parse_product()`, utilizamos selectores CSS para extraer los datos específicos que nos interesan, como el título del producto y el precio, y los asignamos a un diccionario `product`. Finalmente, utilizamos `yield` para enviar el diccionario product como resultado de la extracción.

2. **Ejecutar el Spider:**

Para ejecutar el spider y extraer los datos, puedes utilizar el siguiente comando en la terminal:

In [None]:
scrapy crawl cruzverde_spider -o output.json

Esto ejecutará el spider `cruzverde_spider` y guardará los datos extraídos en un archivo `JSON` llamado `output.json`.

También puedes ejecutar el spider directamente en Jupyter Notebook o Google Colab utilizando el siguiente código:

In [None]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())
process.crawl('cruzverde_spider')
process.start()

Esto ejecutará el spider y mostrará los datos extraídos en la salida de la celda.

Con esto, puedes utilizar el módulo `LinkExtractor` de Scrapy para realizar la extracción de datos del sitio web de Farmacia Cruz Verde siguiendo los enlaces que cumplen con ciertas reglas. Asegúrate de ajustar los selectores CSS y las reglas del spider según la estructura específica del sitio web de Farmacia Cruz Verde.

## **Múltiples URLs Semilla (Extracción de URBANIA PT. 1)**

Para realizar la extracción de datos de múltiples URLs semilla utilizando Scrapy para el sitio web Urbania, puedes seguir estos pasos:

1. **Configurar el Spider:**

En el archivo `spiders.py`, define el spider para realizar la extracción de datos. Aquí tienes un ejemplo básico:

In [26]:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class UrbaniaSpider(CrawlSpider):
    name = 'urbania_spider'
    allowed_domains = ['urbania.pe']
    start_urls = [
        'https://urbania.pe/buscar/proyectos',
        'https://urbania.pe/buscar/propiedades-en-venta'
    ]

    rules = (
        Rule(LinkExtractor(allow=r'/proyecto/'), callback='parse_project'),
        Rule(LinkExtractor(allow=r'/inmueble/'), callback='parse_property'),
    )

    def parse_project(self, response):
        # Extraer datos del proyecto
        project = {}
        project['title'] = response.css('h1::text').get()
        project['location'] = response.css('.location::text').get()
        # Otros campos del proyecto

        yield project

    def parse_property(self, response):
        # Extraer datos de la propiedad
        property = {}
        property['title'] = response.css('h1::text').get()
        property['price'] = response.css('.price::text').get()
        # Otros campos de la propiedad

        yield property

En este ejemplo, hemos definido un spider llamado `UrbaniaSpider`. Hemos configurado dos URLs semilla en la lista `start_urls`, que son las páginas de búsqueda de proyectos y propiedades en venta en el sitio web de Urbania.

Hemos definido dos reglas utilizando `LinkExtractor`. La primera regla coincide con los enlaces que contienen `/proyecto/` y llamará a la función `parse_project()` para extraer los datos del proyecto. La segunda regla coincide con los enlaces que contienen `/inmueble/` y llamará a la función `parse_property()` para extraer los datos de la propiedad.

Dentro de las funciones `parse_project()` y `parse_property()`, utilizamos selectores CSS para extraer los datos específicos que nos interesan, como el título, la ubicación y el precio, y los asignamos a diccionarios (`project` y `property`). Finalmente, utilizamos yield para enviar los diccionarios como resultados de la extracción.

2. **Ejecutar el Spider:**

Para ejecutar el spider y extraer los datos, puedes utilizar el siguiente comando en la terminal:

In [None]:
scrapy crawl urbania_spider -o output.json

Esto ejecutará el spider `urbania_spider` y guardará los datos extraídos en un archivo `JSON` llamado `output.json`.

También puedes ejecutar el spider directamente en Jupyter Notebook o Google Colab utilizando el siguiente código:

In [None]:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

process = CrawlerProcess(get_project_settings())
process.crawl('urbania_spider')
process.start()

Esto ejecutará el spider y mostrará los datos extraídos en la salida de la celda.

Con esto, puedes utilizar múltiples URLs semilla en Scrapy para realizar la extracción de datos del sitio web de Urbania, siguiendo las reglas definidas en el spider. Asegúrate de ajustar los selectores CSS y las reglas según la estructura específica del sitio web de Urbania.

## **Web Scraping en la Nube con CRAWLERA (Extracción de URBANIA PT. 2)**

Crawlera es un servicio de proxy web desarrollado por Scrapinghub que se utiliza para realizar web scraping de manera eficiente y sin bloqueos. Proporciona una infraestructura escalable de IPs y proxies para evitar la detección y bloqueo por parte de los sitios web objetivo.

Para utilizar Crawlera en tu proyecto de extracción de datos de Urbania, sigue estos pasos:

1. **Configurar la API de Crawlera:**

Antes de comenzar, necesitarás una cuenta en Crawlera y obtener tu clave de API. Puedes crear una cuenta en el sitio web de Crawlera (https://www.crawlera.com/).

2. **Instalar y configurar el middleware de Crawlera:**

En tu proyecto Scrapy, instala el paquete `scrapy-crawlera` utilizando el siguiente comando:

`pip install scrapy-crawlera`

Una vez instalado, agrega el `middleware` de Crawlera a tu configuración de Scrapy. Abre el archivo `settings.py` y agrega la siguiente línea:

In [28]:
DOWNLOADER_MIDDLEWARES = {
    'scrapy_crawlera.CrawleraMiddleware': 610
}

Además, configura la variable `CRAWLERA_APIKEY` con tu clave de `API` de `Crawlera`:

In [29]:
CRAWLERA_APIKEY = 'tu_clave_de_api'

3. **Utilizar Crawlera en tu spider:**

Ahora, puedes utilizar Crawlera en tu spider para realizar las solicitudes HTTP a Urbania a través de Crawlera. Para ello, simplemente incluye el siguiente encabezado en tus solicitudes:

In [None]:
request.headers['X-Crawlera-Use-HTTPS'] = '1'
request.headers['X-Crawlera-Cookies'] = 'disable'

Aquí tienes un ejemplo de cómo se vería el spider de Urbania modificado para utilizar `Crawlera`:

In [31]:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor

class UrbaniaSpider(CrawlSpider):
    name = 'urbania_spider'
    allowed_domains = ['urbania.pe']
    start_urls = ['https://urbania.pe/buscar/proyectos']

    rules = (
        Rule(LinkExtractor(allow=r'/proyecto/'), callback='parse_project'),
    )

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, headers={
                'X-Crawlera-Use-HTTPS': '1',
                'X-Crawlera-Cookies': 'disable'
            })

    def parse_project(self, response):
        # Lógica para extraer los datos del proyecto

En este ejemplo, hemos agregado el encabezado necesario en el método `start_requests()` para que todas las solicitudes utilizan `Crawlera`. Además, hemos eliminado la segunda regla y la función `parse_property` para simplificar el ejemplo.

4. **Ejecutar el spider con Crawlera:**

Para ejecutar el spider y realizar la extracción de datos utilizando Crawlera, simplemente ejecuta el comando habitual de Scrapy:

In [None]:
scrapy crawl urbania_spider -o output.json

Esto enviará todas las solicitudes a través de Crawlera y te permitirá extraer los datos de Urbania sin preocuparte por el bloqueo o la detección.

Con estos pasos, has configurado y utilizado Crawlera en tu proyecto de extracción de datos de Urbania. Crawlera manejará la rotación de IP, evitará los bloqueos y te proporcionará una infraestructura escalable para realizar el web scraping de manera efectiva y confiable.

## **Scrapy bajo el Microscopio (Primer Requerimiento, Delay, CSVs y Concurrencia)**

Scrapy es un framework de web scraping poderoso y flexible que permite extraer datos de manera eficiente de sitios web. En esta explicación detallada, abordaremos los siguientes aspectos importantes de Scrapy: primer requerimiento, delay, CSVs y concurrencia.

1. **Primer requerimiento:**

Cuando realizas solicitudes web con Scrapy, es importante enviar un "`primer requerimiento`" a la página objetivo antes de comenzar la extracción de datos. Esto se hace para establecer una conexión inicial con el servidor y asegurarse de que estás autorizado para acceder al sitio web.

Aquí tienes un ejemplo de cómo enviar un primer requerimiento en Scrapy:

In [None]:
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['https://www.example.com']

    def start_requests(self):
        for url in self.start_urls:
            yield scrapy.Request(url, callback=self.parse)

    def parse(self, response):
        # Lógica para extraer los datos de la respuesta

En este ejemplo, el método `start_requests()` se utiliza para enviar el primer requerimiento a la URL de inicio especificada. Luego, el método `parse()` se encarga de extraer los datos de la respuesta.

2. **Delay:**

El delay (retraso) se refiere a la pausa entre las solicitudes realizadas por Scrapy. Es una práctica recomendada incluir un retraso entre las solicitudes para evitar sobrecargar los servidores y reducir las posibilidades de ser bloqueado.

Puedes agregar un retraso entre las solicitudes utilizando el atributo `download_delay` en la configuración de Scrapy. Aquí tienes un ejemplo:

In [None]:
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['https://www.example.com']
    download_delay = 1  # Retraso de 1 segundo

    def parse(self, response):
        # Lógica para extraer los datos de la respuesta

En este ejemplo, hemos configurado un retraso de 1 segundo utilizando download_delay. Esto significa que Scrapy esperará 1 segundo antes de enviar la siguiente solicitud.

3. **CSVs:**

Scrapy permite guardar los datos extraídos en varios formatos, incluido el formato CSV. Puedes guardar los datos en un archivo CSV utilizando el siguiente comando:

In [None]:
scrapy crawl my_spider -o output.csv -t csv

En este ejemplo, estamos ejecutando el spider `my_spider` y guardando los datos extraídos en un archivo llamado `output.csv` en formato `CSV`.

4. **Concurrencia:**

Scrapy es capaz de manejar la concurrencia y realizar múltiples solicitudes simultáneamente para acelerar el proceso de extracción de datos. La concurrencia en Scrapy se logra mediante el uso de hilos o procesos.

Puedes controlar la concurrencia en Scrapy a través de la configuración `CONCURRENT_REQUESTS` en el archivo `settings.py`. Aquí tienes un ejemplo:

In [None]:
# settings.py
CONCURRENT_REQUESTS = 10

En este ejemplo, hemos configurado `CONCURRENT_REQUESTS` en `10`, lo que significa que Scrapy realizará hasta 10 solicitudes simultáneamente.

Ten en cuenta que debes ser cuidadoso al configurar la concurrencia, ya que un valor demasiado alto puede sobrecargar el servidor y provocar bloqueos o rechazo de solicitudes.

Estos son algunos aspectos importantes de Scrapy que puedes considerar al realizar web scraping. Recuerda que es importante ser ético y respetar los términos de servicio de los sitios web que estás raspando, además de ajustar la configuración de Scrapy según sea necesario para evitar sobrecargar los servidores y respetar los límites establecidos por los sitios web objetivo.

| **Inicio** | **atrás 3** | **Siguiente 5** |
|----------- |-------------- |---------------|
| [🏠](../../README.md) | [⏪](./3.Una_sola_pagina_estatica.ipynb)| [⏩](./5.Paginas_Dinamicas.ipynb)|