### **Pipeline**

En el archivo **`pipelines.py`** utilizaremos dos funciones extras en el código, estas son **`open_spider`** y **`close_spider`**. Enviaremos un mensaje al momento de scrapear para visualizar que estas se ejecutan al iniciar y al finalizar el scrapping respectivamente.

<center><img src="https://i.postimg.cc/mD5thVcg/ws-163.png"></center>
<center><img src="https://i.postimg.cc/GpzBnbdY/ws-164.png"></center>

Se utilizará el mismo código que realizamos en la clase pasada en el archivo **`transcripts.py`**:

In [None]:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TranscriptsSpider(CrawlSpider):
    name = 'transcripts'
    allowed_domains = ['subslikescript.com']
    # start_urls = ['https://subslikescript.com/movies_letter-X']

    # Establecer una variable user agent
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'

    # Editar el user agent en la request enviada
    def start_requests(self):
        yield scrapy.Request(url='https://subslikescript.com/movies_letter-X', headers={
            'user-agent':self.user_agent
        })

    # Establecer reglas para el crawler 
    rules = (
        Rule(LinkExtractor(restrict_xpaths=("//ul[@class='scripts-list']/a")), callback='parse_item', follow=True, process_request='set_user_agent'),
        Rule(LinkExtractor(restrict_xpaths=("(//a[@rel='next'])[1]")), process_request='set_user_agent'),
    )

    # Configuración del user agent
    def set_user_agent(self, request, spider):
        request.headers['User-Agent'] = self.user_agent
        return request

    def parse_item(self, response):
        # Obtener la caja del article que contiene los datos que queremos (title, plot, etc)
        article = response.xpath("//article[@class='main-article']")

        # Extraer los datos que queremos y luego devolverlos
        yield {
            'title': article.xpath("./h1/text()").get(),
            'plot': article.xpath("./p/text()").get(),
            #'transcript': article.xpath("./div[@class='full-script']/text()").getall(),
            #'url': response.url,
            #'user-agent': response.request.headers['User-Agent'],
        }

En el archivo **`settings.py`** vamos a duplicar el item existente y editar este "**`SpiderTutorialPipeline`**" y vamos a escribir "**`NewAction`**" que usaremos como ejemplo. Así que ahora cambiemos el número a **200** para mostrar lo que sucederá en este escenario. Así que aquí tenemos un ítem con **300** y el otro con **200**. Entonces lo que sucederá es que "**`NewAction`**" se ejecutará primero y luego "**`SpiderTutorialPipeline`**". Esto ocurre porque un número más bajo tiene una prioridad más alta. Ahora, voy a borrar esto y dejar estos ajustes como estaban en un principio.

<center><img src="https://i.postimg.cc/fySkdXXj/ws-162.png"></center>
<center><img src="https://i.postimg.cc/SxFYWZgX/ws-161.png"></center>
<center><img src="https://i.postimg.cc/bN22SX9c/ws-160.png"></center>

Ahora vamos a ejecutar por terminal e identificaremos los mensajes que enviamos en las funciones nuevas que agregamos:

<center><img src="https://i.postimg.cc/YC6G81Pd/ws-165.png"></center>
<center><img src="https://i.postimg.cc/hjjXSNtY/ws-167.png"></center>
<center><img src="https://i.postimg.cc/FKhf6Y5N/ws-166.png"></center>