### **MongoDB**

Ahora veremos como almacenar la data extraida en **`MongoDB`**. Primero debemos crear una cuenta en MongoDB, en su sitio oficial:

https://account.mongodb.com/account/login

Los 4 pasos para comenzar a trabajar en MongoDB:

1. Crear un cluster
2. Agregar la IP a la lista de acceso
3. Crear un usuario
4. Conectarse al cluster

En el directorio **`spider_tutorial/spider_tutorial/prueba_conexion_mongodb`** cree algunos archivos los cuales prueban la conexión y crean una base de datos en MongoDB.

El siguiente enlace nos ayuda un poco:

https://www.mongodb.com/languages/python

Vamos a instalar la libreria que necesitaremos para almacenar datos en MongoDB.

In [None]:
pip install pymongo dnspython

<center><img src="https://i.postimg.cc/tTvgjC5v/ws-171.png"></center>

Después nos dirigimos a MongoDB y **`creamos un usuario`** en **`MongoDB`**:

<center><img src="https://i.postimg.cc/Dws0VTRn/ws-172.png"></center>

Editamos el acceso del usuario a **`Lectura y escritura en cualquier database`**:

<center><img src="https://i.postimg.cc/9MxFPFwt/ws-173.png"></center>
<center><img src="https://i.postimg.cc/Gpxp2jcf/ws-174.png"></center>
<center><img src="https://i.postimg.cc/zX4vPBtx/ws-175.png"></center>

Agregamos la direccion **`IP genérica 0.0.0.0/0`**:

<center><img src="https://i.postimg.cc/N0cMBnwT/ws-176.png"></center>
<center><img src="https://i.postimg.cc/sf6v7Kpd/ws-177.png"></center>
<center><img src="https://i.postimg.cc/qMNgLnLt/ws-178.png"></center>

Ahora, configuramos la conexión de MongoDB:

<center><img src="https://i.postimg.cc/pTVLnnrL/ws-179.png"></center>
<center><img src="https://i.postimg.cc/sxvfTdpF/ws-180.png"></center>

Desde acá copiamos la **`CONNECTION_STRING`** para luego copiarlo en el archivo **`pipelines.py`**. Debemos modificar el password en dicho archivo:

<center><img src="https://i.postimg.cc/HWhkVngT/ws-181.png"></center>
<center><img src="https://i.postimg.cc/2yMkJcw1/ws-182.png"></center>

Se utilizará el mismo código que realizamos en la clase pasada en el archivo **`transcripts.py`**:

In [None]:
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule


class TranscriptsSpider(CrawlSpider):
    name = 'transcripts'
    allowed_domains = ['subslikescript.com']
    # start_urls = ['https://subslikescript.com/movies_letter-X']

    # Establecer una variable user agent
    user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'

    # Editar el user agent en la request enviada
    def start_requests(self):
        yield scrapy.Request(url='https://subslikescript.com/movies_letter-X', headers={
            'user-agent':self.user_agent
        })

    # Establecer reglas para el crawler 
    rules = (
        Rule(LinkExtractor(restrict_xpaths=("//ul[@class='scripts-list']/a")), callback='parse_item', follow=True, process_request='set_user_agent'),
        Rule(LinkExtractor(restrict_xpaths=("(//a[@rel='next'])[1]")), process_request='set_user_agent'),
    )

    # Configuración del user agent
    def set_user_agent(self, request, spider):
        request.headers['User-Agent'] = self.user_agent
        return request

    def parse_item(self, response):
        # Obtener la caja del article que contiene los datos que queremos (title, plot, etc)
        article = response.xpath("//article[@class='main-article']")

        # Extraer los datos que queremos y luego devolverlos
        yield {
            'title': article.xpath("./h1/text()").get(),
            #'plot': article.xpath("./p/text()").get(),
            #'transcript': article.xpath("./div[@class='full-script']/text()").getall(),
            'url': response.url,
            #'user-agent': response.request.headers['User-Agent'],
        }

Editaremos el archivo **`pipelines.py`**:

<center><img src="https://i.postimg.cc/FsL0D2FX/ws-168.png"></center>

El código utilizado:

In [None]:
from pymongo import MongoClient

class MongodbPipeline:
    collection_name = 'transcripts'

    def open_spider(self, spider):
        # utilice el usuario: tomas y el password: tomas
        CONNECTION_STRING = 'mongodb+srv://tomas:tomas@cluster.bco8el6.mongodb.net/?retryWrites=true&w=majority&appName=Cluster'
        self.client = MongoClient(CONNECTION_STRING)
        self.db = self.client['My_Database']

    def close_spider(self, spider):
        self.client.close()    

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(item)
        return item

Luego, editamos el archivo **`settings.py`**:

<center><img src="https://i.postimg.cc/rmqLPX2n/ws-169.png"></center>
<center><img src="https://i.postimg.cc/wvFdKf66/ws-170.png"></center>

Lo ejecutamos por consola:

<center><img src="https://i.postimg.cc/xCCS2wt6/ws-183.png"></center>

Revisamos en el sitio de MongoDB si se creó todo correctamente:

<center><img src="https://i.postimg.cc/hj5RP2Yc/ws-184.png"></center>