# Sesión 3 - Scrapy
En esta sesión se va a ver una breve introducción a cómo se pueden crear Crawlers sencillos con la librería Scrapy de cara a hacer la práctica 1.

Lo primero que haremos será instalarnos la librería

In [1]:
!pip install scrapy

Collecting scrapy
  Downloading Scrapy-2.12.0-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting Twisted>=21.7.0 (from scrapy)
  Downloading twisted-24.11.0-py3-none-any.whl.metadata (20 kB)
Collecting cryptography>=37.0.0 (from scrapy)
  Downloading cryptography-44.0.0-cp39-abi3-win_amd64.whl.metadata (5.7 kB)
Collecting cssselect>=0.9.1 (from scrapy)
  Using cached cssselect-1.2.0-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting itemloaders>=1.0.1 (from scrapy)
  Using cached itemloaders-1.3.2-py3-none-any.whl.metadata (3.9 kB)
Collecting parsel>=1.5.0 (from scrapy)
  Using cached parsel-1.9.1-py2.py3-none-any.whl.metadata (11 kB)
Collecting pyOpenSSL>=22.0.0 (from scrapy)
  Downloading pyOpenSSL-24.3.0-py3-none-any.whl.metadata (15 kB)
Collecting queuelib>=1.4.2 (from scrapy)
  Using cached queuelib-1.7.0-py2.py3-none-any.whl.metadata (5.7 kB)
Collecting service-identity>=18.1.0 (from scrapy)
  Downloading service_identity-24.2.0-py3-none-any.whl.metadata (5.1 kB)
Collecting w3lib>=

## Apartado 1.1 Crawler de ficheros RSS
Para desarrollar un Crawler en Scrapy debemos definir una clase Spider que herede de scrapy.Spider. Cada clase definirá los métodos necesarios para realizar el scrapping del sitio web y cómo obtener información estructurada.

Para poder crear Spiders adecuados es NECESARIO conocerse los selectores CSS de HTML.
https://www.w3schools.com/cssref/css_selectors.asp

En el ejemplo de abajo está comentado cómo se haría el scrapping the un fichero en RSS.

In [2]:
import scrapy
import sys
import json
import locale
import time
import string
import random
from bs4 import BeautifulSoup

class RSSSpider (scrapy.Spider):

    # Es obligatorio poner el nombre del Spider
    name = 'RSS'

    # Estas son las URLs donde empieza a buscar y se podrían poner varias distintas de RSS feeds
    start_urls = ['https://www.abc.es/rss/2.0/portada/',
                  'https://www.laverdad.es/rss/2.0/portada',
                  'https://www.europapress.es/rss/rss.aspx',
                  'https://feeds.elpais.com/mrss-s/pages/ep/site/elpais.com/portada']

    # para evitar que el sitio te bloquee por usar scrapy es interesante cambiar el USER_AGENT
    # El user agent por defecto de Scrapy cuando hace una petición es
    # Scrapy/VERSION (+https://scrapy.org)
    custom_settings = {
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36',
    }


    def parse (self, response):
        """
        @inherit

        @param self
        @param response
        """

        #Buscamos todos los elementos en el archivo XML con la etiqueta <item>
        for item in response.css ('item'):
            #Obtenemos por cada elemento <item> el texto del subelemento <link>
            url = str (item.css ('link::text').get ()).strip()
            #Obtenemos por cada elemento <item> el texto del subelemento <title>. Además co el BeautifulSoup
            #procesamos el texto en html y nos quedamos con el texto
            title = BeautifulSoup(str(item.css ('title::text').get()), 'html.parser').get_text().strip()
            #Obtenemos por cada elemento <item> el texto del subelemento <title>
            content = BeautifulSoup(str(item.css ('description::text').get()), 'html.parser').get_text().strip()

            #Imprimimos la información obtenida para comprobar lo que estamos extrayendo
            print ("-------------------------")
            print ('URL: ' + url)
            print ('Título: ' + title)
            print ('Descripción: ' + content)
            print ("-------------------------")

            data = {
                'url' : url,
                'title': title,
                'content': content
            }

            #Creamos para cada item un fichero json y para ello obtenemos un número aleatorio.
            filename = str(random.random()).replace(".","") + ".json"

            # Si tenemos descripción, url y título entonces lo guardamos a disco en la carpeta 'rss'
            if content and title and url:
                with open ('rss/' + filename, 'w') as f:
                    json.dump (data, f, indent = 4)

## Apartado 1.2 - Lanzar el Crawler RSSSpyder
Para poder lanzar el Spider necesitamos que ejecutar el siguiente código donde se configuará y lanzará el proceso.
Hay que hacer notar que solamente se puede lanzar un proceso por cada sesión en Jupyter notebook es por eso por lo que se recomienda exportar el código en un script de Python .py para poder ejecutarlo desde la línea de comandos.

In [3]:
import os
import scrapy
from scrapy.crawler import CrawlerProcess

# Creamos un proceso de Crawler podemos poner distintas settings que están definidas en la documentación.
# Entre ellas podemos ocular los logs del proceso de Crawling.
process = CrawlerProcess(settings={
    "LOG_ENABLED": False,
    # Used for pipeline 1
})

# Como se ha definido anteriormente en el RSSCrawler, los ficheros se van a almacenar en la carpeta "rss"
# Comprobamos que existe la carpeta y si no existe la creamos
if (not os.path.exists('rss')):
    os.mkdir('rss')

# Creamos el proceso con el RSSSpider
process.crawl(RSSSpider)
# Ejecutamos el Crawler
process.start()

-------------------------
URL: https://www.europapress.es/nacional/noticia-mayoria-consejo-fiscal-pide-garcia-ortiz-dimita-bien-institucion-20241017180801.html
Título: La mayoría del Consejo Fiscal pide a García Ortiz que dimita por el bien de la institución
Descripción: La mayoría del Consejo Fiscal ha solicitado al fiscal general del Estado, Álvaro García Ortiz, que abandone el cargo al considerar que es lo mejor para el Ministerio Público después de que el Tribunal Supremo (TS) acordara por unanimidad abrir causa en su contra por la presunta revelación de secretos de la que le acusa el novio de la presidenta madrileña, Isabel Díaz Ayuso.
-------------------------
-------------------------
URL: https://www.europapress.es/nacional/noticia-anticorrupcion-pide-investigar-abalos-porque-resulta-dificil-entender-operativa-trama-participacion-20241017161357.html
Título: Anticorrupción pide investigar a Ábalos: "Resulta difícil entender" la operativa de la trama "sin su participación"
Descri