<a href="https://colab.research.google.com/github/jesusGS01/TGINE/blob/main/3_2_scrapyJSON_LD_Elmundo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Sesión 3 - Scrapy - Ejemplo Crawling JSON-LD (ElMundo)

## Apartado 1.1 Crawler de El Mundo extrayendo JSON-LD
En el ejemplo siguiente definimos un crawler en Scrapy para extraer noticias de los metadatos de las páginas web.
El Mundo y otros periódicos publican metadatos en formato JSON-LD (https://json-ld.org/) que permite obtener información estructurada de las webs. En este caso, tendremos que obtener esos objetos JSON-LD y extraer su información en el formato de noticia (https://schema.org/NewsArticle) publicado en Schema.org

** Existen librerías de Python para trabajar directamente con JSON-LD

In [None]:
!pip3 install -U scrapy

In [1]:
import scrapy
import sys
import json
import locale
import time
import random
from bs4 import BeautifulSoup

class ElMundoSpider (scrapy.Spider):

    #Es obligatorio poner un nombre
    name = 'elmundo'

    #Ponemos que el dominio que está permitido es el de la página y no vamos a irnos fuera de la misma
    allowed_domains = ['www.elmundo.es']

    start_urls = ['https://www.elmundo.es/']

    # para evitar que el sitio te bloquee por usar scrapy es interesante cambiar el USER_AGENT
    # El user agent por defecto de Scrapy cuando hace una petición es
    # Scrapy/VERSION (+https://scrapy.org)
    custom_settings = {
        'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36',
    }

    def parse (self, response):
      """
      @inherit

      @param self
      @param response
      """

      # Obtenemos la URL de la web que estamos procesando
      url = str(response.request.url).strip()

      # Obtenemos usando CSS la parte donde está definido el JSON-LD en la web
      for item in response.css('script[type=\"application/ld+json\"]'):
        data = json.loads(item.css('::text').get())
        # Procesamos aquí los datos
        # RELLENAR
        if 'headline' in data:
          title = data['headline']
          content = data['description']
          date = data['datePublished']
          print ("-------------------------")
          print (url)
          print (title)
          print (content)
          print (date)
          print ("-------------------------")

          data = {
              'url' : url,
              'title': title,
              'content': content,
              'date': date
          }

          #Creamos para cada item un fichero json y para ello obtenemos un número aleatorio.
          filename = str(random.random()).replace(".","") + ".json"

          # Guardamos el documento si tiene contenido y título
          if content and title:
              with open ('elmundo/' + filename, 'w') as f:
                  json.dump (data, f, indent = 4)

      # Por último, miramos distintos enlaces que existan en la web (en este caso todos los de la etiqueta <a>)
      url_in_current_document = response.css ('a')
      for next_page in url_in_current_document:
          # Por cada enlace ejecutamos el mismo parse

          #Intentamos filtrar que solamente coja deporte
          url_str= str(next_page.css('::attr(href)').get())
          if url_str.find("elmundo.es/deportes") != -1:
            yield response.follow (next_page, self.parse)


## Apartado 1.2
Para poder lanzar el Spider necesitamos que ejecutar el siguiente código donde se configuará y lanzará el proceso.
Hay que hacer notar que solamente se puede lanzar un proceso por cada sesión en Jupyter notebook es por eso por lo que se recomienda exportar el código en un script de Python .py para poder ejecutarlo desde la línea de comandos.

In [2]:
import os
import scrapy
from scrapy.crawler import CrawlerProcess

# Creamos un proceso de Crawler podemos poner distintas settings que están definidas en la documentación.
# Entre ellas podemos ocular los logs del proceso de Crawling.
process = CrawlerProcess(settings={
    "LOG_ENABLED": False,
    # Used for pipeline 1
})

# Como se ha definido anteriormente en el RSSCrawler, los ficheros se van a almacenar en la carpeta "rss"
# Comprobamos que existe la carpeta y si no existe la creamos
if (not os.path.exists('elmundo')):
    os.mkdir('elmundo')

# Creamos el proceso con el RSSSpider
process.crawl(ElMundoSpider)
# Ejecutamos el Crawler
process.start()

INFO:scrapy.utils.log:Scrapy 2.11.0 started (bot: scrapybot)
INFO:scrapy.utils.log:Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.10.12 (main, Jun 11 2023, 05:26:28) [GCC 11.4.0], pyOpenSSL 23.2.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.5, Platform Linux-5.15.120+-x86_64-with-glibc2.35
INFO:scrapy.addons:Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)
DEBUG:scrapy.utils.log:Using reactor: twisted.internet.epollreactor.EPollReactor
INFO:scrapy.extensions.telnet:Telnet Password: 13e0f0f50e2249d5
INFO:scrapy.middleware:Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
INFO:scrapy.crawler:Overridden settings:
{'LOG_ENABLED': False,
 'USER_AGENT': 'Mozilla/5.0 (Windo

-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/primera-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/segunda-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/europa-league.html
-------------------------
-------------------------

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/europa-league.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/primera-division.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/premier-league.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/segunda-division.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/liga-portuguesa.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/liga-argentina.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200)

-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/26/653a467a21efa043148b4590.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/primera-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/segunda-division.html
-------------------------
-------------------------
L

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto/nba.html> (referer: https://www.elmundo.es/)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/liga-francesa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/liga-portuguesa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/liga-argentina.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/eurocopa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/mundial.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/uefa-nations-league.html
-------------------------
-

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-motor.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/liga-francesa.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/juegos-olimpicos.html> (referer: https://www.elmundo.es/)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/primera-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/segunda-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/europa-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/2023/10/26/653a467a21efa043148b4590.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto/liga-endesa.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/padel.html> (referer: https://www.elmundo.es/)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/premier-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/bundesliga.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/serie-a.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/liga-francesa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La 

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/primera-division/2023/10/26/653a4071e9cf4a7b358b45c7.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte.html> (referer: https://www.elmundo.es/)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/primera-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/segunda-division.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/europa-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/liga-portuguesa.html
-------------------------
--

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby/seis-naciones/calendario.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/2023/10/25/6539588afdddfff51e8b45db.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol-americano.html> (referer: https://www.elmundo.es/)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-sala.html> (referer: https://www.elmundo.es/)



-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/premier-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/bundesliga.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/serie-a.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/liga-endesa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba.html


DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/balonmano/europeo-femenino/calendario.html> (referer: https://www.elmundo.es/)


[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba/2023/09/15/6504346ee4d4d80b7c8b4580.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba/2023/09/15/6504346ee4d4d80b7c8b4580.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba/2023/09/12/64fffadee4d4d8e6118b45c4.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba/2023/09/12/64fffadee4d4d8e6118b45c4.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba/2023/09/12/64fffadee4d4d8e6118b45c4.html
-------------------------
-------------------------
La proxima url que voy a es

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/2023/08/24/64e70273fdddff909f8b45ab.html> (referer: https://www.elmundo.es/deportes/mas-deporte.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/2023/08/24/64e7405721efa0006f8b45ca.html> (referer: https://www.elmundo.es/deportes/mas-deporte.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/padel/2019/10/11/5da0cd25fdddff5b938b45c7.html> (referer: https://www.elmundo.es/deportes/padel.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/padel/2019/10/13/5da32c0afdddff869b8b462b.html> (referer: https://www.elmundo.es/deportes/padel.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html> (referer: https://www.elmundo.es/deportes/padel.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/padel/2019

-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/mas-deporte/2023/08/23/64e65a3421efa0596c8b458b.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey/2023/01/19/63c9c47cfdddff5c728b4593.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey/2023/01/19/63c9c39c21efa0de128b45d5.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey/2023/01/19/63c9c39c21efa0de128b45d5.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league/2023/10/03/651c0cf021efa011668b4579.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/resultados/baloncesto/liga-endesa.html?intcmp=MODRESULT01&s_kw=agenda> (referer: https://www.elmundo.es/deportes/baloncesto/liga-endesa.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino/2023/09/06/64f82248e85ece9b758b458d.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby/2022/05/21/6289503be4d4d857128b459c.html> (referer: https://www.elmundo.es/deportes/rugby.html)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
https://www.elmundo.es/deportes/mas-deporte/2023/08/24/64e7405721efa0006f8b45ca.html
Álvaro Martín y María Pérez, España reina en una marcha amenazada de muerte: &quot;Nos merecemos un respeto&quot;
Son las 03.50 horas de la madrugada en el hotel Thermal Margarita Island cuando dos atletas de la selección española que ya han acabado su competición entran por lo puerta y,...
2023-08-24T12:08:23Z
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league/2023/10/25/65394e5afc6c83af768b4588.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/25/653

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby/2022/05/21/628536b6fdddff8d828b45b5.html> (referer: https://www.elmundo.es/deportes/rugby.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby/2022/05/20/6287b586fc6c83d22c8b45e1.html> (referer: https://www.elmundo.es/deportes/rugby.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto/liga-endesa/2023/05/29/6473803fe4d4d87b108b458f.html> (referer: https://www.elmundo.es/deportes/baloncesto/liga-endesa.html)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html?intcmp=MENUHOM24801&s_kw=deportes
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/25/65392290e4d4d844328b45a4.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/26/653a467a21efa043148b4590.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league/2023/10/25/65394e5afc6c83af768b4588.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/25/653918f2e85ecead788b45de.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/champions-league/2023/10/26/65398fa0e4d4d863078b45a

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/rugby/2022/05/26/628cf9df21efa0bc778b4589.html> (referer: https://www.elmundo.es/deportes/rugby.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/2023/08/22/64e51aa6fc6c8303668b457f.html> (referer: https://www.elmundo.es/deportes/mas-deporte.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/2023/08/23/64e4d21ae85ece622b8b457c.html> (referer: https://www.elmundo.es/deportes/mas-deporte.html)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/copa-del-rey.html?intcmp=MENUDES22301&s_kw=copa_del_rey
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/mas-deporte/pag2
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html?intcmp=MENUDES22301&s_kw=deportes
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html?intcmp=MENUDES22301&s_kw=futbol
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/primera-division.html?intcmp=MENUDES22301&s_kw=primera_division
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/segunda-division.html?intcmp=MENUDES22301&s_kw=segunda-division
-

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino/2023/10/18/652fed57e85ecea2538b4608.html> (referer: https://www.elmundo.es/deportes/futbol.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/2023/10/18/65300d40e9cf4aaa108b45a0.html> (referer: https://www.elmundo.es/deportes/futbol.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino/2023/08/29/64edc875e4d4d8ba498b4590.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-motor/pag2> (referer: https://www.elmundo.es/deportes/mas-motor.html)


-------------------------
https://www.elmundo.es/deportes/rugby/2022/05/21/6289503be4d4d857128b459c.html
Un abrazo multitudinario a la selección española de rugby
Tras unas dolorosas semanas por la sanción que puede suponer su exclusión del Mundial, la selección española de rugby ha recibido este sábado el multitudinario apoyo de los...
2022-05-21T21:07:56Z
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/rugby/2022/03/20/62374200fdddffa7728b45ac.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/rugby/2022/03/20/62374200fdddffa7728b45ac.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/rugby/2022/03/20/62374200fdddffa7728b45ac.h

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/2023/08/29/64ee4aa8fc6c8323488b458f.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino/2023/09/01/64f1e2ffe4d4d871138b458a.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/eurocopa.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/mundial.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/uefa-nations-league.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/futbol-femenino.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/acb.html?intcmp=MENUDES22301&s_kw=acb
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba.html?intcmp=MENUDES22301&s_kw=nba
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/2023/08/22/64e52626e85ece1d238b4583.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/2023/08/23/64e60727e9cf4a546a8b45da.html> (referer: https://www.elmundo.es/deportes/futbol/futbol-femenino.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/bundesliga.html?intcmp=MENUDES22301&s_kw=bundesliga> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto/pag2> (referer: https://www.elmundo.es/deportes/baloncesto.html)


-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/tour-de-francia.html?intcmp=MENUDES22301&s_kw=tour_de_francia
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/giro-de-italia.html?intcmp=MENUDES22301&s_kw=giro_de_italia
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana.html?intcmp=MENUDES22301&s_kw=vuelta_a_espana
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis.html?intcmp=MENUDES22301&s_kw=tenis
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis/open-de-australia.html?intcmp=MENUDES22301&s_kw=open
-------------------------
-------------------------
La proxima url que voy a estudiar es

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/tenis/open-de-australia.html?intcmp=MENUDES22301&s_kw=open> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/copa-del-rey.html?intcmp=MENUDES22301&s_kw=copa_del_rey> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto/acb.html?intcmp=MENUDES22301&s_kw=acb> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis/indian-wells/primera-ronda-masculino.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/giro-de-italia.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/tour-de-francia.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis/roland-garros.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis/wimbledon.html
-------

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/tenis.html?intcmp=MENUDES22301&s_kw=tenis> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/baloncesto.html?intcmp=MENUDES22301&s_kw=baloncesto> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/futbol-femenino.html?intcmp=MENUDES22301&s_kw=futbol_femenino> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/futbol/pag2> (referer: https://www.elmundo.es/deportes/futbol.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/mas-deporte/pag2> (referer: https://www.elmundo.es/deportes/mas-deporte.html)
INFO:scrapy.crawler:Received SIGINT, s


-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/tenis/open-de-australia.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/nba.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/euroliga.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/copa-del-rey.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/baloncesto/mundial.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/formula-1.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/motociclismo.html

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/ciclismo/giro-de-italia.html?intcmp=MENUDES22301&s_kw=giro_de_italia> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/ciclismo/tour-de-francia.html?intcmp=MENUDES22301&s_kw=tour_de_francia> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/ciclismo/vuelta-a-espana.html?intcmp=MENUDES22301&s_kw=vuelta_a_espana> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)
INFO:scrapy.core.engine:Closing spider (shutdown)


-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/giro-de-italia.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/tour-de-francia.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana.html
-------------------------
-------------------------
La proxima url que voy a estudiar esmailto:?subject=Sorpresas%20en%20C%C3%B3rdoba%20y%20%27n%C3%BAmero%20uno%27%20asegurado%20para%20las%20Martas&body=https://www.elmundo.es/deportes/padel/2019/11/15/5dcef033fc6c839e0c8b4636.html?emk=MAILSHARE
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes.html
----------------------

DEBUG:scrapy.core.engine:Crawled (200) <GET https://www.elmundo.es/deportes/ciclismo.html?intcmp=MENUDES22301&s_kw=ciclismo> (referer: https://www.elmundo.es/deportes/padel/2019/11/03/5dbee69afdddffbc2b8b4575.html)


[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana/clasificacion/general.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana/clasificacion/etapa-1.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana/palmares.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana/2023/09/17/6505c8f721efa0ee478b4583.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/ciclismo/vuelta-a-espana/2023/09/17/6505c8f721efa0ee478b4583.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudia

INFO:scrapy.statscollectors:Dumping Scrapy stats:
{'downloader/request_bytes': 26252,
 'downloader/request_count': 68,
 'downloader/request_method_count/GET': 68,
 'downloader/response_bytes': 3911033,
 'downloader/response_count': 68,
 'downloader/response_status_count/200': 68,
 'dupefilter/filtered': 8063,
 'elapsed_time_seconds': 23.316556,
 'finish_reason': 'shutdown',
 'finish_time': datetime.datetime(2023, 10, 26, 17, 5, 27, 59613, tzinfo=datetime.timezone.utc),
 'httpcompression/response_bytes': 21097291,
 'httpcompression/response_count': 68,
 'log_count/DEBUG': 70,
 'log_count/INFO': 11,
 'memusage/max': 172347392,
 'memusage/startup': 172347392,
 'offsite/filtered': 25,
 'request_depth_max': 4,
 'response_received_count': 68,
 'scheduler/dequeued': 68,
 'scheduler/dequeued/memory': 68,
 'scheduler/enqueued': 1645,
 'scheduler/enqueued/memory': 1645,
 'start_time': datetime.datetime(2023, 10, 26, 17, 5, 3, 743057, tzinfo=datetime.timezone.utc)}
INFO:scrapy.core.engine:Spider 

-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/futbol-femenino/2023/08/25/64e8af71fdddff0f1c8b458b.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/futbol-femenino/2023/08/25/64e8af71fdddff0f1c8b458b.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/08/23/64e60727e9cf4a546a8b45da.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/08/23/64e60727e9cf4a546a8b45da.html#ancla_comentarios
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deportes/futbol/2023/10/25/653918f2e85ecead788b45de.html
-------------------------
-------------------------
La proxima url que voy a estudiar eshttps://www.elmundo.es/deporte