In [1]:
import os
import logging
import scrapy
from scrapy.crawler import CrawlerProcess

In [2]:
# On crée une classe RandomQuoteSpider qui hérite de scrapy.Spider. Cela signifie qu'elle utilise les fonctionnalités de base de Scrapy pour naviguer sur le web et extraire des données.

class RandomQuoteSpider(scrapy.Spider):

    # On donne un nom à la Spider pour l'identifier lorsqu'elle sera lancée
    name = "randomquote"

    # URL depuis laquelle la Spider va partir
    start_urls = [
        'http://quotes.toscrape.com/random',
    ]

    # La fonction parse() est automatiquement appelée lorsque la Spider charge une page. Son rôle est d’extraire les informations de la page.
    # parse() prend en paramètre response, qui est une instance de la classe Response contenant le code HTML de la page.

    def parse(self, response):
        
        
        # On récupère l'élément "parent" des éléments qu'on veut scraper. Ici c'est la balise <div> dont la class est "quote".
        quote = response.css('div.quote') 
        
        # Dans cet élément parent, on récupère les sous éléments qui nous intéressent et on les met dans un dictionnaire
        return {
            'text': quote.css('span.text::text').get(), # le ::text signifie qu'on veut récupérer le text à l'intérieur de la balise identifiée par span.text
            'author': quote.css('span small.author::text').get(), # on va chercher la balise small.author contenue dans un span
            'tags': quote.css('div.tags a.tag::text').getall() #get ALL car il y a plusieurs éléments potentiellement
        }

In [3]:
# Nom du fichier qui sera créé avec les résultats de notre scraping

filename = "1_random_quote.json"

# Si le fichier existe déjà, on le supprime
if filename in os.listdir('src/'):
    os.remove('src/' + filename)
    
# On crée une instance de la classe CrawlerProcess, qui va gérer le scraping.
process = CrawlerProcess(settings = {
    'USER_AGENT':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)', # On simule un navigateur, pour ne pas être bloqué par le site
    'LOG_LEVEL': logging.INFO, # On définit le niveau de précision des messages de description qui seront donnés
    "FEEDS": {
        'src/' + filename : {"format": "json"}, # On indique où seront sauvegardées les données extraites
    }
    
})


# On lance notre spider et on démarre le processus de scraping
process.crawl(RandomQuoteSpider)
process.start()

2025-02-21 11:43:09 [scrapy.utils.log] INFO: Scrapy 2.11.1 started (bot: scrapybot)
2025-02-21 11:43:09 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13.1, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 23.10.0, Python 3.12.7 | packaged by Anaconda, Inc. | (main, Oct  4 2024, 13:17:27) [MSC v.1929 64 bit (AMD64)], pyOpenSSL 24.2.1 (OpenSSL 3.0.15 3 Sep 2024), cryptography 43.0.0, Platform Windows-11-10.0.26100-SP0
2025-02-21 11:43:09 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2025-02-21 11:43:09 [scrapy.extensions.telnet] INFO: Telnet Password: dafce48ca0f40bfe
2025-02-21 11:43:10 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2025-02-21 11:43:10 [scrapy

In [2]:
class QuotesSpider(scrapy.Spider):
    # Name of your spider
    name = "quotes"

    # Url to start your spider from
    start_urls = [
        'http://quotes.toscrape.com/page/1',
    ]

    # Callback function that will be called when starting your spider
    def parse(self, response):
        
        quotes = response.css('div.quote')
        for quote in quotes:
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('span small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall()
            }

In [3]:
filename = "2_quotes.json"

if filename in os.listdir('src/'):
    os.remove('src/' + filename)
    
#Créer un CrawlerProcess
process = CrawlerProcess(settings = {
    'USER_AGENT':'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',
    'LOG_LEVEL': logging.INFO,
    "FEEDS": {
        'src/' + filename : {"format": "json"},
    }
    
})


#Lancer le crawler utilisant la spider
process.crawl(QuotesSpider)
process.start()

2025-02-21 12:52:14 [scrapy.utils.log] INFO: Scrapy 2.11.1 started (bot: scrapybot)
2025-02-21 12:52:14 [scrapy.utils.log] INFO: Versions: lxml 5.2.1.0, libxml2 2.13.1, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 23.10.0, Python 3.12.7 | packaged by Anaconda, Inc. | (main, Oct  4 2024, 13:17:27) [MSC v.1929 64 bit (AMD64)], pyOpenSSL 24.2.1 (OpenSSL 3.0.15 3 Sep 2024), cryptography 43.0.0, Platform Windows-11-10.0.26100-SP0
2025-02-21 12:52:14 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2025-02-21 12:52:14 [scrapy.extensions.telnet] INFO: Telnet Password: 7b45f520cc3ef9bb
2025-02-21 12:52:14 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2025-02-21 12:52:14 [scrapy