
# Introduction

[Scrapy](https://scrapy.org/) est un framework permettant de crawler des
sites web et d'en extraire les données de façon structurée.

## Installation

Nous travaillerons dans un environnement
[Anaconda](https://www.anaconda.com/download/), déjà présent sur les
machines de l'ESIEE. Sur vos machines personnelles, télécharger la
distribution correspondant à la version la plus récente de Python.

[Scrapy](https://scrapy.org/) ne fait pas partie de la distribution par
défaut de Python et doit être installé manuellement. Ici, le package est
déjà installé grâce à Pipenv.

Si vous avez besoin d'installer dans un autre cadre.

-   Avec **Pipenv** : `pipenv install scrapy`
-   Avec **Anaconda** : `conda install -c conda-forge scrapy`

Tester la réussite de l'opération dans un interpréteur Python. Avant
installation:

In [1]:
!pip install scrapy




[notice] A new release of pip is available: 23.3.1 -> 23.3.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import scrapy

## Architecture

[Scrapy](https://scrapy.org/) est un framework comportant plusieurs
composants.

<img src="images/architecture.png" alt="image" class="align-center" />

L'ensemble du processus est contrôlé par l'**engine** (les termes anglo
saxons ont été retenus pour un meilleur référencement dans la
[documentation officielle](https://docs.scrapy.org/en/latest/)).

Le framework est articulé avec plusieurs composants qui gèrent chacun un
rôle différent. Nous allons les détailler.

-   Les **Spiders** : permettent de naviguer sur un site et de
    référencer les règles d'extraction de la donnée.
-   Les **Pipelines** : font le lien entre la donnée brute et des objets
    structurés
-   Les **Middlewares** : permettent d'effectuer des transformations sur
    les objets ou sur les requêtes exécutées par l'engine.
-   Le **Scheduler** : gère l'ordre et le timing des requêtes
    effectuées.

## Fonctionnement

[Scrapy](https://scrapy.org/) est entièrement organisé autour d'un
composant central : l'*engine*.

Le rôle de l'*engine* est de contrôler le flux de données entre les
différents composants du système.

1.  En particulier, il est chargé de récupérer les *requests* définies
    dans les *spiders*
2.  Ces *requests* sont ensuite fournies au *scheduler* qui se charge de
    leur ordonnancement
3.  Les *requests* sont présentées selon cet ordonnancement à
    l'*engine*...
4.  ... qui les transmet au *downloader*
5.  Le *downloader* effectue la *request* et transmet la *response* (le
    contenu de la page web) à l'*engine*...
6.  ... puis l'envoie au *spider* pour traitement
7.  Le *spider* génére des *items* qui sont transmis à l'*engine*
8.  Les *items* sont ensuite poussés dans un pipeline pour nettoyage,
    validation et stockage

Ce processus est répété jusqu'à épuisement des requêtes.

[Scrapy](https://scrapy.org/) est un [framework orienté
événements](https://en.wikipedia.org/wiki/Event-driven_architecture)
(basé sur [Twisted](https://twistedmatrix.com/)) permettant une
programmation asynchrone (non bloquante). C'est particulièrement
intéressant dans les opérations de scraping, puisque **le programme
n'attend pas le résultat d'une requête pour en lancer une autre**.

En effet, lorsque l'on sollicite une ressource (requête réseau, système
de fichier, etc.) en mode bloquant, l'exécution du programme est
suspendue le temps que la transaction avec la ressource se termine (par
exemple le temps qu'une page web soit complètement téléchargée).
L'intérêt de faire des appels non bloquants, c'est que l'on peut gérer
de multiples téléchargements en parallèle, et que le programme peut
continuer à tourner pendant ce temps.

# Un scraping élémentaire

Avant de rentrer dans les détails du framework, nous allons mettre en
oeuvre un premier script permettant de récupérer l'information présente
sur [la page web](http://evene.lefigaro.fr/citations/winston-churchill)
recensant les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill).

**Exercice**

Examiner le code source de cette page avec l'inspecteur de votre
navigateur. Identifier les éléments contenant l'information recherchée,
ici la chaîne de caractères contenant la citation proprement dite.

## Le code source

Le code utilisé est le suivant:

In [3]:
class ChurchillQuotesSpider(scrapy.Spider):
    name = "citations de Churchill"
    start_urls = ["http://evene.lefigaro.fr/citations/winston-churchill",]

    def parse(self, response):
        for cit in response.xpath('//div[@class="figsco__quote__text"]'):
            text_value = cit.xpath('a/text()').extract_first()
            
            cleaned_text = text_value.replace('“', '').replace('”', '')
            
            yield { 'text' : cleaned_text }

## Le fonctionnement

Le fonctionnement est le suivant:

-   On importe le module [Scrapy](https://scrapy.org/) (3)
-   et on définit une sous classe de `scrapy.Spider` (5)
-   la variable `start_urls` contient la liste des pages à scraper (7)
-   On redéfinit la méthode $parse$ dont la signature est définie dans
    la classe mère (9)
-   L'objet
    [response](https://docs.scrapy.org/en/latest/topics/request-response.html#response-objects)
    représente la réponse à la requête HTTP (l'attribut $text$ permet
    d'accéder à son contenu). On recherche ensuite tous les containers
    `<div>` identifiés dans l'exercice précédent. Ici la page est
    particulièrement bien structurée et les citations disposent de leur
    propre container, identifié par l'attribut `class` de valeur
    `figsco__quote__text`. La sélection se fait par une expression
    [XPath](https://en.wikipedia.org/wiki/XPath), un langage de
    sélection de noeud dans un document XML (10). En langage naturel, la
    requête pourrait se formuler : "On recherche tous les containers
    `<div>` dont la valeur de l'attribut `class` est égal à
    `figsco__quote__text`".
-   Pour chaque résultat, on construit un dictionnaire dont la clé est
    `text` et la valeur le contenu du lien `<a>`. Ce résultat est fourni
    par un générateur ($yield$) (12).

On lance le scraping depuis un terminal:

On y trouve des informations sur les paramètres
utilisés:

In [4]:
!scrapy runspider citations_churchill_spider1.py

2023-12-20 13:20:21 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: scrapybot)
2023-12-20 13:20:21 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:20:21 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:20:22 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:20:22 [scrapy.extensions.telnet] INFO: Telnet Password: 1f073998e0a0490f
2023-12-20 13:20:22 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.lo

In [7]:
2023-11-29 11:10:07 [scrapy.utils.log] INFO: Scrapy 2.6.2 started (bot: scrapybot)
2023-11-29 11:10:07 [scrapy.crawler] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (3392112690.py, line 1)

les
[extensions](https://docs.scrapy.org/en/latest/topics/extensions.html)
...:

In [19]:
2023-11-29 11:10:08 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']

[Les composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html)
... :

In [None]:
2023-11-29 11:48:20 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']

Idem pour [les composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
...:

In [None]:
2023-11-29 11:48:20 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']

Aucun
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
n'est activé :

In [None]:
2023-11-29 11:48:20 [scrapy.middleware] INFO: Enabled item pipelines:
[]

**Exercice**

Identifier la position des [composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html),
des [composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
et du
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
dans $l'architecture <Introduction>$

L'exécution du scraping proprement dit débute :

In [23]:
2023-11-29 11:50:45 [scrapy.core.engine] INFO: Spider opened
2023-11-29 11:50:45 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-11-29 11:50:45 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (4224969182.py, line 1)

La première URL est poussée par le scheduler:

In [None]:
2023-11-29 11:50:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)

## Les résultats

Les résultats sont fournis par le générateur défini dans la méthode
$parse$ dans un dictionnaire. Ils contiennent le texte des citations
dans la valeur de la clé `text` :

In [None]:
2023-11-29 11:50:45 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>

{'text': 'Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.'}
2023-11-29 11:50:45 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>

{'text': "Un conciliateur c'est quelqu'un qui nourrit un crocodile en espérant qu'il sera le dernier à être mangé."}

## Les statistiques

Une fois le scraping effectué, quelques statistiques sont affichées sur
le terminal:

In [None]:
2023-11-29 11:50:45 [scrapy.core.engine] INFO: Closing spider (finished)
2023-11-29 11:50:45 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 248,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 14812,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 0.216067,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 11, 29, 10, 50, 45, 685437),
 'httpcompression/response_bytes': 84969,
 'httpcompression/response_count': 1,
 'item_scraped_count': 16,
 'log_count/DEBUG': 18,
 'log_count/INFO': 10,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2023, 11, 29, 10, 50, 45, 469370)}
2023-11-29 11:50:45 [scrapy.core.engine] INFO: Spider closed (finished)

On observe notamment que notre code permet de récupérer la taille de la
page web (17435 bytes), le temps d'exécution à partir des valeurs
`finish_time` et `start_time`, le nombre d'items scrapés (16), etc...

**Exercice**

Les citations extraites sont elles toutes de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) ? Il sera
peut être nécessaire de modifier le sélecteur XPath. Nous verrons ça
lorsque il faudra récupérer les données relative à l'auteur.

## Modifier les données

Il est parfois nécessaire de faire un traitement sur les données
scrapées, pour ajouter ou retirer de l'information.

**Exercice**

Retirer les caractères `“` et `”` qui délimitent la citation. Ces
caractères sont identifiés en Unicode comme [LEFT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201c/index.htm) et
[RIGHT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201d/index.htm).

## Plus de données

Il est souvent nécessaire de récupérer plusieurs informations relatives
à un même item. Dans cet exemple, il est judicieux d'associer à la
citation le nom de son auteur, en allant chercher cette information au
plus près du texte lui même.

**Exercice**

Examiner le code source de la page web et identifier la structuration de
la donnée associée à l'auteur. En déduire l'expression XPath permettant
de la récupérer. S'assurer que seules les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) sont
extraites. Ajouter une clé `author` au dictionnaire retourné par le
$yield$ dont la valeur est précisément la chaîne de caractères contenant
l'auteur.

Un exemple de dictionnaire retourné:

In [5]:
import scrapy

class ChurchillQuotesSpider(scrapy.Spider):
    name = "citations de Churchill"
    start_urls = ["http://evene.lefigaro.fr/citations/winston-churchill",]

    def parse(self, response):
        # Trouver l'auteur sur la page
        author = response.css('a[href="/celebre/biographie/winston-churchill-675.php"]::text').extract_first()

        for cit in response.xpath('//div[@class="figsco__quote__text"]'):
            text_value = cit.xpath('a//text()').extract_first()

            # Supprimer les caractères “ et ” avec la méthode replace
            cleaned_text = text_value.replace('“', '').replace('”', '')

            yield {'author': author, 'text': cleaned_text}

In [6]:
{   'text': "“Si deux hommes ont toujours la même opinion, l'un d'eux est de trop.”", 
    'author': 'Winston Churchill'}

{'text': "“Si deux hommes ont toujours la même opinion, l'un d'eux est de trop.”",
 'author': 'Winston Churchill'}

Pour lancer l'exécution de la spider :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py

On peut aussi vouloir stocker les données extraites :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py -o
> data/citation.json -t json

In [7]:
# Lancement de l'exécution de la spider :
# Commande : scrapy runspider citations_churchill_spider1.py
2023-12-20 13:31:57 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: scrapybot)
2023-12-20 13:31:57 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:31:57 [scrapy.addons] INFO: Enabled addons:
[]
2023-12-20 13:31:57 [py.warnings] WARNING: C:\Users\keren\Documents\DSIA4101\DSIA_4101A\DataEngineerTools\Lib\site-packages\scrapy\utils\request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.

It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. This is so for backward compatibility reasons, but it will change in a future version of Scrapy.

See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:31:57 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:31:57 [scrapy.extensions.telnet] INFO: Telnet Password: c75924e966bb167e
2023-12-20 13:31:57 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2023-12-20 13:31:57 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2023-12-20 13:31:57 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2023-12-20 13:31:57 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2023-12-20 13:31:57 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2023-12-20 13:31:57 [scrapy.core.engine] INFO: Spider opened
2023-12-20 13:31:57 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-12-20 13:31:57 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-12-20 13:31:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Un conciliateur c'est quelqu'un qui nourrit un crocodile en espérant qu'il sera le dernier à être mangé."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Il est une bonne chose de lire des livres de citations, car les citations lorsqu’elles sont gravées dans la mémoire vous donnent de bonnes pensées.'}       
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Je suis toujours prêt à apprendre, bien que je n'aime pas toujours qu'on me donne des leçons."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "C'est une belle chose d'être honnête, mais il est également important d'avoir raison."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'J’ai retiré plus de choses de l’alcool que l’alcool ne m’en a retirées.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Pour s'améliorer, il faut changer. Donc, pour être parfait, il faut avoir changé souvent."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "On considère le chef d'entreprise comme un homme à abattre, ou une vache à traire. Peu voient en lui le cheval qui tire le char."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'En Angleterre, tout est permis, sauf ce qui est interdit. En Allemagne, tout est interdit, sauf ce qui est permis. En France, tout est permis, même ce qui est interdit. En U.R.S.S., tout est interdit, même ce qui est permis.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'On vit de ce que l’on obtient.\rOn construit sa vie sur ce que l’on donne.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Si deux hommes ont toujours la même opinion, l'un d'eux est de trop."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Plus vous saurez regarder loin dans le passé, plus vous verrez loin dans le futur.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'L’Angleterre s’écroule dans l’ordre, et la France se relève dans le désordre.'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "En avalant les méchantes paroles qu'on ne profère pas, on ne s'est jamais abîmé l'estomac."}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Comité : Un groupe de personnes incapables de faire quoi que ce soit par elles-mêmes qui décident collectivement que rien ne peut être fait !'}
2023-12-20 13:31:58 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Les baisers qu'on ne reçoit pas sont peut-être plus intéressants que ceux qu'on reçoit."}
2023-12-20 13:31:58 [scrapy.core.engine] INFO: Closing spider (finished)
2023-12-20 13:31:58 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 245,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 14851,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 0.292117,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 12, 20, 12, 31, 58, 37732, tzinfo=datetime.timezone.utc),
 'httpcompression/response_bytes': 85054,
 'httpcompression/response_count': 1,
 'item_scraped_count': 16,
 'log_count/DEBUG': 18,
 'log_count/INFO': 10,
 'log_count/WARNING': 1,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2023, 12, 20, 12, 31, 57, 745615, tzinfo=datetime.timezone.utc)}
2023-12-20 13:31:58 [scrapy.core.engine] INFO: Spider closed (finished)


In [9]:
# Stocker les données extraites
# Commande :  scrapy runspider citations_churchill_spider1.py -o data\citation.json -t json

C:\Users\keren\Documents\DSIA4101\DSIA_4101A\DataEngineerTools\Lib\site-packages\scrapy\commands\__init__.py:171: ScrapyDeprecationWarning: The -t/--output-format command line option is deprecated in favor 
of specifying the output format within the output URI using the -o/--output or the -O/--overwrite-output option (i.e. -o/-O <URI>:<FORMAT>). See the documentation of the -o or -O option or the following examples for more information. Examples working in the tutorial: scrapy crawl quotes -o quotes.csv:csv   or   scrapy crawl quotes -O quotes.json:json
  feeds = feed_process_params_from_cli(
2023-12-20 13:34:07 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: scrapybot)
2023-12-20 13:34:07 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:34:07 [scrapy.addons] INFO: Enabled addons:
[]
2023-12-20 13:34:07 [py.warnings] WARNING: C:\Users\keren\Documents\DSIA4101\DSIA_4101A\DataEngineerTools\Lib\site-packages\scrapy\utils\request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.

It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. This is so for backward compatibility reasons, but it will change in a future version of Scrapy.

See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:34:07 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:34:07 [scrapy.extensions.telnet] INFO: Telnet Password: ca9b7c24c0a532e5
2023-12-20 13:34:07 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions.logstats.LogStats']
2023-12-20 13:34:07 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2023-12-20 13:34:07 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2023-12-20 13:34:07 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2023-12-20 13:34:07 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2023-12-20 13:34:07 [scrapy.core.engine] INFO: Spider opened
2023-12-20 13:34:07 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2023-12-20 13:34:07 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-12-20 13:34:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Un conciliateur c'est quelqu'un qui nourrit un crocodile en espérant qu'il sera le dernier à être mangé."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Il est une bonne chose de lire des livres de citations, car les citations lorsqu’elles sont gravées dans la mémoire vous donnent de bonnes pensées.'}       
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Je suis toujours prêt à apprendre, bien que je n'aime pas toujours qu'on me donne des leçons."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "C'est une belle chose d'être honnête, mais il est également important d'avoir raison."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'J’ai retiré plus de choses de l’alcool que l’alcool ne m’en a retirées.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Pour s'améliorer, il faut changer. Donc, pour être parfait, il faut avoir changé souvent."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "On considère le chef d'entreprise comme un homme à abattre, ou une vache à traire. Peu voient en lui le cheval qui tire le char."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'En Angleterre, tout est permis, sauf ce qui est interdit. En Allemagne, tout est interdit, sauf ce qui est permis. En France, tout est permis, même ce qui est interdit. En U.R.S.S., tout est interdit, même ce qui est permis.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'On vit de ce que l’on obtient.\rOn construit sa vie sur ce que l’on donne.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Si deux hommes ont toujours la même opinion, l'un d'eux est de trop."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Plus vous saurez regarder loin dans le passé, plus vous verrez loin dans le futur.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'L’Angleterre s’écroule dans l’ordre, et la France se relève dans le désordre.'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "En avalant les méchantes paroles qu'on ne profère pas, on ne s'est jamais abîmé l'estomac."}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': 'Comité : Un groupe de personnes incapables de faire quoi que ce soit par elles-mêmes qui décident collectivement que rien ne peut être fait !'}
2023-12-20 13:34:07 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'author': 'Winston Churchill a dit...', 'text': "Les baisers qu'on ne reçoit pas sont peut-être plus intéressants que ceux qu'on reçoit."}
2023-12-20 13:34:07 [scrapy.core.engine] INFO: Closing spider (finished)
2023-12-20 13:34:07 [scrapy.extensions.feedexport] INFO: Stored json feed (16 items) in: data\citation.json
2023-12-20 13:34:07 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 245,
 'downloader/request_count': 1,
 'downloader/request_method_count/GET': 1,
 'downloader/response_bytes': 14852,
 'downloader/response_count': 1,
 'downloader/response_status_count/200': 1,
 'elapsed_time_seconds': 0.225028,
 'feedexport/success_count/FileFeedStorage': 1,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2023, 12, 20, 12, 34, 7, 828092, tzinfo=datetime.timezone.utc),
 'httpcompression/response_bytes': 85054,
 'httpcompression/response_count': 1,
 'item_scraped_count': 16,
 'log_count/DEBUG': 18,
 'log_count/INFO': 11,
 'log_count/WARNING': 1,
 'response_received_count': 1,
 'scheduler/dequeued': 1,
 'scheduler/dequeued/memory': 1,
 'scheduler/enqueued': 1,
 'scheduler/enqueued/memory': 1,
 'start_time': datetime.datetime(2023, 12, 20, 12, 34, 7, 603064, tzinfo=datetime.timezone.utc)}
2023-12-20 13:34:07 [scrapy.core.engine] INFO: Spider closed (finished)


SyntaxError: unexpected character after line continuation character (3797790401.py, line 4)


# Votre premier projet


Dans un premier temps vous devez créer un projet Scrapy avec la commande
:

In [10]:
!scrapy startproject newscrawler

Error: scrapy.cfg already exists in C:\Users\keren\Documents\ESIEE\E4\S1\P2\DSIA_4201C_DataEngineerTools\DataEngineerTools\2Scrapy\newscrawler


Cette commande va créer un dossier `monprojet` contenant les éléments
suivants correspondant au squelette :

In [11]:
newscrawler/
    scrapy.cfg            # Options de déploiement

    newscrawler/             # Le module Python contenant les informations
        __init__.py

        items.py          # Fichier contenant les items

        middlewares.py    # Fichier contenant les middlewares

        pipelines.py      # Fichier contenant les pipelines

        settings.py       # Fichier contenant les paramètres du projet

        spiders/          # Dossier contenant toutes les spiders
            __init__.py

SyntaxError: invalid syntax (955056834.py, line 1)

# Votre première Spider

Une Spider est une classe Scrapy qui permet de mettre en place toute
l'architecture complexe vue dans l'introduction. Pour définir une
spider, il vous faut hériter de la classe $scrapy.Spider$. La seule
chose à faire est de définir la première requête à effectuer et comment
suivre les liens. La Spider s'arrêtera lorsqu'elle aura parcouru tous
les liens qu'on lui a demandé de suivre.

Pour créer une Spider on utilise la syntaxe:

In [12]:
!scrapy genspider <SPIDER_NAME> <DOMAIN_NAME>

< ‚tait inattendu.


Par exemple,

In [36]:
!cd newscrawler && scrapy genspider lemonde lemonde.fr

Spider 'lemonde' already exists in module:
  newscrawler.spiders.lemonde


Cette commande permet de créer une spider appelée `lemonde` pour scraper
le domaine `lemonde.fr`. Cela crée le fichier Python
`spiders/lemonde.py` suivant :

In [13]:
# %load newscrawler/newscrawler/spiders/lemonde.py
import scrapy


class LemondeSpider(scrapy.Spider):
    name = 'lemonde'
    allowed_domains = ['lemonde.fr']
    start_urls = ['http://lemonde.fr/']

    def parse(self, response):
        pass


Une bonne pratique pour commencer à développer une Spider est de passer
par l'interface Shell proposée par Scrapy. Elle permet de récupérer un
objet `Response` et de tester les méthodes de récupération des données.

# ATTENTION : Les commandes scrapy shell doivent être lancées dans un terminal 

In [14]:
!scrapy shell 'http://lemonde.fr'

2023-12-20 13:36:25 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: scrapybot)
2023-12-20 13:36:25 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:36:25 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:36:25 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:36:25 [scrapy.extensions.telnet] INFO: Telnet Password: b3a344a180f1d719
2023-12-20 13:36:25 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole']
2023-12-20 13:36:25 [s

Pour les utilisateurs de windows il vous faut mettre des doubles quotes
:

In [12]:
scrapy shell "http://lemonde.fr"

SyntaxError: invalid syntax (1409220902.py, line 1)

Scrapy lance un kernel Python

In [None]:
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: newscrawler)
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'newscrawler', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'newscrawler.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newscrawler.spiders']}
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-02 16:05:50 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-02 16:05:50 [scrapy.core.engine] INFO: Spider opened
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/> (referer: None)
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10fc38c18>
[s]   item       {}
[s]   request    <GET https://www.lemonde.fr/>
[s]   response   <200 https://www.lemonde.fr/>
[s]   settings   <scrapy.settings.Settings object at 0x113bb0898>
[s]   spider     <DefaultSpider 'default' at 0x113e60cc0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser

In [None]:
# Lancement du kernel 
# Commmande Terminal : scrapy shell "http://lemonde.fr"
2023-12-20 13:44:05 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: newscrawler)
2023-12-20 13:44:05 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:44:05 [scrapy.addons] INFO: Enabled addons:
[]
2023-12-20 13:44:05 [py.warnings] WARNING: C:\Users\keren\Documents\DSIA4101\DSIA_4101A\DataEngineerTools\Lib\site-packages\scrapy\utils\request.py:254: ScrapyDeprecationWarning: '2.6' is a deprecated value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting.

It is also the default value. In other words, it is normal to get this warning if you have not defined a value for the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting. This is so for backward compatibility reasons, but it will change in a future version of Scrapy.

See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:44:05 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:44:05 [scrapy.extensions.telnet] INFO: Telnet Password: 52955231a08a7da9
2023-12-20 13:44:05 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole']
2023-12-20 13:44:05 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0,
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2023-12-20 13:44:05 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2023-12-20 13:44:05 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2023-12-20 13:44:05 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2023-12-20 13:44:05 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2023-12-20 13:44:05 [scrapy.core.engine] INFO: Spider opened
2023-12-20 13:44:05 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.lemonde.fr/robots.txt> from <GET http://lemonde.fr/robots.txt>
2023-12-20 13:44:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2023-12-20 13:44:05 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (301) to <GET https://www.lemonde.fr/> from <GET http://lemonde.fr>
2023-12-20 13:44:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2023-12-20 13:44:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/> (referer: None)
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x000002104C450650>
[s]   item       {}
[s]   request    <GET http://lemonde.fr>
[s]   response   <200 https://www.lemonde.fr/>
[s]   settings   <scrapy.settings.Settings object at 0x000002104C413810>
[s]   spider     <LemondeSpider 'lemonde' at 0x2104cad44d0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
2023-12-20 13:44:06 [asyncio] DEBUG: Using proactor: IocpProactor

Grâce à cette interface, vous avez accès à plusieurs objets comme la
`Response`, la `Request`, la `Spider` par exemple. Vous pouvez aussi
exécuter `view(response)` pour afficher ce que Scrapy récupère dans un
navigateur.

In [None]:
In [2]: response
Out[2]: <200 https://www.lemonde.fr/>

In [3]: request
Out[3]: <GET http://lemonde.fr>

In [4]: type(request)
Out[4]: scrapy.http.request.Request

In [1]: spider
Out[1]: <LemondeSpider 'lemonde' at 0x2104cad44d0>

In [5]: type(spider)
Out[5]: newscrawler.spiders.lemonde.LemondeSpider

Ici on voit que la Spider est une instance de LemondeSpider. Lorsqu'on
lance le $scrapy shell$ scrapy va chercher dans les spiders si une
correspond au lien passé en paramètre, si oui , il l'utilise sinon une
$DefaultSpider$ est instanciée.

## Vos premières requêtes

On peut commencer à regarder comment extraire les données de la page web
en utilisant le langage de requêtes proposé par Scrapy. Il existe deux
types de requêtes : les requêtes `css` et `xpath`. Les requêtes `xpath`
sont plus complexes mais plus puissantes que les requêtes `css`. Dans le
cadre de ce tutorial, nous allons uniquement aborder les requêtes `css`,
elles nous suffiront pour extraire les données dont nous avons besoin
(en interne, Scrapy transforme les requêtes `css`en requêtes `xpath`.

Que ce soit les requêtes `css` ou `xpath`, elles crééent des sélecteurs
de différents types. Quelques exemples :

Pour récupérer le titre d'une page :

In [None]:
In [6]: response.css('title')
Out[6]: [<Selector query='descendant-or-self::title' data='<title>Le Monde.fr - Actualités et In...'>]

On récupère une liste de sélecteurs correspondant à la requête `css`
appelée. La requête précédente était unique, d'autres requêtes moins
restrictives permettent de récupérer plusieurs résultats. Par exemple
pour rechercher l'ensemble des liens présents sur la page, on va
rechercher les balises HTML `<a></a>`

In [None]:
In [7]: response.css("a")[0:10]
Out[7]:
[<Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr" clas...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/en/" ...'>,
 <Selector query='descendant-or-self::a' data='<a rel="noopener" target="_blank" dat...'>,
 <Selector query='descendant-or-self::a' data='<a href="/">  <div class="logo__lemon...'>,
 <Selector query='descendant-or-self::a' data='<a class="Header__offer  Header__offe...'>,
 <Selector query='descendant-or-self::a' data='<a class="Header__connexion js-header...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://abo.lemonde.fr/?lmd_...'>,
 <Selector query='descendant-or-self::a' data='<a href="/" class="Burger__right-arro...'>,
 <Selector query='descendant-or-self::a' data='<a id="js-home-tab-continu" href="htt...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr" clas...'>]

Pour récupérer le texte contenu dans les balises, on passe le paramètre
`<TAG>::text`. Par exemple :

In [None]:
In [8]: response.css("title::text")
Out[8]: [<Selector query='descendant-or-self::title/text()' data='Le Monde.fr - Actualités et Infos en ...'>]

### Exercice

  Comparer les résultats des deux requêtes `response.css('title')` et
`response.css('title::text')`.

=> La première requête (response.css("title::text")) cible le texte à l'intérieur de la balise <title>, alors que la deuxième requête (response.css('title')) cible directement la balise <title> elle-même.

Maintenant pour extraire les données des selecteurs on utilise l'une des
deux méthodes suivantes : - `extract()` permet de récupérer une liste
des données extraites de tous les sélecteurs - `extract_first()` permet
de récupérer une `String` provenant du premier sélecteur de la liste.

In [None]:
In [9]: response.css('title::text').extract_first()
Out[9]: 'Le Monde.fr - Actualités et Infos en France et dans le monde'

On peut récupérer un attribut d'une balise avec la syntaxe
`<TAG>::attr(<ATTRIBUTE_NAME>)` :

Par exemple, les liens sont contenus dans un attribut `href`.

In [None]:
In [10]: response.css('a::attr(href)')[0:10]
Out[10]:
[<Selector query='descendant-or-self::a/@href' data='https://www.lemonde.fr'>,
 <Selector query='descendant-or-self::a/@href' data='https://www.lemonde.fr/en/'>,
 <Selector query='descendant-or-self::a/@href' data='https://journal.lemonde.fr'>,
 <Selector query='descendant-or-self::a/@href' data='/'>,
 <Selector query='descendant-or-self::a/@href' data='https://abo.lemonde.fr/offre-offrir?l...'>,
 <Selector query='descendant-or-self::a/@href' data='https://secure.lemonde.fr/sfuser/conn...'>,
 <Selector query='descendant-or-self::a/@href' data='https://abo.lemonde.fr/?lmd_medium=BO...'>,
 <Selector query='descendant-or-self::a/@href' data='/'>,
 <Selector query='descendant-or-self::a/@href' data='https://www.lemonde.fr/'>,
 <Selector query='descendant-or-self::a/@href' data='https://www.lemonde.fr'>]

Comme vu précédemment, si on veut récupérer la liste des liens de la page on applique la méthode $extract()$

In [None]:
In [11]: response.css('a::attr(href)').extract()[0:10]
Out[11]:
['https://www.lemonde.fr',
 'https://www.lemonde.fr/en/',
 'https://journal.lemonde.fr',
 '/',
 'https://abo.lemonde.fr/offre-offrir?lmd_medium=display&lmd_campaign=cnv_offrir_lmfr&lmd_creation=gratuit_dec-2023&lmd_variant=cta&lmd_format=header&lmd_source=autopromo',
 'https://secure.lemonde.fr/sfuser/connexion',
 'https://abo.lemonde.fr/?lmd_medium=BOUTONS_LMFR&lmd_campaign=CTA_LMFR&lmd_position=HEADER&lmd_sequence=5&lmd_type_de_page=Home',
 '/',
 'https://www.lemonde.fr/',
 'https://www.lemonde.fr']

Les liens dans une page HTML sont souvent codés de manière relative par
rapport à la page courante. La méthode de l'objet `Response` peut être
utilisée pour recréer l'url complet.

Un exemple sur le 4e élément :

In [None]:
In [14]: response.urljoin(response.css('a::attr(href)').extract()[8])
Out[14]: 'https://www.lemonde.fr/carlos-ghosn/'

# Fait
In [15]: response.urljoin(response.css('a::attr(href)').extract()[6])
Out[15]: 'https://abo.lemonde.fr/?lmd_medium=BOUTONS_LMFR&lmd_campaign=CTA_LMFR&lmd_position=HEADER&lmd_sequence=5&lmd_type_de_page=Home'

alors que

In [None]:
In [15]: response.css('a::attr(href)').extract()[8]
Out[15]: '/carlos-ghosn/'

# Fait
In [17]: response.css('a::attr(href)').extract()[6]
Out[17]: 'https://abo.lemonde.fr/?lmd_medium=BOUTONS_LMFR&lmd_campaign=CTA_LMFR&lmd_position=HEADER&lmd_sequence=5&lmd_type_de_page=Home'

### Exercice : 

Utiliser une liste compréhension pour transformer les 10
premiers liens relatifs récupérés par la méthode `extract()` en liens
absolus.    

Le résultat doit ressembler à :

In [15]:
relative_links = response.css('a::attr(href)').extract()[0:10]

# Transforme les liens relatifs en liens absolus avec response.urljoin
absolute_links = [response.urljoin(link) for link in relative_links]

# Affiche les liens absolus
print(absolute_links)

NameError: name 'response' is not defined

In [None]:
Out[23]: 
['https://journal.lemonde.fr',
'https://www.lemonde.fr/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/mouvement-des-gilets-jaunes/',
'https://www.lemonde.fr/carlos-ghosn/',
'https://www.lemonde.fr/implant-files/']

In [None]:
 Obtenu : 
 ['https://www.lemonde.fr', 'https://www.lemonde.fr/en/', 'https://journal.lemonde.fr', 'https://www.lemonde.fr/', 'https://abo.lemonde.fr/offre-offrir?lmd_medium=display&lmd_campaign=cnv_offrir_lmfr&lmd_creation=gratuit_dec-2023&lmd_variant=cta&lmd_format=header&lmd_source=autopromo', 'https://secure.lemonde.fr/sfuser/connexion', 'https://abo.lemonde.fr/?lmd_medium=BOUTONS_LMFR&lmd_campaign=CTA_LMFR&lmd_position=HEADER&lmd_sequence=5&lmd_type_de_page=Home', 'https://www.lemonde.fr/', 'https://www.lemonde.fr/', 'https://www.lemonde.fr']

## Des requêtes plus complexes

On peut créer des requêtes plus complexes en utilisant à la fois la
structuration HTML du document mais également la couche de présentation
CSS. On utilise l'inspecteur de `Google Chrome` pour identifier le type
et l'identifiant de la balise contenant les informations.

Il y a au moins deux choses à savoir en `css` :  

-   Les `.` représentent les classes
-   Les `#` représentent les id

On se propose de récupérer toutes les sous-catégories de news dans la
catégorie **Actualités**. On remarque en utilisant l'inspecteur
d'élement de Chrome que toutes les catégories sont rangées dans une
balise avec l'id $#nav-markup$ ensuite dans les classes $Nav__item$.

A partir de cette structure HTML on peut construire la requête suivante
pour récupérer la barre de navigation:

In [None]:
In [19]: response.css("#nav-markup")
Out[19]: [<Selector xpath="descendant-or-self::*[@id = 'nav-markup']" data='<ul id="nav-markup"> <li class="Nav__ite'>]

In [None]:
In [21]: response.css("#nav-markup")
Out[21]: [<Selector query="descendant-or-self::*[@id = 'nav-markup']" data='<ul id="nav-markup" class=""> <li cla...'>]

Ensuite pour récupérer les différentes catégories :

In [None]:
In [24]: response.css("#nav-markup .Nav__item")
Out[24]:
[<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item js-burger-to-show N'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--home Nav'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/recherc'>]

In [None]:
In [22]: response.css("#nav-markup .Nav__item")
Out[22]:
[<Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item js-burger-to-sho...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item-home N...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item-en-con...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>,
 <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item-search...'>]

2023-12-20 13:55:00 [asyncio] DEBUG: Using proactor: IocpProactor


On veut maintenant retourner tous les liens présents dans cette
catégorie. On remarque qu'elle apparait à la 4eme position.

In [None]:
In [34]: response.css("#nav-markup .Nav__item")[3]
Out[34]: <Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>

In [None]:
In [23]: response.css("#nav-markup .Nav__item")[3]
Out[23]: <Selector query="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--dropp...'>

Maintenant pour récupérer tous les liens on peut chainer les requêtes.
On accède alors à toutes les balises $a$.

In [None]:
In [35]: response.css("#nav-markup .Nav__item")[3].css("a")
Out[35]:
[<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>,
<Selector xpath='descendant-or-self::a' data='<a href="/climat/" data-suggestion>Clima'>,
<Selector xpath='descendant-or-self::a' data='<a href="/affaire-khashoggi/" data-sugge'>,
<Selector xpath='descendant-or-self::a' data='<a href="/emmanuel-macron/" data-suggest'>,
<Selector xpath='descendant-or-self::a' data='<a href="/ukraine/" data-suggestion>Ukra'>,
<Selector xpath='descendant-or-self::a' data='<a href="/russie/" data-suggestion>Russi'>,
<Selector xpath='descendant-or-self::a' data='<a href="/referendum-sur-le-brexit/" dat'>,
<Selector xpath='descendant-or-self::a' data='<a href="/harcelement-sexuel/" data-sugg'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-en-continu/" data-su'>,
<Selector xpath='descendant-or-self::a' data='<a href="/international/">International<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/politique/">Politique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/societe/">Société</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/les-decodeurs/">Les Décodeurs<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sport/">Sport</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/planete/">Planète</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sciences/">Sciences</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/campus/">M Campus</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/afrique/">Le Monde Afrique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/pixels/">Pixels</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-medias/">Médias</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sante/">Santé</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/big-browser/">Big Browser</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/disparitions/">Disparitions</a'>]

In [None]:
In [24]: response.css("#nav-markup .Nav__item")[3].css("a")
Out[24]:
[<Selector query='descendant-or-self::a' data='<a href="#" class="Nav__item-link js-...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/proje...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/attaq...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/crise...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/antis...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/infla...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/jeux-...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/cop28...'>,
 <Selector query='descendant-or-self::a' data='<a href="https://www.lemonde.fr/actua...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>,
 <Selector query='descendant-or-self::a' data='<a class="" href="https://www.lemonde...'>]

Et pour récupérer les titres :

In [None]:
In [37]: response.css("#nav-markup .Nav__item")[3].css("a::text").extract()
Out[37]:
['Actualités',
'Mouvement des "gilets jaunes"',
'Carlos Ghosn',
'Implant Files',
'Climat',
'Affaire Khashoggi',
'Emmanuel Macron',
'Ukraine',
'Russie',
'Brexit',
'Harcèlement sexuel',
'Toute l’actualité en continu',
'International',
'Politique',
'Société',
'Les Décodeurs',
'Sport',
'Planète',
'Sciences',
'M Campus',
'Le Monde Afrique',
'Pixels',
'Médias',
'Santé',
'Big Browser',
'Disparitions']

In [None]:
In [25]: response.css("#nav-markup .Nav__item")[3].css("a::text").extract()
Out[25]:
['Actualités',
 'Loi immigration',
 'Guerre Israël-Hamas',
 'Guerre en Ukraine',
 'Antisémitisme',
 'Inflation',
 'Jeux olympiques de Paris 2024',
 'COP28',
 'Toute l’actualité en continu',
 'International',
 'Politique',
 'Société',
 'Planète',
 'Climat',
 'Le Monde Afrique',
 'Les Décodeurs',
 'Sport',
 'Education',
 'M Campus',
 'Santé',
 'Intimités',
 'Sciences',
 'Pixels',
 'Disparitions',
 'Le Fil Good',
 'Podcasts',
 'Le Monde & Vous']

Le shell Scrapy permet de définir la structure des requêtes et de
s'assurer de la pertinence du résultat retourné. Pour automatiser le
processus, il faut intégrer cette syntaxe au code Python des modules de
spider définis dans la structure du projet.

## Intégration des requêtes

Le squelette de la classe `LeMondeSpider` généré lors de la création du
projet doit maintenant être enrichi. Par défaut 3 attributs et une
méthode `parse()` ont été créés :

-   `name` permet d'identifier sans ambiguïté la spider dans le code.
-   `allowed_domain` permet de filtrer les requêtes et forcer la spider
    à rester sur une liste de domaines.
-   `starts_urls` est la liste des urls d'où la spider va partir pour
    commencer son scraping.
-   `parse()` est une méthode héritée de la classe `scrapy.Spider`. Elle
    doit être redéfinie selon les requêtes que l'on doit effectuer et
    sera appelée sur l'ensemble des urls contenus dans la liste
    `starts_urls`.

`parse()` est une fonction `callback` qui sera appelée automatiquement
sur chaque objet `Response` retourné par la requête. Cette fonction est
appelée de manière asynchrone. Plusieurs requêtes peuvent ainsi être
lancées en parallèles sans bloquer le thread principal. L'objet
`Response` passé en paramètre est le même que celui mis à disposition
lors de l'exécution du Scrapy Shell.

In [16]:
def parse(self, response):
    title = response.css('title::text').extract_first()
    all_links = {
        name:response.urljoin(url) for name, url in zip(
        response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
        response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
    }
    yield {
        "title":title,
        "all_links":all_links
    }

La fonction est un générateur (`yield`) et retourne un dictionnaire
composé de deux éléments :

-   Le titre de la page;
-   La liste des liens sortants sous forme de String.

Pour le moment cette spider ne parcourt que la page d'accueil, ce qui
n'est pas très productif.

## Votre premier scraper

Récupérer les données sur un ensemble de pages webs nécessite d'explorer
en profondeur la structure du site en suivant tout ou partie des liens
rencontrés.

La spider peut se `balader` sur un site assez efficacement. Il suffit de
lui indiquer comment faire. Il faut spécifier à Scrapy de générer une
requête vers une nouvelle page en construisant l'objet `Request`
correspondant. Ce nouvel objet `Request` est alors inséré dans le
scheduler de Scrapy. On peut évidemment générer plusieurs `Request`
simultanément, correspondant par exemple, à différents liens sur la page
courante. Ils sont insérés séquentiellement dans le scheduler.

Pour cela on modifie la méthode `parse()` de façon à ce qu'elle retourne
un objet `Request` pour chaque nouveau lien rencontré. On associe
également à cet objet une fonction de callback qui déterminera la
manière dont cette nouvelle page doit être extraite.

Par exemple, pour que la spider continue dans les liens des différentes
régions (pour l'instant la fonction de callback ne fait rien) :

In [17]:
# %load newscrawler/newscrawler/spiders/lemonde_v2.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev2"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        yield {
            "title":title,
            "all_links":all_links
        }
        

Pour lancer la spider

In [18]:
!cd newscrawler && scrapy crawl lemondev2

2023-12-20 13:57:20 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: newscrawler)
2023-12-20 13:57:20 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 13:57:20 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 13:57:20 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 13:57:20 [scrapy.extensions.telnet] INFO: Telnet Password: 22bd75291ca83eba
2023-12-20 13:57:20 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.

On veut ensuite *entrer* dans les liens des différentes sous-catégories
pour récupérer les articles. Pour cela, nous créons une méthode
`parse_category()` prend en argument un objet `Response` qui sera la
réponse correspondant aux liens des régions. On peut comme ceci
traverser un site en définissant des méthodes différentes en fonction du
type de contenu.

Si la structure du site est plus profonde, on peut empiler autant de
couches que souhaité.

Quand on arrive sur une page d'une sous-catégorie, on peut vouloir
récupérer tous les éléments de la page. Pour cela, on réutilise le
scrapy Shell pour commencer le développement de la nouvelle méthode
d'extraction.

Par exemple pour la page `https://www.lemonde.fr/international/` :

In [None]:
scrapy shell 'https://www.lemonde.fr/international/'

Le fil des articles est stocké dans une balise avec la classe
`class=river`.

In [None]:
In [3]: response.css(".river")
Out[3]:
[<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n   <section>\n      '>,
<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n</div>'>]

In [None]:
In [1]: response.css(".river")
Out[1]: [<Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' river ')]" data='<section id="river" class="page__cont...'>]

Pour récupérer chacun des articles, il faut adresser les balises
`<article>` contenues dans le sélecteur:

In [None]:
In [4]: response.css(".river")[0].css(".teaser")
Out[4]:
[<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi mg'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>]   

In [None]:
In [2]: response.css(".river")[0].css(".teaser")
Out[2]:
[<Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>,
 <Selector query="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' teaser ')]" data='<section class="teaser teaser--inline...'>]

Comme précédemment, on peut empiler les sélecteurs `css` pour créer des
requêtes plus complexes.

Par exemple, pour récupérer tous les titres des différents articles :

In [None]:
In [8]: response.css(".river")[0].css(".teaser h3::text").extract()
Out[8]:
['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili\r\n\r\n\r\n',
'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition\r\n\r\n\r\n',
'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête\r\n\r\n\r\n',
'Donald Trump veut «\xa0mettre fin\xa0» à l’Aléna rapidement\r\n\r\n\r\n',
'Le cauchemar de la «\xa0rééducation\xa0» des musulmans en Chine\r\n\r\n',
'\r\n',
'«\xa0AMLO\xa0» lance sa transformation du Mexique\r\n\r\n\r\n',
'«\xa0Paris brûle\xa0»\xa0: les médias étrangers relatent le «\xa0chaos\xa0» en marge des défilés des «\xa0gilets jaunes\xa0»\r\n\r\n\r\n',
'Andrés Manuel Lopez Obrador intronisé président du Mexique\r\n\r\n\r\n']

In [None]:
In [3]: response.css(".river")[0].css(".teaser h3::text").extract()
Out[3]:
['Pologne\xa0: le nouveau gouvernement licencie les dirigeants des médias d’Etat',
 'Quel héritage pour Paris 2024\xa0? Des lendemains de fête difficiles après Athènes 2004',
 'En direct, guerre Israël-Hamas\xa0: le point sur la situation à la mi-journée',
 'En direct, guerre en\xa0Ukraine\xa0: les dernières informations',
 'DGSE\xa0: Nicolas Lerner va remplacer Bernard Emié à la tête du renseignement extérieur',
 'Quel héritage pour Paris 2024\xa0? La reconversion exemplaire du parc olympique de Londres 2012',
 'A court d’argent, Deutsche Bahn met en vente sa filiale logistique DB Schenker',
 'Quel héritage pour Paris\xa02024\xa0? Les métamorphoses de Barcelone lors des JO de 1992',
 'Guerre Israël-Hamas\xa0: à Gaza, le ciblage meurtrier des hôpitaux',
 'Des ONG appellent la Banque centrale européenne à favoriser les investissements verts',
 'Loi sur l’immigration\xa0: une rupture politique et morale',
 '«\xa0Avec l’élection de Javier Milei en Argentine, le futur disparaît de la politique »',
 'Mexique\xa0: les disparus de Lagos de Moreno',
 '«\xa0La Révolution Garo\xa0»\xa0: l’art de la contestation par le manga',
 'Aux origines de la «\xa0Terre sainte\xa0», ou la lente construction d’une Palestine «\xa0mythifiée\xa0»',
 'Donald Trump, écarté de la primaire du Colorado pour son rôle dans l’insurrection du 6\xa0janvier, remet son avenir présidentiel entre les mains de la Cour suprême',
 'La Vieille Ville de Jérusalem sous cloche',
 'Emin Özmen, le photographe qui documente les soubresauts de la Turquie',
 '«\xa0Influent et disrupteur, le Sud global défend ses intérêts, mais n’offre pas de modèle alternatif à l’ordre occidental\xa0»',
 'Hongkong atteint le taux de fécondité le plus bas du monde',
 'Pacte de stabilité\xa0: l’Union européenne proche d’un accord sur la réforme de ses règles budgétaires',
 'Présidentielle américaine 2024\xa0: Donald Trump déclaré inéligible dans le Colorado\xa0en raison de son rôle dans l’attaque du Capitole',
 'Decathlon a continué à approvisionner la Russie via une société-écran',
 'Guerre Israël-Hamas\xa0: le chef du Hamas se rend en Egypte mercredi pour discuter d’un cessez-le-feu',
 'L’hommage d’Etienne Balibar à Toni Negri\xa0: «\xa0Il aura été un lecteur et continuateur de Karl Marx, dans une étonnante combinaison de littéralité et de liberté\xa0»',
 'Grand remue-ménage dans les rangs des diplomates chargés de la politique africaine de la France',
 'En République démocratique du Congo, Félix Tshisekedi joue sa réélection',
 'MSF dénonce «\xa0des violences sans fin\xa0» dans les centres de détention de migrants à Tripoli',
 'En Suède, la justice confirme la condamnation à perpétuité de l’ex-procureur iranien Hamid Nouri',
 'Ukraine\xa0: ce que les images disent de la stratégie d’attaque russe des bâtiments civils d’Avdiïvka',
 'Guerre Israël-Hamas\xa0: «\xa0Les références aux lois sont une puissante source de légitimation de la violence à Gaza\xa0»',
 '«\xa0Qatargate\xa0» au Parlement européen\xa0: Gianni Infantino, le président de la FIFA, en eaux troubles',
 'L’Union européenne n’est pas en ligne avec ses objectifs de réduction des émissions de CO2',
 'Les attaques des houthistes en mer Rouge désorganisent le fret maritime mondial',
 'En Iran, une cyberattaque perturbe la\xa0distribution d’essence dans plus de\xa0la\xa0moitié des stations-service du\xa0pays',
 'Contrôles renforcés sur les anciens chefs de l’Armée de libération du Kosovo jugés à La\xa0Haye',
 'Islande\xa0: l’éruption volcanique en images',
 'L’Europe se crispe contre les opérations militaires d’Israël dans la bande de Gaza',
 'Bénédiction des couples homosexuels\xa0: le\xa0pragmatisme audacieux du\xa0pape François',
 'En mer Rouge, les défis de la nouvelle coalition anti-houthistes',
 'Monsanto condamné à 857\xa0millions de dollars d’amende pour avoir exposé une école à des «\xa0polluants éternels\xa0»',
 'Bénédiction des couples de même sexe\xa0: «\xa0Le pape François marche sur une ligne de crête\xa0»',
 'Etats-Unis\xa0: le gouverneur du Texas signe une loi criminalisant l’entrée illégale de migrants',
 'La Corée du Sud, les Etats-Unis et le Japon lancent un système de partage de données pour faire face à la Corée du Nord',
 'Guerre Israël-Hamas\xa0: «\xa0Le gouvernement israélien poursuit résolument son projet nationaliste et annexionniste\xa0»',
 'En Ukraine, les prises de risque extrêmes des pilotes d’hélicoptère',
 'Olaf Scholz et la stratégie gagnante de «\xa0la pause-café\xa0» avec Viktor Orban',
 'En Chine, un séisme fait plus de 131\xa0morts dans le\xa0nord-ouest du\xa0pays',
 'Couples de même sexe\xa0: le pape François change la pratique de l’Eglise catholique, mais pas sa doctrine',
 'Jack Lang prolongé mais pas encore reconduit à la tête de l’Institut du monde arabe',
 'Serbie\xa0: des premiers résultats officiels confirment la victoire du camp présidentiel, l’opposition manifeste',
 'A Dnipro, pendant la fête de Hanoukka, le rapprochement des identités juive et ukrainienne',
 'Jean Pisani-Ferry, économiste\xa0: «\xa0L’accord franco-allemand sur le pacte de stabilité est une occasion manquée\xa0»',
 'Transport maritime en mer Rouge\xa0: les Etats-Unis annoncent une coalition contre les attaques des houthistes',
 'En Egypte, le président Al-Sissi réélu sans surprise',
 '«\xa0Je me suis dit qu’on ne s’en sortirait pas\xa0»\xa0: dans le nord-est de la Thaïlande, d’anciens otages du Hamas témoignent',
 'Au Moyen-Orient, le risque de l’instabilité s’accroît dangereusement',
 'Le Royaume-Uni annonce une taxe carbone aux frontières, dans la foulée de\xa0l’Union européenne',
 'En Israël, la double peine des habitants du kibboutz Kfar Aza',
 'Taïwan\xa0: la Chine promet des représailles après une vente d’armes américaines']

En HTML les données sont souvent de très mauvaise qualité. Il faut
définir des méthodes permettant de les nettoyer pour être intégrées dans
des bases de données.

Par exemple, pour supprimer tous les espaces superflus :

In [19]:
def clean_spaces(string_):
    if string_ is not None: 
        return " ".join(string_.split())

Pour l'appliquer à tous les titres récupérés, on peut faire une list
comprehension : 

In [None]:
In [11]: [clean_spaces(article) for article in response.css(".river")[0].css(".teaser h3::text").extract()]  

Out[11]: ['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili',
          'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition', 
          'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête',
          'Donald Trump veut « mettre fin » à l’Aléna rapidement', 
          'Le cauchemar de la « rééducation » des musulmans en Chine',
          '',
          '« AMLO » lance sa transformation du Mexique', 
          '« Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »',
          'Andrés Manuel Lopez Obrador intronisé président du Mexique'
         ]


In [None]:
2023-12-20 14:01:21 [asyncio] DEBUG: Using proactor: IocpProactor
In [8]: def clean_spaces(string_):
   ...:     if string_ is not None:
   ...:         return " ".join(string_.split())
   ...:
   ...: [clean_spaces(article) for article in response.css(".river")[0].css(".teaser h3::text").extract()]
   ...:
Out[8]:
['Pologne : le nouveau gouvernement licencie les dirigeants des médias d’Etat',
 'Quel héritage pour Paris 2024 ? Des lendemains de fête difficiles après Athènes 2004',
 'En direct, guerre Israël-Hamas : le point sur la situation à la mi-journée',
 'En direct, guerre en Ukraine : les dernières informations',
 'DGSE : Nicolas Lerner va remplacer Bernard Emié à la tête du renseignement extérieur',
 'Quel héritage pour Paris 2024 ? La reconversion exemplaire du parc olympique de Londres 2012',
 'A court d’argent, Deutsche Bahn met en vente sa filiale logistique DB Schenker',
 'Quel héritage pour Paris 2024 ? Les métamorphoses de Barcelone lors des JO de 1992',
 'Guerre Israël-Hamas : à Gaza, le ciblage meurtrier des hôpitaux',
 'Des ONG appellent la Banque centrale européenne à favoriser les investissements verts',
 'Loi sur l’immigration : une rupture politique et morale',
 '« Avec l’élection de Javier Milei en Argentine, le futur disparaît de la politique »',
 'Mexique : les disparus de Lagos de Moreno',
 '« La Révolution Garo » : l’art de la contestation par le manga',
 'Aux origines de la « Terre sainte », ou la lente construction d’une Palestine « mythifiée »',
 'Donald Trump, écarté de la primaire du Colorado pour son rôle dans l’insurrection du 6 janvier, remet son avenir présidentiel entre les mains de la Cour suprême',
 'La Vieille Ville de Jérusalem sous cloche',
 'Emin Özmen, le photographe qui documente les soubresauts de la Turquie',
 '« Influent et disrupteur, le Sud global défend ses intérêts, mais n’offre pas de modèle alternatif à l’ordre occidental »',
 'Hongkong atteint le taux de fécondité le plus bas du monde',
 'Pacte de stabilité : l’Union européenne proche d’un accord sur la réforme de ses règles budgétaires',
 'Présidentielle américaine 2024 : Donald Trump déclaré inéligible dans le Colorado en raison de son rôle dans l’attaque du Capitole',
 'Decathlon a continué à approvisionner la Russie via une société-écran',
 'Guerre Israël-Hamas : le chef du Hamas se rend en Egypte mercredi pour discuter d’un cessez-le-feu',
 'L’hommage d’Etienne Balibar à Toni Negri : « Il aura été un lecteur et continuateur de Karl Marx, dans une étonnante combinaison de littéralité et de liberté »',
 'Grand remue-ménage dans les rangs des diplomates chargés de la politique africaine de la France',
 'En République démocratique du Congo, Félix Tshisekedi joue sa réélection',
 'MSF dénonce « des violences sans fin » dans les centres de détention de migrants à Tripoli',
 'En Suède, la justice confirme la condamnation à perpétuité de l’ex-procureur iranien Hamid Nouri',
 'Ukraine : ce que les images disent de la stratégie d’attaque russe des bâtiments civils d’Avdiïvka',
 'Guerre Israël-Hamas : « Les références aux lois sont une puissante source de légitimation de la violence à Gaza »',
 '« Qatargate » au Parlement européen : Gianni Infantino, le président de la FIFA, en eaux troubles',
 'L’Union européenne n’est pas en ligne avec ses objectifs de réduction des émissions de CO2',
 'Les attaques des houthistes en mer Rouge désorganisent le fret maritime mondial',
 'En Iran, une cyberattaque perturbe la distribution d’essence dans plus de la moitié des stations-service du pays',
 'Contrôles renforcés sur les anciens chefs de l’Armée de libération du Kosovo jugés à La Haye',
 'Islande : l’éruption volcanique en images',
 'L’Europe se crispe contre les opérations militaires d’Israël dans la bande de Gaza',
 'Bénédiction des couples homosexuels : le pragmatisme audacieux du pape François',
 'En mer Rouge, les défis de la nouvelle coalition anti-houthistes',
 'Monsanto condamné à 857 millions de dollars d’amende pour avoir exposé une école à des « polluants éternels »',
 'Bénédiction des couples de même sexe : « Le pape François marche sur une ligne de crête »',
 'Etats-Unis : le gouverneur du Texas signe une loi criminalisant l’entrée illégale de migrants',
 'La Corée du Sud, les Etats-Unis et le Japon lancent un système de partage de données pour faire face à la Corée du Nord',
 'Guerre Israël-Hamas : « Le gouvernement israélien poursuit résolument son projet nationaliste et annexionniste »',
 'En Ukraine, les prises de risque extrêmes des pilotes d’hélicoptère',
 'Olaf Scholz et la stratégie gagnante de « la pause-café » avec Viktor Orban',
 'En Chine, un séisme fait plus de 131 morts dans le nord-ouest du pays',
 'Couples de même sexe : le pape François change la pratique de l’Eglise catholique, mais pas sa doctrine',
 'Jack Lang prolongé mais pas encore reconduit à la tête de l’Institut du monde arabe',
 'Serbie : des premiers résultats officiels confirment la victoire du camp présidentiel, l’opposition manifeste',
 'A Dnipro, pendant la fête de Hanoukka, le rapprochement des identités juive et ukrainienne',
 'Jean Pisani-Ferry, économiste : « L’accord franco-allemand sur le pacte de stabilité est une occasion manquée »',
 'Transport maritime en mer Rouge : les Etats-Unis annoncent une coalition contre les attaques des houthistes',
 'En Egypte, le président Al-Sissi réélu sans surprise',
 '« Je me suis dit qu’on ne s’en sortirait pas » : dans le nord-est de la Thaïlande, d’anciens otages du Hamas témoignent',
 'Au Moyen-Orient, le risque de l’instabilité s’accroît dangereusement',
 'Le Royaume-Uni annonce une taxe carbone aux frontières, dans la foulée de l’Union européenne',
 'En Israël, la double peine des habitants du kibboutz Kfar Aza',
 'Taïwan : la Chine promet des représailles après une vente d’armes américaines']

La méthode précédente est intéressante si l'on ne recherche qu'une seule
information par article.

Par contre si l'on veut récupérer d'autres caractéristiques comme
l'image ou la description par exemple, il est plus intéressant et plus
efficace de récupérer l'objet et d'effectuer plusieurs traitements sur
ce dernier.

Chaque objet retourné par les requêtes `css` est un selecteur avec
lequel on peut interagir.

Par exemple pour récupérer le titre et le prix

In [None]:
In [25]: for article in response.css(".fleuve")[0].css("article"):
...:     title = clean_spaces(article.css("h3 a::text").extract_first())
...:     image = article.css("img::attr(data-src)").extract_first()
...:     description = article.css(".txt3::text").extract_first()
...:     print(f"Title {title} \nImage {image}\nDescription {description}\n ----")


In [None]:
Title Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili
Image https://s1.lemde.fr/image/2018/12/02/147x97/5391641_7_5874_les-partisans-de-l-opposant-grigol-vashadze_20d2e8693a49b83fd3c5578f7799ae9c.jpg
Description Elue présidente (un rôle essentiellement symbolique en Géorgie), l’ex-diplomate française, candidate du pouvoir, est contestée par l’opposition.
----
Title A Budapest en Hongrie, un îlot décroissant pour favoriser la transition
Image https://img.lemde.fr/2018/12/01/10/0/4214/2809/147/97/60/0/15b32ca_1EY4qISQ_BP4kPAh1fozJdXZ.jpg
Description Le centre logistique Cargonomia sert de matrice aux coopératives de l’économie durable et solidaire hongroise.
----
Title En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête
Image https://img.lemde.fr/2018/12/02/167/0/4207/2804/147/97/60/0/9e02c9b_3580d043ebc94b48b0f2cfef4e9a21e7-3580d043ebc94b48b0f2cfef4e9a21e7-0.jpg
Description Le premier ministre est soupçonné de corruption, fraude et abus de pouvoir, dans une affaire impliquant le groupe de télécoms israélien Bezeq.
----
Title Donald Trump veut « mettre fin » à l’Aléna rapidement
Image https://img.lemde.fr/2018/11/30/0/0/4861/3240/147/97/60/0/8b87184_5826023-01-06.jpg
Description Le président américain souhaite voir disparaître l’accord de libre-échange remontant à 1994 avec le Mexique et le Canada, qu’il qualifie régulièrement de « pire accord jamais signé », en faveur du nouveau traité négocié difficilement avec ses voisins nord-américains ces derniers mois.
----
Title Le cauchemar de la « rééducation » des musulmans en Chine
Image https://img.lemde.fr/2018/11/15/151/0/5000/3333/147/97/60/0/118c78f_248b226e6b91450aa8a68bd0ea5525a8-248b226e6b91450aa8a68bd0ea5525a8-0.jpg
Description Ouïgours et Kazakhs du Xinjiang... C’est toute une population musulmane que Pékin veut « rééduquer » en internant des centaines de milliers d’entre eux dans des camps.
----
Title « AMLO » lance sa transformation du Mexique
Image https://img.lemde.fr/2018/12/02/45/0/1497/998/147/97/60/0/a33c174_GGGTBR84_MEXICO-POLITICS-_1202_11.JPG
Description Education et santé gratuites, hausse du salaire minimum, bourses scolaires : à peine investi, le président Andres Manuel Lopez Obrador a listé les mesures qu’il entend prendre pour redresser le pays.
----
Title « Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »
Image https://img.lemde.fr/2018/12/02/361/0/598/396/147/97/60/0/ba46a6e_XVIt1Ffwm50iYBheccVieUQQ.jpg
Description Les images de destructions, d’échauffourées ou de voitures enflammées s’affichaient samedi soir en « une » de nombreux sites d’actualité internationaux.
----
Title Andrés Manuel Lopez Obrador intronisé président du Mexique
Image https://img.lemde.fr/2018/12/02/91/145/1346/897/147/97/60/0/877cd51_a4618baa8da2414bb62bab28a6d4c745-a4618baa8da2414bb62bab28a6d4c745-0.jpg
Description Le nouveau chef d’Etat a promis de lutter contre la corruption en menant une transformation « profonde et radicale » du pays.
----

In [None]:
2023-12-20 14:02:40 [asyncio] DEBUG: Using proactor: IocpProactor
    ...: if fleuve_articles:
    ...:     for article in fleuve_articles.css("article"):
    ...:         title = clean_spaces(article.css("h3 a::text").extract_first())
    ...:         image = article.css("img::attr(data-src)").extract_first()
    ...:         description = article.css(".txt3::text").extract_first()
    ...:         print(f"Title {title} \nImage {image}\nDescription {description}\n ----")
    ...: else:
    ...:     print("No elements found with class '.fleuve'")
    ...:
No elements found with class '.fleuve'


## Persistence des données

Pour pouvoir stocker les informations que l'on récupère en parcourant un
site il faut pouvoir les stocker. On utilise soit de simples
dictionnaires Python, ou mieux des `scrapy.Item` qui sont des
dictionnaires améliorés.

Nous allons voir les deux façons de faire. On peut réécrire la méthode
`parse_category()` pour lui faire retourner un dictionnaire
correspondant à chaque offre rencontrée.

In [20]:
def parse_category(self, response):
    for article in response.css(".fleuve")[0].css("article"):
        title = self.clean_spaces(article.css("h3 a::text").extract_first())
        image = article.css("img::attr(data-src)").extract_first()
        description = article.css(".txt3::text").extract_first()
        yield {
            "title":title,
            "image":image,
            "description":description
        }

Si on combine tout dans la spider :

In [21]:
# %load newscrawler/newscrawler/spiders/lemonde_v3.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev3"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)
            
    def parse_category(self, response):
        for article in response.css(".river")[0].css(".teaser"):
            title = self.clean_spaces(article.css("h3::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()
            yield {
                "title":title,
                "image":image,
                "description":description
            }

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On peut maintenant lancer notre spider avec la commande suivante :

In [None]:
scrapy crawl <NAME> # lemondev3

`scrapy crawl` permet de démarrer le processus en allant chercher la
classe `scrapy.Spider` dont l'attribut `name` = &lt;NAME&gt;.

Par exemple, pour la spider `LeMondeSpider` :

In [22]:
!cd newscrawler && scrapy crawl lemondev3

2023-12-20 14:09:42 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: newscrawler)
2023-12-20 14:09:42 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 14:09:42 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 14:09:42 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 14:09:42 [scrapy.extensions.telnet] INFO: Telnet Password: a16652674225b556
2023-12-20 14:09:42 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.

On peut exporter les résultats de ces retours dans différents formats de
fichiers.

-   CSV : `scrapy crawl lemonde -o lbc.csv`
-   JSON : `scrapy crawl lemonde -o lbc.json`
-   JSONLINE : `scrapy crawl lemonde -o lbc.jl`
-   XML : `scrapy crawl lemonde -o lbc.xml`

### Exercice :

Exécuter la spider avec les différents formats de stockage.
Explorer ensuite le contenu des fichiers ainsi créés.

In [23]:
# CSV
!cd newscrawler && scrapy crawl lemonde -o output.csv

# JSON
!cd newscrawler && scrapy crawl lemonde -o output.json

# JSON Lines
!cd newscrawler && scrapy crawl lemonde -o output.jl

# XML
!cd newscrawler && scrapy crawl lemonde -o output.xml

2023-12-20 14:10:11 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: newscrawler)
2023-12-20 14:10:11 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 14:10:11 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 14:10:11 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 14:10:11 [scrapy.extensions.telnet] INFO: Telnet Password: 77a3f85c33666024
2023-12-20 14:10:11 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.


## Votre premier Item

La classe `Item` permet de structurer les données que l'on souhaite
récupérer sous la forme d'un modèle. Les items doivent être définis dans
le fichier `items.py` créé par la commande `scrapy startproject`. Les
`Item` héritent de la class `scrapy.Item`.

On veut structurer les données avec deux champs : le titre et le prix de
l'annonce. Scrapy utilise une classe `scrapy.Field` permettant de
'déclarer' ces champs. Dans notre cas :

In [25]:
# %load newscrawler/newscrawler/items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    image = scrapy.Field()
    description = scrapy.Field()

Utiliser la classe `scrapy.Item` plutôt qu'un simple dictionnaire permet
plus de contrôle sur la structure des données. En effet, on ne peut
insérer dans les items que des données avec des clés 'déclarées'. Ce qui
assure une plus grande cohérence au sein d'un projet.

On peut instancier un item de plusieurs façons :

In [26]:
article_item = ArticleItem(title="Gilets Jaunes", image=None, description="Un samedi de manifestations")

In [27]:
print(article_item)

{'description': 'Un samedi de manifestations',
 'image': None,
 'title': 'Gilets Jaunes'}


In [28]:
article_item = ArticleItem()
article_item["title"] = 'Gilets Jaunes'
article_item["description"] = 'Un samedi de manifestations'

In [29]:
print(article_item)

{'description': 'Un samedi de manifestations', 'title': 'Gilets Jaunes'}


La définition d'un item permet de palier toutes les erreurs de typo dans
les champs.

In [30]:
article_item = ArticleItem()
article_item["titelkjwnxvmnscbvmknxc"] = 'Gilets Jaunes'

KeyError: 'ArticleItem does not support field: titelkjwnxvmnscbvmknxc'

Les items héritent des dictionnaires Python, et possèdent donc toutes
les méthodes de ceux-ci:

In [31]:
article_item = ArticleItem(title="Gilets Jaunes")
print(article_item["title"]) # Méthode __getitem__()
print(article_item.get("description", "no description provided")) # Méthode get()

Gilets Jaunes
no description provided


On peut transformer un `Item` en dictionnaire très facilement, en le
passant au constructeur:

In [32]:
article_item = ArticleItem(title="Drone DJI")
print(type(article_item))
dict_item = dict(article_item)
print(type(dict_item))
print(dict_item)

<class '__main__.ArticleItem'>
<class 'dict'>
{'title': 'Drone DJI'}


On intègre maintenant cet item dans notre spider.

In [35]:
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from ..items import ArticleItem
class LemondeSpider(scrapy.Spider):
    name = "lemonde"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)

    def parse_category(self, response):
        for article in response.css(".fleuve")[0].css("article"):
            title = self.clean_spaces(article.css("h3 a::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()

            yield ArticleItem(
                title=title,
                image=image,
                description=description
            )

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

ImportError: attempted relative import with no known parent package

On voit bien que le générateur retourne maintenant un `Item`.

### Exercice : 

Relancer la spider pour vérifier le bon déroulement de l'extraction.


In [37]:
!cd newscrawler/ && scrapy crawl lemondev4

2023-12-20 14:13:50 [scrapy.utils.log] INFO: Scrapy 2.11.0 started (bot: newscrawler)
2023-12-20 14:13:50 [scrapy.utils.log] INFO: Versions: lxml 4.9.3.0, libxml2 2.10.3, cssselect 1.2.0, parsel 1.8.1, w3lib 2.1.2, Twisted 22.10.0, Python 3.11.5 (tags/v3.11.5:cce6ba9, Aug 24 2023, 14:38:34) [MSC v.1936 64 bit (AMD64)], pyOpenSSL 23.3.0 (OpenSSL 3.1.4 24 Oct 2023), cryptography 41.0.7, Platform Windows-10-10.0.22631-SP0
2023-12-20 14:13:50 [scrapy.addons] INFO: Enabled addons:
[]


See the documentation of the 'REQUEST_FINGERPRINTER_IMPLEMENTATION' setting for information on how to handle this deprecation.
  return cls(crawler)

2023-12-20 14:13:50 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.selectreactor.SelectReactor
2023-12-20 14:13:50 [scrapy.extensions.telnet] INFO: Telnet Password: c4527c9d2908eecf
2023-12-20 14:13:50 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.

## Postprocessing

Si l'on se réfère au diagramme d'architecture de Scrapy, on voit qu'il
est possible d'insérer des composants supplémentaires dans le flux de
traitement. Ces composants s'appellent `Pipelines`.

Par défaut, tous les `Item` générés au sein d'un projet Scrapy passent
par les `Pipelines`. Les pipelines sont utilisés la plupart du temps
pour :

-   Nettoyer du contenu HTML ;
-   Valider les données scrapées ;
-   Supprimer les items qu'on ne souhaite pas stocker ;
-   Stocker ces objets dans des bases de données.

Les pipelines doivent être définis dans le fichier `pipelines.py`.

Dans notre cas on peut vouloir nettoyer le champ `title` pour enlever
les caractères superflus.

Nous allons alors transferer la fonction de nettoyage du code html dans
une Pipeline.

In [38]:
# %load newscrawler/newscrawler/pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exceptions import DropItem

class TextPipeline(object):

    def process_item(self, item, spider):
        if item['title']:
            item["title"] = clean_spaces(item["title"])
            return item
        else:
            raise DropItem("Missing title in %s" % item)


def clean_spaces(string):
    if string:
        return " ".join(string.split())

Pour dire au process Scrapy de faire transiter les items par ces
pipelines. Il faut le spécifier dans le fichier de paramétrage
`settings.py`.

In [39]:
ITEM_PIPELINES = {
     'newscrawler.pipelines.TextPipeline': 300,
 }

On peut maintenant supprimer la fonction `clean_spaces()` de
l'extraction des données et laisser le Pipeline faire son travail. La
valeur entière définie permet de déterminer l'ordre dans lequel les
pipelines vont être appelés. Ces entiers peuvent être compris entre 0 et
1000.

On relance notre spider :

In [40]:
scrapy crawl lemonde -o ../data/articles.json

SyntaxError: invalid syntax (3665597835.py, line 1)

On peut aussi utiliser les Pipelines pour stocker les données récupérées
dans une base de données. Pour stocker les items dans des documents
mongo :

In [41]:
import pymongo

class MongoPipeline(object):

    collection_name = 'scrapy_items'

    def open_spider(self, spider):
        self.client = pymongo.MongoClient()
        self.db = self.client["lemonde"]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

Ici on redéfinit deux autres méthodes: `open_spider()`et
`close_spider()`, ces méthodes sont appelées comme leur nom l'indique,
lorsque la Spider est instanciée et fermée.

Ces méthodes nous permettent d'ouvrir la connexion Mongo et de la fermer
lorsque le scraping se termine. La méthode `process_item()` est appelé à
chaque fois qu'un item passe dans le mécanisme interne de scrapy. Ici,
la méthode permet d'insérer l'item en tant que document mongo.

Pour que ce pipeline soit appelé il faut l'ajouter dans les settings du
projet.

In [None]:
ITEM_PIPELINES = {
    'newscrawler.pipelines.TextPipeline': 100,
    'newscrawler.pipelines.MongoPipeline': 300
}

Le pipeline est ajoutée à la fin du process pour profiter des deux
précédents.

## Settings

Scrapy permet de gérer le comportement des spiders avec certains
paramètres. Comme expliqué dans le premier cours, il est important de
suivre des règles en respectant la structure des différents sites. Il
existe énormément de paramètres mais nous allons (dans le cadre de ce
cours) aborder les plus utilisés :

-   DOWNLOAD\_DELAY : Le temps de téléchargement entre chaque requête
    sur le même domaine ;
-   CONCURRENT\_REQUESTS\_PER\_DOMAIN : Nombre de requêtes simultanées
    par domaine ;
-   CONCURRENT\_REQUESTS\_PER\_IP : Nombre de requêtes simultanées par
    IP ;
-   DEFAULT\_REQUEST\_HEADERS : Headers HTTP utilisés pour les requêtes
    ;
-   ROBOTSTXT\_OBEY : Scrapy récupère le robots.txt et adapte le
    scraping en fonction des règles trouvées ;
-   USER\_AGENT : UserAgent utilisé pour faire les requêtes ;
-   BOT\_NAME : Nom du bot annoncé lors des requêtes
-   HTTPCACHE\_ENABLED : Utilisation du cache HTTP, utile lors du
    parcours multiple de la même page.

Le fichiers `settings.py` permet de définir les paramètres globaux d'un
projet. Si votre projet contient un grand nombre de spiders, il peut
être intéressant d'avoir des paramètres distincts pour chaque spider. Un
moyen simple est d'ajouter un attribut `custom_settings` à votre spider
:

In [42]:
class LeMondeSpider(scrapy.Spider):
        name = "lemonde"
        allowed_domains = ["lemonde.fr"]
        start_urls = ['http://lemonde.fr/']
        custom_settings = {
            "HTTPCACHE_ENABLED":True, 
            "CONCURRENT_REQUESTS_PER_DOMAIN":100
        }