
# Introduction

[Scrapy](https://scrapy.org/) est un framework permettant de crawler des
sites web et d'en extraire les données de façon structurée.

## Installation

Nous travaillerons dans un environnement
[Anaconda](https://www.anaconda.com/download/), déjà présent sur les
machines de l'ESIEE. Sur vos machines personnelles, télécharger la
distribution correspondant à la version la plus récente de Python.

[Scrapy](https://scrapy.org/) ne fait pas partie de la distribution par
défaut de Python et doit être installé manuellement. Ici, le package est
déjà installé grâce à Pipenv.

Si vous avez besoin d'installer dans un autre cadre.

-   Avec **Pipenv** : `pipenv install scrapy`
-   Avec **Anaconda** : `conda install -c conda-forge scrapy`

Tester la réussite de l'opération dans un interpréteur Python. Avant
installation:

In [2]:
!pip install scrapy



In [3]:
import scrapy

## Architecture

[Scrapy](https://scrapy.org/) est un framework comportant plusieurs
composants.

<img src="images/architecture.png" alt="image" class="align-center" />

L'ensemble du processus est contrôlé par l'**engine** (les termes anglo
saxons ont été retenus pour un meilleur référencement dans la
[documentation officielle](https://docs.scrapy.org/en/latest/)).

Le framework est articulé avec plusieurs composants qui gèrent chacun un
rôle différent. Nous allons les détailler.

-   Les **Spiders** : permettent de naviguer sur un site et de
    référencer les règles d'extraction de la donnée.
-   Les **Pipelines** : font le lien entre la donnée brute et des objets
    structurés
-   Les **Middlewares** : permettent d'effectuer des transformations sur
    les objets ou sur les requêtes exécutées par l'engine.
-   Le **Scheduler** : gère l'ordre et le timing des requêtes
    effectuées.

## Fonctionnement

[Scrapy](https://scrapy.org/) est entièrement organisé autour d'un
composant central : l'*engine*.

Le rôle de l'*engine* est de contrôler le flux de données entre les
différents composants du système.

1.  En particulier, il est chargé de récupérer les *requests* définies
    dans les *spiders*
2.  Ces *requests* sont ensuite fournies au *scheduler* qui se charge de
    leur ordonnancement
3.  Les *requests* sont présentées selon cet ordonnancement à
    l'*engine*...
4.  ... qui les transmet au *downloader*
5.  Le *downloader* effectue la *request* et transmet la *response* (le
    contenu de la page web) à l'*engine*...
6.  ... puis l'envoie au *spider* pour traitement
7.  Le *spider* génére des *items* qui sont transmis à l'*engine*
8.  Les *items* sont ensuite poussés dans un pipeline pour nettoyage,
    validation et stockage

Ce processus est répété jusqu'à épuisement des requêtes.

[Scrapy](https://scrapy.org/) est un [framework orienté
événements](https://en.wikipedia.org/wiki/Event-driven_architecture)
(basé sur [Twisted](https://twistedmatrix.com/)) permettant une
programmation asynchrone (non bloquante). C'est particulièrement
intéressant dans les opérations de scraping, puisque **le programme
n'attend pas le résultat d'une requête pour en lancer une autre**.

En effet, lorsque l'on sollicite une ressource (requête réseau, système
de fichier, etc.) en mode bloquant, l'exécution du programme est
suspendue le temps que la transaction avec la ressource se termine (par
exemple le temps qu'une page web soit complètement téléchargée).
L'intérêt de faire des appels non bloquants, c'est que l'on peut gérer
de multiples téléchargements en parallèle, et que le programme peut
continuer à tourner pendant ce temps.

# Un scraping élémentaire

Avant de rentrer dans les détails du framework, nous allons mettre en
oeuvre un premier script permettant de récupérer l'information présente
sur [la page web](http://evene.lefigaro.fr/citations/winston-churchill)
recensant les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill).

**Exercice**

Examiner le code source de cette page avec l'inspecteur de votre
navigateur. Identifier les éléments contenant l'information recherchée,
ici la chaîne de caractères contenant la citation proprement dite.

## Le code source

Le code utilisé est le suivant:

In [1]:
# %load citations_churchill_spider1.py
import scrapy

class ChurchillQuotesSpider(scrapy.Spider):
    name = "citations de Churchill"
    start_urls = ["http://evene.lefigaro.fr/citations/winston-churchill",]

    def parse(self, response):
        for cit in response.xpath('//div[@class="figsco__quote__text"]'):
            text_value = cit.xpath('a/text()').extract_first()
            yield { 'text' : text_value }

## Le fonctionnement

Le fonctionnement est le suivant:

-   On importe le module [Scrapy](https://scrapy.org/) (3)
-   et on définit une sous classe de `scrapy.Spider` (5)
-   la variable `start_urls` contient la liste des pages à scraper (7)
-   On redéfinit la méthode $parse$ dont la signature est définie dans
    la classe mère (9)
-   L'objet
    [response](https://docs.scrapy.org/en/latest/topics/request-response.html#response-objects)
    représente la réponse à la requête HTTP (l'attribut $text$ permet
    d'accéder à son contenu). On recherche ensuite tous les containers
    `<div>` identifiés dans l'exercice précédent. Ici la page est
    particulièrement bien structurée et les citations disposent de leur
    propre container, identifié par l'attribut `class` de valeur
    `figsco__quote__text`. La sélection se fait par une expression
    [XPath](https://en.wikipedia.org/wiki/XPath), un langage de
    sélection de noeud dans un document XML (10). En langage naturel, la
    requête pourrait se formuler : "On recherche tous les containers
    `<div>` dont la valeur de l'attribut `class` est égal à
    `figsco__quote__text`".
-   Pour chaque résultat, on construit un dictionnaire dont la clé est
    `text` et la valeur le contenu du lien `<a>`. Ce résultat est fourni
    par un générateur ($yield$) (12).

On lance le scraping depuis un terminal:

In [2]:
!scrapy runspider citations_churchill_spider1.py

2022-01-05 15:15:37 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2022-01-05 15:15:37 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 15:15:37 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 15:15:37 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2022-01-05 15:15:37 [scrapy.extensions.telnet] INFO: Telnet Password: 0868984b01207dc5
2022-01-05 15:15:37 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2022-01-05 15:15:37 [scrapy.middleware] INFO: Enabl

On y trouve des informations sur les paramètres
utilisés:

In [14]:
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (1084829405.py, line 1)

les
[extensions](https://docs.scrapy.org/en/latest/topics/extensions.html)
...:

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']

[Les composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html)
... :

In [15]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (377419453.py, line 1)

Idem pour [les composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
...:

In [16]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (465604463.py, line 1)

Aucun
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
n'est activé :

In [17]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled item pipelines:
[]

SyntaxError: leading zeros in decimal integer literals are not permitted; use an 0o prefix for octal integers (3894450873.py, line 1)

**Exercice**

Identifier la position des [composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html),
des [composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
et du
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
dans $l'architecture <Introduction>$

L'exécution du scraping proprement dit débute :

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider opened
2018-01-10 17:21:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-10 17:21:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

La première URL est poussée par le scheduler:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)

## Les résultats

Les résultats sont fournis par le générateur défini dans la méthode
$parse$ dans un dictionnaire. Ils contiennent le texte des citations
dans la valeur de la clé `text` :

In [None]:
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': '“Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.”'}
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': "Faire le bien, éviter le mal, c'est ça le paradis."}

## Les statistiques

Une fois le scraping effectué, quelques statistiques sont affichées sur
le terminal:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Closing spider (finished)
2018-01-10 17:21:05 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 242,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 17435,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 858347),
'item_scraped_count': 16,
'log_count/DEBUG': 18,
'log_count/INFO': 7,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 645347)}
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider closed (finished)

On observe notamment que notre code permet de récupérer la taille de la
page web (17435 bytes), le temps d'exécution à partir des valeurs
`finish_time` et `start_time`, le nombre d'items scrapés (16), etc...

**Exercice**

Les citations extraites sont elles toutes de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) ? Il sera
peut être nécessaire de modifier le sélecteur XPath. Nous verrons ça
lorsque il faudra récupérer les données relative à l'auteur.

## Modifier les données

Il est parfois nécessaire de faire un traitement sur les données
scrapées, pour ajouter ou retirer de l'information.

**Exercice**

Retirer les caractères `“` et `”` qui délimitent la citation. Ces
caractères sont identifiés en Unicode comme [LEFT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201c/index.htm) et
[RIGHT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201d/index.htm).

**Modifications effectuées dans citations_churchill_spider1.p**

## Plus de données

Il est souvent nécessaire de récupérer plusieurs informations relatives
à un même item. Dans cet exemple, il est judicieux d'associer à la
citation le nom de son auteur, en allant chercher cette information au
plus près du texte lui même.

**Exercice**

Examiner le code source de la page web et identifier la structuration de
la donnée associée à l'auteur. En déduire l'expression XPath permettant
de la récupérer. S'assurer que seules les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) sont
extraites. Ajouter une clé `author` au dictionnaire retourné par le
$yield$ dont la valeur est précisément la chaîne de caractères contenant
l'auteur.

**Modification effectuées dans citations_churchill_spider1.py**

Un exemple de dictionnaire retourné:

In [None]:
{   'text': "“Si deux hommes ont toujours la même opinion, l'un d'eux est de trop.”", 
    'author': 'Winston Churchill'}

Pour lancer l'exécution de la spider :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py

On peut aussi vouloir stocker les données extraites :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py -o
> data/citation.json -t json


# Votre premier projet


Dans un premier temps vous devez créer un projet Scrapy avec la commande
:

In [9]:
!scrapy startproject newscrawler

Error: scrapy.cfg already exists in /home/dev/code/2Scrapy/newscrawler


Cette commande va créer un dossier `monprojet` contenant les éléments
suivants correspondant au squelette :

In [None]:
newscrawler/
    scrapy.cfg            # Options de déploiement

    newscrawler/             # Le module Python contenant les informations
        __init__.py

        items.py          # Fichier contenant les items

        middlewares.py    # Fichier contenant les middlewares

        pipelines.py      # Fichier contenant les pipelines

        settings.py       # Fichier contenant les paramètres du projet

        spiders/          # Dossier contenant toutes les spiders
            __init__.py

# Votre première Spider

Une Spider est une classe Scrapy qui permet de mettre en place toute
l'architecture complexe vue dans l'introduction. Pour définir une
spider, il vous faut hériter de la classe $scrapy.Spider$. La seule
chose à faire est de définir la première requête à effectuer et comment
suivre les liens. La Spider s'arrêtera lorsqu'elle aura parcouru tous
les liens qu'on lui a demandé de suivre.

Pour créer une Spider on utilise la syntaxe:

In [None]:
!scrapy genspider <SPIDER_NAME> <DOMAIN_NAME>

Par exemple,

In [6]:
!cd newscrawler && scrapy genspider lemonde lemonde.fr

Created spider 'lemonde' using template 'basic' in module:
  newscrawler.spiders.lemonde


Cette commande permet de créer une spider appelée `lemonde` pour scraper
le domaine `lemonde.fr`. Cela crée le fichier Python
`spiders/lemonde.py` suivant :

In [18]:
# %load newscrawler/newscrawler/spiders/lemonde.py
import scrapy


class LemondeSpider(scrapy.Spider):
    name = 'lemonde'
    allowed_domains = ['lemonde.fr']
    start_urls = ['http://lemonde.fr/']

    def parse(self, response):
        pass


Une bonne pratique pour commencer à développer une Spider est de passer
par l'interface Shell proposée par Scrapy. Elle permet de récupérer un
objet `Response` et de tester les méthodes de récupération des données.

# ATTENTION : Les commandes scrapy shell doivent être lancées dans un terminal 

In [None]:
scrapy shell 'http://lemonde.fr'

Pour les utilisateurs de windows il vous faut mettre des doubles quotes
:

In [None]:
scrapy shell "http://lemonde.fr"

Scrapy lance un kernel Python

In [None]:
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: newscrawler)
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'newscrawler', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'newscrawler.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newscrawler.spiders']}
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-02 16:05:50 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-02 16:05:50 [scrapy.core.engine] INFO: Spider opened
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/> (referer: None)
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10fc38c18>
[s]   item       {}
[s]   request    <GET https://www.lemonde.fr/>
[s]   response   <200 https://www.lemonde.fr/>
[s]   settings   <scrapy.settings.Settings object at 0x113bb0898>
[s]   spider     <DefaultSpider 'default' at 0x113e60cc0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser

Grâce à cette interface, vous avez accès à plusieurs objets comme la
`Response`, la `Request`, la `Spider` par exemple. Vous pouvez aussi
exécuter `view(response)` pour afficher ce que Scrapy récupère dans un
navigateur.

In [None]:
In [1]: response
Out[1]: <200 https://www.lemonde.fr/>

In [3]: request
Out[3]: <GET https://www.lemonde.fr/>

In [4]: type(request)
Out[4]: scrapy.http.request.Request

In [5]: spider
Out[5]: <LemondeSpider 'lemonde' at 0x1080fccc0>

In [6]: type(spider)
Out[6]: monprojet.spiders.lemonde.LeMondeSpider

Ici on voit que la Spider est une instance de LemondeSpider. Lorsqu'on
lance le $scrapy shell$ scrapy va chercher dans les spiders si une
correspond au lien passé en paramètre, si oui , il l'utilise sinon une
$DefaultSpider$ est instanciée.

## Vos premières requêtes

On peut commencer à regarder comment extraire les données de la page web
en utilisant le langage de requêtes proposé par Scrapy. Il existe deux
types de requêtes : les requêtes `css` et `xpath`. Les requêtes `xpath`
sont plus complexes mais plus puissantes que les requêtes `css`. Dans le
cadre de ce tutorial, nous allons uniquement aborder les requêtes `css`,
elles nous suffiront pour extraire les données dont nous avons besoin
(en interne, Scrapy transforme les requêtes `css`en requêtes `xpath`.

Que ce soit les requêtes `css` ou `xpath`, elles crééent des sélecteurs
de différents types. Quelques exemples :

Pour récupérer le titre d'une page :

In [None]:
In [1]: response.css('title')
Out[1]: [<Selector xpath='descendant-or-self::title' data='<title>Le Monde.fr - Actualités et Infos'>]

On récupère une liste de sélecteurs correspondant à la requête `css`
appelée. La requête précédente était unique, d'autres requêtes moins
restrictives permettent de récupérer plusieurs résultats. Par exemple
pour rechercher l'ensemble des liens présents sur la page, on va
rechercher les balises HTML `<a></a>`

In [None]:
In [5]: response.css("a")[0:10]
Out[5]:
[<Selector xpath='descendant-or-self::a' data='<a target="_blank" data-target="jelec-he'>,
<Selector xpath='descendant-or-self::a' data='<a href="/"> <div class="logo__lemonde l'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://secure.lemonde.fr/sfuse'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://abo.lemonde.fr/#xtor=CS'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>]

Pour récupérer le texte contenu dans les balises, on passe le paramètre
`<TAG>::text`. Par exemple :

In [None]:
In [6]: response.css("title::text")
Out[6]: [<Selector xpath='descendant-or-self::title/text()' data='Le Monde.fr - Actualités et Infos en Fra'>]

### Exercice

  Comparer les résultats des deux requêtes `response.css('title')` et
`response.css('title::text')`.

Maintenant pour extraire les données des selecteurs on utilise l'une des
deux méthodes suivantes : - `extract()` permet de récupérer une liste
des données extraites de tous les sélecteurs - `extract_first()` permet
de récupérer une `String` provenant du premier sélecteur de la liste.

In [None]:
In [7]: response.css('title::text').extract_first()
Out[7]: 'Le Monde.fr - Actualités et Infos en France et dans le monde'

On peut récupérer un attribut d'une balise avec la syntaxe
`<TAG>::attr(<ATTRIBUTE_NAME>)` :

Par exemple, les liens sont contenus dans un attribut `href`.

In [None]:
In [9]: response.css('a::attr(href)')[0:10]
Out[9]:
[<Selector xpath='descendant-or-self::a/@href' data='https://journal.lemonde.fr'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='https://secure.lemonde.fr/sfuser/connexi'>,
<Selector xpath='descendant-or-self::a/@href' data='https://abo.lemonde.fr/#xtor=CS1-454[CTA'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='#'>,
<Selector xpath='descendant-or-self::a/@href' data='/mouvement-des-gilets-jaunes/'>,
<Selector xpath='descendant-or-self::a/@href' data='/carlos-ghosn/'>,
<Selector xpath='descendant-or-self::a/@href' data='/implant-files/'>]

Comme vu précédemment, si on veut récupérer la liste des liens de la page on applique la méthode $extract()$

In [11]:
In [11]: response.css('a::attr(href)').extract()[0:10]
Out[11]:
['https://journal.lemonde.fr',
'/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'/',
'/',
'#',
'/mouvement-des-gilets-jaunes/',
'/carlos-ghosn/',
'/implant-files/']

SyntaxError: invalid syntax (882659697.py, line 2)

Les liens dans une page HTML sont souvent codés de manière relative par
rapport à la page courante. La méthode de l'objet `Response` peut être
utilisée pour recréer l'url complet.

Un exemple sur le 4e élément :

In [10]:
In [14]: response.urljoin(response.css('a::attr(href)').extract()[8])
Out[14]: 'https://www.lemonde.fr/carlos-ghosn/'

NameError: name 'response' is not defined

alors que

In [None]:
In [15]: response.css('a::attr(href)').extract()[8]
Out[15]: '/carlos-ghosn/'

### Exercice : 

Utiliser une liste compréhension pour transformer les 10
premiers liens relatifs récupérés par la méthode `extract()` en liens
absolus.    

Le résultat doit ressembler à :

In [None]:
[response.urljoin(response.css('a::attr(href)').extract()[i])for i in range(10)]

In [None]:
Out[23]: 
['https://journal.lemonde.fr',
'https://www.lemonde.fr/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/mouvement-des-gilets-jaunes/',
'https://www.lemonde.fr/carlos-ghosn/',
'https://www.lemonde.fr/implant-files/']

## Des requêtes plus complexes

On peut créer des requêtes plus complexes en utilisant à la fois la
structuration HTML du document mais également la couche de présentation
CSS. On utilise l'inspecteur de `Google Chrome` pour identifier le type
et l'identifiant de la balise contenant les informations.

Il y a au moins deux choses à savoir en `css` :  

-   Les `.` représentent les classes
-   Les `#` représentent les id

On se propose de récupérer toutes les sous-catégories de news dans la
catégorie **Actualités**. On remarque en utilisant l'inspecteur
d'élement de Chrome que toutes les catégories sont rangées dans une
balise avec l'id $#nav-markup$ ensuite dans les classes $Nav__item$.

A partir de cette structure HTML on peut construire la requête suivante
pour récupérer la barre de navigation:

In [None]:
In [19]: response.css("#nav-markup")
Out[19]: [<Selector xpath="descendant-or-self::*[@id = 'nav-markup']" data='<ul id="nav-markup"> <li class="Nav__ite'>]

Ensuite pour récupérer les différentes catégories :

In [None]:
In [24]: response.css("#nav-markup .Nav__item")
Out[24]:
[<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item js-burger-to-show N'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--home Nav'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/recherc'>]

On veut maintenant retourner tous les liens présents dans cette
catégorie. On remarque qu'elle apparait à la 4eme position.

In [None]:
In [34]: response.css("#nav-markup .Nav__item")[3]
Out[34]: <Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>

Maintenant pour récupérer tous les liens on peut chainer les requêtes.
On accède alors à toutes les balises $a$.

In [None]:
In [35]: response.css("#nav-markup .Nav__item")[3].css("a")
Out[35]:
[<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>,
<Selector xpath='descendant-or-self::a' data='<a href="/climat/" data-suggestion>Clima'>,
<Selector xpath='descendant-or-self::a' data='<a href="/affaire-khashoggi/" data-sugge'>,
<Selector xpath='descendant-or-self::a' data='<a href="/emmanuel-macron/" data-suggest'>,
<Selector xpath='descendant-or-self::a' data='<a href="/ukraine/" data-suggestion>Ukra'>,
<Selector xpath='descendant-or-self::a' data='<a href="/russie/" data-suggestion>Russi'>,
<Selector xpath='descendant-or-self::a' data='<a href="/referendum-sur-le-brexit/" dat'>,
<Selector xpath='descendant-or-self::a' data='<a href="/harcelement-sexuel/" data-sugg'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-en-continu/" data-su'>,
<Selector xpath='descendant-or-self::a' data='<a href="/international/">International<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/politique/">Politique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/societe/">Société</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/les-decodeurs/">Les Décodeurs<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sport/">Sport</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/planete/">Planète</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sciences/">Sciences</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/campus/">M Campus</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/afrique/">Le Monde Afrique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/pixels/">Pixels</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-medias/">Médias</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sante/">Santé</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/big-browser/">Big Browser</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/disparitions/">Disparitions</a'>]

Et pour récupérer les titres :

In [None]:
In [37]: response.css("#nav-markup .Nav__item")[3].css("a::text").extract()
Out[37]:
['Actualités',
'Mouvement des "gilets jaunes"',
'Carlos Ghosn',
'Implant Files',
'Climat',
'Affaire Khashoggi',
'Emmanuel Macron',
'Ukraine',
'Russie',
'Brexit',
'Harcèlement sexuel',
'Toute l’actualité en continu',
'International',
'Politique',
'Société',
'Les Décodeurs',
'Sport',
'Planète',
'Sciences',
'M Campus',
'Le Monde Afrique',
'Pixels',
'Médias',
'Santé',
'Big Browser',
'Disparitions']

Le shell Scrapy permet de définir la structure des requêtes et de
s'assurer de la pertinence du résultat retourné. Pour automatiser le
processus, il faut intégrer cette syntaxe au code Python des modules de
spider définis dans la structure du projet.

## Intégration des requêtes

Le squelette de la classe `LeMondeSpider` généré lors de la création du
projet doit maintenant être enrichi. Par défaut 3 attributs et une
méthode `parse()` ont été créés :

-   `name` permet d'identifier sans ambiguïté la spider dans le code.
-   `allowed_domain` permet de filtrer les requêtes et forcer la spider
    à rester sur une liste de domaines.
-   `starts_urls` est la liste des urls d'où la spider va partir pour
    commencer son scraping.
-   `parse()` est une méthode héritée de la classe `scrapy.Spider`. Elle
    doit être redéfinie selon les requêtes que l'on doit effectuer et
    sera appelée sur l'ensemble des urls contenus dans la liste
    `starts_urls`.

`parse()` est une fonction `callback` qui sera appelée automatiquement
sur chaque objet `Response` retourné par la requête. Cette fonction est
appelée de manière asynchrone. Plusieurs requêtes peuvent ainsi être
lancées en parallèles sans bloquer le thread principal. L'objet
`Response` passé en paramètre est le même que celui mis à disposition
lors de l'exécution du Scrapy Shell.

In [None]:
def parse(self, response):
    title = response.css('title::text').extract_first()
    all_links = {
        name:response.urljoin(url) for name, url in zip(
        response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
        response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
    }
    yield {
        "title":title,
        "all_links":all_links
    }

La fonction est un générateur (`yield`) et retourne un dictionnaire
composé de deux éléments :

-   Le titre de la page;
-   La liste des liens sortants sous forme de String.

Pour le moment cette spider ne parcourt que la page d'accueil, ce qui
n'est pas très productif.

## Votre premier scraper

Récupérer les données sur un ensemble de pages webs nécessite d'explorer
en profondeur la structure du site en suivant tout ou partie des liens
rencontrés.

La spider peut se `balader` sur un site assez efficacement. Il suffit de
lui indiquer comment faire. Il faut spécifier à Scrapy de générer une
requête vers une nouvelle page en construisant l'objet `Request`
correspondant. Ce nouvel objet `Request` est alors inséré dans le
scheduler de Scrapy. On peut évidemment générer plusieurs `Request`
simultanément, correspondant par exemple, à différents liens sur la page
courante. Ils sont insérés séquentiellement dans le scheduler.

Pour cela on modifie la méthode `parse()` de façon à ce qu'elle retourne
un objet `Request` pour chaque nouveau lien rencontré. On associe
également à cet objet une fonction de callback qui déterminera la
manière dont cette nouvelle page doit être extraite.

Par exemple, pour que la spider continue dans les liens des différentes
régions (pour l'instant la fonction de callback ne fait rien) :

In [None]:
# %load newscrawler/newscrawler/spiders/lemonde_v2.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev2"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        yield {
            "title":title,
            "all_links":all_links
        }
        

Pour lancer la spider

In [19]:
!cd newscrawler && scrapy crawl lemondev2

2019-11-25 13:16:16 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: newscrawler)
2019-11-25 13:16:16 [scrapy.utils.log] INFO: Versions: lxml 4.4.1.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.3 (default, Mar 27 2019, 16:54:48) - [Clang 4.0.1 (tags/RELEASE_401/final)], pyOpenSSL 19.0.0 (OpenSSL 1.1.1d  10 Sep 2019), cryptography 2.8, Platform Darwin-18.6.0-x86_64-i386-64bit
2019-11-25 13:16:16 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'newscrawler', 'NEWSPIDER_MODULE': 'newscrawler.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newscrawler.spiders']}
2019-11-25 13:16:16 [scrapy.extensions.telnet] INFO: Telnet Password: 7b9cb47f40921806
2019-11-25 13:16:16 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2019-11-25 13:16:16 [scrapy.middleware] INFO: Enabl

On veut ensuite *entrer* dans les liens des différentes sous-catégories
pour récupérer les articles. Pour cela, nous créons une méthode
`parse_category()` prend en argument un objet `Response` qui sera la
réponse correspondant aux liens des régions. On peut comme ceci
traverser un site en définissant des méthodes différentes en fonction du
type de contenu.

Si la structure du site est plus profonde, on peut empiler autant de
couches que souhaité.

Quand on arrive sur une page d'une sous-catégorie, on peut vouloir
récupérer tous les éléments de la page. Pour cela, on réutilise le
scrapy Shell pour commencer le développement de la nouvelle méthode
d'extraction.

Par exemple pour la page `https://www.lemonde.fr/international/` :

In [None]:
scrapy shell 'https://www.lemonde.fr/international/'

Le fil des articles est stocké dans une balise avec la classe
`class=river`.

In [None]:
In [3]: response.css(".river")
Out[3]:
[<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n   <section>\n      '>,
<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n</div>'>]

Pour récupérer chacun des articles, il faut adresser les balises
`<article>` contenues dans le sélecteur:

In [None]:
In [4]: response.css(".river")[0].css(".teaser")
Out[4]:
[<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi mg'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>]   

Comme précédemment, on peut empiler les sélecteurs `css` pour créer des
requêtes plus complexes.

Par exemple, pour récupérer tous les titres des différents articles :

In [None]:
In [8]: response.css(".river")[0].css(".teaser h3::text").extract()
Out[8]:
['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili\r\n\r\n\r\n',
'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition\r\n\r\n\r\n',
'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête\r\n\r\n\r\n',
'Donald Trump veut «\xa0mettre fin\xa0» à l’Aléna rapidement\r\n\r\n\r\n',
'Le cauchemar de la «\xa0rééducation\xa0» des musulmans en Chine\r\n\r\n',
'\r\n',
'«\xa0AMLO\xa0» lance sa transformation du Mexique\r\n\r\n\r\n',
'«\xa0Paris brûle\xa0»\xa0: les médias étrangers relatent le «\xa0chaos\xa0» en marge des défilés des «\xa0gilets jaunes\xa0»\r\n\r\n\r\n',
'Andrés Manuel Lopez Obrador intronisé président du Mexique\r\n\r\n\r\n']

En HTML les données sont souvent de très mauvaise qualité. Il faut
définir des méthodes permettant de les nettoyer pour être intégrées dans
des bases de données.

Par exemple, pour supprimer tous les espaces superflus :

In [10]:
def clean_spaces(string_):
    if string_ is not None: 
        return " ".join(string_.split())

Pour l'appliquer à tous les titres récupérés, on peut faire une list
comprehension : 

In [None]:
In [11]: [clean_spaces(article) for article in response.css(".river")[0].css(".teaser h3::text").extract()]  

Out[11]: ['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili',
          'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition', 
          'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête',
          'Donald Trump veut « mettre fin » à l’Aléna rapidement', 
          'Le cauchemar de la « rééducation » des musulmans en Chine',
          '',
          '« AMLO » lance sa transformation du Mexique', 
          '« Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »',
          'Andrés Manuel Lopez Obrador intronisé président du Mexique'
         ]


La méthode précédente est intéressante si l'on ne recherche qu'une seule
information par article.

Par contre si l'on veut récupérer d'autres caractéristiques comme
l'image ou la description par exemple, il est plus intéressant et plus
efficace de récupérer l'objet et d'effectuer plusieurs traitements sur
ce dernier.

Chaque objet retourné par les requêtes `css` est un selecteur avec
lequel on peut interagir.

Par exemple pour récupérer le titre et le prix

In [None]:
In [25]: for article in response.css(".fleuve")[0].css("article"):
...:     title = clean_spaces(article.css("h3 a::text").extract_first())
...:     image = article.css("img::attr(data-src)").extract_first()
...:     description = article.css(".txt3::text").extract_first()
...:     print(f"Title {title} \nImage {image}\nDescription {description}\n ----")


In [None]:
Title Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili
Image https://s1.lemde.fr/image/2018/12/02/147x97/5391641_7_5874_les-partisans-de-l-opposant-grigol-vashadze_20d2e8693a49b83fd3c5578f7799ae9c.jpg
Description Elue présidente (un rôle essentiellement symbolique en Géorgie), l’ex-diplomate française, candidate du pouvoir, est contestée par l’opposition.
----
Title A Budapest en Hongrie, un îlot décroissant pour favoriser la transition
Image https://img.lemde.fr/2018/12/01/10/0/4214/2809/147/97/60/0/15b32ca_1EY4qISQ_BP4kPAh1fozJdXZ.jpg
Description Le centre logistique Cargonomia sert de matrice aux coopératives de l’économie durable et solidaire hongroise.
----
Title En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête
Image https://img.lemde.fr/2018/12/02/167/0/4207/2804/147/97/60/0/9e02c9b_3580d043ebc94b48b0f2cfef4e9a21e7-3580d043ebc94b48b0f2cfef4e9a21e7-0.jpg
Description Le premier ministre est soupçonné de corruption, fraude et abus de pouvoir, dans une affaire impliquant le groupe de télécoms israélien Bezeq.
----
Title Donald Trump veut « mettre fin » à l’Aléna rapidement
Image https://img.lemde.fr/2018/11/30/0/0/4861/3240/147/97/60/0/8b87184_5826023-01-06.jpg
Description Le président américain souhaite voir disparaître l’accord de libre-échange remontant à 1994 avec le Mexique et le Canada, qu’il qualifie régulièrement de « pire accord jamais signé », en faveur du nouveau traité négocié difficilement avec ses voisins nord-américains ces derniers mois.
----
Title Le cauchemar de la « rééducation » des musulmans en Chine
Image https://img.lemde.fr/2018/11/15/151/0/5000/3333/147/97/60/0/118c78f_248b226e6b91450aa8a68bd0ea5525a8-248b226e6b91450aa8a68bd0ea5525a8-0.jpg
Description Ouïgours et Kazakhs du Xinjiang... C’est toute une population musulmane que Pékin veut « rééduquer » en internant des centaines de milliers d’entre eux dans des camps.
----
Title « AMLO » lance sa transformation du Mexique
Image https://img.lemde.fr/2018/12/02/45/0/1497/998/147/97/60/0/a33c174_GGGTBR84_MEXICO-POLITICS-_1202_11.JPG
Description Education et santé gratuites, hausse du salaire minimum, bourses scolaires : à peine investi, le président Andres Manuel Lopez Obrador a listé les mesures qu’il entend prendre pour redresser le pays.
----
Title « Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »
Image https://img.lemde.fr/2018/12/02/361/0/598/396/147/97/60/0/ba46a6e_XVIt1Ffwm50iYBheccVieUQQ.jpg
Description Les images de destructions, d’échauffourées ou de voitures enflammées s’affichaient samedi soir en « une » de nombreux sites d’actualité internationaux.
----
Title Andrés Manuel Lopez Obrador intronisé président du Mexique
Image https://img.lemde.fr/2018/12/02/91/145/1346/897/147/97/60/0/877cd51_a4618baa8da2414bb62bab28a6d4c745-a4618baa8da2414bb62bab28a6d4c745-0.jpg
Description Le nouveau chef d’Etat a promis de lutter contre la corruption en menant une transformation « profonde et radicale » du pays.
----

## Persistence des données

Pour pouvoir stocker les informations que l'on récupère en parcourant un
site il faut pouvoir les stocker. On utilise soit de simples
dictionnaires Python, ou mieux des `scrapy.Item` qui sont des
dictionnaires améliorés.

Nous allons voir les deux façons de faire. On peut réécrire la méthode
`parse_category()` pour lui faire retourner un dictionnaire
correspondant à chaque offre rencontrée.

In [11]:
def parse_category(self, response):
    for article in response.css(".fleuve")[0].css("article"):
        title = self.clean_spaces(article.css("h3 a::text").extract_first())
        image = article.css("img::attr(data-src)").extract_first()
        description = article.css(".txt3::text").extract_first()
        yield {
            "title":title,
            "image":image,
            "description":description
        }

Si on combine tout dans la spider :

In [3]:
# %load newscrawler/newscrawler/spiders/lemonde_v3.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev3"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)
            
    def parse_category(self, response):
        for article in response.css(".river")[0].css(".teaser"):
            title = self.clean_spaces(article.css("h3::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()
            yield {
                "title":title,
                "image":image,
                "description":description
            }

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On peut maintenant lancer notre spider avec la commande suivante :

In [None]:
scrapy crawl <NAME>

`scrapy crawl` permet de démarrer le processus en allant chercher la
classe `scrapy.Spider` dont l'attribut `name` = &lt;NAME&gt;.

Par exemple, pour la spider `LeMondeSpider` :

In [4]:
!cd newscrawler && scrapy crawl lemondev3

2022-01-05 16:04:43 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2022-01-05 16:04:43 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 16:04:43 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 16:04:43 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2022-01-05 16:04:43 [scrapy.extensions.telnet] INFO: Telnet Password: d93519441ac9d721
2022-01-05 16:04:43 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memus

2022-01-05 16:04:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'description': None}
2022-01-05 16:04:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Bros’, restaurant italien étoilé au Michelin, étrillé dans une critique devenue virale', 'image': 'https://img.lemde.fr/2021/12/14/0/0/5472/3648/110/74/60/0/8aad4aa_731954979-000-1o32lq.jpg', 'description': None}
2022-01-05 16:04:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'En Allemagne, tomber en sortant du lit pour faire du télétravail est désormais considéré comme un accident du travail', 'image': 'https://img.lemde.fr/2021/01/19/0/25/5710/3807/110/74/60/0/0a9f280_5054078-01-06.jpg', 'description': None}
2022-0

2022-01-05 16:04:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/immigration-en-europe/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:44 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/m-voyage-le-lieu/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/disparitions/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/actualite-en-continu/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
2022-01-05 16:

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Afrique du Sud : l’incendie du Parlement de nouveau maîtrisé après une reprise du feu', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4000/2666/110/74/60/0/10fa442_5274267-01-06.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Libye : le chef de l’Autorité électorale s’explique sur le report de la présidentielle', 'image': 'https://img.lemde.fr/2022/01/04/67/0/4552/3034/110/74/60/0/b98e8e0_854676342-000-9v89xh.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Macky Sall appelé à débloquer l’indemnisation des victimes de l’ex-dictateur tchadien Hissène Habré', 'image': 'https://img.lemde.fr/2022/01/04/0/15/4902/3268/110/74/60/0/bd09db6_770408219-000-9lq7qf.jpg', 'description': None}
2022-01-05 16:04:45 [

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Covid-19 : pourquoi on est dans le flou pour mesurer la progression d’Omicron', 'image': 'https://img.lemde.fr/2022/01/04/198/0/1036/689/110/74/60/0/13c0669_294373658-capture-d-e-cran-2022-01-04-a-15-36-59.png', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Plus de 4 400 migrants sont morts ou ont disparu en mer en tentant de rejoindre l’Espagne en 2021, selon le bilan d’une ONG espagnole', 'image': 'https://img.lemde.fr/2018/08/09/0/0/3500/2333/110/74/60/0/4df7636_GGG-JMG11_EUROPE-MIGRANTS-SPAIN_0809_11.JPG', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Cinq bains en plein air où se ressourcer au cœur de l’hiver', 'image': 'https://img.lemde.fr/2021/12/23/0/114/1978/1319/110/74

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Universités : le Conseil d’analyse économique appelle à un investissement plus juste et efficace', 'image': 'https://img.lemde.fr/2021/12/02/0/5/5679/3786/110/74/60/0/65f0425_906966701-000-92a9l3.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Le « droit des générations futures », nouvel objet d’étude à Sciences Po Rennes', 'image': 'https://img.lemde.fr/2021/11/30/0/0/5184/3456/110/74/60/0/8cbd3a0_424055972-img-1394-1.JPG', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'A Sciences Po Rennes, un Erasmus au Groenland', 'image': 'https://img.lemde.fr/2021/11/18/0/4/907/605/110/74/60/0/39a0723_610194223-illu-1.png', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 ht

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 dans le monde : Omicron pourrait générer des variants plus dangereux, selon l’OMS', 'image': 'https://img.lemde.fr/2022/01/04/29/0/3500/2333/110/74/60/0/65fdc0b_ppptob503-health-coronavirus-britain-0104-11.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Les raisons du couac à l’Assemblée autour du passe vaccinal', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4680/3120/110/74/60/0/38d39dd_669577241-l1-0225.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': '« Le ressac du Covid-19 épuise maintenant nos corps, nos organisations et parfois aussi nos cœurs de soignants »', 'image': 'https://img.lemde.fr/2021/12/17/76/0/1980/1318/110/74/60/0/492b3e1_fw1-health-yearender-coronavirus-1215-11.jpg'

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Passe vaccinal : Jean Castex défend Emmanuel Macron, qui veut « emmerder » les non-vaccinés', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/a5272e0_685453982-l1-0937.JPG', 'description': None}
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/societe/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/vaccins-contre-le-covid-19/> (referer: https://www.lemonde.fr)
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Débats sur le passe vaccinal : « A l’Assemblée nationale, l’atmosphère de tension est celle qu’on a pu connaître 

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Le bac en mars, une mesure qui pénalise les apprentissages de nombreux lycéens »', 'image': 'https://img.lemde.fr/2021/06/17/0/6/6036/4024/110/74/60/0/f9c571a_5016990-01-06.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Ces diplômés qui choisissent de travailler moins pour « vivre mieux »', 'image': 'https://img.lemde.fr/2021/11/23/0/30/1948/1299/110/74/60/0/59878ee_998235123-glandusdef.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'En entreprise, la gestion « à la papa » ne fait plus rêver les jeunes', 'image': 'https://img.lemde.fr/2021/11/25/219/0/879/586/110/74/60/0/8be3382_48844437-049-f0240628.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 h

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Open d’Australie : Novak Djokovic sommé de s’expliquer sur sa dérogation médicale', 'image': 'https://img.lemde.fr/2021/12/27/0/0/3499/2333/110/74/60/0/2be38af_fw1-tennis-ausopen-djokovic-1227-11.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Plus 100 000 cas de Covid-19 en 24 heures en France, mort de Desmond Tutu, télescope James-Webb… Les cinq infos à retenir du week-end', 'image': 'https://img.lemde.fr/2021/12/25/0/0/4500/3000/110/74/60/0/fd93073_df1a4f8eaf0a44e386599c16c2364437-df1a4f8eaf0a44e386599c16c2364437-0.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Une cinquième vague d’infox sur la pandémie et la vaccination', 'image': 'https://img.lemde.fr/2021/12/21/0/0/900/600/110/

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Le phonographe : de la curiosité de laboratoire au rouleau compresseur culturel', 'image': 'https://img.lemde.fr/2021/10/14/0/0/5998/3999/110/74/60/0/2ab1e61_345594771-1k2a6696.JPG', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Les failles de la protection des données des Français par les pouvoirs publics', 'image': 'https://img.lemde.fr/2021/12/22/0/0/4999/3333/110/74/60/0/37555d7_332586151-000-1uu5ra.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Le daguerréotype, entre engouement bourgeois et défiance artistique', 'image': 'https://img.lemde.fr/2021/09/09/0/0/3000/2000/110/74/60/0/6c465ba_363672000-photo-3.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <2

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': '« La réconciliation doit combiner vérité et pardon » : quand Desmond Tutu se confiait', 'image': 'https://img.lemde.fr/2021/12/26/0/4/4920/3280/110/74/60/0/4b37035_5245955-01-06.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Jacques Drillon, critique musical, grammairien et homme de lettres, est mort', 'image': 'https://img.lemde.fr/2018/12/04/39/0/2969/1962/110/74/60/0/00f62a8_WqFnbnTbJ6n7q0SLCYrtIVuC.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Desmond Tutu, Prix Nobel de la paix, icône de la lutte contre l’apartheid, est mort', 'image': 'https://img.lemde.fr/2018/11/14/0/0/5616/3744/110/74/60/0/26bb7b8_QcEWE3zYKBhFu4YZh1cMisKH.jpg', 'description': None}
2022-01-05 16:04:45

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Les Balkans, premières victimes européennes de la crise des prix de l’énergie', 'image': 'https://img.lemde.fr/2022/01/05/2/0/7043/4695/110/74/60/0/203516c_514902465-000-9va4bh.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'JO de Pékin 2022 : des « bulles sanitaires » instaurées autour des sites olympiques', 'image': 'https://img.lemde.fr/2022/01/04/0/6/6036/4024/110/74/60/0/30cab6c_734925724-000-9vj8g9.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Sc

2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Shein, le nouveau géant de l’« ultra fast fashion » aux méthodes peu reluisantes', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5149/3432/110/74/60/0/a0f00f8_561838194-dsc7811.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Dépakine : Sanofi jugé responsable d’un manque de vigilance et d’information sur les risques', 'image': 'https://img.lemde.fr/2020/07/02/0/1/1227/818/110/74/60/0/49e4935_699010088-000_1A244O.jpg', 'description': None}
2022-01-05 16:04:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Open d’Australie : Novak Djokovic sommé de s’expliquer sur sa dérogation médicale', 'image': 'https://img.lemde.fr/2021/12/27/0/0/3499/2333/110/74/60/0/2be38af_fw1-tennis-ausopen-djokovic-1227-11.jpg',

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Syrie, la province d’Idlib de nouveau visée par des bombardements russes', 'image': 'https://img.lemde.fr/2022/01/04/37/0/5000/3333/110/74/60/0/4be0906_535017389-500554.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Libye : le chef de l’Autorité électorale s’explique sur le report de la présidentielle', 'image': 'https://img.lemde.fr/2022/01/04/67/0/4552/3034/110/74/60/0/b98e8e0_854676342-000-9v89xh.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Embarras en Corée du Sud après le retour d’un réfugié en Corée du Nord', 'image': 'https://img.lemde.fr/2018/05/24/0/0/8244/5496/110/74/60/0/0264981_5620107-01-06.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Débats sur le passe vaccinal : « A l’Assemblée nationale, l’atmosphère de tension est celle qu’on a pu connaître sur l’affaire Benalla »', 'image': 'https://img.lemde.fr/2022/01/05/0/184/4680/3120/110/74/60/0/1124e68_547788892-l1-0770.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'De l’importance de la notion d’échelles dans le climat', 'image': 'https://img.lemde.fr/2021/08/26/383/0/4600/3066/110/74/60/0/0d52921_466395989-pns-712132024-1.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'L’écoanxiété, une crise existentielle pour certains adolescents', 'image': 'https://img.lemde.fr/2021/12/17/90/0/7542/5028/110/74/60/0/cba9be2_464781081-ecoanxie-te-clr-01.jpg', 'description': None}
2022-0

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'De Golfe-Juan à Grenoble, sur un chemin napoléonien', 'image': 'https://img.lemde.fr/2021/09/16/192/0/4608/3072/110/74/60/0/e8875c4_123167715-la-citadelle-de-sisteron-3.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': '« Napoléon est devenu une véritable marque touristique »', 'image': None, 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Une nuit à Paris ? Cinq adresses pour se sentir (encore) en vacances', 'image': 'https://img.lemde.fr/2021/08/25/0/0/4000/2666/110/74/60/0/79bc77c_307744285-paris-remix-2020-09-22-photos-lobby-2.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': '

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Elon Musk désigné personnalité de l’année par le magazine « Time »', 'image': 'https://img.lemde.fr/2021/12/13/121/0/3500/2333/110/74/60/0/48c0c35_fw1-tesla-musk-1213-11.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Le projet de « grande Sécu » ne doit pas cloisonner les difficultés de notre système de santé »', 'image': 'https://img.lemde.fr/2021/11/18/2924/0/5315/3539/110/74/60/0/58199fe_680502106-pns-3725058.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '#balancetonbar ou le viol sous GHB', 'image': 'https://img.lemde.fr/2021/12/10/114/0/2138/1425/110/74/60/0/1c06675_234344792-2021-12-10-severin-millet-danger-ghb.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: S

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« Des insultes du matin au soir » : les laboratoires sous tension avec l’engorgement des tests de dépistage du Covid-19', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5568/3712/110/74/60/0/d347262_436016199-sipa-01054164-000004.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Après les propos d’Emmanuel Macron sur les non-vaccinés, les débats sur le passe vaccinal de nouveau suspendus à l’Assemblée', 'image': 'https://img.lemde.fr/2022/01/05/0/0/2756/1837/110/74/60/0/3467b3b_834783040-ag-01.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Test obligatoire, durée d’isolement... La Ligue de football professionnel détaille son nouveau protocole sanitaire', '

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Pratiques dégradantes et arnaques en série : les supplices de l’internationale du porno', 'image': 'https://img.lemde.fr/2021/12/15/16/372/1788/1192/110/74/60/0/9dd9deb_956651077-image-article-3-media-appel.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Airbnb, Uber… : « L’économie du partage n’a pas fini son apprentissage de l’économie »', 'image': 'https://img.lemde.fr/2021/12/16/202/0/4834/3222/110/74/60/0/9a85e41_597043057-20211004sdo7702.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Dans les écoles d’ingénieurs, l’alliance de la santé et des technologies fait recette', 'image': 'https://img.lemde.fr/2021/11/03/27/0/640/426/110/74/60/0/07d1605_782288326-epf1.jpg', 'description': None}
2022-

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Réforme du lycée : le blues des profs de maths', 'image': 'https://img.lemde.fr/2022/01/03/0/0/8014/5343/110/74/60/0/8d38589_985896584-000-1n60cr.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Sous couvert de liberté d’expression, il semble devenu possible de dénigrer librement Sciences Po Grenoble »', 'image': 'https://img.lemde.fr/2021/11/26/0/6/5488/3659/110/74/60/0/2108cf5_137269095-000-94j8v8.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Covid-19 : à Cannes, des capteurs de CO2 installés dans toutes les écoles et les crèches', 'image': 'https://img.lemde.fr/2021/12/13/0/5/5790/3860/110/74/60/0/940c0bd_281794562-000-9p34v3.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.s

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': '« Le champ des possibles économique, social et fiscal est bien plus large qu’on ne se le figure »', 'image': 'https://img.lemde.fr/2021/12/22/0/0/4129/2753/110/74/60/0/85db702_d25c40bf024b4d9a8fae85dae10cc737-d25c40bf024b4d9a8fae85dae10cc737-0.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Le plan de rentrée de Valérie Pécresse pour maintenir son élan', 'image': 'https://img.lemde.fr/2021/12/23/0/0/5472/3648/110/74/60/0/297d109_871277601-sipa-01053291-000002.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Une enquête ouverte pour « menaces de mort » après la plainte d’Alexis Corbière et Raquel Garrido', 'image': 'https://img.lemde.f

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Igor Bogdanoff emporté à son tour par le Covid-19', 'image': 'https://img.lemde.fr/2021/12/28/0/0/5184/3456/110/74/60/0/a01f177_5251691-01-06.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal : menaces de mort et agressions se multiplient contre les députés de la majorité', 'image': 'https://img.lemde.fr/2022/01/03/0/0/2756/1837/110/74/60/0/213810c_740722027-attachment-1.jpeg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Il sera finalement possible de boire ou de manger « rapidement » dans le train', 'image': 'https://img.lemde.fr/2021/12/16/0/0/3500/2333/110/74/60/0/ad869e5_ggg-gfm105-france-sncf-strike-1216-11.jpg', 'description': None}
202

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Un apéro avec Matthieu Ricard : « L’époque vit une épidémie de narcissisme, il faut éviter la contagion »', 'image': 'https://img.lemde.fr/2021/12/23/0/0/8256/5504/110/74/60/0/207d980_470941093-frj-2100.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« Il n’existe aucune étude détaillée sur la précarité étudiante depuis 2014 »', 'image': 'https://img.lemde.fr/2021/12/31/0/0/6484/4323/110/74/60/0/b9e6362_340605335-jlusseau-le-monde-20211214-angers-precarite-etudiante-27.JPG', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 à l’école : Jean-Michel Blanquer justifie avoir dévoilé le nouveau protocole sanitaire tardivement « pour être au plus près de la réalité »', 'im

2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'La vaccination des 5-11 ans démarre pour les enfants à risque', 'image': 'https://img.lemde.fr/2021/12/14/0/181/4936/3291/110/74/60/0/2e454f1_5195374-01-06.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Grossesse et vaccin contre le Covid-19 : dois-je faire une dose de rappel si je suis enceinte ?', 'image': 'https://img.lemde.fr/2021/07/30/74/0/7031/4687/110/74/60/0/e33c58c_08ae1a1506144a65a1869a18022f9417-08ae1a1506144a65a1869a18022f9417-0.jpg', 'description': None}
2022-01-05 16:04:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'A partir du 15 décembre, le passe sanitaire sera désactivé pour certaines personnes de plus de 65 ans : 10 questions pour comprendre', 'image': 'https:/

On peut exporter les résultats de ces retours dans différents formats de
fichiers.

-   CSV : `scrapy crawl lemonde -o lbc.csv`
-   JSON : `scrapy crawl lemonde -o lbc.json`
-   JSONLINE : `scrapy crawl lemonde -o lbc.jl`
-   XML : `scrapy crawl lemonde -o lbc.xml`

### Exercice :

Exécuter la spider avec les différents formats de stockage.
Explorer ensuite le contenu des fichiers ainsi créés.

In [5]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.csv
!cd newscrawler && scrapy crawl lemondev3 -o lbc.json
!cd newscrawler && scrapy crawl lemondev3 -o lbc.jl
!cd newscrawler && scrapy crawl lemondev3 -o lbc.xml

2022-01-05 16:04:59 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2022-01-05 16:04:59 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 16:04:59 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 16:04:59 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2022-01-05 16:04:59 [scrapy.extensions.telnet] INFO: Telnet Password: a1616bf878e8524d
2022-01-05 16:04:59 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memus

2022-01-05 16:05:00 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  File "/root/.local/sha

2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Troubles anxieux, dépressions… Les étudiants particulièrement affectés par la crise sanitaire', 'image': 'https://img.lemde.fr/2021/12/31/0/0/5568/3712/110/74/60/0/3d02b3f_334698187-000-9n647b.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'A l’hôpital Nord de Marseille : « La sélection, on l’opère depuis plusieurs jours »', 'image': 'https://img.lemde.fr/2022/01/02/0/0/6720/4480/110/74/60/0/db97fbc_75205818-2b0a2747.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Altération de l’équilibre, tétraplégie temporaire… La dangereuse consommation de gaz hilarant chez les jeunes', 'image': 'https://img.lemde.fr/2021/12/31/0/0/5760/3840/110/74/60/0/16f6419_585765916-hanslucas-hl-kdaher-1542885.jpg', 'description':

2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Desmond Tutu, l’infatigable voix des opprimés', 'image': 'https://img.lemde.fr/2021/12/26/760/0/4200/2786/110/74/60/0/b8c1669_436202637-bureau-233-bureau233-028124-002.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Desmond Tutu n’hésitait pas à prendre à partie les puissants', 'image': 'https://img.lemde.fr/2018/07/11/0/4/4920/3280/110/74/60/0/40e9711_6533-3sp5ee.iuwus.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': '« La réconciliation doit combiner vérité et pardon » : quand Desmond Tutu se confiait', 'image': 'https://img.lemde.fr/2021/12/26/0/4/4920/3280/110/74/60/0/4b37035_5245955-01-06.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from 

2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Le succès de Sorare grâce à ses vignettes numériques de footballeurs', 'image': 'https://img.lemde.fr/2021/12/28/0/40/1388/925/110/74/60/0/8a44a2c_161659-3253226.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Le studio de jeux vidéo Riot Games accepte de payer 100 millions de dollars après une action de groupe pour discrimination sexiste', 'image': 'https://img.lemde.fr/2021/12/28/0/242/5479/3653/110/74/60/0/def9e4d_5250583-01-06.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Dans une Chine qui mise sur l’e-sport, les enfants sont privés de jeux vidéo', 'image': 'https://img.lemde.fr/2021/12/28/0/0/3000/2000/110/74/60/0/7ae89cf_457117625-mat-0708.jpg', 'description': None}
2022-01-05 16:05:00 [scrapy.

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Passe vaccinal : à l’Assemblée nationale, les députés attendent les explications de Jean Castex', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/0e40eb4_748990497-l1-0865.JPG', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Covid-19 : l’offensive réfléchie d’Emmanuel Macron contre les non-vaccinés', 'image': 'https://img.lemde.fr/2021/12/31/0/47/3405/2270/110/74/60/0/a90bf26_gggchm13-new-year-france-macron-1231-11.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Le vote à la majorité, une révolution politique', 'image': 'https://img.lemde.fr/2021/12/30/0/0/4620/3080/110/74/60/0/69b442d_732051471-000-9da9tp-1.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEB

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Sciences Po Grenoble : relaxe pour les étudiants passés en conseil de discipline', 'image': 'https://img.lemde.fr/2021/11/26/0/6/5488/3659/110/74/60/0/2108cf5_137269095-000-94j8v8.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Pour les jeunes Français de la Silicon Valley, rien ne sera plus comme avant', 'image': 'https://img.lemde.fr/2021/11/22/0/245/2427/1618/110/74/60/0/58c55aa_170911660-le-monde-campus-codes-silicon-v2-exe.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Entre coup de bol et mauvaise fortune, les tribulations d’un ingénieur français aux Etats-Unis', 'image': 'https://img.lemde.fr/2021/11/19/221/0/837/558/110/74/60/0/810000e_247861690-img-0802.jpeg', 'description': None}
2022-0

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Les Balkans, premières victimes européennes de la crise des prix de l’énergie', 'image': 'https://img.lemde.fr/2022/01/05/2/0/7043/4695/110/74/60/0/203516c_514902465-000-9va4bh.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Didier Tabuteau nommé vice-président du Conseil d’État', 'image': 'https://img.lemde.fr/2022/01/05/0/0/5343/3562/110/74/60/0/c064edb_234906505-000-1a42s3.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Plus de 4 400 migrants sont morts ou ont disparu en mer en tentant de rejoindre l’Espagne en 2021, selon le bilan d’une ONG espagnole', 'image': 'https://img.lemde.fr/2018/08/09/0/0/3500/2333/110/74/60/0/4df7636_GGG-JMG11_EUROPE-MIGRANTS-SPAIN_0809_11.JPG', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'L’année du doute pour la démocratie américaine', 'image': 'https://img.lemde.fr/2022/01/05/0/0/3793/2529/110/74/60/0/562a91f_18d8d5f2d2bd4db38dcb40eec41043a3-a748a1a19f0043ec9bac6485644ca5b8-0.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Open d’Australie : Novak Djokovic sommé de s’expliquer sur sa dérogation médicale', 'image': 'https://img.lemde.fr/2021/12/27/0/0/3499/2333/11

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Des pluies torrentielles font dix-huit morts au Brésil, treize morts en Bolivie', 'image': 'https://img.lemde.fr/2021/12/26/0/0/3500/2333/110/74/60/0/04d55b0_ggg-ums7-brazil-dam-1226-11.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Climat : en 2021, des catastrophes toujours plus coûteuses, selon une ONG', 'image': 'https://img.lemde.fr/2021/09/02/0/0/8256/5504/110/74/60/0/d73ebd8_5557356-01-06.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Jean-Luc Mélenchon promet un meeting « immersif » le 16 janvier à Nantes', 'image': 'https://img.lemde.fr/2017/04/18/0/0/6254/4169/110/74/60/0/a94f3fb_81d8663b9a304c7a979a91bf2661bb6d-81d8663b9a304c7a979a91bf2661bb6d-0.jpg', 'description

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Passe vaccinal : suspension surprise de l’examen du projet de loi à l’Assemblée nationale', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/56c8852_734385382-l1-9693.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Covid-19 : le gouvernement renforce les aides aux entreprises pour faire face à Omicron', 'image': 'https://img.lemde.fr/2022/01/03/0/0/6844/4563/110/74/60/0/9a91b8a_790607404-481410.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Marine Le Pen décale son premier grand meeting de campagne en raison de la pandémie de Covid-19', 'image': 'https://img.lemde.fr/2021/12/02/0/0/5568/3712/110/74/60/0/531f982_1638459766713-681630.jpg', 'description': None}
2022-01-05 16:05

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Covid-19 : un traitement préventif pour les personnes peu réceptives aux vaccins autorisé en France', 'image': 'https://img.lemde.fr/2021/12/08/0/0/2512/1674/110/74/60/0/6239ffc_276f85e102554470bf953c19c5dd72e0-276f85e102554470bf953c19c5dd72e0-0.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Faut-il un #metoo des enfants ?', 'image': 'https://img.lemde.fr/2020/09/30/91/1803/1295/863/110/74/60/0/21920c0_152892930-parentologie2.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Le projet de « grande Sécu » ne doit pas cloisonner les difficultés de notre système de santé »', 'image': 'https://img.lemde.fr/2021/11/18/2924/0/5315/3539/110/74/60/0/58199fe_680502106-pns-3725058.jpg', 'description': None}
20

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Passe vaccinal : la séance définitivement levée, l’opposition dénonce les propos d’Emmanuel Macron', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/e66da81_743580310-l1-0373.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Energies « vertes » : un nécessaire compromis européen', 'image': 'https://img.lemde.fr/2022/01/04/2/0/5240/3493/110/74/60/0/ea45c05_854512428-050-only-0403270.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Passe vaccinal à l’Assemblée : taxée d’amateurisme, la majorité répond à la droite sur le thème de la responsabilité', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/384f330_390363632-l1-0065.jpg', 'description': None}
2022-01-05 1

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Covid-19 à l’école : parents, vous avez des réticences ou des difficultés à appliquer le nouveau protocole de tests pour les enfants, témoignez', 'image': 'https://img.lemde.fr/2021/12/17/0/0/5257/3504/110/74/60/0/edd417f_0befba86a5294cfb8a6d6d466ebb72ee-0befba86a5294cfb8a6d6d466ebb72ee-0.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Féminicide de Mérignac : six policiers convoqués devant des conseils de discipline', 'image': 'https://img.lemde.fr/2021/05/05/12/0/3859/2572/110/74/60/0/e08db6d_5728295-01-06.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Un gouvernement qui ne priorise pas l’expertise en santé de l’enfant n’est pas le reflet d’une société progressiste »', 'image': 'https://im

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : des hospitalisations pédiatriques en hausse, en lien avec l’augmentation du nombre de cas', 'image': 'https://img.lemde.fr/2021/12/18/0/0/3500/2333/110/74/60/0/52300f2_ggg-sam102-health-coronavirus-france-children-1218-11.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'JO de Pékin 2022 : des « bulles sanitaires » instaurées autour des sites olympiques', 'image': 'https://img.lemde.fr/2022/01/04/0/6/6036/4024/110/74/60/0/30cab6c_734925724-000-9vj8g9.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'L’inflation maintient son rythme en décembre, à 2,8 % sur un an', 'image': 'https://img.lemde.fr/2021/12/29/0/0/5200/3467/110/74/60/0/096df49_5253066-01-06.jpg', 'description': None}

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Noël 2021 : notre sélection de mangas à mettre sous le sapin', 'image': 'https://img.lemde.fr/2021/12/15/5/8/579/386/110/74/60/0/9c7aa0a_736587742-manganoel.png', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'La CNIL met en demeure l’entreprise de reconnaissance faciale Clearview', 'image': 'https://img.lemde.fr/2015/05/21/0/365/870/580/110/74/60/0/ill_4637390_7ff3_visuel_tete_article.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Le premier mille-pattes digne de ce nom est doté de 1 306 pattes', 'image': 'https://img.lemde.fr/2021/12/16/0/0/3499/2333/110/74/60/0/a0046bb_hfs-tor500-science-legs-0514-11.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 htt

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Lucas Chancel : « Un impôt progressif sur la fortune des multimillionnaires pourrait rapporter jusqu’à 2% du PIB mondial »', 'image': 'https://img.lemde.fr/2021/12/06/59/0/2163/1440/110/74/60/0/b30e729_34407093-rea-265258-011.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': '« La livraison verte en milieu urbain ne doit pas être l’arbre qui cache une forêt d’émissions de carbone »', 'image': 'https://img.lemde.fr/2020/04/30/18/0/3500/2333/110/74/60/0/bfa8d55_CHP19_HEALTH-CORONAVIRUS-FRANCE_0430_11.JPG', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': '22,5 °C en décembre : nouveau record de chaleur dans l’Ouest canadien', 'image': 'https://img.lemde.fr/2021/12/02/0/0/6500/4333/110/74/60/0/4ce36ef_ccdd87d5f1

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : pourquoi on est dans le flou pour mesurer la progression d’Omicron', 'image': 'https://img.lemde.fr/2022/01/04/198/0/1036/689/110/74/60/0/13c0669_294373658-capture-d-e-cran-2022-01-04-a-15-36-59.png', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal : à l’Assemblée nationale, les députés attendent les explications de Jean Castex', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/0e40eb4_748990497-l1-0865.JPG', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'A l’Assemblée nationale, l’examen du projet de loi sur le passe vaccinal suspendu à la suite des propos d’Emmanuel Macron', 'image': 'https://img.lemde.fr/2022/01/05/0/

2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Pratiques dégradantes et arnaques en série : les supplices de l’internationale du porno', 'image': 'https://img.lemde.fr/2021/12/15/16/372/1788/1192/110/74/60/0/9dd9deb_956651077-image-article-3-media-appel.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Airbnb, Uber… : « L’économie du partage n’a pas fini son apprentissage de l’économie »', 'image': 'https://img.lemde.fr/2021/12/16/202/0/4834/3222/110/74/60/0/9a85e41_597043057-20211004sdo7702.jpg', 'description': None}
2022-01-05 16:05:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Dans les écoles d’ingénieurs, l’alliance de la santé et des technologies fait recette', 'image': 'https://img.lemde.fr/2021/11/03/27/0/640/426/110/74/60/0/07d1605_782288326-epf1.jpg', 'description': None}
2022-

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Dans l’ouest de l’Ouganda, les vies brisées de milliers de déplacés climatiques', 'image': 'https://img.lemde.fr/2021/11/23/212/0/4032/2688/110/74/60/0/57841cc_593657523-img-4219-1.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Le gouvernement présente sa réforme de l’assurance des récoltes', 'image': 'https://img.lemde.fr/2021/04/09/0/0/7153/4768/110/74/60/0/5a45207_5568720-01-06.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Europe : « A vouloir être trop rassurante, la BCE pourrait brider les efforts pour prendre le risque climatique au sérieux »', 'image': 'https://img.lemde.fr/2021/11/30/0/0/5400/3600/110/74/60/0/73f3270_490049050-gtrfed.jpg', 'description': None}
2022-01-05 16:05:02 [scrap

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Les raisons du couac à l’Assemblée autour du passe vaccinal', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4680/3120/110/74/60/0/38d39dd_669577241-l1-0225.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« Le ressac du Covid-19 épuise maintenant nos corps, nos organisations et parfois aussi nos cœurs de soignants »', 'image': 'https://img.lemde.fr/2021/12/17/76/0/1980/1318/110/74/60/0/492b3e1_fw1-health-yearender-coronavirus-1215-11.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : en Afrique du Sud, premier pays confronté à Omicron, la décrue est bien engagée', 'image': 'https://img.lemde.fr/2022/01/04/0/0/3600/2400/110/74/60/0/ad7153e_43786967

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Un été au sommet : cinq idées pour passer une nuit en refuge', 'image': 'https://img.lemde.fr/2021/07/06/83/0/4608/3072/110/74/60/0/9eddaa7_998381494-dscn0208.JPG', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Au Château de Sissinghurst, l’incarnation végétale d’un amour hors normes', 'image': 'https://img.lemde.fr/2021/08/10/100/0/1500/1000/110/74/60/0/8398be3_845276554-517-pf-sissinghurst-hd-010-web.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Un été au sommet : cinq idées de parcs naturels pour toucher le ciel', 'image': 'https://img.lemde.fr/2021/07/22/0/0/2657/1771/110/74/60/0/c117cd9_30163552-montagne-salazie39-mare-a-martin-credit-irt-stephane-michel-dts-06-2018

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Variant Omicron : l’OMS alerte sur une « potentielle » résistance aux vaccins', 'image': 'https://img.lemde.fr/2021/12/13/0/0/3500/2333/110/74/60/0/16680ee_44e8c4f003a54ebfb2be426ece5ecfbc-44e8c4f003a54ebfb2be426ece5ecfbc-0.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Pour ou contre le passe vaccinal ? Un certain flou règne chez Les Républicains', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5580/3720/110/74/60/0/72f4f27_492503280-le-9700.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'A l’Assemblée nationale, la prolongation ou la suspension de la séance est une question stratégique', 'image': 'https://img.lemde.fr/2022/01/04/0/0/3500/2333/110/

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'L’électorat de Valérie Pécresse, au-delà du « fillonisme »', 'image': 'https://img.lemde.fr/2021/12/17/0/0/6666/4444/110/74/60/0/990a96c_981100644-dsc01433.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Election présidentielle 2022 : « Le pouvoir d’achat peut être un vrai serial killer électoral »', 'image': 'https://img.lemde.fr/2020/05/04/0/0/4728/3152/110/74/60/0/45fb9bf_5614590-01-06.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Election présidentielle 2022 : un scrutin plus que jamais imprévisible, selon la troisième enquête électorale publiée par « Le Monde »', 'image': 'https://img.lemde.fr/2019/05/16/0/0/4535/3023/110/74/6

2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Il sera finalement possible de boire ou de manger « rapidement » dans le train', 'image': 'https://img.lemde.fr/2021/12/16/0/0/3500/2333/110/74/60/0/ad869e5_ggg-gfm105-france-sncf-strike-1216-11.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal : suspension surprise de l’examen du projet de loi à l’Assemblée nationale', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/56c8852_734385382-l1-9693.jpg', 'description': None}
2022-01-05 16:05:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid -19 : isolement , cas contact, écoles… visualisez les nouveaux protocoles sanitaires', 'image': 'https://img.lemde.fr/2022/01/03/19/0/623/414/110/74/60/0/1ef3062_820946353-capture

2022-01-05 16:05:05 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2022-01-05 16:05:05 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 16:05:05 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 16:05:05 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2022-01-05 16:05:05 [scrapy.extensions.telnet] INFO: Telnet Password: a545f33aaff0327a
2022-01-05 16:05:05 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memus

2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Les mésaventures d’un influenceur Instagram pour évacuer des Afghans de Kaboul', 'image': 'https://img.lemde.fr/2021/08/16/53/0/2373/1582/110/74/60/0/206dee7_7871a4cc0790411b80a8f3f82c455540-7871a4cc0790411b80a8f3f82c455540-0.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Au Kenya, le vaccin contre le paludisme commence à faire ses preuves', 'image': 'https://img.lemde.fr/2021/12/29/0/0/6000/4000/110/74/60/0/bd05bbd_198554465-dsc0271.JPG', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Dépakine : Sanofi jugé responsable d’un manque de vigilance et d’information sur les risques', 'image': 'https://img.lemde.fr/2020/07/02/0/1/1227/818/110/74/60/0/49e4935_699010088-000_1A244O.jpg', 'description': None}
2022

2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Déjà rescapé d’un crash, un pêcheur américain survit après avoir été « avalé » par une baleine', 'image': 'https://img.lemde.fr/2021/06/12/0/0/3075/2050/110/74/60/0/04e788e_5975809-01-06.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Aux Etats-Unis, bataille pour des noms d’oiseaux plus inclusifs', 'image': 'https://img.lemde.fr/2021/06/10/0/0/5808/3872/110/74/60/0/1982741_03fe5e2e89cf4d6ea7231da5c95a5aa3-6cbb5788c24d452ca33055ad5065d1bc-0.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'La grande vadrouille d’un troupeau d’éléphants à travers la Chine', 'image': 'https://img.lemde.fr/2021/05/29/0/392/4215/2810/110/74/60/0/025541c_6c635a4e7a3446bdb06b0b66999b668b-6c635a4e7a3446bdb06b0b669

2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de Thomas Bishop, professeur de littérature à l’université de New York', 'image': 'https://img.lemde.fr/2022/01/05/417/0/2700/1798/110/74/60/0/712c865_634184459-tombishople-giond-honneur.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'De New York à Tokyo, un atlas des microbes du métro', 'image': 'https://img.lemde.fr/2020/05/02/0/0/3499/2333/110/74/60/0/fa00979_GDN_HEALTH-CORONAVIRUS-FRANCE_0502_1B.JPG', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le surprenant et fructueux trafic international de cactus', 'image': 'https://img.lemde.fr/2021/05/21/5/0/3872/2581/110/74/60/0/cecddd4_458766149-000-par8292610.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: 

2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Chez Samsung, une télécommande se rechargera grâce au Wi-Fi', 'image': 'https://img.lemde.fr/2022/01/05/41/297/582/388/110/74/60/0/641fc8d_829589350-ces-keynote-jh-han-main3.jpg', 'description': None}
2022-01-05 16:05:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Plus de 4 400 migrants sont morts ou ont disparu en mer en tentant de rejoindre l’Espagne en 2021, selon le bilan d’une ONG espagnole', 'image': 'https://img.lemde.fr/2018/08/09/0/0/3500/2333/110/74/60/0/4df7636_GGG-JMG11_EUROPE-MIGRANTS-SPAIN_0809_11.JPG', 'description': None}
2022-01-05 16:05:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/education/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemo

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Le célèbre paléontologue kényan Richard Leakey est mort', 'image': 'https://img.lemde.fr/2022/01/02/0/0/9000/6000/110/74/60/0/45caee7_5268736-01-06.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Aux obsèques de Desmond Tutu, l’hommage des Sud-Africains à leur dernier géant', 'image': 'https://img.lemde.fr/2022/01/01/0/0/3600/2400/110/74/60/0/7927bd6_b98ded4c5263416bbc4363138cb97254-b98ded4c5263416bbc4363138cb97254-0.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'L’actrice américaine Betty White est morte à l’âge de 99 ans', 'image': 'https://img.lemde.fr/2021/12/31/0/5/3490/2327/110/74/60/0/b4168c9_loa11-people-betty-white-0124-11.jpg', 'description': None}
2022-01-05 16:05:07 

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« L’action de la police pour limiter la diffusion des drogues n’est pas seulement inutile, elle est contre-productive »', 'image': None, 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Dans la police, un débat à bas bruit sur la dépénalisation des drogues', 'image': 'https://img.lemde.fr/2021/12/23/566/0/1654/1097/110/74/60/0/ad122d7_436440075-depenalisation.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Les sages-femmes sont appelées par des syndicats à « une semaine noire » pour les fêtes', 'image': 'https://img.lemde.fr/2021/11/22/0/0/6720/4480/110/74/60/0/2b5979d_167986349-211104jbalague-lemonde-sagefemme-5y5a9636.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Covid-19 : « Le risque d’être infecté tout en étant vacciné a augmenté avec le variant Delta »', 'image': 'https://img.lemde.fr/2021/12/03/460/0/4032/2688/110/74/60/0/f01672f_758016700-01122021-l2460008.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« ISF gate » : comment de grandes fortunes françaises ont pratiqué l’évasion fiscale au Canada', 'image': 'https://img.lemde.fr/2021/12/16/0/477/3083/2055/110/74/60/0/acd9214_701613853-pqli-20211214-extrait10241024-1-01.png', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Abaisser la majorité pénale, créer des centres fermés… que valent les propositions des candidats sur la justice des mineurs ?', 'image': 'https://img.lemde.fr/2021/12/

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La photographe franco-suisse Sabine Weiss, figure du courant humaniste, est morte', 'image': 'https://img.lemde.fr/2021/12/29/0/0/5350/3567/110/74/60/0/1573316_756084446-000-1va908.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Harry Reid, ancien chef démocrate du Sénat américain, est mort', 'image': 'https://img.lemde.fr/2021/12/29/0/0/2968/1978/110/74/60/0/8a4a7d2_255f25f1a2f8460b8366fd98a509a028-255f25f1a2f8460b8366fd98a509a028-0.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Hugo Maradona, le frère de Diego, est mort à l’âge de 52 ans', 'image': 'https://img.lemde.fr/2021/12/28/118/0/4603/3068/110/74/60/0/4705552_897218667-gettyimages-1221024102.jpg', 'description': None}
2022-01

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Cinq bains en plein air où se ressourcer au cœur de l’hiver', 'image': 'https://img.lemde.fr/2021/12/23/0/114/1978/1319/110/74/60/0/86eb4d4_653785551-balnea-sous-la-neige-copyright-vent-d-autant-christophe-boutet.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': '« Des insultes du matin au soir » : les laboratoires sous tension avec l’engorgement des tests de dépistage du Covid-19', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5568/3712/110/74/60/0/d347262_436016199-sipa-01054164-000004.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Didier Tabuteau nommé vice-président du Conseil d’État', 'image': 'https://img.lemde.fr/2022/01/05/0/0/5343/3562/110/74/60/0/c064ed

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Bordeaux, Strasbourg, Lyon… Le flou culturel des mairies Vertes', 'image': 'https://img.lemde.fr/2022/01/04/0/0/8256/5504/110/74/60/0/b6a9c09_329816819-sipa-01052370000013.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'En un graphique : l’amende contre la banque UBS, un montant record en France', 'image': 'https://img.lemde.fr/2021/12/17/159/0/534/356/110/74/60/0/9cb8cec_193848252-nanographix-4.png', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Cinquième vague de Covid-19 : visualiser la forte hausse du taux d’incidence chez les enfants', 'image': 'https://img.lemde.fr/2021/12/14/31/0/1256/837/110/74/60/0/440bd89_974575614-capture-d-e-cran-2021-12-14-a-18-19-17.png', 'description': N

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Omicron : l’Afrique du Sud estime avoir passé le pic de contaminations, sans hausse importante du nombre de morts', 'image': 'https://img.lemde.fr/2021/12/11/80/0/4282/2854/110/74/60/0/2cb3283_a581e1bb095e446fb030959f6768f93f-a581e1bb095e446fb030959f6768f93f-0.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Ethiopie : des dizaines de civils tués dans des frappes aériennes au Tigré', 'image': 'https://img.lemde.fr/2021/12/20/0/0/3499/2333/110/74/60/0/5549f96_fw1-ethiopia-conflict-1220-11.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Au Congo, la radio se décline aussi au féminin', 'image': 'https://img.lemde.fr/2021/12/30/0/0/920/613/110/74/60/0/f9eb0b2_24916410-elfie-esther-nkishi-la-fondatrice-de-

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Dépakine : Sanofi jugé responsable d’un manque de vigilance et d’information sur les risques', 'image': 'https://img.lemde.fr/2020/07/02/0/1/1227/818/110/74/60/0/49e4935_699010088-000_1A244O.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Covid-19 : des hospitalisations pédiatriques en hausse, en lien avec l’augmentation du nombre de cas', 'image': 'https://img.lemde.fr/2021/12/18/0/0/3500/2333/110/74/60/0/52300f2_ggg-sam102-health-coronavirus-france-children-1218-11.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'd

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Boeing ukrainien abattu : un tribunal canadien ordonne l’indemnisation des familles de victimes', 'image': 'https://img.lemde.fr/2022/01/04/0/0/3999/2666/110/74/60/0/ff83d4c_adfa9f0537b04544a4061c8028589fd7-adfa9f0537b04544a4061c8028589fd7-0.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Mais qu’est-ce que j’achète, si j’achète un NFT ? » : à Miami, l’art virtuel passe au réel', 'image': 'https://img.lemde.fr/2021/12/13/63/0/1500/1000/110/74/60/0/74895dd_159085-3251665.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Tout le monde m’a renvoyée à l’idée qu’on ne violait pas une actrice porno » : la lanceuse d’alerte et les ratés judiciaires', 'image': 'https://img.lemde.fr/2021/12/

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': '« Ma fille est devenue la mariée de la mer » : la détresse des familles des Kurdes morts noyés dans la Manche', 'image': 'https://img.lemde.fr/2021/12/14/2/0/5650/3766/110/74/60/0/7b37f9f_775213105-lgeai-irak-calais-62.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La majorité des migrants noyés dans la Manche à la fin de novembre est désormais identifiée', 'image': 'https://img.lemde.fr/2021/11/25/0/0/3499/2333/110/74/60/0/d189345_saa30-europe-migrants-france-1125-11.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La Commission européenne présente son projet de réforme de l’espace sans frontière de Schengen', 'image': 'https://img.lemde.fr/2021/12/14/0

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': '« Jusqu’à quand tiendra-t-on comme ça ? » : dans les écoles, une rentrée de plus sous le signe de l’incertitude', 'image': 'https://img.lemde.fr/2022/01/04/0/0/2737/1825/110/74/60/0/5ccc5f0_567288181-080-hl-mcohen-1620854.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Réforme du lycée : le blues des profs de maths', 'image': 'https://img.lemde.fr/2022/01/03/0/0/8014/5343/110/74/60/0/8d38589_985896584-000-1n60cr.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': '« Sous couvert de liberté d’expression, il semble devenu possible de dénigrer librement Sciences Po Grenoble »', 'image': 'https://img.lemde.fr/2021/11/26/0/6/5488/3659/110/74/60/0/2108cf5_137269095-000-94j8v8.jpg', 'description': Non

2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 : les immunodéprimés, l’autre population de patients en réanimation', 'image': 'https://img.lemde.fr/2022/01/04/523/0/2220/1477/110/74/60/0/cda525b_369155040-2022-01-03-severin.jpeg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Passe vaccinal : la présidentielle électrise les débats à l’Assemblée', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5602/3734/110/74/60/0/95b3d59_487216434-l1-9993.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': '« L’objectif de l’académie de Paris est d’atteindre 120 recrutements de professeurs contractuels pour faire face aux absences »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6000/4000/110/74/60/0/98e5431_754284748-000-9m34f8.jpg', 'description': None}


2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Passe vaccinal : la présidentielle électrise les débats à l’Assemblée', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5602/3734/110/74/60/0/95b3d59_487216434-l1-9993.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Le placement sous bracelet électronique des Balkany révoqué par la justice après de nombreux « incidents »', 'image': 'https://img.lemde.fr/2022/01/04/3/0/4736/3157/110/74/60/0/f9a1b78_643218637-000-99c43g.jpg', 'description': None}
2022-01-05 16:05:07 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Valérie Pécresse et Aurélien Pradié : «Contre les violences conjugales, il faudra agir beaucoup plus fort »', 'image': 'https://img.lemde.fr/2021/12/20/1/0/8192/5461/110/74/60/0/56609dc_105345566-300154.jpg', 'description': None}

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Au Sénégal, le succès naissant des bières artisanales et locales', 'image': 'https://img.lemde.fr/2021/12/28/0/75/1779/1186/110/74/60/0/89474d7_125443451-capture-d-e-cran-2021-12-28-a-16-02-02.png', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Crise politique en Somalie : la tension monte à Mogadiscio', 'image': 'https://img.lemde.fr/2021/12/29/0/36/4173/2782/110/74/60/0/48473bf_551469975-2021-12-28t050128z-1959061275-rc2hnr9ohz4c-rtrmadp-3-somalia-politics.JPG', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Afrique du Sud : la justice suspend l’exploration sismique de Shell', 'image': 'https://img.lemde.fr/2021/12/29/0/0/4000/2666/110/74/60/0/352e304_621256974-000-9vb2wj.jpg', 'description': None}
20

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Contre le variant Omicron, Emmanuel Macron s’accroche à sa stratégie vaccinale', 'image': 'https://img.lemde.fr/2021/12/07/0/0/3600/2400/110/74/60/0/cf8ddfb_563754917-macron-vierzon-33.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : les réponses aux principales questions sur la vaccination des enfants', 'image': 'https://img.lemde.fr/2021/12/22/0/3/3594/2396/110/74/60/0/11e047b_5236325-01-06.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Aux Etats-Unis, une série de tornades historique a semé la désolation sur son passage', 'image': 'https://img.lemde.fr/2021/12/13/0/2/3495/2330/110/74/60/0/72fb47b_202404649-906898.jpg', 'description': None}
2022

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Où partir au bord de la Méditerranée en hiver ?', 'image': 'https://img.lemde.fr/2021/11/04/23/0/1200/800/110/74/60/0/f41f5da_646557385-galleries-0-image-32.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'A quoi bon partir à la neige quand on déteste le ski ?', 'image': 'https://img.lemde.fr/2021/11/02/0/0/1500/1000/110/74/60/0/6db3063_149257-3243744.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Pourquoi prendre les nouveaux trains de nuit est-il une bonne idée ?', 'image': 'https://img.lemde.fr/2021/10/28/0/117/1266/844/110/74/60/0/730b82c_147843-3243743.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemond

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les ailes transparentes mais si visibles des papillons ithomiines', 'image': 'https://img.lemde.fr/2021/12/16/239/0/1808/1204/110/74/60/0/33845ba_803713379-ithomia-spnov-ex-terra-san-pedro-pe-by-elias.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': '« La pandémie pose la question fondamentale de la place du doute en science »', 'image': 'https://img.lemde.fr/2021/12/18/0/0/3500/2333/110/74/60/0/952a422_ggg-sam103-health-coronavirus-france-protest-1218-11.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Le Conseil national de l’ordre des médecins fait appel du blâme infligé au professeur Didier Raoult', 'image': 'https://img.lemde.fr/2021/12/17/0/0/4020/2680/110/74/60/0/574960b_5213217-01-06.jpg

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'La difficile entrée en scène des jeunes diplômés du cirque', 'image': 'https://img.lemde.fr/2021/12/07/0/222/3985/2657/110/74/60/0/d294c2d_691054347-04-cirque.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'La fausse main tendue par Eric Zemmour aux musulmans', 'image': 'https://img.lemde.fr/2021/12/06/0/0/6000/4000/110/74/60/0/5752861_595085969-ad036-zemmourvillepinte-dsc06227.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle : les meetings du Rassemblement national et de La France insoumise n’auront pas de jauge', 'image': 'https://img.lemde.fr/2021/07/04/0/0/2880/1920/110/74/60/0/e0e2169_950562193-img-9454.jpg', 'description': None}
20

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Les promesses de l’ARN messager', 'image': 'https://img.lemde.fr/2021/12/30/34/0/2487/1658/110/74/60/0/2041816_647198778-abaca-760821-002.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 : les Etats-Unis autorisent le rappel du vaccin de Pfizer pour les 12-15 ans', 'image': 'https://img.lemde.fr/2021/12/11/0/0/5664/3776/110/74/60/0/1218ca3_59afff5841eb4f069e17c19853beb658-59afff5841eb4f069e17c19853beb658-0.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'L’espoir d’une solution contre la mortalité massive des jeunes huîtres', 'image': 'https://img.lemde.fr/2021/12/24/0/0/5568/3712/110/74/60/0/ecb2937_731784460-000-9nr82n.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'PlayStation 5 et Xbox Series X : après un an, quel bilan pour les consoles « nouvelle génération » ?', 'image': 'https://img.lemde.fr/2021/11/11/0/0/1776/1184/110/74/60/0/244a320_69227730-image-6483441-copie.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Autriche, Allemagne, Belgique, Pays-Bas… visualisez l’ampleur de la vague de Covid-19 dans certains pays d’Europe', 'image': 'https://img.lemde.fr/2021/11/19/0/225/1350/900/110/74/60/0/44e1fea_261671876-collage2.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Les arrêts cardiaques chez les jeunes sportifs ont-ils augmenté avec le vaccin contre le Covid-19 ?', 'image': 'https://img.lemde.fr/2021/06/18/62/0/2614/1742/110/74/60/0

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'La ventilation dans les écoles, parent pauvre de la lutte contre le Covid-19', 'image': 'https://img.lemde.fr/2021/12/13/189/0/4000/2665/110/74/60/0/0e016ed_760120538-rafael-007.JPG', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'La formation initiale, un renfort nécessaire pour les métiers pénuriques de l’industrie', 'image': 'https://img.lemde.fr/2021/12/13/592/5/2349/1566/110/74/60/0/f8a327e_180571227-20211210-104255-1.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': '« Et ça marche, la laïcité ? » : des lycéens professionnels en débattent', 'image': 'https://img.lemde.fr/2021/12/10/0/0/8256/5504/110/74/60/0/8c38749_469927773-laicitehd-70.jpg', 'description': None}
2022-01-05 16:05:08 [scrap

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Altération de l’équilibre, tétraplégie temporaire… La dangereuse consommation de gaz hilarant chez les jeunes', 'image': 'https://img.lemde.fr/2021/12/31/0/0/5760/3840/110/74/60/0/16f6419_585765916-hanslucas-hl-kdaher-1542885.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Ordinateurs, tablettes, téléphones… Que faire de nos vieux appareils électroniques ?', 'image': 'https://img.lemde.fr/2021/02/11/0/0/6720/4480/110/74/60/0/2fb7c4a_483381972-hygtfrc.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 à l’école : Jean-Michel Blanquer justifie avoir dévoilé le nouveau protocole sanitaire tardivement « pour être au plus près de la réalité »', 'image': 'https://img.lemde.fr/2022/01/03/0/0/7773

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Dans le dossier des migrants dans la Manche, la tension monte entre la France et le Royaume-Uni', 'image': 'https://img.lemde.fr/2021/11/26/0/2/6511/4341/110/74/60/0/d990413_986299857-246951.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'A Calais, les sauveteurs voudraient que ce drame « éveille les consciences des gouvernants »', 'image': 'https://img.lemde.fr/2021/11/26/177/0/4252/2834/110/74/60/0/2cee162_809197755-11.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Avec des réfugiés palestiniens revenus au Liban après l’enfer en Biélorussie : « On a les mêmes problèmes qu’avant, des dettes en plus »', 'image': 'https://img.lemde.fr/2021/11/25/0/0/5758

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : les enfants des soignants seront accueillis à l’école en cas de fermeture de classe', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4999/3333/110/74/60/0/aecb175_109863883-080-hl-jcmilhet-1620892.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : à l’université, la crainte d’une contamination massive pendant les examens', 'image': 'https://img.lemde.fr/2022/01/04/26/0/5559/3706/110/74/60/0/b00d59b_773846456-000-9n642m.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« L’Etat pourrait-il organiser la recherche, la production et la distribution de vaccins ? »', 'image': 'https://img.lemde.fr/2021/06/30/3/0/5500/3666/110/74/60/0/e489601_25

2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Peut-on utiliser Moderna ou Pfizer de manière indifférenciée en dose de rappel ?', 'image': 'https://img.lemde.fr/2021/12/02/1/0/5000/3333/110/74/60/0/b3a639b_859923813-girette-hl-27025.JPG', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : comment obtenir un rendez-vous pour se faire vacciner avec la troisième dose', 'image': 'https://img.lemde.fr/2021/12/09/0/0/4807/3201/110/74/60/0/b0ee208_5166085-01-06.jpg', 'description': None}
2022-01-05 16:05:08 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'L’OMS craint que les pays riches accumulent les vaccins contre le Covid-19, en pleine propagation du variant Omicron', 'image': 'https://img.lemde.fr/2021/12/09/0/0/3000/2000/110/74/60/

2022-01-05 16:05:08 [scrapy.core.engine] INFO: Closing spider (finished)
2022-01-05 16:05:08 [scrapy.extensions.feedexport] INFO: Stored json feed (1240 items) in: lbc.json
2022-01-05 16:05:08 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 8573,
 'downloader/request_count': 26,
 'downloader/request_method_count/GET': 26,
 'downloader/response_bytes': 1322138,
 'downloader/response_count': 26,
 'downloader/response_status_count/200': 26,
 'elapsed_time_seconds': 3.210953,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2022, 1, 5, 16, 5, 8, 726533),
 'item_scraped_count': 1240,
 'log_count/DEBUG': 1266,
 'log_count/ERROR': 3,
 'log_count/INFO': 11,
 'memusage/max': 55775232,
 'memusage/startup': 55775232,
 'request_depth_max': 1,
 'response_received_count': 26,
 'robotstxt/request_count': 1,
 'robotstxt/response_count': 1,
 'robotstxt/response_status_count/200': 1,
 'scheduler/dequeued': 25,
 'scheduler/dequeued/memory': 25,
 'scheduler

2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/afrique/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/les-decodeurs/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/planete/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Il faut « modifier l’organisation des examens de janvier dans les universités »', 'image': 'https://img.lemde.fr/2022/01/04/26/0/5559/3706/110/74/60/0/b00d59b_773846456-000-9n642m.jpg', 'description': None}
2022-0

2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/actualite-en-continu/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Dans les écoles d’ingénieurs aéronautiques, la « déprime existentielle » des étudiants', 'image': 'https://img.lemde.fr/2021/12/07/201/0/3247/2163/110/74/60/0/9c78704_885254942-02-aerien.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'L’université d’Aix-Marseille prépare sa rentrée en distanciel', 'image': 'https://img.lemde.fr/2021/12/15/22/0/4644/3096/110/74/60/0/7cb315f_730997932-000-1q82vo.jpeg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr

2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Chez Samsung, une télécommande se rechargera grâce au Wi-Fi', 'image': 'https://img.lemde.fr/2022/01/05/41/297/582/388/110/74/60/0/641fc8d_829589350-ces-keynote-jh-han-main3.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Cigarette électronique : les médecins ne doivent pas conseiller le vapotage pour se sevrer du tabac, selon le HCSP', 'image': 'https://img.lemde.fr/2019/09/26/0/0/3499/2333/110/74/60/0/0da2259_FFF-DEL08_INDIA-ECIGARETTES-_0926_11.JPG', 'description': None}
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/m-voyage-le-lieu/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sport/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:12 [scrapy.core.engine] DEBUG

2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Goutte de sang, références au diable : les Satan Shoes du rappeur Lil Nas X font scandale aux Etats-Unis', 'image': 'https://img.lemde.fr/2021/03/30/1/0/1395/930/110/74/60/0/5f109ea_823257019-lil-nas-x.PNG', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Aaron Appelhans, premier shérif noir de l’Etat très conservateur du Wyoming', 'image': 'https://img.lemde.fr/2021/03/24/207/0/3000/2000/110/74/60/0/e38285b_39744526-ap-21043670483297.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort du paléontologue kényan Richard Leakey, « plus grand découvreur de fossiles de tous les temps »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/9000/6000/110/74/60/0/8a8eaa6_746120569-000-16q4pt.jpg', '

2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'L’écoanxiété, une crise existentielle pour certains adolescents', 'image': 'https://img.lemde.fr/2021/12/17/90/0/7542/5028/110/74/60/0/cba9be2_464781081-ecoanxie-te-clr-01.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Un traitement injectable contre le VIH remboursé en France', 'image': 'https://img.lemde.fr/2022/01/03/201/0/4831/3220/110/74/60/0/32a72ef_49825891-11729286-hires-cabotegravir-hiv-drug-molecule.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Les promesses de l’ARN messager', 'image': 'https://img.lemde.fr/2021/12/30/34/0/2487/1658/110/74/60/0/2041816_647198778-abaca-760821-002.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.f

2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Ordinateurs, tablettes, téléphones… Que faire de nos vieux appareils électroniques ?', 'image': 'https://img.lemde.fr/2021/02/11/0/0/6720/4480/110/74/60/0/2fb7c4a_483381972-hygtfrc.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Du CSA à l’Arcom, le régulateur de l’audiovisuel étend ses pouvoirs au numérique', 'image': 'https://img.lemde.fr/2021/12/31/0/0/5568/3712/110/74/60/0/77f5db2_258121256-000-1cn2sp.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Le succès de Sorare grâce à ses vignettes numériques de footballeurs', 'image': 'https://img.lemde.fr/2021/12/28/0/40/1388/925/110/74/60/0/8a44a2c_161659-3253226.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped fro

2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Chili : Valentina Miranda, benjamine de l’Assemblée constituante', 'image': 'https://img.lemde.fr/2021/12/27/0/0/4000/2666/110/74/60/0/3c85566_126166160-co13152.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Comment l’obésité gagne la planète (et pourquoi l’alimentation ne fait pas tout)', 'image': 'https://img.lemde.fr/2021/12/31/0/215/1618/1079/110/74/60/0/822fab1_757887679-thumbnail-obe-site.png', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Le « mois sans alcool » reprend, toujours sans aides publiques', 'image': 'https://img.lemde.fr/2021/12/31/12/0/3500/2333/110/74/60/0/d0ea6e5_fw1-eu-trade-wine-1231-1a.jpg', 'description': None}
2022-01-05 16:05:12 [scrapy.core.scraper] DEBUG: Scraped fr

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Passe vaccinal : Jean Castex défend Emmanuel Macron, qui veut « emmerder » les non-vaccinés', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/a5272e0_685453982-l1-0937.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/immigration-en-europe/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:13 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Entre coup de bol et mauvaise fortune, les tribulations d’un ingénieur français aux Etats-Unis

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Log4j : le ministère belge de la défense victime d’une cyberattaque', 'image': 'https://img.lemde.fr/2021/12/22/0/0/4000/2666/110/74/60/0/bc06e1b_701885255-1k2a9249.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Les olympiades du jeu vidéo : qui seront les champions de 2021 ?', 'image': 'https://img.lemde.fr/2021/12/22/0/265/2249/1498/110/74/60/0/15cb351_591452522-compo.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'On a testé… le Canon PX, le robot photographe destiné aux familles', 'image': 'https://img.lemde.fr/2021/12/17/0/0/6720/4480/110/74/60/0/6e87fbc_961904764-1k2a9040.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pix

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Guinée-Bissau : les Bijagos, un laboratoire à ciel ouvert', 'image': 'https://img.lemde.fr/2021/12/30/0/0/6240/4160/110/74/60/0/c1c9519_213481528-img-3167.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le président Cyril Ramaphosa rend un dernier hommage à Desmond Tutu, « père spirituel » de la démocratie sud-africaine', 'image': 'https://img.lemde.fr/2022/01/01/0/22/5865/3910/110/74/60/0/80709b9_08318021a2b74c79be6962b476b1df3f-08318021a2b74c79be6962b476b1df3f-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Au Rwanda, l’engouement pour les bars à lait', 'image': 'https://img.lemde.fr/2021/12/20/284/188/1063/709/110/74/60/0/017a024_160363-3251176.jpg', 'description': None}
2022-01-05 16:05:1

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Il faut une révolution pour le quatrième plan greffe »', 'image': 'https://img.lemde.fr/2021/12/15/0/45/2724/1816/110/74/60/0/dc63a0b_165745698-pns-6167463.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Les cancers de la prostate liés à l’exposition aux pesticides reconnus comme maladie professionnelle', 'image': 'https://img.lemde.fr/2021/12/22/871/0/2330/1552/110/74/60/0/8470c9f_169217913-000-93x434.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Une société peut-elle être fatiguée ? »', 'image': 'https://img.lemde.fr/2021/03/10/0/605/4500/3000/110/74/60/0/41a41c6_794898866-pns-5720030.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.f

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'L’éclipse malheureuse de la cosmographie', 'image': 'https://img.lemde.fr/2021/12/15/6/118/4507/3004/110/74/60/0/f700f29_473532836-pns-3571564.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les échantillons de l’astéroïde Ryugu livrent leurs secrets', 'image': 'https://img.lemde.fr/2021/12/17/1000/0/6000/4000/110/74/60/0/e71bc26_266720346-ap20342203781416.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Le premier mille-pattes digne de ce nom est doté de 1 306 pattes', 'image': 'https://img.lemde.fr/2021/12/16/0/0/3499/2333/110/74/60/0/a0046bb_hfs-tor500-science-legs-0514-11.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/s

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : la majorité des patients en réanimation sont bien non vaccinés', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6720/4480/110/74/60/0/3708572_288403956-2b0a2608.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'La cérémonie des Golden Globes maintenue, mais sans public ni retransmission télévisée', 'image': 'https://img.lemde.fr/2022/01/04/0/4/3991/2661/110/74/60/0/3c14d95_5277471-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Après les propos d’Emmanuel Macron sur les non-vaccinés, les débats sur le passe vaccinal de nouveau suspendus à l’Assemblée', 'image': 'https://img.lemde.fr/2022/01/05/0/0/2756/1837/110/74/60/0/3467b3b_834783040-ag-01.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Coupe de France : Lens renverse Lille et se qualifie pour les huitièmes de finale', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4264/2842/110/74/60/0/8d12b7a_5276961-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Test obligatoire, durée d’isolement... La Ligue de football professionnel détaille son nouveau protocole sanitaire', 'image': 'https://img.lemde.fr/2020/08/23/0/0/3499/2333/110

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Guinée : des organisations de la société civile proposent une transition de vingt-quatre mois', 'image': 'https://img.lemde.fr/2021/12/30/61/0/4917/3278/110/74/60/0/5ecc18b_223487160-000-9nx3gr.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Nigeria vide les camps de déplacés de Maiduguri', 'image': 'https://img.lemde.fr/2021/12/30/0/0/4084/2723/110/74/60/0/bf435c4_498234603-000-9tn7ck.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Ils sont passés chez Colors : la sélection musicale du « Monde Afrique » #86', 'image': 'https://img.lemde.fr/2021/12/22/0/42/3180/2120/110/74/60/0/789a816_887539457-colors-1.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Plus de 4 400 migrants sont morts ou ont disparu en mer en tentant de rejoindre l’Espagne en 2021, selon le bilan d’une ONG espagnole', 'image': 'https://img.lemde.fr/2018/08/09/0/0/3500/2333/110/74/60/0/4df7636_GGG-JMG11_EUROPE-MIGRANTS-SPAIN_0809_11.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Hongkong : la militante Chow Hang-tung condamnée une seconde fois pour avoir incité à commémorer la répression de la place Tiananmen', 'image': 'https://img.lemde.fr/2021/12/29/0/0/6000/4000/110/74/60/0/47c3c12_1de251fd3d0e446497e4659b62f1e932-1de251fd3d0e446497e4659b62f1e932-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Syrie, la province d’Idlib de nouveau visée par 

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Ski alpin : Tessa Worley remporte le slalom géant de Lienz', 'image': 'https://img.lemde.fr/2021/12/28/538/583/4117/2745/110/74/60/0/e8cd3ae_22a2749186564c629c49dd2e186129e1-22a2749186564c629c49dd2e186129e1-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'L’Agence européenne des médicaments autorise provisoirement la pilule anti-Covid-19 de Pfizer', 'image': 'https://img.lemde.fr/2021/04/22/54/0/3500/2333/110/74/60/0/920847e_ggg-yan105-health-coronavirus-italy-antibodies-0422-11.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Déjà critiqué pour son retard il y a un an, Sanofi reporte de nouveau l’arrivée de son vaccin contre le Covid-19 à 2022', 'image': 'https://img.lemde.fr/2021/02/04/0/0/3499/2333

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les partenaires sociaux veulent reconquérir l’influence perdue depuis 2017', 'image': 'https://img.lemde.fr/2022/01/04/1/0/6963/4642/110/74/60/0/dbfeb6c_624704599-000-9e22u9.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les entreprises pourront décaler le remboursement du prêt garanti par l’Etat et l’étaler sur six ans', 'image': 'https://img.lemde.fr/2021/08/25/0/39/4732/3155/110/74/60/0/b763f66_5512232-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Paris la Défense refuse le projet des tours jumelles', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5250/3500/110/74/60/0/a96f805_973653113-000-18h69z.jpg', 'description': None}
2022-01-05 16:05:13 [

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'La vaccination des enfants de 5 à 11 ans contre le Covid-19 désormais ouverte à tous en France', 'image': 'https://img.lemde.fr/2021/12/21/0/0/6720/4480/110/74/60/0/4bcff5a_339b52d057f944dab056ed5ab16a5b3c-339b52d057f944dab056ed5ab16a5b3c-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Aux Etats-Unis, Joe Biden organise une réponse fédérale face à la cinquième vague de Covid-19, dans un contexte de lassitude', 'image': 'https://img.lemde.fr/2021/12/21/70/1009/2934/1956/110/74/60/0/d8bfd1c_0b5fc79e2fcb41ea8f6fc55c583833a6-0b5fc79e2fcb41ea8f6fc55c583833a6-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'La stratégie du passe vaccinal du g

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Incidents lors de Paris FC-Lyon : match perdu pour les deux clubs, éliminés d’office de la Coupe de France', 'image': 'https://img.lemde.fr/2021/12/27/0/14/5515/3677/110/74/60/0/8678f10_814679769-000-9uv4pr.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': '« La fable de l’apolitisme du sport ne devrait pas survivre à 2022 »', 'image': 'https://img.lemde.fr/2021/12/07/0/0/3500/2333/110/74/60/0/d8f4b5f_ppppek02-olympics-2022-biden-1207-11.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Quiz : avez-vous bien suivi l’année sportive 2021 ?', 'image': 'https://img.lemde.fr/2021/07/27/0/0/4950/3300/110/74/60/0/486e1a1_5305423-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Sc

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'A la recherche de l’oiseau chanteur dans les prairies angevines', 'image': 'https://img.lemde.fr/2021/08/23/0/0/5356/3570/110/74/60/0/054def8_824081648-hl-tvaerman-rale-des-genets-20.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Histoires d’eau : cinq écluses surprenantes', 'image': 'https://img.lemde.fr/2021/07/27/0/0/3999/2666/110/74/60/0/f5f92ec_329843676-barrage-tuilieres-otb-02.jpeg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Un été au sommet : cinq idées pour passer une nuit en refuge', 'image': 'https://img.lemde.fr/2021/07/06/83/0/4608/3072/110/74/60/0/9eddaa7_998381494-dscn0208.JPG', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scra

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': '« Année cruciale », « adieu Macron » : les candidats à l’élection présidentielle devancent le chef de l’Etat pour les vœux', 'image': 'https://img.lemde.fr/2021/12/10/0/0/3600/2400/110/74/60/0/deaadff_995495529-macron-conf-de-presse-20211209-09.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Valérie Pécresse veut appliquer les jauges et le passe sanitaire dans ses meetings', 'image': 'https://img.lemde.fr/2021/12/11/0/0/7332/4888/110/74/60/0/20aeaaa_26f7df181ab14a63b2c7a6b588615fe4-26f7df181ab14a63b2c7a6b588615fe4-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Eric Zemmour, du mépris des femmes à la hantise de l’immigration', 'ima

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Les entreprises pourront décaler le remboursement du prêt garanti par l’Etat et l’étaler sur six ans', 'image': 'https://img.lemde.fr/2021/08/25/0/39/4732/3155/110/74/60/0/b763f66_5512232-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Tennis : Novak Djokovic annonce avoir obtenu une « dérogation » pour se rendre en Australie jouer l’Open', 'image': 'https://img.lemde.fr/2022/01/04/0/0/4492/2994/110/74/60/0/157f0a8_5274888-01-06.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Il faut « modifier l’organisation des examens de janvier dans les universités »', 'image': 'https://img.lemde.fr/2022/01/04/26/0/5559/3706/110/74/60/0/b00d59b_773846456-000-9n

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Au Royaume-Uni, prison ferme pour des militants du climat', 'image': 'https://img.lemde.fr/2021/11/04/0/0/4689/3126/110/74/60/0/22a197c_96bbf6455c0248a59b76356280034dee-96bbf6455c0248a59b76356280034dee-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Des milliers de personnes évacuées en raison d’inondations dans l’ouest du Canada', 'image': 'https://img.lemde.fr/2021/11/16/53/0/6500/4333/110/74/60/0/5975f28_c821c37e727a4ba593759da240fc98ec-c821c37e727a4ba593759da240fc98ec-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 à l’école : parents, vous avez des réticences ou des difficultés à appliquer le nouveau protocole de tests pour les enfants, témoignez', 'image': 'https:/

2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Les promesses de l’ARN messager', 'image': 'https://img.lemde.fr/2021/12/30/34/0/2487/1658/110/74/60/0/2041816_647198778-abaca-760821-002.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : les Etats-Unis autorisent le rappel du vaccin de Pfizer pour les 12-15 ans', 'image': 'https://img.lemde.fr/2021/12/11/0/0/5664/3776/110/74/60/0/1218ca3_59afff5841eb4f069e17c19853beb658-59afff5841eb4f069e17c19853beb658-0.jpg', 'description': None}
2022-01-05 16:05:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : ce que l’on sait de la sévérité de l’infection à Omicron', 'image': 'https://img.lemde.fr/2021/12/28/0/0/5089/3392/110/74/60/0/37a1d6d_469044079-02122021-l2460455.jpg', 'description': N

2022-01-05 16:05:16 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2022-01-05 16:05:16 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 16:05:16 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 16:05:16 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2022-01-05 16:05:16 [scrapy.extensions.telnet] INFO: Telnet Password: 058e639c88b6b3f4
2022-01-05 16:05:16 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memus

2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de Thomas Bishop, professeur de littérature à l’université de New York', 'image': 'https://img.lemde.fr/2022/01/05/417/0/2700/1798/110/74/60/0/712c865_634184459-tombishople-giond-honneur.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/les-decodeurs/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/planete/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'A

2022-01-05 16:05:17 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  File "/root/.local/sha

2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'L’avocate Sarah Weddington, qui a obtenu le droit à l’avortement aux Etats-Unis, est morte', 'image': 'https://img.lemde.fr/2021/12/26/83/0/4080/2720/110/74/60/0/79ce3ea_2f8d4647a46e4c15be8eca7316f44ede-2f8d4647a46e4c15be8eca7316f44ede-0.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Karolos Papoulias, l’ancien président hellénique, témoin des tragédies de la Grèce contemporaine, est mort', 'image': 'https://img.lemde.fr/2021/12/27/0/18/4122/2748/110/74/60/0/01b0631_559870191-487416.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Jean-Marc Vallée, le réalisateur de la série « Big Little Lies » et du film « Dallas Buyers Club » est mort', 'image': 'https://img.lemde.fr/2021/12/27/

2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'title': 'Cinq bains en plein air où se ressourcer au cœur de l’hiver', 'image': 'https://img.lemde.fr/2021/12/23/0/114/1978/1319/110/74/60/0/86eb4d4_653785551-balnea-sous-la-neige-copyright-vent-d-autant-christophe-boutet.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/societe/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Bros’, restaurant italien étoilé au Michelin, étrillé dans une critique devenue virale', 'image': 'https://img.lemde.fr/2021/12/14/0/0/5472/3648/110/74/60/0/8aad4aa_731954979-000-1o32lq.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.co

2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les 10 billets les plus lus de 2021 sur le blog « Réalités biomédicales »', 'image': 'https://img.lemde.fr/2020/09/14/0/150/1620/1080/110/74/60/0/c80ca24_fw1-health-coronavirus-regeneron-0914-11.JPG', 'description': None}
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Eve Babitz, écrivaine qui a su capter l’esprit du Los Angeles bohème des années 1960, est morte', 'image': 'https://img.lemde.fr/2021/12/22/1516/0/3424/2282/110/74/60/0/8d5e541_578655669-gettyimages-873028536.jpg', 'description': None}
2022-01-05 16:05:17 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de l’anthropologue François Lissarrague', 'image': 'https://img.lemde.fr/2021/12/17/0/0/4252/2834/110/74/60/0/b55e006_25002227-opaleplus-opale5192-03.jpg', 'description': None}
2022-01-05 16

2022-01-05 16:05:18 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemonde.fr)
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Les chiens du 11-Septembre, un « soutien émotionnel aux sauveteurs et aux familles des victimes »', 'image': 'https://img.lemde.fr/2021/09/07/116/0/2048/1365/110/74/60/0/0025351_382287889-000-apw2001091209902.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le bébé en couverture de « Nevermind » de Nirvana, devenu trentenaire, porte plainte contre le groupe', 'image': 'https://img.lemde.fr/2021/08/25/0/0/2100/1400/110/74/60/0/6210db2_153692386-nevermindcover.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Dix ans après leur vol, un

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de l’historien Jean-Claude Perrot', 'image': 'https://img.lemde.fr/2021/12/16/435/0/1073/714/110/74/60/0/4bc2a49_44634228-jc-perrot.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de l’historien américain Tyler Stovall, spécialiste de la question raciale en France', 'image': 'https://img.lemde.fr/2021/12/15/192/0/4608/3072/110/74/60/0/539fe72_401136331-dscn0732.JPG', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'L’autrice afroféministe bell hooks est morte, à l’âge de 69 ans', 'image': 'https://img.lemde.fr/2020/11/28/0/0/6000/4000/110/74/60/0/d089c22_3263a6dba3dd4431b404febef2594cc1-3263a6dba3dd4431b404febef2594cc1-0.jpg', 'description': None}
2022-01-05 16:05:18 [sc

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Les Balkans, premières victimes européennes de la crise des prix de l’énergie', 'image': 'https://img.lemde.fr/2022/01/05/2/0/7043/4695/110/74/60/0/203516c_514902465-000-9va4bh.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Passe vaccinal : Jean Castex défend Emmanuel Macron, qui veut « emmerder » les non-vaccinés', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/a5272e0_685453982-l1-0937.JPG', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Didier Tabuteau nommé vice-président du Conseil d’État', 'image': 'https://img.lemde.fr/2022/01/05/0/0/5343/3562/110/74/60/0/c064edb_234906505-000-1a42s3.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <2

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Lego : au bonheur de la pièce manquante', 'image': 'https://img.lemde.fr/2021/12/15/0/0/5472/3648/110/74/60/0/2bfad99_876446765-000-1j443m.jpeg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Que retenir de l’année 2021 en BD ? La sélection du « Monde »', 'image': 'https://img.lemde.fr/2021/12/15/230/0/1402/933/110/74/60/0/361f0a2_444536978-deforge.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Un nouveau rapport révèle le fonctionnement de Predator, un logiciel espion conçu par l’entreprise Cytrox', 'image': 'https://img.lemde.fr/2021/07/28/17/0/3000/2000/110/74/60/0/943ea92_f0fcd847ac494cb4aae0ab952f9e4d4a-f0fcd847ac494cb4aae0ab952f9e4d4a-0.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.cor

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Omicron : pourquoi un variant plus contagieux mais moins mortel fera plus de victimes', 'image': 'https://img.lemde.fr/2021/12/07/0/0/3000/2000/110/74/60/0/2bf8d48_a3cde17681c546e895acf35d3c5259e8-a3cde17681c546e895acf35d3c5259e8-0.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Nouvelle-Calédonie, tornades aux Etats-Unis, suites du Brexit… Les informations à retenir ce week-end', 'image': 'https://img.lemde.fr/2021/12/12/0/139/841/561/110/74/60/0/8218bb5_955662481-capture.JPG', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Ce que les images montrent des violences au meeting d’Eric Zemmour à Villepinte', 'image': 'https://img.lemde.fr/2021/12/10/0/18/969/646/110/74/60/0/0b47c98_784

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'De l’importance de la notion d’échelles dans le climat', 'image': 'https://img.lemde.fr/2021/08/26/383/0/4600/3066/110/74/60/0/0d52921_466395989-pns-712132024-1.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'L’écoanxiété, une crise existentielle pour certains adolescents', 'image': 'https://img.lemde.fr/2021/12/17/90/0/7542/5028/110/74/60/0/cba9be2_464781081-ecoanxie-te-clr-01.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': '« L’exploration spatiale joue un rôle important dans la recherche de solutions durables »', 'image': 'https://img.lemde.fr/2022/01/03/311/0/4987/3319/110/74/60/0/77cdbb4_473053614-huygtfr-2.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped fro

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les jeux vidéo les plus attendus de 2022', 'image': 'https://img.lemde.fr/2022/01/04/0/0/1800/1200/110/74/60/0/3d4b521_984718047-jeux-video-2022-2.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La Bourse de Paris bat des records et passe au-dessus des 7 300 points', 'image': 'https://img.lemde.fr/2022/01/04/0/376/3862/2575/110/74/60/0/94d9b1c_428969843-000-14d4me.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Covid-19 : la flambée épidémique se poursuit en France avec 272 000 cas enregistrés en vingt-quatre heures', 'image': 'https://img.lemde.fr/2021/12/31/0/0/4500/3000/110/74/60/0/5b0a795_1de5997b26f94de2a5fe86166ff27bdf-1de5997b26f94de2a5fe86166ff27bdf

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal : à l’Assemblée nationale, les députés attendent les explications de Jean Castex', 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/0e40eb4_748990497-l1-0865.JPG', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'A l’Assemblée nationale, l’examen du projet de loi sur le passe vaccinal suspendu à la suite des propos d’Emmanuel Macron', 'image': 'https://img.lemde.fr/2022/01/05/0/184/4680/3120/110/74/60/0/1124e68_547788892-l1-0770.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le 100 % télétravail oblige l’entreprise à s’organiser autour du salarié', 'image': 'https://img.lemde.fr/2022/01/03/0/142/5004/3336/110/74/60/0/b5a471b_7

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : la majorité des patients en réanimation sont bien non vaccinés', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6720/4480/110/74/60/0/3708572_288403956-2b0a2608.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'title': 'Université : « L’universalisme républicain ne se décrète pas, il se construit »', 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Jean-Luc Mélenchon promet un meeting « immersif » le 16 janvier à Nantes', 'image': 'https://img.lemde.fr/2017/04/18/0/0/6254/4169/110/74/60/0/a94f3fb_81d8663b9a304c7a979a91bf2661bb6d-81d8663b9a304c7a979a91bf2661bb6d-0.jpg',

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les partenaires sociaux veulent reconquérir l’influence perdue depuis 2017', 'image': 'https://img.lemde.fr/2022/01/04/1/0/6963/4642/110/74/60/0/dbfeb6c_624704599-000-9e22u9.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les entreprises pourront décaler le remboursement du prêt garanti par l’Etat et l’étaler sur six ans', 'image': 'https://img.lemde.fr/2021/08/25/0/39/4732/3155/110/74/60/0/b763f66_5512232-01-06.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Paris la Défense refuse le projet des tours jumelles', 'image': 'https://img.lemde.fr/2022/01/04/0/0/5250/3500/110/74/60/0/a96f805_973653113-000-18h69z.jpg', 'description': None}
2022-01-05 16:05:18 [

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Guadeloupe, #noustoutes, Peng Shuai… les cinq infos à retenir du week-end', 'image': 'https://img.lemde.fr/2021/11/21/0/0/1800/1200/110/74/60/0/90081d5_344040001-fotojet-1.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Qui est éligible au rappel vaccinal contre le Covid-19 à partir du 27 novembre ?', 'image': 'https://img.lemde.fr/2021/11/25/197/181/1347/898/110/74/60/0/20f7d0b_714665576-appel.png', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'PlayStation 5 et Xbox Series X : après un an, quel bilan pour les consoles « nouvelle génération » ?', 'image': 'https://img.lemde.fr/2021/11/11/0/0/1776/1184/110/74/60/0/244a320_69227730-image-6483441-copie.jpg', 'description': None}
2022

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': '« La gauche ne donne pas le sentiment d’être prête à gouverner, ni de vouloir le faire »', 'image': 'https://img.lemde.fr/2021/12/13/0/0/6196/4130/110/74/60/0/c6e45aa_317859279-cbi0961006.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Election présidentielle 2022 : vous êtes sympathisant·e de gauche, racontez-nous votre état d’esprit', 'image': 'https://img.lemde.fr/2022/01/03/0/0/5134/3423/110/74/60/0/e75b562_407354305-000-9da9u8.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Marine Le Pen décale son premier grand meeting de campagne en raison de la pandémie de Covid-19', 'image': 'https://img.lemde.fr/2021/12/02/0/0/5568/3712/110

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'EElizabeth Holmes, la fondatrice de Theranos, condamnée pour escroquerie', 'image': 'https://img.lemde.fr/2022/01/03/0/1/3498/2332/110/74/60/0/81bb08a_ggg-san100-theranos-holmes-0103-1a.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Covid-19 : les Etats-Unis autorisent le rappel du vaccin de Pfizer pour les 12-15 ans', 'image': 'https://img.lemde.fr/2021/12/11/0/0/5664/3776/110/74/60/0/1218ca3_59afff5841eb4f069e17c19853beb658-59afff5841eb4f069e17c19853beb658-0.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Gambie, la lutte s’organise contre l’invasion du sel dans les rizicultures', 'image': 'https://img.lemde.fr/2021/12/26/0/0/6000/4000/110/74/60/0/ab7b032_822242558-dsc015

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'La stratégie du passe vaccinal du gouvernement critiquée par les oppositions : « usine à gaz », « problème éthique », mesure « infantilisante »', 'image': 'https://img.lemde.fr/2021/12/21/0/294/4824/3216/110/74/60/0/18d0868_690627586-000-9l84mb.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'La HAS valide la vaccination des 5-11 ans mais ne souhaite pas la rendre obligatoire ou exigible', 'image': 'https://img.lemde.fr/2021/12/18/0/0/3499/2333/110/74/60/0/300d4e5_ggg-sam107-health-coronavirus-france-children-1218-11.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': '« Il est grand temps de considérer les résidents des Ehpad comme des citoyens

2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Chine, une stratégie zéro Covid à géométrie variable', 'image': 'https://img.lemde.fr/2022/01/03/182/0/4032/2688/110/74/60/0/1701bd3_641106303-f-lemaitre2.jpeg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le chalutage de fond dénoncé comme la pire technique de pêche', 'image': 'https://img.lemde.fr/2022/01/02/0/0/4569/3046/110/74/60/0/73ac607_949151814-000-9qn9wc.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Les débuts prometteurs du parquet européen', 'image': 'https://img.lemde.fr/2022/01/02/0/5/4594/3063/110/74/60/0/836aeb9_652259579-000-9bv3eu.jpg', 'description': None}
2022-01-05 16:05:18 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/internatio

2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Igor Bogdanoff emporté à son tour par le Covid-19', 'image': 'https://img.lemde.fr/2021/12/28/0/0/5184/3456/110/74/60/0/a01f177_5251691-01-06.jpg', 'description': None}
2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal : menaces de mort et agressions se multiplient contre les députés de la majorité', 'image': 'https://img.lemde.fr/2022/01/03/0/0/2756/1837/110/74/60/0/213810c_740722027-attachment-1.jpeg', 'description': None}
2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Il sera finalement possible de boire ou de manger « rapidement » dans le train', 'image': 'https://img.lemde.fr/2021/12/16/0/0/3500/2333/110/74/60/0/ad869e5_ggg-gfm105-france-sncf-strike-1216-11.jpg', 'description': None}
202

2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Election présidentielle 2022 : un scrutin plus que jamais imprévisible, selon la troisième enquête électorale publiée par « Le Monde »', 'image': 'https://img.lemde.fr/2019/05/16/0/0/4535/3023/110/74/60/0/eab1591_5849227-01-06.jpg', 'description': None}
2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Passe vaccinal, contrôles d’identité, état d’urgence… Ce que contient le projet de loi examiné lundi à l’Assemblée', 'image': 'https://img.lemde.fr/2021/12/30/1/0/4000/2666/110/74/60/0/90223f9_ecce257b39fa4b26ba1b3d9af64226fa-ecce257b39fa4b26ba1b3d9af64226fa-0.jpg', 'description': None}
2022-01-05 16:05:19 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : à l’école, une nouvelle gestion des cas contacts', 'image': 


## Votre premier Item

La classe `Item` permet de structurer les données que l'on souhaite
récupérer sous la forme d'un modèle. Les items doivent être définis dans
le fichier `items.py` créé par la commande `scrapy startproject`. Les
`Item` héritent de la class `scrapy.Item`.

On veut structurer les données avec deux champs : le titre et le prix de
l'annonce. Scrapy utilise une classe `scrapy.Field` permettant de
'déclarer' ces champs. Dans notre cas :

In [None]:
# %load newscrawler/newscrawler/items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    image = scrapy.Field()
    description = scrapy.Field()

Utiliser la classe `scrapy.Item` plutôt qu'un simple dictionnaire permet
plus de contrôle sur la structure des données. En effet, on ne peut
insérer dans les items que des données avec des clés 'déclarées'. Ce qui
assure une plus grande cohérence au sein d'un projet.

On peut instancier un item de plusieurs façons :

In [8]:
article_item = ArticleItem(title="Gilets Jaunes", image=None, description="Un samedi de manifestations")

In [9]:
print(article_item)

{'description': 'Un samedi de manifestations',
 'image': None,
 'title': 'Gilets Jaunes'}


In [10]:
article_item = ArticleItem()
article_item["title"] = 'Gilets Jaunes'
article_item["description"] = 'Un samedi de manifestations'

In [11]:
print(article_item)

{'description': 'Un samedi de manifestations', 'title': 'Gilets Jaunes'}


La définition d'un item permet de palier toutes les erreurs de typo dans
les champs.

In [12]:
article_item = ArticleItem()
article_item["titelkjwnxvmnscbvmknxc"] = 'Gilets Jaunes'

KeyError: 'ArticleItem does not support field: titelkjwnxvmnscbvmknxc'

Les items héritent des dictionnaires Python, et possèdent donc toutes
les méthodes de ceux-ci:

In [13]:
article_item = ArticleItem(title="Gilets Jaunes")
print(article_item["title"]) # Méthode __getitem__()
print(article_item.get("description", "no description provided")) # Méthode get()

Gilets Jaunes
no description provided


On peut transformer un `Item` en dictionnaire très facilement, en le
passant au constructeur:

In [14]:
article_item = ArticleItem(title="Drone DJI")
print(type(article_item))
dict_item = dict(article_item)
print(type(dict_item))
print(dict_item)

<class '__main__.ArticleItem'>
<class 'dict'>
{'title': 'Drone DJI'}


On intègre maintenant cet item dans notre spider.

In [34]:
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from items import ArticleItem
class LemondeSpider(scrapy.Spider):
    name = "lemondev4"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)

    def parse_category(self, response):
        for article in response.css(".fleuve")[0].css("article"):
            title = self.clean_spaces(article.css("h3 a::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()

            yield ArticleItem(
                title=title,
                image=image,
                description=description
            )

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

ImportError: attempted relative import with no known parent package

On voit bien que le générateur retourne maintenant un `Item`.

### Exercice : 

Relancer la spider pour vérifier le bon déroulement de l'extraction.


In [32]:
!cd newscrawler/ && scrapy crawl lemondev4

2022-01-05 16:25:21 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2022-01-05 16:25:21 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-4.15.0-163-generic-x86_64-with-glibc2.2.5
2022-01-05 16:25:21 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2022-01-05 16:25:21 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2022-01-05 16:25:22 [scrapy.extensions.telnet] INFO: Telnet Password: dd141a736a604990
2022-01-05 16:25:22 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memus

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2019/09/26/0/0/3499/2333/110/74/60/0/0da2259_FFF-DEL08_INDIA-ECIGARETTES-_0926_11.JPG',
 'title': 'Cigarette électronique : les médecins ne doivent pas conseiller le '
          'vapotage pour se sevrer du tabac, selon le HCSP'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/3999/2666/110/74/60/0/47186df_322396250-gettyimages-1236455943.jpg',
 'title': 'En Turquie, la « ruée vers l’or » des cryptomonnaies'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/417/0/2700/1798/110/74/60/0/712c865_634184459-tombishople-giond-honneur.jpg',
 'title': 'La mort de Thomas Bishop, professeur de littérature à l’u

2022-01-05 16:25:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/immigration-en-europe/> (referer: https://www.lemonde.fr)
2022-01-05 16:25:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/m-voyage-le-lieu/> (referer: https://www.lemonde.fr)
2022-01-05 16:25:23 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/14/0/0/1606/1068/110/74/60/0/4493da6_252854403-21614811.jpg',
 'title': 'Les mauvais comptes des syndicats lycéens épinglés par l’inspection '
          'générale'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'description': None,
 'image': 'https://img.lemde.fr/2020/04/30/0/0/3499/2333/110/74/60/0/234680b_GGGMAHE20_HEALTH-CORONAVIRUS-FRANCE-REHABILIT

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/20/224/0/4865/3243/110/74/60/0/c01ebb5_947591194-pns-2772669-1.jpg',
 'title': 'Les victimes des chasses aux sorcières entre le XVIe et le XVIIIe '
          'siècle bientôt officiellement innocentées en Ecosse'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/0/4182/2788/110/74/60/0/f553da6_5280377-01-06.jpg',
 'title': 'Saisie record de 214 kilos de cocaïne dans le nord du Niger'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/31/0/0/5568/3712/110/74/60/0/77f5db2_258121256-000-1cn2sp.jpg',
 'title': 'Du CSA à l’Arcom, le régulateur de l’audiovisuel étend ses pouvoirs '
          

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/27/0/0/3499/2333/110/74/60/0/2be38af_fw1-tennis-ausopen-djokovic-1227-11.jpg',
 'title': 'Open d’Australie : après une dérogation médicale controversée, '
          'Novak Djokovic bloqué à l’aéroport pour un problème de visa'}
2022-01-05 16:25:23 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/184/4680/3120/110/74/60/0/1124e68_547788892-l1-0770.jpg',
 'title': 'Débats sur le passe vaccinal : « A l’Assemblée nationale, '
          'l’atmosphère de tension est celle qu’on a pu connaître sur '
          'l’affaire Benalla »'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/31/12/0/3500/2333/110/74/60/0/d0ea6e5_fw1-eu-trade-wine-1231-1a.jpg',
 'title': 'Le « mois sans alcool » reprend, toujours sans aides publiques'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/30/0/6/5788/3859/110/74/60/0/cce477c_978212656-000-9797mf.jpg',
 'title': 'Ce qui change le 1er janvier pour le budget d

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/22/133/0/562/374/110/74/60/0/855edfb_141666556-photo-shigeki-tominaga.jpg',
 'title': 'La mort de Shigeki Tominaga, spécialiste japonais de l’histoire et '
          'de la pensée françaises'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/22/1516/0/3424/2282/110/74/60/0/8d5e541_578655669-gettyimages-873028536.jpg',
 'title': 'Eve Babitz, écrivaine qui a su capter l’esprit du Los Angeles '
          'bohème des années 1960, est morte'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/198/0/1036/689/110/74/60/0/13c0669_294373658-capture-d-e-cran-2022-01-04-a-15-36-59.png',
 'title': 'C

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/22/500/0/3000/2000/110/74/60/0/7303249_941873503-fabriquedusavoir-sanstexte-1-min.png',
 'title': 'Podcast. Comment les scientifiques travaillent ensemble (3/5)'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/29/444/0/3200/2124/110/74/60/0/3bf12b7_449864744-2017-05-23t000000z-1931784990-mt1hnslcs000qs50x1-rtrmadp-3-hans-lucas.JPG',
 'title': 'La mort de l’animateur de télévision Grichka Bogdanoff'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/0/6720/4480/110/74/60/0/a5272e0_685453982-l1-0937.JPG',
 'title': 'Passe vaccinal : Jean Castex défend Emmanuel Macron, qui veut « '
      

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2018/08/09/0/0/3500/2333/110/74/60/0/4df7636_GGG-JMG11_EUROPE-MIGRANTS-SPAIN_0809_11.JPG',
 'title': 'Plus de 4 400 migrants sont morts ou ont disparu en mer en tentant '
          'de rejoindre l’Espagne en 2021, selon le bilan d’une ONG espagnole'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/02/0/0/5184/3456/110/74/60/0/f2fc949_310162532-lemonde-rwanda-ve-lo-broulard-1-of-6.jpg',
 'title': 'Au Rwanda, l’ascension fulgurante du cyclisme'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/31/0/0/3719/2479/110/74/60/0/8136def_5261526-01-06.jpg',
 'title': 'En Tunisie, l’homme fort d’E

2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/23/0/114/1978/1319/110/74/60/0/86eb4d4_653785551-balnea-sous-la-neige-copyright-vent-d-autant-christophe-boutet.jpg',
 'title': 'Cinq bains en plein air où se ressourcer au cœur de l’hiver'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/6720/4480/110/74/60/0/3708572_288403956-2b0a2608.jpg',
 'title': 'Covid-19 : la majorité des patients en réanimation sont bien non '
          'vaccinés'}
2022-01-05 16:25:23 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/03/19/0/623/414/110/74/60/0/1ef3062_820946353-capture-d-e-cran-2022-01-03-a-18-09-15.png',
 'title': 'Covid -19 : isolement , cas contact, é

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/17/0/0/5607/3738/110/74/60/0/d5f5c38_0a300898b30e44d49ada2c1cc14f2fee-0a300898b30e44d49ada2c1cc14f2fee-0.jpg',
 'title': 'Crise des opiacés aux Etats-Unis : un tribunal remet en cause '
          'l’immunité de la famille Sackler'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/04/22/54/0/3500/2333/110/74/60/0/920847e_ggg-yan105-health-coronavirus-italy-antibodies-0422-11.JPG',
 'title': 'L’Agence européenne des médicaments autorise provisoirement la '
          'pilule anti-Covid-19 de Pfizer'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/02/04/0/0/3499/2333/110/74/60/0/300c09b_bte30-france-protest

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/2/0/7043/4695/110/74/60/0/203516c_514902465-000-9va4bh.jpg',
 'title': 'Les Balkans, premières victimes européennes de la crise des prix de '
          'l’énergie'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/20/0/0/4834/3222/110/74/60/0/1c47cfa_5229053-01-06.jpg',
 'title': '« Merry Christmas » : le premier SMS de l’histoire vendu 107 000 '
          'euros aux enchères'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/08/0/0/1999/1333/110/74/60/0/338c9b0_331212746-chargeurs-panasonic-snado-varta-isdt-ebl.jpg',
 'title': 'Les meilleurs chargeurs de piles AA et AAA'}
2022-01-05 16:25:24 [scrapy.core

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/6782/4521/110/74/60/0/90a0760_219464116-parc-du-thabor-destination-rennes-franck-hamon-18281-3.JPG',
 'title': 'Rennes, le meilleur du « Monde »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/03/0/0/1500/1000/110/74/60/0/f6a7944_157363-3248646.jpg',
 'title': 'Voir Porto et s’étourdir'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2017/04/18/0/0/6254/4169/110/74/60/0/a94f3fb_81d8663b9a304c7a979a91bf2661bb6d-81d8663b9a304c7a979a91bf2661bb6d-0.jpg',
 'title': 'Jean-Luc Mélenchon promet un meeting « immersif » le 16 janvier à '
          'Nantes'}
20

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/2697/1798/110/74/60/0/750525f_411697816-pompiers.jpeg',
 'title': 'Un incendie dans les Bouches-du-Rhône crée une importante pollution '
          'de l’air « comparable à celle de Pékin »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/e66da81_743580310-l1-0373.jpg',
 'title': 'Passe vaccinal : la séance définitivement levée, l’opposition '
          'dénonce les propos d’Emmanuel Macron'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/31/1/0/4000/2666/110/74/60/0/bd96f80_5262568-01-06.jpg',
 'title': 'Tony Blair

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/08/177/0/4252/2834/110/74/60/0/5691e53_852471668-31.jpg',
 'title': 'Naufrage dans la Manche : les migrants avaient bien appelé les '
          'secours'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/01/20/0/5402/3601/110/74/60/0/e904c95_721128444-000-1oj7b2-2.jpg',
 'title': 'Au Cameroun, une nouvelle vague répressive frappe les opposants'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/31/0/4/4920/3280/110/74/60/0/ac82057_56917714-000-k332g.jpg',
 'title': 'Au Gabon, trois entraîneurs de football mis en examen pour '
          'pédocriminalité'}
2022-01-05 16:25:24 [scr

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/6144/4096/110/74/60/0/7b5707c_493380828-hygtfrt.jpg',
 'title': 'Université : « L’universalisme républicain ne se décrète pas, il se '
          'construit »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/12/32/0/3822/2548/110/74/60/0/23bfef8_269030fac6f14048ae7e6e0022f20cdd-269030fac6f14048ae7e6e0022f20cdd-0.jpg',
 'title': 'Vicente Fernandez, idole de la chanson populaire au Mexique, est '
          'mort'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/14/289/0/2400/1599/110/74/60/0/e1b44e7_91174562-5d8b4e1-837209788-bestimage-00551684-000001.jpg',
 'title': 'La ro

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/30/0/0/4999/3333/110/74/60/0/1e83f8c_480211521-000-9ta3c2.jpg',
 'title': 'Pierre Larrouturou : « L’élection d’avril 2022 doit permettre de '
          'changer la donne, profondément »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/16/0/64/7210/4807/110/74/60/0/b2838cc_959641266-734582.jpg',
 'title': '« Si Emmanuel Macron a appris quelque chose, c’est à se servir de '
          'la conjoncture pour justifier ses politiques publiques »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/10/0/0/5209/3473/110/74/60/0/2c45929_684108272-02122021-

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/16/239/0/1808/1204/110/74/60/0/33845ba_803713379-ithomia-spnov-ex-terra-san-pedro-pe-by-elias.jpg',
 'title': 'Les ailes transparentes mais si visibles des papillons ithomiines'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/18/0/0/3500/2333/110/74/60/0/952a422_ggg-sam103-health-coronavirus-france-protest-1218-11.jpg',
 'title': '« La pandémie pose la question fondamentale de la place du doute en '
          'science »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/17/0/0/4020/2680/110/74/60/0/574960b_5213217-01-06.jpg',
 'title': 'Le Conseil national de l’ordre des médecins fait app

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/184/4680/3120/110/74/60/0/1124e68_547788892-l1-0770.jpg',
 'title': 'Débats sur le passe vaccinal : « A l’Assemblée nationale, '
          'l’atmosphère de tension est celle qu’on a pu connaître sur '
          'l’affaire Benalla »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/26/0/0/3500/2333/110/74/60/0/04d55b0_ggg-ums7-brazil-dam-1226-11.jpg',
 'title': 'Des pluies torrentielles font dix-huit morts au Brésil, treize '
          'morts en Bolivie'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/02/0/0/8256/5504/110/74/60/0/d73ebd8_5557356-01-06.jpg',
 'title': 'Clim

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/30/0/2/2460/1640/110/74/60/0/e9aa43e_971792335-000-9bl2dl.jpg',
 'title': 'La Chine interdit les tatouages à ses footballeurs'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/26/0/5559/3706/110/74/60/0/b00d59b_773846456-000-9n642m.jpg',
 'title': 'Il faut « modifier l’organisation des examens de janvier dans les '
          'universités »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/17/0/0/5257/3504/110/74/60/0/edd417f_0befba86a5294cfb8a6d6d466ebb72ee-0befba86a5294cfb8a6d6d466ebb72ee-0.jpg',
 'title': 'Covid-19 à l’école : parents, vous avez des réticences ou des '
          'difficu

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/17/0/0/5257/3504/110/74/60/0/edd417f_0befba86a5294cfb8a6d6d466ebb72ee-0befba86a5294cfb8a6d6d466ebb72ee-0.jpg',
 'title': 'Covid-19 à l’école : parents, vous avez des réticences ou des '
          'difficultés à appliquer le nouveau protocole de tests pour les '
          'enfants, témoignez'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/06/0/0/5451/3634/110/74/60/0/244bf13_78a8f69efa7549c8a3aba4f17ea8a12d-78a8f69efa7549c8a3aba4f17ea8a12d-0.jpg',
 'title': 'Dans l’Oregon, Airbnb va masquer les noms des clients pour lutter '
          'contre les discriminations'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/0/4303/2869/110/74/60/0/abd81e4_477057634-000-9hk8y4.jpg',
 'title': 'Covid-19 : l’état d’urgence sanitaire décrété à la Guadeloupe, en '
          'Guyane, à Mayotte, Saint-Martin et Saint-Barthélemy'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/28/0/0/3500/2333/110/74/60/0/04db312_fw1-health-coronavirus-hongkong-1228-11.jpg',
 'title': 'Stratégie zéro Covid : la Chine veut créer des « centres de '
          'quarantaine » permanents'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/05/0/405/1689/1126/110/74/60/0/ae4e1e4_632557216-room.jpg'

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/14/0/59/5800/3867/110/74/60/0/8782836_487166607-l-www-e-com-photos-eu-c-baudot-vue-ai-l-rienne-des-ri-l-sidences-fidji-et-eden-693-hd.jpg',
 'title': 'Vague verte sur La Grande-Motte'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/05/0/102/5314/3543/110/74/60/0/4a1af40_702642432-pns-3924787.jpg',
 'title': 'Estuaire de la Gironde : balade entre îles et vignes'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/29/0/0/1500/1000/110/74/60/0/4e65366_140367-3240241.jpg',
 'title': 'A Cassis, un balcon sur la mer'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scrape

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/25/146/705/2683/1788/110/74/60/0/8bb5e87_e6b6654942a0423a87b42d293f512596-e6b6654942a0423a87b42d293f512596-0.jpg',
 'title': 'Dans le Kent, des volontaires se mobilisent en faveur des migrants'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/25/808/157/4794/3196/110/74/60/0/451f607_87142652e6b74da08b47c04abc02c06e-87142652e6b74da08b47c04abc02c06e-0.jpg',
 'title': 'Hommage en France aux « 27 personnes, avec leurs rêves et leurs '
          'espoirs, qui ont disparu hier » dans la Manche'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/25/170/0/751/4

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/27/0/14/5515/3677/110/74/60/0/8678f10_814679769-000-9uv4pr.jpg',
 'title': 'Incidents lors de Paris FC-Lyon : match perdu pour les deux clubs, '
          'éliminés d’office de la Coupe de France'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/07/0/0/3500/2333/110/74/60/0/d8f4b5f_ppppek02-olympics-2022-biden-1207-11.jpg',
 'title': '« La fable de l’apolitisme du sport ne devrait pas survivre à 2022 '
          '»'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/07/27/0/0/4950/3300/110/74/60/0/486e1a1_5305423-01-06.jpg',
 'title': 'Quiz : avez-vous bien suivi l’année sportive 2021 ?'}
2022-01-05 

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/3500/2333/110/74/60/0/a5effd0_4e6eb2d22d8843e59db8a2a4343c880e-4e6eb2d22d8843e59db8a2a4343c880e-0.jpg',
 'title': 'A l’Assemblée nationale, la prolongation ou la suspension de la '
          'séance est une question stratégique'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2020/10/30/0/0/6000/4000/110/74/60/0/f189c50_234540422-000-1rn1oq.jpg',
 'title': 'Salarié·e, manageur ou manageuse, comment vivez-vous le retour au '
          'télétravail ? Racontez-nous'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2022/01/04/0/0/5712/3808/110/74/60/0/2460921_29

2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/12/23/0/0/8256/5504/110/74/60/0/207d980_470941093-frj-2100.jpg',
 'title': 'Un apéro avec Matthieu Ricard : « L’époque vit une épidémie de '
          'narcissisme, il faut éviter la contagion »'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/07/22/0/0/2657/1771/110/74/60/0/c117cd9_30163552-montagne-salazie39-mare-a-martin-credit-irt-stephane-michel-dts-06-2018.jpeg',
 'title': 'Un été au sommet : cinq idées de parcs naturels pour toucher le '
          'ciel'}
2022-01-05 16:25:24 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/m-voyage-le-lieu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/07/22/0/61/5284/3523/110/74/60/0/603468c_805491216-pns-900789300.jpeg',


2022-01-05 16:25:25 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/04/27/0/0/5568/3712/110/74/60/0/e64d4ed_981380121-000-13f924.jpg',
 'title': 'La FAGE, école du terrain pour les futurs responsables politiques'}
2022-01-05 16:25:25 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/163/0/4984/3322/110/74/60/0/7264e4d_516598967-000-1dh5jm.jpg',
 'title': 'Enseignement du climat : on est loin du compte !'}
2022-01-05 16:25:25 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/education/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/06/17/0/6/6036/4024/110/74/60/0/f9c571a_5016990-01-06.jpg',
 'title': '« Le bac en mars, une mesure qui pénalise les apprentissages de '
          'nombreux lycéens »'}
2022-01-05 16:25:25 [scrapy.core.scraper] DEBUG: Scraped f

2022-01-05 16:25:25 [scrapy.core.engine] INFO: Closing spider (finished)
2022-01-05 16:25:25 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 8325,
 'downloader/request_count': 26,
 'downloader/request_method_count/GET': 26,
 'downloader/response_bytes': 1323516,
 'downloader/response_count': 26,
 'downloader/response_status_count/200': 26,
 'elapsed_time_seconds': 2.949205,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2022, 1, 5, 16, 25, 25, 79866),
 'item_scraped_count': 1240,
 'log_count/DEBUG': 1266,
 'log_count/ERROR': 3,
 'log_count/INFO': 10,
 'memusage/max': 55644160,
 'memusage/startup': 55644160,
 'request_depth_max': 1,
 'response_received_count': 26,
 'robotstxt/request_count': 1,
 'robotstxt/response_count': 1,
 'robotstxt/response_status_count/200': 1,
 'scheduler/dequeued': 25,
 'scheduler/dequeued/memory': 25,
 'scheduler/enqueued': 25,
 'scheduler/enqueued/memory': 25,
 'spider_exceptions/Ind

## Postprocessing

Si l'on se réfère au diagramme d'architecture de Scrapy, on voit qu'il
est possible d'insérer des composants supplémentaires dans le flux de
traitement. Ces composants s'appellent `Pipelines`.

Par défaut, tous les `Item` générés au sein d'un projet Scrapy passent
par les `Pipelines`. Les pipelines sont utilisés la plupart du temps
pour :

-   Nettoyer du contenu HTML ;
-   Valider les données scrapées ;
-   Supprimer les items qu'on ne souhaite pas stocker ;
-   Stocker ces objets dans des bases de données.

Les pipelines doivent être définis dans le fichier `pipelines.py`.

Dans notre cas on peut vouloir nettoyer le champ `title` pour enlever
les caractères superflus.

Nous allons alors transferer la fonction de nettoyage du code html dans
une Pipeline.

In [None]:
# %load newscrawler/newscrawler/pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exceptions import DropItem

class TextPipeline(object):

    def process_item(self, item, spider):
        if item['title']:
            item["title"] = clean_spaces(item["title"])
            return item
        else:
            raise DropItem("Missing title in %s" % item)


def clean_spaces(string):
    if string:
        return " ".join(string.split())

Pour dire au process Scrapy de faire transiter les items par ces
pipelines. Il faut le spécifier dans le fichier de paramétrage
`settings.py`.

In [None]:
ITEM_PIPELINES = {
     'newscrawler.pipelines.TextPipeline': 300,
 }

On peut maintenant supprimer la fonction `clean_spaces()` de
l'extraction des données et laisser le Pipeline faire son travail. La
valeur entière définie permet de déterminer l'ordre dans lequel les
pipelines vont être appelés. Ces entiers peuvent être compris entre 0 et
1000.

On relance notre spider :

In [None]:
scrapy crawl lemonde -o ../data/articles.json

On peut aussi utiliser les Pipelines pour stocker les données récupérées
dans une base de données. Pour stocker les items dans des documents
mongo :

In [None]:
import pymongo

class MongoPipeline(object):

    collection_name = 'scrapy_items'

    def open_spider(self, spider):
        self.client = pymongo.MongoClient()
        self.db = self.client["lemonde"]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

Ici on redéfinit deux autres méthodes: `open_spider()`et
`close_spider()`, ces méthodes sont appelées comme leur nom l'indique,
lorsque la Spider est instanciée et fermée.

Ces méthodes nous permettent d'ouvrir la connexion Mongo et de la fermer
lorsque le scraping se termine. La méthode `process_item()` est appelé à
chaque fois qu'un item passe dans le mécanisme interne de scrapy. Ici,
la méthode permet d'insérer l'item en tant que document mongo.

Pour que ce pipeline soit appelé il faut l'ajouter dans les settings du
projet.

In [None]:
ITEM_PIPELINES = {
    'newscrawler.pipelines.TextPipeline': 100,
    'newscrawler.pipelines.MongoPipeline': 300
}

Le pipeline est ajoutée à la fin du process pour profiter des deux
précédents.

## Settings

Scrapy permet de gérer le comportement des spiders avec certains
paramètres. Comme expliqué dans le premier cours, il est important de
suivre des règles en respectant la structure des différents sites. Il
existe énormément de paramètres mais nous allons (dans le cadre de ce
cours) aborder les plus utilisés :

-   DOWNLOAD\_DELAY : Le temps de téléchargement entre chaque requête
    sur le même domaine ;
-   CONCURRENT\_REQUESTS\_PER\_DOMAIN : Nombre de requêtes simultanées
    par domaine ;
-   CONCURRENT\_REQUESTS\_PER\_IP : Nombre de requêtes simultanées par
    IP ;
-   DEFAULT\_REQUEST\_HEADERS : Headers HTTP utilisés pour les requêtes
    ;
-   ROBOTSTXT\_OBEY : Scrapy récupère le robots.txt et adapte le
    scraping en fonction des règles trouvées ;
-   USER\_AGENT : UserAgent utilisé pour faire les requêtes ;
-   BOT\_NAME : Nom du bot annoncé lors des requêtes
-   HTTPCACHE\_ENABLED : Utilisation du cache HTTP, utile lors du
    parcours multiple de la même page.

Le fichiers `settings.py` permet de définir les paramètres globaux d'un
projet. Si votre projet contient un grand nombre de spiders, il peut
être intéressant d'avoir des paramètres distincts pour chaque spider. Un
moyen simple est d'ajouter un attribut `custom_settings` à votre spider
:

In [None]:
class LeMondeSpider(scrapy.Spider):
        name = "lemonde"
        allowed_domains = ["lemonde.fr"]
        start_urls = ['http://lemonde.fr/']
        custom_settings = {
            "HTTPCACHE_ENABLED":True, 
            "CONCURRENT_REQUESTS_PER_DOMAIN":100
        }