
# Introduction

[Scrapy](https://scrapy.org/) est un framework permettant de crawler des
sites web et d'en extraire les données de façon structurée.

## Installation

Nous travaillerons dans un environnement
[Anaconda](https://www.anaconda.com/download/), déjà présent sur les
machines de l'ESIEE. Sur vos machines personnelles, télécharger la
distribution correspondant à la version la plus récente de Python.

[Scrapy](https://scrapy.org/) ne fait pas partie de la distribution par
défaut de Python et doit être installé manuellement. Ici, le package est
déjà installé grâce à Pipenv.

Si vous avez besoin d'installer dans un autre cadre.

-   Avec **Pipenv** : `pipenv install scrapy`
-   Avec **Anaconda** : `conda install -c conda-forge scrapy`

Tester la réussite de l'opération dans un interpréteur Python. Avant
installation:

In [2]:
!pip install scrapy



In [3]:
import scrapy

## Architecture

[Scrapy](https://scrapy.org/) est un framework comportant plusieurs
composants.

<img src="images/architecture.png" alt="image" class="align-center" />

L'ensemble du processus est contrôlé par l'**engine** (les termes anglo
saxons ont été retenus pour un meilleur référencement dans la
[documentation officielle](https://docs.scrapy.org/en/latest/)).

Le framework est articulé avec plusieurs composants qui gèrent chacun un
rôle différent. Nous allons les détailler.

-   Les **Spiders** : permettent de naviguer sur un site et de
    référencer les règles d'extraction de la donnée.
-   Les **Pipelines** : font le lien entre la donnée brute et des objets
    structurés
-   Les **Middlewares** : permettent d'effectuer des transformations sur
    les objets ou sur les requêtes exécutées par l'engine.
-   Le **Scheduler** : gère l'ordre et le timing des requêtes
    effectuées.

## Fonctionnement

[Scrapy](https://scrapy.org/) est entièrement organisé autour d'un
composant central : l'*engine*.

Le rôle de l'*engine* est de contrôler le flux de données entre les
différents composants du système.

1.  En particulier, il est chargé de récupérer les *requests* définies
    dans les *spiders*
2.  Ces *requests* sont ensuite fournies au *scheduler* qui se charge de
    leur ordonnancement
3.  Les *requests* sont présentées selon cet ordonnancement à
    l'*engine*...
4.  ... qui les transmet au *downloader*
5.  Le *downloader* effectue la *request* et transmet la *response* (le
    contenu de la page web) à l'*engine*...
6.  ... puis l'envoie au *spider* pour traitement
7.  Le *spider* génére des *items* qui sont transmis à l'*engine*
8.  Les *items* sont ensuite poussés dans un pipeline pour nettoyage,
    validation et stockage

Ce processus est répété jusqu'à épuisement des requêtes.

[Scrapy](https://scrapy.org/) est un [framework orienté
événements](https://en.wikipedia.org/wiki/Event-driven_architecture)
(basé sur [Twisted](https://twistedmatrix.com/)) permettant une
programmation asynchrone (non bloquante). C'est particulièrement
intéressant dans les opérations de scraping, puisque **le programme
n'attend pas le résultat d'une requête pour en lancer une autre**.

En effet, lorsque l'on sollicite une ressource (requête réseau, système
de fichier, etc.) en mode bloquant, l'exécution du programme est
suspendue le temps que la transaction avec la ressource se termine (par
exemple le temps qu'une page web soit complètement téléchargée).
L'intérêt de faire des appels non bloquants, c'est que l'on peut gérer
de multiples téléchargements en parallèle, et que le programme peut
continuer à tourner pendant ce temps.

# Un scraping élémentaire

Avant de rentrer dans les détails du framework, nous allons mettre en
oeuvre un premier script permettant de récupérer l'information présente
sur [la page web](http://evene.lefigaro.fr/citations/winston-churchill)
recensant les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill).

**Exercice**

Examiner le code source de cette page avec l'inspecteur de votre
navigateur. Identifier les éléments contenant l'information recherchée,
ici la chaîne de caractères contenant la citation proprement dite.

## Le code source

Le code utilisé est le suivant:

In [4]:
# %load citations_churchill_spider1.py
import scrapy

class ChurchillQuotesSpider(scrapy.Spider):
    name = "citations de Churchill"
    start_urls = ["http://evene.lefigaro.fr/citations/winston-churchill",]

    def parse(self, response):
        for cit in response.xpath('//div[@class="figsco__quote__text"]'):
            text_value = cit.xpath('a/text()').extract_first()
            yield { 'text' : text_value }

## Le fonctionnement

Le fonctionnement est le suivant:

-   On importe le module [Scrapy](https://scrapy.org/) (3)
-   et on définit une sous classe de `scrapy.Spider` (5)
-   la variable `start_urls` contient la liste des pages à scraper (7)
-   On redéfinit la méthode $parse$ dont la signature est définie dans
    la classe mère (9)
-   L'objet
    [response](https://docs.scrapy.org/en/latest/topics/request-response.html#response-objects)
    représente la réponse à la requête HTTP (l'attribut $text$ permet
    d'accéder à son contenu). On recherche ensuite tous les containers
    `<div>` identifiés dans l'exercice précédent. Ici la page est
    particulièrement bien structurée et les citations disposent de leur
    propre container, identifié par l'attribut `class` de valeur
    `figsco__quote__text`. La sélection se fait par une expression
    [XPath](https://en.wikipedia.org/wiki/XPath), un langage de
    sélection de noeud dans un document XML (10). En langage naturel, la
    requête pourrait se formuler : "On recherche tous les containers
    `<div>` dont la valeur de l'attribut `class` est égal à
    `figsco__quote__text`".
-   Pour chaque résultat, on construit un dictionnaire dont la clé est
    `text` et la valeur le contenu du lien `<a>`. Ce résultat est fourni
    par un générateur ($yield$) (12).

On lance le scraping depuis un terminal:

In [5]:
!scrapy runspider citations_churchill_spider1.py

2021-11-30 12:21:52 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2021-11-30 12:21:52 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 12:21:52 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 12:21:52 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2021-11-30 12:21:52 [scrapy.extensions.telnet] INFO: Telnet Password: 9b042bcd4ea6dc9b
2021-11-30 12:21:52 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2021-11-30 12:21:52 [scrapy.middlewa

On y trouve des informations sur les paramètres
utilisés:

In [None]:
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}

les
[extensions](https://docs.scrapy.org/en/latest/topics/extensions.html)
...:

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']

[Les composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html)
... :

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']

Idem pour [les composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
...:

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']

Aucun
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
n'est activé :

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled item pipelines:
[]

**Exercice**

Identifier la position des [composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html),
des [composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
et du
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
dans $l'architecture <Introduction>$

L'exécution du scraping proprement dit débute :

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider opened
2018-01-10 17:21:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-10 17:21:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

La première URL est poussée par le scheduler:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)

## Les résultats

Les résultats sont fournis par le générateur défini dans la méthode
$parse$ dans un dictionnaire. Ils contiennent le texte des citations
dans la valeur de la clé `text` :

In [None]:
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': '“Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.”'}
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': "Faire le bien, éviter le mal, c'est ça le paradis."}

## Les statistiques

Une fois le scraping effectué, quelques statistiques sont affichées sur
le terminal:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Closing spider (finished)
2018-01-10 17:21:05 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 242,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 17435,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 858347),
'item_scraped_count': 16,
'log_count/DEBUG': 18,
'log_count/INFO': 7,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 645347)}
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider closed (finished)

On observe notamment que notre code permet de récupérer la taille de la
page web (17435 bytes), le temps d'exécution à partir des valeurs
`finish_time` et `start_time`, le nombre d'items scrapés (16), etc...

**Exercice**

Les citations extraites sont elles toutes de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) ? Il sera
peut être nécessaire de modifier le sélecteur XPath. Nous verrons ça
lorsque il faudra récupérer les données relative à l'auteur.

## Modifier les données

Il est parfois nécessaire de faire un traitement sur les données
scrapées, pour ajouter ou retirer de l'information.

**Exercice**

Retirer les caractères `“` et `”` qui délimitent la citation. Ces
caractères sont identifiés en Unicode comme [LEFT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201c/index.htm) et
[RIGHT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201d/index.htm).

## Plus de données

Il est souvent nécessaire de récupérer plusieurs informations relatives
à un même item. Dans cet exemple, il est judicieux d'associer à la
citation le nom de son auteur, en allant chercher cette information au
plus près du texte lui même.

**Exercice**

Examiner le code source de la page web et identifier la structuration de
la donnée associée à l'auteur. En déduire l'expression XPath permettant
de la récupérer. S'assurer que seules les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) sont
extraites. Ajouter une clé `author` au dictionnaire retourné par le
$yield$ dont la valeur est précisément la chaîne de caractères contenant
l'auteur.

Un exemple de dictionnaire retourné:

In [None]:
{   'text': "“Si deux hommes ont toujours la même opinion, l'un d'eux est de trop.”", 
    'author': 'Winston Churchill'}

Pour lancer l'exécution de la spider :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py

On peut aussi vouloir stocker les données extraites :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py -o
> data/citation.json -t json

In [6]:
!scrapy runspider citations_churchill_spider2.py -o data/citation2.json -t json

  feeds = feed_process_params_from_cli(
2021-11-30 12:22:01 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2021-11-30 12:22:01 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 12:22:01 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 12:22:01 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2021-11-30 12:22:01 [scrapy.extensions.telnet] INFO: Telnet Password: 6c4cab17e599a674
2021-11-30 12:22:01 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedE


# Votre premier projet


Dans un premier temps vous devez créer un projet Scrapy avec la commande
:

In [7]:
!scrapy startproject newscrawler

Error: scrapy.cfg already exists in /home/dev/code/2Scrapy/newscrawler


Cette commande va créer un dossier `monprojet` contenant les éléments
suivants correspondant au squelette :

In [None]:
newscrawler/
    scrapy.cfg            # Options de déploiement

    newscrawler/             # Le module Python contenant les informations
        __init__.py

        items.py          # Fichier contenant les items

        middlewares.py    # Fichier contenant les middlewares

        pipelines.py      # Fichier contenant les pipelines

        settings.py       # Fichier contenant les paramètres du projet

        spiders/          # Dossier contenant toutes les spiders
            __init__.py

# Votre première Spider

Une Spider est une classe Scrapy qui permet de mettre en place toute
l'architecture complexe vue dans l'introduction. Pour définir une
spider, il vous faut hériter de la classe $scrapy.Spider$. La seule
chose à faire est de définir la première requête à effectuer et comment
suivre les liens. La Spider s'arrêtera lorsqu'elle aura parcouru tous
les liens qu'on lui a demandé de suivre.

Pour créer une Spider on utilise la syntaxe:

In [None]:
!scrapy genspider <SPIDER_NAME> <DOMAIN_NAME>

Par exemple,

In [8]:
!cd newscrawler && scrapy genspider lemonde lemonde.fr

Spider 'lemonde' already exists in module:
  newscrawler.spiders.lemonde


Cette commande permet de créer une spider appelée `lemonde` pour scraper
le domaine `lemonde.fr`. Cela crée le fichier Python
`spiders/lemonde.py` suivant :

In [None]:
# %load newscrawler/newscrawler/spiders/lemonde.py
import scrapy


class LemondeSpider(scrapy.Spider):
    name = 'lemonde'
    allowed_domains = ['lemonde.fr']
    start_urls = ['http://lemonde.fr/']

    def parse(self, response):
        pass


Une bonne pratique pour commencer à développer une Spider est de passer
par l'interface Shell proposée par Scrapy. Elle permet de récupérer un
objet `Response` et de tester les méthodes de récupération des données.

# ATTENTION : Les commandes scrapy shell doivent être lancées dans un terminal 

In [9]:
!scrapy shell 'http://lemonde.fr'

2021-11-30 12:23:35 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2021-11-30 12:23:35 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 12:23:35 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 12:23:35 [scrapy.crawler] INFO: Overridden settings:
{'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0}
2021-11-30 12:23:35 [scrapy.extensions.telnet] INFO: Telnet Password: ef3f8d7431b2b59a
2021-11-30 12:23:35 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2021-11-30 12:23:35 [scrapy

Accès au container, pipenv shell, pip freeze 

!scrapy shell 'http://lemonde.fr'

Pour les utilisateurs de windows il vous faut mettre des doubles quotes
:

In [None]:
scrapy shell "http://lemonde.fr"

Scrapy lance un kernel Python

In [None]:
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: newscrawler)
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'newscrawler', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'newscrawler.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newscrawler.spiders']}
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-02 16:05:50 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-02 16:05:50 [scrapy.core.engine] INFO: Spider opened
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/> (referer: None)
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10fc38c18>
[s]   item       {}
[s]   request    <GET https://www.lemonde.fr/>
[s]   response   <200 https://www.lemonde.fr/>
[s]   settings   <scrapy.settings.Settings object at 0x113bb0898>
[s]   spider     <DefaultSpider 'default' at 0x113e60cc0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser

Grâce à cette interface, vous avez accès à plusieurs objets comme la
`Response`, la `Request`, la `Spider` par exemple. Vous pouvez aussi
exécuter `view(response)` pour afficher ce que Scrapy récupère dans un
navigateur.

In [None]:
In [1]: response
Out[1]: <200 https://www.lemonde.fr/>

In [3]: request
Out[3]: <GET https://www.lemonde.fr/>

In [4]: type(request)
Out[4]: scrapy.http.request.Request

In [5]: spider
Out[5]: <LemondeSpider 'lemonde' at 0x1080fccc0>

In [6]: type(spider)
Out[6]: monprojet.spiders.lemonde.LeMondeSpider

Ici on voit que la Spider est une instance de LemondeSpider. Lorsqu'on
lance le $scrapy shell$ scrapy va chercher dans les spiders si une
correspond au lien passé en paramètre, si oui , il l'utilise sinon une
$DefaultSpider$ est instanciée.

## Vos premières requêtes

On peut commencer à regarder comment extraire les données de la page web
en utilisant le langage de requêtes proposé par Scrapy. Il existe deux
types de requêtes : les requêtes `css` et `xpath`. Les requêtes `xpath`
sont plus complexes mais plus puissantes que les requêtes `css`. Dans le
cadre de ce tutorial, nous allons uniquement aborder les requêtes `css`,
elles nous suffiront pour extraire les données dont nous avons besoin
(en interne, Scrapy transforme les requêtes `css`en requêtes `xpath`.

Que ce soit les requêtes `css` ou `xpath`, elles crééent des sélecteurs
de différents types. Quelques exemples :

Pour récupérer le titre d'une page :

In [None]:
In [1]: response.css('title')
Out[1]: [<Selector xpath='descendant-or-self::title' data='<title>Le Monde.fr - Actualités et Infos'>]

On récupère une liste de sélecteurs correspondant à la requête `css`
appelée. La requête précédente était unique, d'autres requêtes moins
restrictives permettent de récupérer plusieurs résultats. Par exemple
pour rechercher l'ensemble des liens présents sur la page, on va
rechercher les balises HTML `<a></a>`

In [None]:
In [5]: response.css("a")[0:10]
Out[5]:
[<Selector xpath='descendant-or-self::a' data='<a target="_blank" data-target="jelec-he'>,
<Selector xpath='descendant-or-self::a' data='<a href="/"> <div class="logo__lemonde l'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://secure.lemonde.fr/sfuse'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://abo.lemonde.fr/#xtor=CS'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>]

Pour récupérer le texte contenu dans les balises, on passe le paramètre
`<TAG>::text`. Par exemple :

In [None]:
In [6]: response.css("title::text")
Out[6]: [<Selector xpath='descendant-or-self::title/text()' data='Le Monde.fr - Actualités et Infos en Fra'>]

### Exercice

  Comparer les résultats des deux requêtes `response.css('title')` et
`response.css('title::text')`.
=> On a enlever les balises. On ne garde que le contenu

Maintenant pour extraire les données des selecteurs on utilise l'une des
deux méthodes suivantes : - `extract()` permet de récupérer une liste
des données extraites de tous les sélecteurs - `extract_first()` permet
de récupérer une `String` provenant du premier sélecteur de la liste.

In [None]:
In [7]: response.css('title::text').extract_first()
Out[7]: 'Le Monde.fr - Actualités et Infos en France et dans le monde'

On peut récupérer un attribut d'une balise avec la syntaxe
`<TAG>::attr(<ATTRIBUTE_NAME>)` :

Par exemple, les liens sont contenus dans un attribut `href`.

In [None]:
In [9]: response.css('a::attr(href)')[0:10]
Out[9]:
[<Selector xpath='descendant-or-self::a/@href' data='https://journal.lemonde.fr'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='https://secure.lemonde.fr/sfuser/connexi'>,
<Selector xpath='descendant-or-self::a/@href' data='https://abo.lemonde.fr/#xtor=CS1-454[CTA'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='#'>,
<Selector xpath='descendant-or-self::a/@href' data='/mouvement-des-gilets-jaunes/'>,
<Selector xpath='descendant-or-self::a/@href' data='/carlos-ghosn/'>,
<Selector xpath='descendant-or-self::a/@href' data='/implant-files/'>]

Comme vu précédemment, si on veut récupérer la liste des liens de la page on applique la méthode $extract()$

In [None]:
In [11]: response.css('a::attr(href)').extract()[0:10]
Out[11]:
['https://journal.lemonde.fr',
'/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'/',
'/',
'#',
'/mouvement-des-gilets-jaunes/',
'/carlos-ghosn/',
'/implant-files/']

Les liens dans une page HTML sont souvent codés de manière relative par
rapport à la page courante. La méthode de l'objet `Response` peut être
utilisée pour recréer l'url complet.

Un exemple sur le 4e élément :

In [None]:
In [14]: response.urljoin(response.css('a::attr(href)').extract()[8])
Out[14]: 'https://www.lemonde.fr/carlos-ghosn/'

alors que

In [None]:
In [15]: response.css('a::attr(href)').extract()[8]
Out[15]: '/carlos-ghosn/'

### Exercice : 

Utiliser une liste compréhension pour transformer les 10
premiers liens relatifs récupérés par la méthode `extract()` en liens
absolus.    

Le résultat doit ressembler à :

In [None]:
Out[23]: 
['https://journal.lemonde.fr',
'https://www.lemonde.fr/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/mouvement-des-gilets-jaunes/',
'https://www.lemonde.fr/carlos-ghosn/',
'https://www.lemonde.fr/implant-files/']

In [None]:
[ response.urljoin(url) for url in response.css('a::attr(href)').extract()[0:10] ]

## Des requêtes plus complexes

On peut créer des requêtes plus complexes en utilisant à la fois la
structuration HTML du document mais également la couche de présentation
CSS. On utilise l'inspecteur de `Google Chrome` pour identifier le type
et l'identifiant de la balise contenant les informations.

Il y a au moins deux choses à savoir en `css` :  

-   Les `.` représentent les classes
-   Les `#` représentent les id

On se propose de récupérer toutes les sous-catégories de news dans la
catégorie **Actualités**. On remarque en utilisant l'inspecteur
d'élement de Chrome que toutes les catégories sont rangées dans une
balise avec l'id $#nav-markup$ ensuite dans les classes $Nav__item$.

A partir de cette structure HTML on peut construire la requête suivante
pour récupérer la barre de navigation:

In [None]:
In [19]: response.css("#nav-markup")
Out[19]: [<Selector xpath="descendant-or-self::*[@id = 'nav-markup']" data='<ul id="nav-markup"> <li class="Nav__ite'>]

Ensuite pour récupérer les différentes catégories :

In [None]:
In [24]: response.css("#nav-markup .Nav__item")
Out[24]:
[<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item js-burger-to-show N'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--home Nav'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/recherc'>]

On veut maintenant retourner tous les liens présents dans cette
catégorie. On remarque qu'elle apparait à la 4eme position.

In [None]:
In [34]: response.css("#nav-markup .Nav__item")[3]
Out[34]: <Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>

Maintenant pour récupérer tous les liens on peut chainer les requêtes.
On accède alors à toutes les balises $a$.

In [None]:
In [35]: response.css("#nav-markup .Nav__item")[3].css("a")
Out[35]:
[<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>,
<Selector xpath='descendant-or-self::a' data='<a href="/climat/" data-suggestion>Clima'>,
<Selector xpath='descendant-or-self::a' data='<a href="/affaire-khashoggi/" data-sugge'>,
<Selector xpath='descendant-or-self::a' data='<a href="/emmanuel-macron/" data-suggest'>,
<Selector xpath='descendant-or-self::a' data='<a href="/ukraine/" data-suggestion>Ukra'>,
<Selector xpath='descendant-or-self::a' data='<a href="/russie/" data-suggestion>Russi'>,
<Selector xpath='descendant-or-self::a' data='<a href="/referendum-sur-le-brexit/" dat'>,
<Selector xpath='descendant-or-self::a' data='<a href="/harcelement-sexuel/" data-sugg'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-en-continu/" data-su'>,
<Selector xpath='descendant-or-self::a' data='<a href="/international/">International<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/politique/">Politique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/societe/">Société</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/les-decodeurs/">Les Décodeurs<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sport/">Sport</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/planete/">Planète</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sciences/">Sciences</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/campus/">M Campus</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/afrique/">Le Monde Afrique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/pixels/">Pixels</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-medias/">Médias</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sante/">Santé</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/big-browser/">Big Browser</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/disparitions/">Disparitions</a'>]

Et pour récupérer les titres :

In [None]:
In [37]: response.css("#nav-markup .Nav__item")[3].css("a::text").extract()
Out[37]:
['Actualités',
'Mouvement des "gilets jaunes"',
'Carlos Ghosn',
'Implant Files',
'Climat',
'Affaire Khashoggi',
'Emmanuel Macron',
'Ukraine',
'Russie',
'Brexit',
'Harcèlement sexuel',
'Toute l’actualité en continu',
'International',
'Politique',
'Société',
'Les Décodeurs',
'Sport',
'Planète',
'Sciences',
'M Campus',
'Le Monde Afrique',
'Pixels',
'Médias',
'Santé',
'Big Browser',
'Disparitions']

In [None]:
response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract()

Le shell Scrapy permet de définir la structure des requêtes et de
s'assurer de la pertinence du résultat retourné. Pour automatiser le
processus, il faut intégrer cette syntaxe au code Python des modules de
spider définis dans la structure du projet.

## Intégration des requêtes

Le squelette de la classe `LeMondeSpider` généré lors de la création du
projet doit maintenant être enrichi. Par défaut 3 attributs et une
méthode `parse()` ont été créés :

-   `name` permet d'identifier sans ambiguïté la spider dans le code.
-   `allowed_domain` permet de filtrer les requêtes et forcer la spider
    à rester sur une liste de domaines.
-   `starts_urls` est la liste des urls d'où la spider va partir pour
    commencer son scraping.
-   `parse()` est une méthode héritée de la classe `scrapy.Spider`. Elle
    doit être redéfinie selon les requêtes que l'on doit effectuer et
    sera appelée sur l'ensemble des urls contenus dans la liste
    `starts_urls`.

`parse()` est une fonction `callback` qui sera appelée automatiquement
sur chaque objet `Response` retourné par la requête. Cette fonction est
appelée de manière asynchrone. Plusieurs requêtes peuvent ainsi être
lancées en parallèles sans bloquer le thread principal. L'objet
`Response` passé en paramètre est le même que celui mis à disposition
lors de l'exécution du Scrapy Shell.

In [None]:
def parse(self, response):
    title = response.css('title::text').extract_first()
    all_links = {
        name:response.urljoin(url) for name, url in zip(
        response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
        response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
    }
    yield {
        "title":title,
        "all_links":all_links
    }

La fonction est un générateur (`yield`) et retourne un dictionnaire
composé de deux éléments :

-   Le titre de la page;
-   La liste des liens sortants sous forme de String.

Pour le moment cette spider ne parcourt que la page d'accueil, ce qui
n'est pas très productif.

## Votre premier scraper

Récupérer les données sur un ensemble de pages webs nécessite d'explorer
en profondeur la structure du site en suivant tout ou partie des liens
rencontrés.

La spider peut se `balader` sur un site assez efficacement. Il suffit de
lui indiquer comment faire. Il faut spécifier à Scrapy de générer une
requête vers une nouvelle page en construisant l'objet `Request`
correspondant. Ce nouvel objet `Request` est alors inséré dans le
scheduler de Scrapy. On peut évidemment générer plusieurs `Request`
simultanément, correspondant par exemple, à différents liens sur la page
courante. Ils sont insérés séquentiellement dans le scheduler.

Pour cela on modifie la méthode `parse()` de façon à ce qu'elle retourne
un objet `Request` pour chaque nouveau lien rencontré. On associe
également à cet objet une fonction de callback qui déterminera la
manière dont cette nouvelle page doit être extraite.

Par exemple, pour que la spider continue dans les liens des différentes
régions (pour l'instant la fonction de callback ne fait rien) :

In [None]:
# %load newscrawler/newscrawler/spiders/lemonde_v2.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev2"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        yield {
            "title":title,
            "all_links":all_links
        }
        

Pour lancer la spider

In [12]:
!cd newscrawler

In [13]:
!pwd

/home/dev/code/2Scrapy


In [16]:
!cd newscrawler && scrapy crawl lemondev2

2021-11-30 13:07:10 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:07:10 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:07:10 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:07:10 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:07:10 [scrapy.extensions.telnet] INFO: Telnet Password: a5337774e6312f5a
2021-11-30 13:07:10 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

On veut ensuite *entrer* dans les liens des différentes sous-catégories
pour récupérer les articles. Pour cela, nous créons une méthode
`parse_category()` prend en argument un objet `Response` qui sera la
réponse correspondant aux liens des régions. On peut comme ceci
traverser un site en définissant des méthodes différentes en fonction du
type de contenu.

Si la structure du site est plus profonde, on peut empiler autant de
couches que souhaité.

Quand on arrive sur une page d'une sous-catégorie, on peut vouloir
récupérer tous les éléments de la page. Pour cela, on réutilise le
scrapy Shell pour commencer le développement de la nouvelle méthode
d'extraction.

Par exemple pour la page `https://www.lemonde.fr/international/` :

In [None]:
scrapy shell 'https://www.lemonde.fr/international/'

Le fil des articles est stocké dans une balise avec la classe
`class=river`.

In [None]:
In [3]: response.css(".river")
Out[3]:
[<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n   <section>\n      '>,
<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n</div>'>]

Pour récupérer chacun des articles, il faut adresser les balises
`.teaser` contenues dans le sélecteur:

In [None]:
In [4]: response.css(".river")[0].css(".teaser")
Out[4]:
[<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi mg'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>]   

Comme précédemment, on peut empiler les sélecteurs `css` pour créer des
requêtes plus complexes.

Par exemple, pour récupérer tous les titres des différents articles :

In [None]:
In [8]: response.css(".river")[0].css(".teaser h3::text").extract()
Out[8]:
['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili\r\n\r\n\r\n',
'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition\r\n\r\n\r\n',
'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête\r\n\r\n\r\n',
'Donald Trump veut «\xa0mettre fin\xa0» à l’Aléna rapidement\r\n\r\n\r\n',
'Le cauchemar de la «\xa0rééducation\xa0» des musulmans en Chine\r\n\r\n',
'\r\n',
'«\xa0AMLO\xa0» lance sa transformation du Mexique\r\n\r\n\r\n',
'«\xa0Paris brûle\xa0»\xa0: les médias étrangers relatent le «\xa0chaos\xa0» en marge des défilés des «\xa0gilets jaunes\xa0»\r\n\r\n\r\n',
'Andrés Manuel Lopez Obrador intronisé président du Mexique\r\n\r\n\r\n']

En HTML les données sont souvent de très mauvaise qualité. Il faut
définir des méthodes permettant de les nettoyer pour être intégrées dans
des bases de données.

Par exemple, pour supprimer tous les espaces superflus :

In [10]:
def clean_spaces(string_):
    if string_ is not None: 
        return " ".join(string_.split())

Pour l'appliquer à tous les titres récupérés, on peut faire une list
comprehension : 

In [None]:
In [11]: [clean_spaces(article) for article in response.css(".river")[0].css(".teaser h3::text").extract()]  

Out[11]: ['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili',
          'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition', 
          'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête',
          'Donald Trump veut « mettre fin » à l’Aléna rapidement', 
          'Le cauchemar de la « rééducation » des musulmans en Chine',
          '',
          '« AMLO » lance sa transformation du Mexique', 
          '« Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »',
          'Andrés Manuel Lopez Obrador intronisé président du Mexique'
         ]


La méthode précédente est intéressante si l'on ne recherche qu'une seule
information par article.

Par contre si l'on veut récupérer d'autres caractéristiques comme
l'image ou la description par exemple, il est plus intéressant et plus
efficace de récupérer l'objet et d'effectuer plusieurs traitements sur
ce dernier.

Chaque objet retourné par les requêtes `css` est un selecteur avec
lequel on peut interagir.

Par exemple pour récupérer le titre et le prix

In [None]:
In [25]: for article in response.css(".fleuve")[0].css("article"):
...:     title = clean_spaces(article.css("h3 a::text").extract_first())
...:     image = article.css("img::attr(data-src)").extract_first()
...:     description = article.css(".txt3::text").extract_first()
...:     print(f"Title {title} \nImage {image}\nDescription {description}\n ----")


In [None]:
Title Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili
Image https://s1.lemde.fr/image/2018/12/02/147x97/5391641_7_5874_les-partisans-de-l-opposant-grigol-vashadze_20d2e8693a49b83fd3c5578f7799ae9c.jpg
Description Elue présidente (un rôle essentiellement symbolique en Géorgie), l’ex-diplomate française, candidate du pouvoir, est contestée par l’opposition.
----
Title A Budapest en Hongrie, un îlot décroissant pour favoriser la transition
Image https://img.lemde.fr/2018/12/01/10/0/4214/2809/147/97/60/0/15b32ca_1EY4qISQ_BP4kPAh1fozJdXZ.jpg
Description Le centre logistique Cargonomia sert de matrice aux coopératives de l’économie durable et solidaire hongroise.
----
Title En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête
Image https://img.lemde.fr/2018/12/02/167/0/4207/2804/147/97/60/0/9e02c9b_3580d043ebc94b48b0f2cfef4e9a21e7-3580d043ebc94b48b0f2cfef4e9a21e7-0.jpg
Description Le premier ministre est soupçonné de corruption, fraude et abus de pouvoir, dans une affaire impliquant le groupe de télécoms israélien Bezeq.
----
Title Donald Trump veut « mettre fin » à l’Aléna rapidement
Image https://img.lemde.fr/2018/11/30/0/0/4861/3240/147/97/60/0/8b87184_5826023-01-06.jpg
Description Le président américain souhaite voir disparaître l’accord de libre-échange remontant à 1994 avec le Mexique et le Canada, qu’il qualifie régulièrement de « pire accord jamais signé », en faveur du nouveau traité négocié difficilement avec ses voisins nord-américains ces derniers mois.
----
Title Le cauchemar de la « rééducation » des musulmans en Chine
Image https://img.lemde.fr/2018/11/15/151/0/5000/3333/147/97/60/0/118c78f_248b226e6b91450aa8a68bd0ea5525a8-248b226e6b91450aa8a68bd0ea5525a8-0.jpg
Description Ouïgours et Kazakhs du Xinjiang... C’est toute une population musulmane que Pékin veut « rééduquer » en internant des centaines de milliers d’entre eux dans des camps.
----
Title « AMLO » lance sa transformation du Mexique
Image https://img.lemde.fr/2018/12/02/45/0/1497/998/147/97/60/0/a33c174_GGGTBR84_MEXICO-POLITICS-_1202_11.JPG
Description Education et santé gratuites, hausse du salaire minimum, bourses scolaires : à peine investi, le président Andres Manuel Lopez Obrador a listé les mesures qu’il entend prendre pour redresser le pays.
----
Title « Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »
Image https://img.lemde.fr/2018/12/02/361/0/598/396/147/97/60/0/ba46a6e_XVIt1Ffwm50iYBheccVieUQQ.jpg
Description Les images de destructions, d’échauffourées ou de voitures enflammées s’affichaient samedi soir en « une » de nombreux sites d’actualité internationaux.
----
Title Andrés Manuel Lopez Obrador intronisé président du Mexique
Image https://img.lemde.fr/2018/12/02/91/145/1346/897/147/97/60/0/877cd51_a4618baa8da2414bb62bab28a6d4c745-a4618baa8da2414bb62bab28a6d4c745-0.jpg
Description Le nouveau chef d’Etat a promis de lutter contre la corruption en menant une transformation « profonde et radicale » du pays.
----

## Persistence des données

Pour pouvoir stocker les informations que l'on récupère en parcourant un
site il faut pouvoir les stocker. On utilise soit de simples
dictionnaires Python, ou mieux des `scrapy.Item` qui sont des
dictionnaires améliorés.

Nous allons voir les deux façons de faire. On peut réécrire la méthode
`parse_category()` pour lui faire retourner un dictionnaire
correspondant à chaque offre rencontrée.

In [11]:
def parse_category(self, response):
    for article in response.css(".fleuve")[0].css("article"):
        title = self.clean_spaces(article.css("h3 a::text").extract_first())
        image = article.css("img::attr(data-src)").extract_first()
        description = article.css(".txt3::text").extract_first()
        yield {
            "title":title,
            "image":image,
            "description":description
        }

Si on combine tout dans la spider :

In [None]:
# %load newscrawler/newscrawler/spiders/lemonde_v3.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev3"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)
            
    def parse_category(self, response):
        for article in response.css(".river")[0].css(".teaser"):
            title = self.clean_spaces(article.css("h3::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()
            yield {
                "title":title,
                "image":image,
                "description":description
            }

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On peut maintenant lancer notre spider avec la commande suivante :

In [None]:
scrapy crawl <NAME>

`scrapy crawl` permet de démarrer le processus en allant chercher la
classe `scrapy.Spider` dont l'attribut `name` = &lt;NAME&gt;.

Par exemple, pour la spider `LeMondeSpider` :

In [20]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.json

2021-11-30 13:23:00 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:23:00 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:23:00 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:23:00 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:23:00 [scrapy.extensions.telnet] INFO: Telnet Password: ae2e47db36c348c7
2021-11-30 13:23:00 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/afrique/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Les hommes sages-femmes sont surreprésentés dans les postes valorisés »', 'image': 'https://img.lemde.fr/2021/09/25/0/0/3504/2336/110/74/60/0/e0e1a5f_420864799-sagesfemmes.jpg', 'description': 'S’ils restent minoritaires dans la profession, les hommes sont plus nombreux dans les emplois de cadres, enseignants ou dirigeants d’instances syndic

2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sciences/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sport/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Arthur Nauzyciel : « Beaucoup de jeunes veulent se rassurer avec un diplôme, mais je trouve que cela les formate »', 'image': 'https://img.lemde.fr/2021/11/18/116/0/2277/1518/110/74/60/0/0d261ec_275059453-arthur-nauzyciel-louise-quignon.jpg', 'description': 'L’émission «\xa0Le Monde Campus Le Mag’\xa0» fait étape à Rennes. Rencontre en première partie avec le comédien, metteur en scène et directeur du TNB Arthur Nauzyciel. Le parrain de l’émission revient sur son parcours.'}
2021-11-30 13:23:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« En être ou ne pas en être 

2021-11-30 13:23:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Une marionnette asiatique dans la légendaire émission américaine « Sesame Street »', 'image': 'https://img.lemde.fr/2021/11/15/0/0/5472/3648/110/74/60/0/caba880_a63332225b7d481b97c9c48bb0961451-a63332225b7d481b97c9c48bb0961451-0.jpg', 'description': 'Ji-Young, marionnette américaine d’origine coréenne, va lutter contre les préjugés croissants dont sont victimes les Américains d’origines asiatiques.'}
2021-11-30 13:23:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Succession à Sciences Po : Mathias Vicherat adoubé par un premier vote du conseil de l’Institut', 'image': 'https://img.lemde.fr/2017/01/10/176/58/741/494/110/74/60/0/0f61551_17626-zz7lvk.hnwr4l5wmi.JPG', 'description': 'Le conseil de l’Institut a plébiscité la candidature de cet énarque face à celles des universitaires Christine Musselin et Olivier Faron. Un second

2021-11-30 13:23:01 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  Fi

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Maroc disposé à favoriser une reprise des négociations entre Israël et Palestiniens', 'image': 'https://img.lemde.fr/2021/11/30/0/0/2250/1500/110/74/60/0/fecb7fe_278284556-000-9tb4y4.jpg', 'description': 'Un an après la signature des Accords d’Abraham, le roi Mohammed VI a annoncé vouloir «\xa0mettre à profit ses relations privilégiées\xa0» avec toutes les parties du conflit.'}
2021-11-30 13:23:02 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.loca

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Dix ans après leur vol, un Picasso et un Mondrian retrouvés dans une forêt en Grèce', 'image': 'https://img.lemde.fr/2021/06/29/121/181/3050/2033/110/74/60/0/28d27b2_ggg-cb04-greece-paintings-0629-11.jpg', 'description': 'Les toiles avaient été dérobées à la Pinacothèque nationale d’Athènes en\xa02012. Pour tromper la vigilance des gardiens, le voleur avait déclenché l’alarme à plusieurs reprises en jouant avec une porte déverrouillée.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Une Médaille d’honneur pour le caporal Woodson : mobilisation pour récompenser à titre posthume un héros noir d’Omaha Beach', 'image': 'https://img.lemde.fr/2021/06/22/42/25/431/287/110/74/60/0/4d13ef0_461833109-woodson-portrait.jpg', 'description': 'Au sein de la seule formation de combat noire américaine ayant débarqué le

2021-11-30 13:23:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/bielorussie/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/fragments-de-france/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped 

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« La bitcoinmania de Nayib Bukele déplaît aux trois quarts des Salvadoriens »', 'image': 'https://img.lemde.fr/2021/11/22/1/0/5120/3413/110/74/60/0/df01568_865536796-000-9t36tk.jpg', 'description': 'Le président du Salvador a dévoilé, samedi 20\xa0novembre, le projet d’une «\xa0Bitcoin City\xa0», édifiée au pied du volcan Conchagua. Mais une majorité des habitants du pays redoute instabilité et inflation en raison de l’extrême volatilité de cette monnaie.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'L’Afrique du Sud s’estime « injustement discriminée » après l’apparition du variant Omicron', 'image': 'https://img.lemde.fr/2021/11/27/0/0/4500/3000/110/74/60/0/9e8aac5_5092516-01-06.jpg', 'description': 'Les autorités dénoncent le non-respect des engagements du G20, qui s’était promis de stimuler les déplacements 

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Pourquoi est-il encore si difficile, dans nos sociétés contemporaines, d’évoquer le deuil périnatal ? »', 'image': 'https://img.lemde.fr/2021/11/30/104/0/3257/2172/110/74/60/0/e00b0be_548533118-pns-4685984.jpg', 'description': 'La philosophe Claire Larroque appelle, dans une tribune au «\xa0Monde\xa0», à mieux prendre en compte la souffrance des parents qui ont perdu un enfant né sans vie, mort lors de l’accouchement ou au cours de ses premiers jours. Un plein soutien doit être offert plutôt qu’un lourd silence.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Football : la Coupe arabe, répétition avant la CAN pour six sélections africaines', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5472/3648/110/74/60/0/1667a38_782134436-000-9t966h.jpg', 'description': 'La compétition débute mardi 30\xa0novembre au Qatar,

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Avec « Mâle noir », Elgas renouvelle avec brio le genre du roman de formation', 'image': 'https://img.lemde.fr/2021/11/26/0/49/3166/2111/110/74/60/0/493dd64_240919156-livre-elgas.jpg', 'description': 'LE LIVRE DE LA SEMAINE. Sous la forme d’un journal intime, l’écrivain décrit les atermoiements d’un jeune Sénégalais en France, entre incertitude professionnelle, 

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Sur le Covid long, des connaissances partielles et des questions nombreuses', 'image': 'https://img.lemde.fr/2021/11/22/0/0/5965/3976/110/74/60/0/b68a520_669926438-0c6a2124.jpg', 'description': 'Patients et médecins ont échangé lors d’une journée organisée par la société savante d’infectiologie pour faire le point sur l’état des connaissances, encore lacunaires, sur le Covid long.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'DART, la mission kamikaze pour apprendre à se protéger des astéroïdes, a décollé', 'image': 'https://img.lemde.fr/2021/11/23/0/232/4043/2692/110/74/60/0/f594dba_286474699-572429.jpg', 'description': 'La sonde de plus d’une demi-tonne de la NASA a décollé mercredi matin. Son but\xa0: tenter de modifier la trajectoire de l’astéroïde Didymos en s’y écrasant à la vitesse de 6,6 kilomètres

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Entre éleveurs et bergers, la loi des alpages', 'image': 'https://img.lemde.fr/2021/11/02/0/6/6036/4024/110/74/60/0/78a3dec_74805852-027070-009.jpg', 'description': 'Fragments de France | Alors que le métier de berger, au plus près de la nature, n’a jamais autant fasciné les citadins, un conflit opposant deux saisonniers aux éleveurs qui les emploient agite le Queyras.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Allemagne : un Irakien de l’EI condamné à la perpétuité pour « génocide » des yézidis', 'image': 'https://img.lemde.fr/2021/11/30/4/0/8362/5574/110/74/60/0/00058a5_5107581-01-06.jpg', 'description': 'C’est la première fois au monde qu’un tribunal qualifie ces massacres de «\xa0génocide\xa0», après des enquêteurs de l’ONU.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Désinformation et populisme : comment Florian Philippot a adapté son discours aux militants antivax', 'image': 'https://img.lemde.fr/2017/05/26/0/0/4270/2846/110/74/60/0/75e28f7_15431-1v4dlxf.zpwp8yf1or.jpg', 'description': 'Depuis le début de la pandémie, le président des Patriotes a modifié ses messages, sur le fond comme dans la forme. Elargissant considérablement son audience au passage.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Vaccination contre le Covid-19 : le pic des doses de rappel en France devrait avoir lieu en janvier', 'image': 'https://img.lemde.fr/2021/11/26/0/103/906/604/110/74/60/0/1e42f79_607881551-capture-d-e-cran-2021-11-26-a-14-58-24.png', 'description': 'EN UN GRAPHIQUE. La majorité des Français ont complété leur schéma vaccinal au tout début de l’été. La demande de dos

2021-11-30 13:23:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemonde.fr)
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'A la Guadeloupe, couvre-feu prolongé après une brève rencontre entre des syndicats et le ministre des outre-mer', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5568/3712/110/74/60/0/1e363dc_5103999-01-06.jpg', 'description': 'Les discussions ont tourné court, les syndicats refusant de «\xa0condamner des tentatives d’assassinat contre des policiers et des gendarmes\xa0», selon Sébastien Lecornu.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Variant Omicron : « Plusieurs indices font qu’une vigilance s’impose »', 'image': 'https://img.lemde.fr/2021/11/29/0/0/4200/2800/110/74/60/0/3294e33_5104479-01-06.jpg', 'description': 'Profil génétique, situation épidém

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« On bloque, mais on se bloque aussi » : une nuit sur le barrage de La Boucan, en Guadeloupe', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5999/3996/110/74/60/0/ecdd5e0_712124319-olm-guadeloupe-62.jpg', 'description': 'Depuis le 18\xa0novembre, une partie des habitants de la commune de Sainte-Rose empêche tout accès à la ville pour exprimer un profond mal-être social et économique. «\xa0Le Monde\xa0» a pu passer une nuit derrière les barrages.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Quelles sont les données qui montrent la dégradation de la santé psychique des Français ?', 'image': 'https://img.lemde.fr/2019/09/12/0/268/4753/3169/110/74/60/0/639cae6_tpEnHcMJxPZjMTnS0Mnlos5C.jpg', 'description': 'Etats anxieux et dépressifs, recours aux antidépresseurs, hospitalisations pour tentative de suicide… Diff

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'La défense de Ghislaine Maxwell, accusée de trafic sexuel de mineures, accable d’emblée les plaignantes', 'image': 'https://img.lemde.fr/2021/11/29/0/0/3499/2333/110/74/60/0/eaaab94_gggnyc107-people-ghislaine-maxwell-1129-11.jpg', 'description': 'Le procès de la rabatteuse présumée de Jeffrey Epstein, le prédateur sexuel qui s’est suicidé en prison en\xa02019, s’est ouvert à New York, lundi 29\xa0novembre.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le cinéma chinois indépendant fait de la résistance', 'image': 'https://img.lemde.fr/2021/11/30/120/0/1440/959/110/74/60/0/370d2bd_186385521-260617583-972506943342057-8390571349810689878-n.jpeg', 'description': 'Malgré la censure, de jeunes cinéastes chinois persistent à\xa0tourner des films sur des sujets qui fâchent. Parmi leurs thèmes de prédilec

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à ouvrir une voie légale d’immigration', 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg', 'description': 'Le ministre de l’intérieur français a également affirmé la nécessité d’un accord entre l’Union européenne et le Royaume-Uni et précisé que Jean Castex écrirait mardi à Boris Johnson pour lui proposer un accord.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Autriche, Allemagne, Belgique, Pays-Bas… visualisez l’ampleur de la vague de Covid-19 dans certains pays d’Europe', 'image': 'https://img.lemde.fr/2021/11/19/0/225/1350/900/110/74/60/0/44e1fea_261671876-collage2.jpg', 'description': 'Dans le centre de l’Europe, le nombre de contaminations augmente à un 

2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'En Centrafrique, un bataillon formé par l’UE serait sous la coupe de Wagner', 'image': 'https://img.lemde.fr/2021/11/29/0/0/4500/3000/110/74/60/0/5da1059_42164866-000-92a9fa.jpg', 'description': 'L’information figure dans un rapport du Service européen pour l’action extérieure, alors que Bruxelles étudie des sanctions contre le groupe de mercenaires russes.'}
2021-11-30 13:23:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La thérapie mémorielle des petits-enfants de la guerre d’Algérie', 'image': 'https://img.lemde.fr/2021/11/29/4/0/5974/3982/110/74/60/0/a6f5009_452812872-4.JPG', 'description': 'Depuis plusieurs mois, de jeunes Français, Algériens ou binationaux, descendants de militaires, de harkis, de rapatriés ou de combattants du FLN, travaillent ensemble sur la guerre d’Algérie. Objectif : parveni

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Le dédoublement des CP et CE1 repose sur une logique chiffrée dont l’efficacité reste encore à démontrer »', 'image': 'https://img.lemde.fr/2019/11/18/0/0/5568/3712/110/74/60/0/86cd780_6s5vUWxaCc15cYGg7Nqjt4Tb.jpg', 'description': 'Yannick Trigance, conseiller régional d’Ile-de-France et secrétaire national chargé de l’éducation au sein du PS, estime, dans une tribune au «\xa0Monde\xa0», que le ministre de l’éducation Jean-Michel Blanquer se satisfait un peu trop vite des mesures prises dans les écoles primaires des réseaux prioritaires.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Miss Nevada, une reine de beauté transgenre en campagne', 'image': 'https://img.lemde.fr/2021/11/23/53/0/975/645/110/74/60/0/63496cd_154953-3248316.jpg', 'description': 'Kataluna Enriquez deviendra le 29\xa0novembre la première

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'L’Afghanistan sous le regard de Shahrbanoo Sadat, cinéaste « à l’optimisme naïf »', 'image': 'https://img.lemde.fr/2021/11/29/0/189/1620/1080/110/74/60/0/99495bf_57658494-03-still-the-orphanage-credit-virginie-surdej-1.jpg', 'description': 'La réalisatrice, qui a fui son pays en août, présentait son deuxième long-métrage, «\xa0L’Orphelinat\xa0», au festival Films Femmes Méditerranée à Marseille.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Dans l’Himalaya, le conflit s’étend entre l’Inde et la Chine', 'image': 'https://img.lemde.fr/2021/11/29/0/0/6000/4000/110/74/60/0/683fda0_974419306-020-1233444456.jpg', 'description': 'Alors que les négociations entre les deux géants asiatiques sur le Ladakh sont dans l’impasse, la Chine est accusée de coloniser des portions de territoire indien.'}
2021-11-30 13

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Matthieu Orphelin, porte-parole de Yannick Jadot et proche de Nicolas Hulot, mis « en retrait » de la campagne écologiste', 'image': 'https://img.lemde.fr/2021/11/27/0/3/4026/2684/110/74/60/0/1460598_5095481-01-06.jpg', 'description': 'Après les accusations de viol et d’agressions sexuelles qui visent l’ancien ministre, le directeur de campagne du candidat d’EELV explique que Matthieu Orphelin n’a plus la «\xa0sérénité nécessaire à l’exercice de ses fonctions\xa0». Ce dernier évoque, lui, des «\xa0tensions internes\xa0» liées à la campagne.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Election présidentielle 2022 : à Marseille, Eric Zemmour termine une visite ratée par un doigt d’honneur', 'image': 'https://img.lemde.fr/2021/11/27/1/0/5564/3709/110/74/60/0/6fd742f_5092069-01-06.jpg', 'description': 'Cet

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'La Biélorussie orchestre l’arrivée de migrants par charters pour faire pression sur l’Europe', 'image': 'https://img.lemde.fr/2021/11/09/0/0/3072/2048/110/74/60/0/4be5d93_540412266-206277.jpg', 'description': 'Les vols vers Minsk en provenance de Beyrouth ou de Damas, orchestrés par la Biélorussie, s’intensifient, avec, à bord, des exilés qui vont tenter de franchir la frontière avec la Pologne.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Les tensions se poursuivent à la frontière entre la Pologne et la Biélorussie, des dizaines de migrants arrêtés', 'image': 'https://img.lemde.fr/2021/11/10/0/5/1260/840/110/74/60/0/8340fdb_bia204-europe-migrants-belarus-poland-1110-11.jpg', 'description': 'Selon le ministre de la défense polonais, de petits groupes de migrants tentent de traverser illégalement la 

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : lutter contre l’inégalité vaccinale mondiale', 'image': 'https://img.lemde.fr/2021/11/30/0/1/5998/3999/110/74/60/0/7dd516b_190418935-256629.jpg', 'description': 'La trajectoire du nouveau variant Omicron montre, une nouvelle fois, que le virus ignore les frontières. L’équité dans la distribution et l’administration de vaccin

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Petit guide graphique pour comprendre l’envolée du prix des carburants en France', 'image': 'https://img.lemde.fr/2021/10/15/0/61/486/324/110/74/60/0/09452b3_274907128-capture-d-e-cran-2021-10-15-a-12-56-34.png', 'description': 'Le prix à la pompe a atteint un nouveau record, trois ans après le dernier pic. Dans l’attente des annonces du gouvernement, nos explications sur les raisons de cette hausse.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Moins de 10 % des Français sont concernés par la fin de la gratuité des tests de dépistage', 'image': 'https://img.lemde.fr/2021/10/14/19/29/481/321/110/74/60/0/7d950c5_103313794-nanographix-7.png', 'description': 'Seuls les adultes non vaccinés et sans ordonnance seront concernés par la mesure qui est entrée en vigueur vendredi 15 octobre.'}
2021-11-30 

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« On est un lobby antilobby » : UFC-Que choisir, les vétérans de la défense du consommateur', 'image': 'https://img.lemde.fr/2021/11/23/330/0/1226/813/110/74/60/0/7ebb89b_154593-3245396.jpg', 'description': 'Fondée en\xa01951, la première association de consommateurs de France s’est forgé, à\xa0force de procédures épiques, une réputation de contre-pouvoir. Après les opérateurs de téléphonie, elle ferraille aujourd’hui contre les géants du Web.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Pourquoi Mgr Michel Aupetit, archevêque de Paris, propose sa démission au pape François', 'image': 'https://img.lemde.fr/2021/11/27/0/0/3648/2432/110/74/60/0/b82c650_904963594-660387.jpg', 'description': 'Plusieurs fois mis en cause pour sa façon de gouverner son diocèse, Mgr Michel Aupetit a\xa0concédé avoir eu un comporte

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Vaccination contre le Covid-19 : le pic des doses de rappel en France devrait avoir lieu en janvier', 'image': 'https://img.lemde.fr/2021/11/26/0/103/906/604/110/74/60/0/1e42f79_607881551-capture-d-e-cran-2021-11-26-a-14-58-24.png', 'description': 'EN UN GRAPHIQUE. La majorité des Français ont complété leur schéma vaccinal au tout début de l’été. La demande de doses de rappel, entre cinq et sept mois après, sera au plus haut début janvier.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Les talibans souhaitent l’aide de l’Union européenne pour garantir le fonctionnement des aéroports d’Afghanistan', 'image': 'https://img.lemde.fr/2021/11/11/0/0/2499/1666/110/74/60/0/fa97d58_fw1-afghanistan-conflict-airlines-1111-11.jpg', 'description': 'Lors de discussions avec la délégation européenne

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Un Européen sur dix conçu dans un lit Ikea » : aux sources d’une « information » fréquemment relayée', 'image': 'https://img.lemde.fr/2021/09/28/1/290/1619/1079/110/74/60/0/869fee8_55273669-thumbnail-ikea-huit-copie.png', 'description': '10\xa0% des Européens auraient été conçus dans un lit Ikea. C’est un chiffre qui circule ici et là, sur Internet et dans les médias, depuis une quinzaine d’années. Mais d’où vient-il\xa0?'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Ce que dit la loi sur la dénonciation de violences sexuelles et le secret de la confession', 'image': 'https://img.lemde.fr/2021/10/08/0/4/4920/3280/110/74/60/0/e7a603f_302600242-pns-6484822.jpg', 'description': 'Les propos du président de la Conférence des évêques de France, Eric de Moulins-Beaufort, sur le secret confessionnel «\

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le président chinois promet à l’Afrique un milliard de doses anti-Covid', 'image': 'https://img.lemde.fr/2021/11/30/1/0/3600/2400/110/74/60/0/9ccc2a0_851272081-000-9tl6ze.jpg', 'description': 'Pékin a également annoncé des dizaines de projets dans les domaines de la santé, du numérique et de la sécurité, ainsi qu’une annulation de dette.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le variant Omicron détecté pour la première fois en France, à La Réunion', 'image': 'https://img.lemde.fr/2021/11/30/0/0/7348/4899/110/74/60/0/7ffb873_568381245-000-9hk2j3.jpg', 'description': 'Le patient est un homme qui a voyagé au Mozambique et a fait escale en Afrique du Sud, le premier pays à avoir détecté Omicron. Il s’agirait du premier cas identifié en France de ce variant du coronavirus qui se

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Procès des attentats du 13-Novembre : la parole à tous, mais dans quel ordre ?', 'image': 'https://img.lemde.fr/2021/09/10/17/0/3543/2362/110/74/60/0/f1450db_745661667-13-novembre-final.jpg', 'description': 'Le président de la cour a choisi d’inverser l’ordre des intervenants en donnant la primeur des interrogatoires aux représentants de l’accusation. Suivront les parties civiles et la défense, qui s’exprime traditionnellement en dernier.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': '« Vingt ans de tâtonnements de l’injonction française à l’intégration séparent Khaled Kelkal et Salah Abdeslam »', 'image': 'https://img.lemde.fr/2021/09/10/0/0/5616/3744/110/74/60/0/46c0cc5_575730977-056071.jpg', 'description': 'Dans sa chronique, Philippe Bernard, éditori

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Menacé, le mythique quotidien polonais « Gazeta Wyborcza » lutte pour son identité', 'image': 'https://img.lemde.fr/2021/11/27/86/0/2048/1365/110/74/60/0/3d22515_365965000-1999-02-09t120000z-434096911-pbeahulwxah-rtrmadp-3-poland.JPG', 'description': 'Confrontés aux décisions d’un conseil d’administration hostile, les journalistes luttent pour préserver la spécificité du titre emblématique.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le vote pour l’extrême droite au Chili est « le signal d’un retour à l’ordre »', 'image': 'https://img.lemde.fr/2021/11/26/0/0/5760/3840/110/74/60/0/9264c74_10814511-649901.jpg', 'description': 'Pour la sociologue Stéphanie Alenda, le premier tour du scrutin présidentiel, qui a porté l’extrême droite en tête, exprime une réaction à la révolte sociale initiée en\xa0

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'En Guadeloupe, la préfecture impose un couvre-feu au cinquième jour des manifestations contre le passe sanitaire', 'image': 'https://img.lemde.fr/2021/11/17/0/4/3745/2497/110/74/60/0/b88003a_5033843-01-06.jpg', 'description': 'La préfecture interdit la circulation dans le département entre\xa018\xa0heures et\xa05\xa0heures, dès vendredi soir, «\xa0compte tenu des mouvements sociaux en cours dans le département et des actes de vandalisme\xa0».'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Vaccination contre le Covid-19 : les Etats-Unis autorisent une dose de rappel pour tous les adultes', 'image': 'https://img.lemde.fr/2021/11/19/0/3/4270/2847/110/74/60/0/726dedb_838822015-000-9ry6dt.jpg', 'description': 'Selon la décision des autorités sanitaires, un rappel est désormais

2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Les ambitions de Bruno Le Maire, le converti de la Macronie', 'image': 'https://img.lemde.fr/2021/11/17/0/4/4351/2901/110/74/60/0/df31f35_869676662-000-9pm3mj.jpg', 'description': 'Désormais ministre de l’économie, des finances et de la relance, l’ancien transfuge a donné des gages de loyauté. Loin de perturber son ambition politique, la pandémie est venue la servir.'}
2021-11-30 13:23:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le feu vert européen accélère les réflexions sur la vaccination des enfants contre le Covid-19', 'image': 'https://img.lemde.fr/2021/11/26/0/6/5926/3951/110/74/60/0/45ad924_431030055-653747.jpg', 'description': 'En France, la Haute Autorité de santé devrait bientôt se prononcer sur ce sujet sensible. Si sa recommandation est positive, le gouvernement pourrait ouvrir

On peut exporter les résultats de ces retours dans différents formats de
fichiers.

-   CSV : `scrapy crawl lemonde -o lbc.csv`
-   JSON : `scrapy crawl lemonde -o lbc.json`
-   JSONLINE : `scrapy crawl lemonde -o lbc.jl`
-   XML : `scrapy crawl lemonde -o lbc.xml`

### Exercice :

Exécuter la spider avec les différents formats de stockage.
Explorer ensuite le contenu des fichiers ainsi créés.

In [22]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.csv

2021-11-30 13:26:39 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:26:39 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:26:39 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:26:39 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:26:39 [scrapy.extensions.telnet] INFO: Telnet Password: 102102bf95198102
2021-11-30 13:26:39 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Une enquête alerte sur la santé mentale des étudiants et internes en médecine', 'image': 'https://img.lemde.fr/2021/10/28/0/0/6039/4026/110/74/60/0/d1996b2_648209973-210119jbalague-lemonde-covid-bichat-5y5a8964.jpg', 'description': 'Publiée mercredi, l’enquête révèle un grand mal-être et des conditions de travail déplorables : en période de stage, deux tiers d’entre eux ont fait un burn-out.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Dans les grandes écoles, des ateliers pour aider les femmes à mieux négocier leur salaire', 'image': 'https://img.lemde.fr/2021/10/21/778/0/4093/2728/110/74/60/0/f99fe3c_120578635-pns-3927011.jpg', 'description': 'Face aux écarts de rémunération persistants, des écoles ont mis en place des formations pour aider les femmes à mieux mettre en avant leurs compétences et déconstruir

2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sciences/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/big-browser/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sante/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/disparitions/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:42 [scrapy.core.engine] DEBU

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'La justice américaine accorde des droits aux hippopotames de Pablo Escobar', 'image': 'https://img.lemde.fr/2021/10/25/0/136/3471/2314/110/74/60/0/8b6c8dd_cad0b60b73ba45f28821325dd9fcd602-cad0b60b73ba45f28821325dd9fcd602-0.jpg', 'description': 'Les animaux importés par le baron de la drogue ont donné naissance à une vaste colonie. La Colombie a décidé de les stériliser mais une cour américaine saisie par une association autorise les bêtes à recueillir l’avis de deux éminents vétérinaires.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Pour avoir sa statue à Londres, il vaut mieux être un animal qu’une femme admirable', 'image': 'https://img.lemde.fr/2021/10/27/152/1360/4224/2816/110/74/60/0/d28518b_124198777-000-dv1344004.jpg', 'description': 'L’immense majorité des quelque 1\xa0100 statues de la capi

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des réseaux sociaux dans le cadre de sa fusion avec Giphy, spécialisé dans les animations courtes sur Internet.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Une Médaille d’honneur pour le caporal Woodson : mobilisation pour récompenser à titre posthume un héros noir d’Omaha Beach', 'image': 'https://img.lemde.fr/2021/06/22/42/25/431/287/110/74/60/0/4d13ef0_461833109-woodson-portrait.jpg', 'description': 'Au sein de la seule formation de combat noire américa

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les corbeaux confrontés à la peur de la nouveauté', 'image': 'https://img.lemde.fr/2021/11/19/0/0/5184/3456/110/74/60/0/c322594_921868421-bios-2130018.jpg', 'description': 'Une équipe de Cambridge a mis au point une expérience comparative à large échelle pour étudier la néophobie de dix espèces de corvidés.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Jane Goodall et les singes : l’envers d’un cliché - Flashback #6', 'image': 'https://img.lemde.fr/2021/11/09/0/150/1620/1080/110/74/60/0/d0fa3d4_396404898-vignette-goodall.png', 'description': 'Immergée dans la jungle africaine en\xa01960, sans expérience de terrain ni formation académique, la Britannique Jane Goodall a bouleversé en quelques années les connaissances sur les singes et leurs cultures.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scrape

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le projet SpaceX d’Elon Musk n’est pas le bienvenu pour les Papous de l’île de Biak, en Indonésie', 'image': 'https://img.lemde.fr/2021/03/14/0/232/5535/3690/110/74/60/0/e75efb4_bed8a28fe6c9456193a7a60a6c02a346-bed8a28fe6c9456193a7a60a6c02a346-0.jpg', 'description': 'Le président indonésien, Joko Widodo, a invité le patron de SpaceX et de Tesla à construire une base de lancement dans une zone occupée par l’Indonésie depuis\xa01963. Au grand dam des Papous, réprimés par l’Indonésie.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Pour les parents, le dilemme de la vaccination des enfants de moins de 12 ans contre le Covid-19', 'image': 'https://img.lemde.fr/2021/11/30/0/0/3499/2333/110/74/60/0/2132552_712358278-859275.jpg', 'description': 'Alors que la Haute Autorité de santé recommande la prudence, nombreux 

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'WhatsApp met à jour ses conditions d’utilisation en Europe', 'image': 'https://img.lemde.fr/2020/11/06/0/0/4742/3161/110/74/60/0/fe12257_5666661-01-06.jpg', 'description': 'Le changement, essentiellement cosmétique, ne porte pas sur la manière dont les données sont traitées par le service de messagerie.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Microtâches contre microgains, le business incontrôlé des sites de clics rémunérés', 'image': 'https://img.lemde.fr/2021/11/19/0/2/1276/851/110/74/60/0/90cd1a4_967315723-8009139342-07e653b90d-o.jpg', 'description': 'Appen, Amazon Mechanical Turk, Clickworker… Ces plates-formes de microtravail mobilisent des millions de travailleurs partout dans le monde, souvent en dehors de tout cadre juridique.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Le Parlement adopte un texte contre les discriminations au travail subies par les malades chroniques', 'image': 'https://img.lemde.fr/2021/11/17/0/5/5694/3796/110/74/60/0/e97f985_127160741-pns-3648975.jpg', 'description': 'Elargie aux autres maladies chroniques, cette proposition de loi concernait au départ les quatre millions de diabétiques, qui ont l’interdiction, pour des raisons de sécurité, de pratiquer certaines professions.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Diabète : rendons l’insuline enfin accessible à tous ! »', 'image': 'https://img.lemde.fr/2021/11/17/0/5/5694/3796/110/74/60/0/e97f985_127160741-pns-3648975.jpg', 'description': 'Alors qu’une majeure partie des personnes souffrant de diabète dans le monde est privée d’insuline, la France se doit d’être motrice pour permettre un accès univ

2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Omicron : Pékin reconnaît que le variant complique les JO d’hiver, mise en garde du PDG de Moderna', 'image': 'https://img.lemde.fr/2021/11/30/0/54/3391/2261/110/74/60/0/485a382_ppptok709-health-coronavirus-variant-japan-1130-11.jpg', 'description': 'La Chine a reconnu mardi que le nouveau variant serait synonyme de difficultés supplémentaires pour l’organisation des Jeux olympiques d’hiver de Pékin en février.'}
2021-11-30 13:26:42 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Sabrina Soussan nommée patronne du « nouveau Suez »', 'image': 'https://img.lemde.fr/2021/11/30/18/0/5568/3712/110/74/60/0/fd8a6f2_964938119-soussan.jpg', 'description': 'Cette ancienne de Siemens et Dormakaba est chargée de gérer les activités eau et déchets en France et quelques actifs étrangers laissés par Veolia, qui a repris l’essentiel de l’ancien Su

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Sabah Fakhri, passeur de la musique arabe traditionnelle, est mort', 'image': 'https://img.lemde.fr/2021/11/05/127/0/2699/1799/110/74/60/0/9aefc0c_282837848-000-nic436239.jpg', 'description': 'Le ténor syrien aura marqué des générations de la Tunisie au Proche-Orient. Il est décédé le 2\xa0novembre, à l’âge de 88\xa0ans.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Entre frugalité et technologies, quatre choix de société pour atteindre la neutralité carbone', 'image': 'https://img.lemde.fr/2021/11/29/3/0/5960/3973/110/74/60/0/c804d46_165345036-pns-6168204.jpg', 'description': 'L’Agence de l’environnement et de la maîtrise de l’énergie (Ademe) présente des scénarios énergétiques pour 2050 allant d’une option misant fortement sur la sobriété à\xa0une autre pariant sur les innovations.'}
2021-11-30 13:26

2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/facebook-files/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'A l’aéroport de Casablanca, le désarroi des voyageurs à destination de la France', 'image': 'https://img.lemde.fr/2021/11/26/0/0/4645/3096/110/74/60/0/e890b62_326255139-ap-20197670050779.jpg', 'description': 'Les voyageurs ont dû s’organiser dans l’urgence, après l’annonce soudaine des autorités marocaines de la suspension des vols, due à la situation sanitaire en France.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': '« Entre la Chine et l’Afrique, la relation est profondément asymétrique »', 'image': 'https://img.lemde.fr/2021/11/26/8/0/3248/2165/110/74/60/0/6153244_4331669-2018-07-21t165609z-631912184-rc1645cff6f0-rtrmadp-3-senegal-china.JPG', 'description': 'Selon le

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': '« On bloque, mais on se bloque aussi » : une nuit sur le barrage de La Boucan, en Guadeloupe', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5999/3996/110/74/60/0/ecdd5e0_712124319-olm-guadeloupe-62.jpg', 'description': 'Depuis le 18\xa0novembre, une partie des habitants de la commune de Sainte-Rose empêche tout accès à la ville pour exprimer un profond mal-être social et économique. «\xa0Le Monde\xa0» a pu passer une nuit derrière les barrages.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid long : « Il n’est pas déontologique de critiquer des travaux scientifiques dans un journal grand public »', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5760/3840/110/74/60/0/457042a_114537019-pns-6265683.jpg', 'description': 'Dans une tribune au «\xa0Monde\xa0», l’épidémiologiste Marcel Goldberg répond à une autre

2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/fragments-de-france/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le pétrole de Total impose le silence et la peur en Ouganda', 'image': 'https://img.lemde.fr/2021/11/19/158/0/2763/1842/110/74/60/0/3efe265_867348601-fdhi-uganda-day01-7726.jpg', 'description': 'Dans ce pays pauvre et enclavé, un immense chantier, dans lequel le groupe français joue un rôle moteur, est critiqué pour ses conséquences sur l’environnement et les populations locales.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lem

2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/les-decodeurs/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/societe/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Maroc suspend les vols à destination et en provenance de la France à partir du 28 novembre en raison du Covid-19', 'image': 'https://img.lemde.fr/2021/11/25/0/0/1620/1080/110/74/60/0/397c491_441485231-000-1v88h9.jpg', 'description': 'Le pays, dont la situation épidémique, s’améliore redoute la cinquième vague qui frappe l’Hexagone.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'En Afrique, un sexisme « épidémique et dévastateur » au sein des Parlements', 'image': 'https://img.lemde.fr/2021/11/25/0/0/4500/3000/110/74/60/0/081fd3f_143450032-0

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': '« Facebook Files » : ce que le réseau social a appris du mouvement conspirationniste QAnon', 'image': 'https://img.lemde.fr/2021/11/26/0/0/3000/2000/110/74/60/0/7a2133c_537393006-qanon.jpg', 'description': 'Grâce aux gigantesques quantités de données qu’il collecte sur ses utilisateurs, le réseau social a pu mener des recherches extrêmement précises sur le mouvement conspirationniste.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': '« Au Rwanda, les journalistes youtubeurs font face à des menaces incessantes »', 'image': 'https://img.lemde.fr/2021/11/24/0/0/5184/3456/110/74/60/0/574e15f_327154479-2021-05-11t000000z-1219793250-rc2rdn9uw5l0-rtrmadp-3-alphabet-youtube-creator.JPG', 'description': 'Pour John Williams Ntwali, fondateur de la chaîne Pax TV-Ireme News, la plateforme de vidéos permet d’échapper à l

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Entre éleveurs et bergers, la loi des alpages', 'image': 'https://img.lemde.fr/2021/11/02/0/6/6036/4024/110/74/60/0/78a3dec_74805852-027070-009.jpg', 'description': 'Fragments de France | Alors que le métier de berger, au plus près de la nature, n’a jamais autant fasciné les citadins, un conflit opposant deux saisonniers aux éleveurs qui les emploient agite le Queyras.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Allemagne : un Irakien de l’EI condamné à la perpétuité pour « génocide » des yézidis', 'image': 'https://img.lemde.fr/2021/11/30/4/0/8362/5574/110/74/60/0/00058a5_5107581-01-06.jpg', 'description': 'C’est la première fois au monde qu’un tribunal qualifie ces massacres de «\xa0génocide\xa0», après des enquêteurs de l’ONU.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped fro

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Fragments de France : « Nous n’avons pas cherché à montrer une face idyllique de la France, une version fantasmée de notre pays »', 'image': 'https://img.lemde.fr/2021/10/18/0/0/1200/800/110/74/60/0/8367d2c_573793960-fragmentweb.jpg', 'description': 'A six mois de l’élection présidentielle, «\xa0Le Monde\xa0» a mobilisé sa rédaction pour prendre le pouls du pays, à travers 100 reportages. Nicolas Chapuis, directeur adjoint de la rédaction, a répondu à vos questions.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Chronique dessinée d’une nuit à bord du train Paris-Perpignan', 'image': 'https://img.lemde.fr/2021/10/19/0/0/600/400/110/74/60/0/b8e686b_612420213-media-appel-aurel.jpg', 'description': 'Un dimanche de septembre, le dessinateur Aurel a embarqué dans le train de 22\xa0h\xa012 a

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Guerre d’Algérie : les propositions du groupe « Regards de la jeune génération sur les mémoires franco-algériennes » à Emmanuel Macron', 'image': 'https://img.lemde.fr/2021/11/29/1/0/2000/1333/110/74/60/0/fffae68_486629328-prod-94.jpeg', 'description': 'Le groupe «\xa0Regards de la jeune génération sur les mémoires franco-algériennes\xa0», constitué par des

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La rédaction de Franceinfo.fr en grève le jour du débat des Républicains', 'image': 'https://img.lemde.fr/2021/11/29/0/0/4769/3179/110/74/60/0/2925166_557540390-000-fs7u4.jpg', 'description': 'La grève, qui implique environ 70\xa0journalistes, devrait être fortement suivie.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'A la Guadeloupe, couvre-feu prolongé après une brève rencontre entre des syndicats et le ministre des outre-mer', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5568/3712/110/74/60/0/1e363dc_5103999-01-06.jpg', 'description': 'Les discussions ont tourné court, les syndicats refusant de «\xa0condamner des tentatives d’assassinat contre des policiers et des gendarmes\xa0», selon Sébastien Lecornu.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 http

2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/peche-post-brexit/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/climat/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Covid-19 à l’école : un nouveau protocole sanitaire, des dépistages qui explosent et une incidence en forte hausse', 'image': 'https://img.lemde.fr/2021/11/30/24/0/1044/695/110/74/60/0/6b97d54_171834610-capture-d-e-cran-2021-11-30-a-11-15-59.png', 'description': 'Le nouveau protocole sanitaire à l’école sera généralisé à partir du 6\xa0décembre. Les fermetures de classes sont évitées, au profit de tests conditionnant le retour en classe.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Quelles sont les données qui montrent la

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'A La Grave, le téléphérique qui divise la Mecque du hors-piste', 'image': 'https://img.lemde.fr/2021/11/22/0/0/5568/3712/110/74/60/0/5b15145_705775575-000-vq0bw.jpg', 'description': 'Prévue à la place du téléski actuel pour préserver le glacier de la Girose, la future remontée fait craindre une jonction avec les grandes stations voisines des Deux-Alpes et de l’Alpe-d’Huez, qui partagent le même exploitant.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'La Chine tente d’enterrer l’affaire Peng Shuai, avec la bénédiction du Comité international olympique', 'image': 'https://img.lemde.fr/2021/11/22/373/2136/2663/1775/110/74/60/0/57d119c_262554476-643625.jpg', 'description': 'Le président du CIO s’est entretenu avec l’ancienne championne de tennis, disparue depuis deux semaines, sans aborder ses allégations de viol c

2021-11-30 13:26:43 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'PlayStation 5 et Xbox Series X : après un an, quel bilan pour les consoles « nouvelle génération » ?', 'image': 'https://img.lemde.fr/2021/11/11/0/0/1776/1184/110/74/60/0/244a320_69227730-image-6483441-copie.jpg', 'description': 'En douze mois, il est sorti plus de jeux sur les consoles de nouvelle génération que sur les précédentes à leur lancement, et leur réception critique est même globalement meilleure.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Autriche, Allemagne, Belgique, Pays-Bas… visualisez l’ampleur de la vague de Covid-19 dans certains pays d’Europe', 'image': 'https://img.lemde.fr/2021/11/19/0/225/1350/900/110/74/60/0/44e1fea_2616718

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Yan Marchal, satiriste français amateur, persona non grata en Thaïlande', 'image': 'https://img.lemde.fr/2021/11/19/0/0/3840/2560/110/74/60/0/3d1bc44_f52210f428184d878f54ccfa565d105d-aa130e9c2e6e4daa9dbfd8eef17bbf0d-0.jpg', 'description': 'Cet entrepreneur français qui vit à Bangkok depuis 2003 avait pour hobby la satire du gouvernement et des ultraroyalistes sur TikTok.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'L’Afrique du Sud s’estime « injustement discriminée » après l’apparition du variant Omicron', 'image': 'https://img.lemde.fr/2021/11/27/0/0/4500/3000/110/74/60/0/9e8aac5_5092516-01-06.jpg', 'description': 'Les autorités dénoncent le non-respect des engagements du G20, qui s’était promis de stimuler les déplacements internationaux.'}
2021-11-30 13:26:43 [scrapy.core.scra

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'COP26, masque au ski, Bagdad, Nicaragua… Les cinq infos à retenir du week-end', 'image': 'https://img.lemde.fr/2021/11/06/57/0/3500/2333/110/74/60/0/a853261_4bf24dfb208b4af0aba49b17800fa0c0-4bf24dfb208b4af0aba49b17800fa0c0-0.jpg', 'description': 'Si vous n’avez pas suivi l’actualité de ce week-end des 6 et 7\xa0novembre, voici ce qu’il faut retenir de ces dernières quarante-huit heures.'}
2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Aux sources de la fascination des QAnon pour la réapparition de J. F. Kennedy Jr', 'image': 'https://img.lemde.fr/2021/11/05/0/6/1118/745/110/74/60/0/0e3a03e_977319889-screenshot-100.png', 'description': 'Des centaines d’adeptes de la mythologie complotiste américaine se sont réunies au\xa0début de\xa0novembre à Dallas, dans l’espoir d’assister au retour de «\xa0John-J

2021-11-30 13:26:43 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Open d’Australie : tous les joueurs devront être vaccinés contre le Covid-19', 'image': 'https://img.lemde.fr/2021/10/26/0/41/3418/2279/110/74/60/0/9170a57_fw1-tennis-australia-vaccination-1026-11.jpg', 'description': 'La décision accentue la pression sur le numéro un mondial, Novak Djokovic, qui refuse de dire s’il est vacciné ou non. «\xa0On verra bien, on va juste attendre et voir\xa0», a déclaré le Serbe qui viserait un dixième titre à Melbourne.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'A Bruxelles, le refuge des « brebis galeuses » de Parcoursup', 'image': 'https://img.lemde.fr/2021/10/01/0/0/4300/2866/110/74/60/0/005e68a_141204816-e-tudiants-franc-ais-ulb-023.jpg', 'description': 'Près de 5\xa0000 étudiants français sont inscrits à l’Université libre de Bruxelles faute de trouver une pla

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à ouvrir une voie légale d’immigration', 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg', 'description': 'Le ministre de l’intérieur français a également affirmé la nécessité d’un accord entre l’Union européenne et le Royaume-Uni et précisé que Jean Castex écrirait mardi à Boris Johnson pour lui proposer un accord.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Biélorussie : dans le piège de Loukachenko, des migrants syriens prêts à tout pour entrer en Europe', 'image': 'https://img.lemde.fr/2021/11/25/0/0/4896/3264/110/74/60/0/2c02ae1_508434718-dscf2986-edit2.jpg', 'description': 'Ceux qui ont choisi de passer par Minsk pour gagner la Pologne ou la Lituanie n’étai

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Au procès des attentats du 13-Novembre : « Je suis celui que le terroriste tenait en joue sur la scène »', 'image': 'https://img.lemde.fr/2021/10/13/228/0/2326/1550/110/74/60/0/74adbbb_137390645-guillaume-otage-amimour-12-10-21.jpg', 'description': 'Guillaume a raconté, mardi, à la cour d’assises de Paris, ce moment où le commissaire de la BAC\xa075 et son coéquipier l’ont sauvé en tirant sur le terroriste Samy Amimour.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': '« Je me sens comme un patchwork, raboutée de partout » : au procès du 13-Novembre, les mots de Gaëlle, « gueule cassée » du Bataclan', 'image': 'https://img.lemde.fr/2021/10/08/0/0/3212/2140/110/74/60/0/efe3dd1_791183617-temoins-bataclan-7-octobre.jpeg', 'description': 'Jeudi, devant la cour d’a

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Pandora Papers » : les millions envolés des Légionnaires du Christ', 'image': 'https://img.lemde.fr/2021/10/05/476/610/2036/1357/110/74/60/0/dcc614e_503738049-aladdin-le-gionnaires-christ-appel.jpg', 'description': 'Des figures de cette congrégation catholique secouée par les scandales sexuels ont discrètement exfiltré des centaines de millions de dollars avant sa reprise en main par le Vatican, en\xa02010.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Immigration au Royaume-Uni : forte augmentation des traversées de la Manche en embarcations de fortune', 'image': 'https://img.lemde.fr/2021/10/05/50/0/655/435/110/74/60/0/4f65e10_342537984-migrants.jpg', 'description': 'Le nombre de traversées illégales de migrants à partir des côtes françaises a déjà plus que doublé par rapport à 2020.'}
2021-

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle 2022 : de polémiste à candidat, la difficile mue d’Eric Zemmour', 'image': 'https://img.lemde.fr/2021/11/27/0/0/3499/2333/110/74/60/0/e581e15_144590774-monge-myop-zemmour-18.jpg', 'description': 'Après un déplacement désastreux à Marseille, le polémiste d’extrême droite n’affiche plus la même énergie qu’au début de sa précampagne. Ses amis et soutiens parlent d’une métamorphose avortée.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Yannick Jadot justifie l’exclusion de Matthieu Orphelin de son équipe de campagne', 'image': 'https://img.lemde.fr/2021/11/27/0/3/4026/2684/110/74/60/0/1460598_5095481-01-06.jpg', 'description': 'Alors que Nicolas Hulot est visé par des accusations de viol et d’agressions sexuelles, l’équipe de campagne du candidat écologist

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Des milliers de personnes évacuées en raison d’inondations dans l’ouest du Canada', 'image': 'https://img.lemde.fr/2021/11/16/53/0/6500/4333/110/74/60/0/5975f28_c821c37e727a4ba593759da240fc98ec-c821c37e727a4ba593759da240fc98ec-0.jpg', 'description': 'De fortes pluies et des glissements de terrain ont provoqué la mort d’une femme. Les recherches se poursuivent.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Energie : « Le défi principal est de savoir comment les humains vont réduire leur consommation d’énergie d’ici à 2050 »', 'image': 'https://img.lemde.fr/2021/11/16/0/31/5005/3337/110/74/60/0/aacd460_753617113-hyuhgyti.jpg', 'description': 'Les deux consultants Marc Campi et Guillaume Flament rappellent dans une tribune au «\xa0Monde\xa0» que croissance économique et augmentation de la consommation énergétique

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« Grande Sécu » : « Les primes des complémentaires sont doublement inégalitaires, aux dépens des plus pauvres et des plus âgés »', 'image': 'https://img.lemde.fr/2021/11/26/0/0/5760/3840/110/74/60/0/f84bae0_99728504-pns-6307555.jpg', 'description': 'Le président du Syndicat des audioprothésistes, Luis Godinho, rappelle, dans une tribune au «\xa0Monde\xa0», que le système actuel d’articulation entre assurance-maladie et assurances-santé cache de forts écarts entre catégories d’usagers, et estime que le statu quo n’est pas tenable.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'En Grèce, l’aide aux migrants criminalisée', 'image': 'https://img.lemde.fr/2021/11/22/0/0/3499/2333/110/74/60/0/aebaeb7_440340622-839246.jpg', 'description': 'Après le report de leur procès à Lesbos, 24 human

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : en Grèce, les non-vaccinés font face à de nouvelles restrictions', 'image': 'https://img.lemde.fr/2021/11/19/0/0/8640/5760/110/74/60/0/a7811d0_840198606-192210.jpg', 'description': 'A partir du 22\xa0novembre, les non-vaccinés ne pourront plus entrer dans les espaces clos, comme les musées ou les salles de sport. L’accès aux restaurants ou aux églises leur reste autorisé, à condition de présenter des tests PCR ou antigéniques négatifs.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'En rendant le vaccin contre le Covid-19 obligatoire pour toute la population, l’Autriche brise un tabou', 'image': 'https://img.lemde.fr/2021/11/19/133/0/6000/3994/110/74/60/0/9466ec8_711820587-613141.jpg', 'description': 'Le retour d’un confinement général dès le 22\xa0novembre et l

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Comment l’Homme modifie l’équilibre du climat sur la Terre', 'image': 'https://img.lemde.fr/2021/11/03/1192/483/3332/2221/110/74/60/0/840b2a0_184684508-000-9qn2f6.jpg', 'description': 'En 250\xa0ans, la Terre s’est réchauffée à un rythme jamais vu dans sa longue histoire. Progressivement, son système climatique est passé d’un équilibre à un déséquilibre.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Vaccination contre le Covid-19 : les Etats-Unis autorisent une dose de rappel pour tous les adultes', 'image': 'https://img.lemde.fr/2021/11/19/0/3/4270/2847/110/74/60/0/726dedb_838822015-000-9ry6dt.jpg', 'description': 'Selon la décision des autorités sanitaires, un rappel est désormais possible pour toutes les personnes de plus de 18\xa0ans et il est particulièrement recommandé à partir de 50\

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'L’opposante biélorusse Maria Kolesnikova récompensée par le prix Vaclav-Havel', 'image': 'https://img.lemde.fr/2021/09/06/0/0/3552/2368/110/74/60/0/d44169a_6fe9aededfc64eb98dc170c7c1a2a1f2-6fe9aededfc64eb98dc170c7c1a2a1f2-0.jpg', 'description': 'Elle est «\xa0l’un des trois symboles féminins de l’opposition biélorusse\xa0», a rappelé le Conseil de l’Europe, avec Svetlana Tikhanovskaïa, candidate à la présidentielle à la place de son mari emprisonné, et Veronika Tsepkalo, qui ont fui le pays sous la pression des autorités.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'A la frontière entre la Biélorussie et la Pologne, la crise migratoire fait ses premières victimes', 'image': 'https://img.lemde.fr/2021/09/23/0/0/3543/2362/110/74/60/0/4d2f2f9_945407256-090164.jpg', 'description': 'Quatre personnes, don

2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants massés à la frontière par la Biélorussie : « Cette crise peut servir la Pologne dans ses contentieux avec l’UE »', 'image': 'https://img.lemde.fr/2021/11/10/0/0/3717/2478/110/74/60/0/b87033c_546b3e855ce748cdbf0b6c53f4f3607a-546b3e855ce748cdbf0b6c53f4f3607a-0.jpg', 'description': 'En jouant sur la peur d’un afflux massif de migrants, Varsovie veut pousser l’Union européenne à fermer les yeux sur ses entorses à l’Etat de droit, souligne le chercheur Matthieu Tardis, spécialiste de la politique européenne d’immigration.'}
2021-11-30 13:26:44 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La Biélorussie accusée d’instrumentaliser la crise des migrants par les Occidentaux à l’ONU', 'image': 'https://img.lemde.fr/2021/11/11/0/0/4005/2670/110/74/60/0/5e986c9_19e2d6c2abeb482b8dd2d446213cadc3-19e2d6c2ab

In [26]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.json

2021-11-30 13:27:43 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:27:43 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:27:43 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:27:43 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:27:43 [scrapy.extensions.telnet] INFO: Telnet Password: 3d460fcde53920be
2021-11-30 13:27:43 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:27:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Le dark Net sert aussi à communiquer sans être repéré »', 'image': 'https://img.lemde.fr/2017/07/20/3/0/1737/1157/110/74/60/0/8cd7814_20424-1fa76tu.86znzv9529.png', 'description': 'La consultante Claire Gerardin défend, dans une tribune au «\xa0Monde\xa0», l’usage des réseaux anonymisés, trop souvent assimilés aux activités criminelles par les gouvernements et les géants du Web.'}
2021-11-30 13:27:45 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Il faut obliger les plates-formes à respecter les grands principes de l’Etat de droit »', 'image': 'https://img.lemde.fr/2021/11/10/0/0/2025/1350/110/74/60/0/31fac70_5988299-01-06.jpg', 'description': 'Réguler le contenu des réseaux sociaux doit moins passer par la contrainte que par la préservation des droits individuels face aux géants du Web, estime le juriste Winston Maxwell dans une t

2021-11-30 13:27:45 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/disparitions/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Les hommes sages-femmes sont surreprésentés dans les postes valorisés »', 'image': 'https://img.lemde.fr/2021/09/25/0/0/3504/2336/110/74/60/0/e0e1a5f_420864799-sagesfemmes.jpg', 'description': 'S’ils restent minoritaires dans la profession, les hommes sont plus nombreux dans les emplois de cadres, enseignants ou dirigeants d’instances syndicales, explique le sociologue Philippe Charrier dans un entretien au «\xa0Monde\xa0».'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Les quotas dans les grandes écoles n’auront pas d’effet sur le phénomène

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Violences sexuelles et sexistes : l’ENS de Lyon rappelée à l’ordre', 'image': 'https://img.lemde.fr/2021/10/28/378/0/768/511/110/74/60/0/3dabc1b_713638099-ens-lyon.jpg', 'description': 'L’inspection générale de l’éducation, du sport et de la recherche révèle qu’une seule procédure disciplinaire a été engagée sur quinze situations d’agression, de harcèlement ou de viol dont la direction de l’école avait connaissance.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Une enquête alerte sur la santé mentale des étudiants et internes en médecine', 'image': 'https://img.lemde.fr/2021/10/28/0/0/6039/4026/110/74/60/0/d1996b2_648209973-210119jbalague-lemonde-covid-bichat-5y5a8964.jpg', 'description': 'Publiée mercredi, l’enquête révèle un grand mal-être et des conditions de travail déplorables : en période de stage, deux 

2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/planete/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Au conservatoire, j’étais presque tout le temps quasi nue, à me faire palper de partout » : dans les écoles de théâtre, des élèves dénoncent une culture de la violence', 'image': 'https://img.lemde.fr/2021/10/25/0/0/7542/5024/110/74/60/0/2a18cca_967262567-violencestheatre-clr-01.jpeg', 'description': 'Des apprenties comédiennes racontent l’ambiance au sein de certains cours d’art dramatique, terrain propice à des abus de la part de certains professeurs et témoignent d’agressions sexuelles ou de viols.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Amours Bio, Bioflirt, GreenLovers… Le marché de la drague virtuelle s’adapte aux aspirations des jeunes écolos en quête d’amour', '

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Bébé sauvé de la noyade à Ceuta : « On n’avait rien vu d’aussi intense », raconte le garde civil espagnol', 'image': 'https://img.lemde.fr/2021/05/19/0/0/6192/4128/110/74/60/0/1a3cfa6_5817570-01-06.jpg', 'description': 'Depuis le 17\xa0mai des milliers de migrants ont essayé par tous les moyens, et au risque d’y perdre la vie, de rejoindre Ceuta, enclave espagnole au Maroc.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'En Belgique, il déplace une borne… et repousse la frontière avec la France', 'image': 'https://img.lemde.fr/2021/05/04/0/64/712/475/110/74/60/0/eb35295_474986995-capture-d-e-cran-2021-05-04-a-20-31-18.png', 'description': 'Un agriculteur, propriétaire de terres qui bordent la France, a récemment déplacé la vieille borne en pierre qui marque l’emplacement précis de la frontière, repouss

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Enfants intersexes : préciser la loi de bioéthique', 'image': 'https://img.lemde.fr/2021/11/22/130/462/3850/2567/110/74/60/0/8c89748_989306144-2-jardin.jpg', 'description': 'Un arrêté de bonnes pratiques doit compléter l’article relatif aux enfants présentant une variation du développement génital, dont l’interprétation divise les médecins et les associations de personnes intersexes.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Comment la crise sanitaire a secoué le journalisme', 'image': 'https://img.lemde.fr/2021/11/22/0/14/5602/3735/110/74/60/0/d6b54f3_6e4b54ce7c184d6088af1bc0c66f06ea-6e4b54ce7c184d6088af1bc0c66f06ea-0.jpg', 'description': 'Dans la revue «\xa0Cahiers Droit, Sciences & Technologies\xa0», les journalistes Stéphane Foucart et Sylvestre Huet reviennent sur le thème de l’information scienti

2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/les-decodeurs/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Maroc disposé à favoriser une reprise des négociations entre Israël et Palestiniens', 'image': 'https://img.lemde.fr/2021/11/30/0/0/2250/1500/110/74/60/0/fecb7fe_278284556-000-9tb4y4.jpg', 'description': 'Un an après la signature des Accords d’Abraham, le roi Mohammed VI a annoncé vouloir «\xa0mettre à profit ses relations privilégiées\xa0» avec toutes les parties du conflit.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Métier : profileur de nuages', 'image': 'https://img.lemde.fr/2021/11/19/0/0/1088/725/110/74/60/0/c609898_17402646-nuages.png', 'description': 'En Ardèche, des scientifiques essaient de mieux comprendre la formation des nuages, afin d’anticiper les 

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Grande Sécu » : « Les citoyens, malades ou bien portants, auraient gros à gagner avec cette réforme »', 'image': 'https://img.lemde.fr/2021/11/17/0/27/3445/2297/110/74/60/0/e5f0c06_gggnic08-health-coronavirus-france-vaccination-1117-11.jpg', 'description': 'L’économiste Brigitte Dormont plaide, dans une tribune au «\xa0Monde\xa0», en faveur d’une réforme qui vise un égal accès aux soins pour tous, sans siphonner le revenu des citoyens.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Grande Sécu » : « Peut-être y a-t-il mieux à faire que de faire disparaître les complémentaires santé »', 'image': 'https://img.lemde.fr/2021/11/23/24/0/3500/2333/110/74/60/0/2a17231_gggnic05-health-coronavirus-france-vaccination-1123-11.jpg', 'description': 'Les chercheurs Daniel Benamouzig et Cyril Benoît proposent, dans une trib

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Handicap moteur : une solution d’électrostimulation reproduit les mouvements', 'image': 'https://img.lemde.fr/2021/11/22/54/0/1776/1184/110/74/60/0/3b85efb_575381449-werize-he-pha-rower-mobility-2.jpg', 'description': 'Une technique d’électrostimulation permet à des personnes avec un handicap moteur des membres inférieurs de faire du rameur. Un programme national vie

2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sport/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Omicron : Pékin reconnaît que le variant complique les JO d’hiver, mise en garde du PDG de Moderna', 'image': 'https://img.lemde.fr/2021/11/30/0/54/3391/2261/110/74/60/0/485a382_ppptok709-health-coronavirus-variant-japan-1130-11.jpg', 'description': 'La Chine a reconnu mardi que le nouveau variant serait synonyme de difficultés supplémentaires pour l’organisation des Jeux olympiques d’hiver de Pékin en février.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Sabrina Soussan nommée patronne du « nouveau Suez »', 'image': 'https://img.lemde.fr/2021/11/30/18/0/5568/3712/110/74/60/0/fd8a6f2_964938119-soussan.jpg', 'description': 'Cette ancienne de Siemens et Dormakaba est chargée de gérer les activités eau et déchets en France et quelques actifs étrangers laissés par Veolia, qui a repris l’essentiel de l’ancien Su

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': '« Si les banques centrales ont pu sauver les économies, pourquoi ne le feraient-elles pas pour le réchauf\xadfement climatique ? »', 'image': 'https://img.lemde.fr/2021/11/01/359/0/7370/4903/110/74/60/0/4710859_bd8c37833f6f4b64acae9f0fa6971644-bd8c37833f6f4b64acae9f0fa6971644-0.jpg', 'description': 'Alors que l’équilibre climatique de la planète est en jeu, l

2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/actualite-en-continu/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/facebook-files/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le pétrole de Total impose le silence et la peur en Ouganda', 'image': 'https://img.lemde.fr/2021/11/19/158/0/2763/1842/110/74/60/0/3efe265_867348601-fdhi-uganda-day01-7726.jpg', 'description': 'Dans ce pays pauvre et enclavé, un immense chantier, dans lequel le groupe français joue un rôle moteur, est critiqué pour ses conséquences sur l’environnement et les populations locales.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://w

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Pourquoi est-il encore si difficile, dans nos sociétés contemporaines, d’évoquer le deuil périnatal ? »', 'image': 'https://img.lemde.fr/2021/11/30/104/0/3257/2172/110/74/60/0/e00b0be_548533118-pns-4685984.jpg', 'description': 'La philosophe Claire Larroque appelle, dans une tribune au «\xa0Monde\xa0», à mieux prendre en compte la souffrance des parents qui ont perdu un enfant né sans vie, mort lors de l’accouchement ou au cours de ses premiers jours. Un plein soutien doit être offert plutôt qu’un lourd silence.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'L’activité physique a un effet anxiolytique', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5464/3643/110/74/60/0/2133543_888610936-000-1oo79a.jpg', 'description': 'Une étude suédoise a montré que l’exercice physique réduit l’anxiété. Un constat partagé, qui

2021-11-30 13:27:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/bielorussie/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Covid-19 à l’école : un nouveau protocole sanitaire, des dépistages qui explosent et une incidence en forte hausse', 'image': 'https://img.lemde.fr/2021/11/30/24/0/1044/695/110/74/60/0/6b97d54_171834610-capture-d-e-cran-2021-11-30-a-11-15-59.png', 'description': 'Le nouveau protocole sanitaire à l’école sera généralisé à partir du 6\xa0décembre. Les fermetures de classes sont évitées, au profit de tests conditionnant le retour en classe.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Comment le Covid-19 a « ruiné les progrès » récents en matière de dépistage et de prévention du sida', 'image': 'https://img.lemde.fr/2021/06/03/0/0/2868/1912/110/74/60/0/509e75f_923643679-000

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des réseaux sociaux dans le cadre de sa fusion avec Giphy, spécialisé dans les animations courtes sur Internet.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Allemagne : un Irakien de l’EI condamné à la perpétuité pour « génocide » des yézidis', 'image': 'https://img.lemde.fr/2021/11/30/4/0/8362/5574/110/74/60/0/00058a5_5107581-01-06.jpg', 'description': 'C’est la première fois au monde qu’un tribunal qualifie ces massacres de «\xa0génocide\xa0»

2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 : le port du masque rétabli en plein air dans les endroits fréquentés à Paris, et dans les équipements sportifs', 'image': 'https://img.lemde.fr/2021/07/15/0/0/3621/2414/110/74/60/0/331317b_5220700-01-06.jpg', 'description': 'Le préfet de police de Paris a annoncé, vendredi, avoir pris un arrêté rendant le port du masque à nouveau obligatoire lors de rassemblements sur la voie publique, de festivals, de spectacles, de marchés, de brocantes ou encore dans les files d’attente.'}
2021-11-30 13:27:46 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Brésil : inquiétante ruée vers l’or en Amazonie', 'image': 'https://img.lemde.fr/2021/11/24/0/0/3499/2333/110/74/60/0/0faf5c4_ggg-sms204-brazil-environment-mining-1123-11.jpg', 'description': 'Des centaines d’embarcations d’orpailleurs s’amassent depuis plusieurs jours sur le rio Madeir

2021-11-30 13:27:47 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/immigration-en-europe/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Présidentielle : chez les candidats LR, à chacun sa façon de préparer l’ultime débat', 'image': 'https://img.lemde.fr/2021/11/23/1/0/1496/996/110/74/60/0/541e957_154717-3248737.jpg', 'description': 'Le 30 novembre, Eric Ciotti, Valérie Pécresse, Michel Barnier, Philippe Juvin et Xavier Bertrand, tous prétendants à l’investiture présidentielle pour Les Républicains, débattront une dernière fois avant le vote des militants du parti.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Covid-19 : la flambée épidémique menace le rebond d’activité des compagnies aériennes', 'image': 'https://img.lemde.fr/2021/11/29/1/0/7367/4911/110/74/60/0/7b04af9_1638197189346-

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Féminicide : une femme tuée par son compagnon à Epinay-sur-Seine', 'image': 'https://img.lemde.fr/2021/11/20/0/11/2766/1844/110/74/60/0/656bf21_5051725-01-06.jpg', 'description': 'La victime a été poignardée par son compagnon, qui venait de sortir de prison après avoir purgé une peine pour violences.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Elle ne dépensait rien » : à Vauvillers, le legs surprise de la religieuse à son église', 'image': 'https://img.lemde.fr/2021/11/22/0/0/975/650/110/74/60/0/d41ad08_154469-3248623.jpg', 'description': 'A sa mort à l’âge de 97 ans, l’ancienne nonne d’un village de Haute-Saône a fait don de 421\xa0000\xa0euros à sa commune pour la rénovation de l’église. Personne n’imaginait que cette femme d’apparence si modeste ait pu économiser une telle somme.'}
2021-11-30 13:27:

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La Barbade devient une république et se détache de la couronne britannique', 'image': 'https://img.lemde.fr/2021/11/30/0/0/5568/3712/110/74/60/0/51d4a97_5106691-01-07.jpg', 'description': 'Déjà indépendante du Royaume-Uni depuis 1966, la petite île des Caraïbes célèbre, mardi, sa transition vers un régime républicain après quelque quatre siècles de sujétion au souverain britannique.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Entre frugalité et technologies, quatre choix de société pour atteindre la neutralité carbone', 'image': 'https://img.lemde.fr/2021/11/29/3/0/5960/3973/110/74/60/0/c804d46_165345036-pns-6168204.jpg', 'description': 'L’Agence de l’environnement et de la maîtrise de l’énergie (Ademe) présente des scénarios énergétiques pour 2050 allant d’une option misant forte

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Migrants dans la Manche : « La crise s’explique par le Brexit qui agit comme un poison lent entre Paris et Londres »', 'image': 'https://img.lemde.fr/2021/11/18/177/0/4252/2834/110/74/60/0/bc2fba0_256408451-19.jpg', 'description': 'Après le naufrage de mercredi au large de Calais, qui a coûté la vie à 27 personnes, la tension entre Paris et Londres est montée d’un cran. Nos journalistes Julia Pascual, spécialiste des questions d’immigration, et Cécile Ducourtieux, correspondante du «\xa0Monde\xa0» au Royaume-Uni, ont répondu à vos questions.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': 'Sur Facebook, le fiasco de la modération en langue arabe', 'image': 'https://img.lemde.fr/2021/10/25/138/533/1645/1097/110/74/60/0/53a7e56_740631707-modo-arabe-cover.jpg', 'description': 'Facebook Files | Les documents

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Au procès des attentats du 13-Novembre, les omissions d’un enquêteur sur les « loupés » de la police belge', 'image': 'https://img.lemde.fr/2021/11/27/10/0/3748/2498/110/74/60/0/3b4fb55_6879122-aquindo-26nov-enque-teurs-belges.jpg', 'description': 'Interrogé sur les ratés côté belge, un policier fédéral a éludé la responsabilité de son service. Une avocate a démontré à l’audience qu’il n’en disait pas assez.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle : chez les candidats LR, à chacun sa façon de préparer l’ultime débat', 'image': 'https://img.lemde.fr/2021/11/23/1/0/1496/996/110/74/60/0/541e957_154717-3248737.jpg', 'description': 'Le 30 novembre, Eric Ciotti, Valérie Pécresse, Michel Barnier, Philippe Juvin et Xavier Bertrand, tous prétendant

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Anne Hidalgo perd une de ses adjointes-clés à la Mairie de Paris', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5184/3456/110/74/60/0/bf1f828_647784403-000-par7968058.jpg', 'description': 'L’ancienne écologiste Célia Blauel, en charge de la prospective Paris\xa02030, quitte la vie politique professionnelle «\xa0pour des raisons strictement personnelles\xa0».'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Le Parlement adopte définitivement le projet de budget de la Sécurité sociale pour 2022', 'image': 'https://img.lemde.fr/2021/11/23/0/0/3499/2333/110/74/60/0/e30900c_fw1-health-coronavirus-france-cases-1123-11.jpg', 'description': 'Le projet de budget pour 2022 comporte des mesures pour le grand âge, les soignants ou encore sur le remboursement de la contraception. Il prévoit, par a

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à ouvrir une voie légale d’immigration', 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg', 'description': 'Le ministre de l’intérieur français a également affirmé la nécessité d’un accord entre l’Union européenne et le Royaume-Uni et précisé que Jean Castex écrirait mardi à Boris Johnson pour lui proposer un accord.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Au Qatar, le processus de réforme des conditions de travail des migrants menacé d’enlisement', 'image': 'https://img.lemde.fr/2021/11/17/0/0/5472/3648/110/74/60/0/8643819_280851594-000-yx1et.jpg', 'description': 'Beaucoup d’entrepreneurs locaux ont appris à contourner les nouveaux droits offerts aux travailleur

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': '« Coup de semonce » des pêcheurs français pour réclamer le respect de l’accord de pêche post-Brexit', 'image': 'https://img.lemde.fr/2021/11/25/0/0/5346/3564/110/74/60/0/eb98941_705175117-000-9rw2c2.jpg', 'description': 'Les professionnels se mobilisent, vendredi, en bloquant ponctuellement ports, ferries et l’Eurotunnel pour que Londres leur délivre les 237 licences de pêche demandées.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Les pêcheurs français annoncent le blocage de ports et du tunnel sous la Manche pour les marchandises vendredi', 'image': 'https://img.lemde.fr/2021/11/20/81/0/4749/3166/110/74/60/0/5d802d7_387130563-567343.jpg', 'description': 'Onze mois après le Brexit, environ 150\xa0bateaux français attendent toujours les autorisations pour poser leurs filets dans les eaux 

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Menacé, le mythique quotidien polonais « Gazeta Wyborcza » lutte pour son identité', 'image': 'https://img.lemde.fr/2021/11/27/86/0/2048/1365/110/74/60/0/3d22515_365965000-1999-02-09t120000z-434096911-pbeahulwxah-rtrmadp-3-poland.JPG', 'description': 'Confrontés aux décisions d’un conseil d’administration hostile, les journalistes luttent pour préserver la spécificité du titre emblématique.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le vote pour l’extrême droite au Chili est « le signal d’un retour à l’ordre »', 'image': 'https://img.lemde.fr/2021/11/26/0/0/5760/3840/110/74/60/0/9264c74_10814511-649901.jpg', 'description': 'Pour la sociologue Stéphanie Alenda, le premier tour du scrutin présidentiel, qui a porté l’extrême droite en tête, exprime une réaction à la révolte sociale initiée en\xa0201

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Tensions à Jersey : la pêche dans la Manche, un sujet encore conflictuel après l’accord post-Brexit', 'image': 'https://img.lemde.fr/2021/05/07/0/62/2927/1949/110/74/60/0/994ff94_857954860-choix.jpg', 'description': 'Les pêcheurs français reprochent aux Britanniques de ne pas respecter l’accord commercial consécutif au Brexit, en ajoutant des contraintes qui restreignent leur accès aux eaux britanniques.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Pêche post-Brexit : « Au moins, quand les Allemands nous ont envahis, ils n’ont pas éteint la lumière »', 'image': 'https://img.lemde.fr/2021/05/06/0/68/2927/1949/110/74/60/0/20adcad_edfaf5e766074deeb5514702b95d0f78-edfaf5e766074deeb5514702b95d0f78-0.jpg', 'description': 'La presse britannique répond aux tensions impliquant les pêcheurs hexago

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Les accords du Touquet au cœur du drame des migrants dans la Manche', 'image': 'https://img.lemde.fr/2021/11/26/177/0/4252/2834/110/74/60/0/a818fa9_61128593-05.jpg', 'description': 'Ce traité, qui situe en France le contrôle des entrées sur le territoire britannique, est l’une des causes qui incitent de nombreuses personnes à tenter la traversée de la Manche, au péril de leur vie. Mais depuis le Brexit, son application est remise en cause.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Facebook, accélérateur de la crise migratoire biélorusse', 'image': 'https://img.lemde.fr/2021/11/25/0/0/3072/2048/110/74/60/0/085cb58_6328774-220627.jpg', 'description': 'Prisé par les passeurs, le réseau social a joué un rôle majeur dans l’afflux à la frontière polonaise de candidats à l’exil, en p

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Comparez les programmes des cinq prétendants à l’investiture des Républicains pour la présidentielle', 'image': 'https://img.lemde.fr/2021/11/30/283/0/6916/4610/110/74/60/0/63b7660_913407538-000-9rn49j.jpg', 'description': 'Retrouvez les principales propositions des cinq prétendants à l’investiture des Républicains pour l’élection présidentielle – Michel Barnier, Eric Ciotti, Valérie Pécresse, Philippe Juvin et Xavier Bertrand –, qui seront départagés lors du congrès du parti, qui aura lieu du 1er au 4\xa0décembre.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Yannick Jadot veut rassembler la gauche à la présidentielle, Anne Hidalgo répond que seule « la social-démocratie » peut y parvenir', 'image': 'https://img.lemde.fr/2021/11/18/0/0/3306/2204/110/74/60/0/7313b92_

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': '« Les accords du Touquet permettent à Londres de se soustraire à son devoir d’asile. Le Brexit les a rendus obsolètes »', 'image': 'https://img.lemde.fr/2021/11/19/0/0/3543/2362/110/74/60/0/4190b51_901010080-08-calais-gratacap-271021.jpg', 'description': 'A l’heure où Calais est devenue une frontière extérieure de l’Union, la France serait fondée à dénoncer des accords qui en font l’otage des choix politiques du Royaume-Uni et maintiennent des milliers de migrants dans des conditions indignes, analyse Philippe Bernard, éditorialiste au «\xa0Monde\xa0», dans sa chronique.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La crise sanitaire a « significativement aggravé » la situation des réfugiés', 'image': 'https://img.lemde.fr/2021/11/05/0/0/5029/3353/110/74/60/0/c32988a_fdf23cb2b77b

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle 2022 : les partis de gauche peinent à financer leur campagne', 'image': 'https://img.lemde.fr/2021/10/24/1/0/3898/2598/110/74/60/0/86efe8a_529845913-04.jpg', 'description': 'Les sondages peu optimistes n’encouragent à la dépense ni les banques ni les partis. Les socialistes revendiquent de faire une «\xa0campagne sobre\xa0».'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Entre Emmanuel Macron et Xavier Bertrand, comme un avant-goût de débat présidentiel', 'image': 'https://img.lemde.fr/2021/11/19/0/0/3600/2400/110/74/60/0/d3009fe_656436556-macron-nord-aisne-32.jpg', 'description': 'En visite dans l’Aisne et le Nord, le chef de l’Etat a été pris à partie de manière virulente par le président des Hauts-de-France. Une manière pour ce dernier de se poser en

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Au premier jour du procès des attentats du 13-Novembre, les provocations de Salah Abdeslam', 'image': 'https://img.lemde.fr/2021/09/09/293/320/4606/3071/110/74/60/0/6112df9_791224641-gr005.jpg', 'description': 'Le seul survivant des commandos s’est présenté comme un «\xa0combattant de l’Etat islamique\xa0». Il s’est également plaint de ses conditions de détention.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': '« Les attentats du 13-Novembre sont le point d’orgue du djihadisme européen, qui s’est structuré à partir du 11-Septembre »', 'image': 'https://img.lemde.fr/2021/09/08/0/0/5342/3561/110/74/60/0/d964406_496355851-000-1at0pz.jpg', 'description': 'Le chercheur Hugo Micheron détaille, dans une tribune au «\xa0Monde\xa0», comment les attentats aux Etats

2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Guadeloupe : la grève générale contre l’obligation vaccinale des soignants se poursuit sous tension', 'image': 'https://img.lemde.fr/2021/11/16/0/0/4816/3210/110/74/60/0/61b858e_800174170-guadeloupe.jpg', 'description': 'Une manifestation a rassemblé entre 300 et 400 personnes mardi devant le CHU de Pointe-à-Pitre, devant lequel s’est également terminée une opération escargot des pompiers.'}
2021-11-30 13:27:47 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Grève contre l’obligation vaccinale à la Guadeloupe : 2 pompiers blessés, 2 arrestations', 'image': 'https://img.lemde.fr/2021/11/16/0/0/4945/3297/110/74/60/0/33c4938_12143779-000-9kq9e8.jpg', 'description': 'Des échauffourées ont opposé, lundi, pompiers grévistes et gendarmes. Le parquet de Pointe-à-Pitre a fait savoir que deux personnes a

In [24]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.jl

2021-11-30 13:26:54 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:26:54 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:26:54 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:26:54 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:26:54 [scrapy.extensions.telnet] INFO: Telnet Password: 5c221c5a3423c146
2021-11-30 13:26:54 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:26:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Comment le Covid-19 a « ruiné les progrès » récents en matière de dépistage et de prévention du sida', 'image': 'https://img.lemde.fr/2021/06/03/0/0/2868/1912/110/74/60/0/509e75f_923643679-000-hkg393499.jpg', 'description': 'A l’approche de la Journée mondiale de lutte contre le sida, mercredi\xa01er\xa0décembre, les associations s’alarment de la chute du nombre de tests de dépistage du VIH et craignent un rebond épidémique à court et moyen termes.'}
2021-11-30 13:26:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Manque de considération, maltraitance et burn-out : la grande fatigue des sages-femmes', 'image': 'https://img.lemde.fr/2021/11/22/90/0/7542/5028/110/74/60/0/eb8335b_25591854-sagefemmes-clr-01.jpeg', 'description': 'Epuisés par leurs études et leurs conditions de travail, étudiants et étudiantes sont de plus en plus nombr

2021-11-30 13:26:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Covid-19 : la Haute Autorité de santé recommande de ne vacciner que les enfants à risque', 'image': 'https://img.lemde.fr/2021/11/30/1/0/7277/4851/110/74/60/0/d9a4cc1_286562386-667732.jpg', 'description': 'L’instance recommande d’«\xa0élargir dès à présent\xa0» l’administration du vaccin Pfizer aux enfants «\xa0à risque de forme grave\xa0», mais renvoie la généralisation en France à plus tard.'}
2021-11-30 13:26:55 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Les défenseurs de la “grande Sécu” n’ont pas dit leur dernier mot »', 'image': 'https://img.lemde.fr/2021/11/26/3/0/5900/3933/110/74/60/0/5b1221f_535926494-jmug211125006.jpg', 'description': 'Un collectif de soixante-neuf professionnels de santé, chercheurs et personnalités de l’éducation populaire et de la culture proteste, dans une tribune au «\xa0Monde\xa0», contre le risq

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des réseaux sociaux dans le cadre de sa fusion avec Giphy, spécialisé dans les animations courtes sur Internet.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Mort de l’acteur aborigène David Dalaithngu, révélé mondialement dans « Crocodile Dundee »', 'image': 'https://img.lemde.fr/2021/11/30/945/0/3064/2040/110/74/60/0/8e41bc1_5106003-01-06.jpg', 'description': 'Lancé alors qu’il était adolescent grâce au film «\xa0La Randonnée\xa0», l’artiste australien a dér

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Immobilier : attention aux dossiers de location falsifiés', 'image': 'https://img.lemde.fr/2021/11/26/2629/0/5315/3532/110/74/60/0/ec1fe8e_76072625-pns-3045130.jpg', 'description': 'Gonfler ses revenus ou mentir sur sa situation professionnelle peut être tentant pour obtenir un logement. Comment le propriétaire peut-il vérifier les documents fournis\xa0? Comment le locataire peut-il lustrer son dossier sans tricher\xa0? Quelques conseils.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Vente de matériel de cybersurveillance à l’Egypte : la société Nexa Technologies mise en examen', 'image': 'https://img.lemde.fr/2021/11/23/0/0/3840/2560/110/74/60/0/6bd48fe_222167937-000-8wm32h.jpg', 'description': 'L’enquête menée par le pôle crimes contre l’humanité du tribunal judiciaire de Paris a pour but de déterminer si un

2021-11-30 13:26:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Paris veut agir face à l’essor du « chemsex »', 'image': 'https://img.lemde.fr/2021/11/25/0/5/5190/3460/110/74/60/0/713c8b0_744102160-pns-3763052.jpg', 'description': 'La consommation de drogues lors de rapports sexuels se diffuse hors du milieu gay. La Mairie de Paris est une des premières à préparer un plan de prévention.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Le Parlement adopte un texte contre les discriminations au travail subies par les malades chroniques', 'image': 'https://img.lemde.fr/2021/11/17/0/5/5694/3796/110/74/60/0/e97f985_127160741-pns-3648975.jpg', 'description': 'Elargie aux autres maladies chroniques, cette proposition de loi concernait au départ l

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Apple porte plainte contre NSO Group, fabricant du logiciel espion Pegasus', 'image': 'https://img.lemde.fr/2021/11/20/0/0/2202/1468/110/74/60/0/3b6dc7a_fw1-apple-labor-1120-11.jpg', 'description': 'L’entreprise israélienne NSO Group parvient à trouver des failles connues d’elle seule dans les logiciels d’Apple, permettant d’infecter ces derniers avec le logiciel espion qu’elle vend à des Etats.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Projet Pegasus » : un militant de l’autodétermination du Sahara occidental espionné en Belgique', 'image': 'https://img.lemde.fr/2021/08/06/114/170/850/566/110/74/60/0/3ccfe04_879379757-me-dias-dappel-rvb-agathepicasso-36-copie-2.jpg', 'description': 'Mahjoub Mleiha est la quatrième victime du logiciel espion Pegasus sur le sol belge. Il a vu son téléphone infecté à plusi

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du professeur Perronne', 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png', 'description': 'Invité de CNews le 21\xa0novembre, l’infectiologue Christian Perronne connu pour ses propos «\xa0rassuristes\xa0», voire complotistes sur l’épidémie, nie l’efficacité des vaccins à ARN\xa0messager.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'L’activité physique a un effet anxiolytique', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5464/3643/110/74/60/0/2133543_888610936-000-1oo79a.jpg', 'description': 'Une étude suédoise a montré que l’exercice physique réduit l’anxiété. Un constat partagé, qui devrait conduire à prescrire plus largement l’activité physique.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Aux Etats-Unis, bataille pour des noms d’oiseaux plus inclusifs', 'image': 'https://img.lemde.fr/2021/06/10/0/0/5808/3872/110/74/60/0/1982741_03fe5e2e89cf4d6ea7231da5c95a5aa3-6cbb5788c24d452ca33055ad5065d1bc-0.jpg', 'description': 'La valorisation de la diversité va parfois se nicher dans des recoins inattendus. Ainsi, pour certains ornithologues américains, il est temps de rebaptiser des oiseaux dont les noms avaient été choisis en référence 

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Présidentielle : chez les candidats LR, à chacun sa façon de préparer l’ultime débat', 'image': 'https://img.lemde.fr/2021/11/23/1/0/1496/996/110/74/60/0/541e957_154717-3248737.jpg', 'description': 'Le 30 novembre, Eric Ciotti, Valérie Pécresse, Michel Barnier, Philippe Juvin et Xavier Bertrand, tous prétendants à l’investiture présidentielle pour Les Républicains, débattront une dernière fois avant le vote des militants du parti.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Pourquoi est-il encore si difficile, dans nos sociétés contemporaines, d’évoquer le deuil périnatal ? »', 'image': 'https://img.lemde.fr/2021/11/30/104/0/3257/2172/110/74/60/0/e00b0be_548533118-pns-4685984.jpg', 'description': 'La philosophe Claire Larroque appelle, dans une tribune au «\xa0Monde\xa0», à mieux prendre en compte la s

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Pour une démocratie furtive ?', 'image': 'https://img.lemde.fr/2019/03/09/116/0/3852/2568/110/74/60/0/ff591bb_5398784-01-06.jpg', 'description': 'Dans sa Carte blanche, la sociologue Anne Bory revient sur une enquête conduite avant la précédente présidentielle, qui éclaire les différentes sensibilités citoyennes vis-à-vis de la démocratie participative.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': '« Diabète : rendons l’insuline enfin accessible à tous ! »', 'image': 'https://img.lemde.fr/2021/11/17/0/5/5694/3796/110/74/60/0/e97f985_127160741-pns-3648975.jpg', 'description': 'Alors qu’une majeure partie des personnes souffrant de diabète dans le monde est privée d’insuline, la France se doit d’être motrice pour permettre un accès universel à ce traitement peu coûteux. C’est ce qu’affirme, dans une tribune 

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Guerre d’Algérie : les propositions du groupe « Regards de la jeune génération sur les mémoires franco-algériennes » à Emmanuel Macron', 'image': 'https://img.lemde.fr/2021/11/29/1/0/2000/1333/110/74/60/0/fffae68_486629328-prod-94.jpeg', 'description': 'Le groupe «\xa0Regards de la jeune génération sur les mémoires franco-algériennes\xa0», constitué par des descendants de militaires français, de harkis, de rapatriés ou de combattants du FLN, devait remettre ses propositions au chef de l’Etat. Verbatim.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Pfizer signe un accord pour faciliter l’accès mondial à sa pilule contre le Covid-19', 'image': 'https://img.lemde.fr/2021/11/16/72/0/4872/3248/110/74/60/0/5a760f7_5025210-01-06.jpg', 'description': 'Des fabricants de médicaments génériques pourront se v

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'La force symbolique de l’entrée au Panthéon de Joséphine Baker, « combattante de la liberté »', 'image': 'https://img.lemde.fr/2021/11/28/159/0/473/314/110/74/60/0/44ecec3_459343343-baker-harcourt-1948.jpg', 'description': 'A cinq mois de l’élection présidentielle, en distinguant mardi 30\xa0novembre la meneuse de revue et résistante noire, Emmanuel Macron consacre l’audace et les vertus de celles et de ceux qui refusent la capitulation.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Joséphine Baker, une artiste inclassable au Panthéon', 'image': 'https://img.lemde.fr/2021/11/26/0/0/1800/1200/110/74/60/0/c77c7e7_902496550-illus-baker-1.png', 'description': 'A l’occasion de la panthéonisation de Joséphine Baker, mardi, Anna Moreau et Claire Gatinois, journalistes au «\xa0Monde\xa0», reviennent en podcast s

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Qui sont les 17 000 enfants de moins de 12 ans déjà vaccinés contre le Covid-19 en France ?', 'image': 'https://img.lemde.fr/2021/11/23/0/0/5472/3648/110/74/60/0/569c2e1_817548299-000-9t72jf.jpg', 'description': 'Contrairement aux Etats-Unis ou à Israël, la France n’a pas ouvert la vaccination aux jeunes enfants. Pourtant, les exceptions se multiplient, avec des justifications diverses.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Guadeloupe, #noustoutes, Peng Shuai… les cinq infos à retenir du week-end', 'image': 'https://img.lemde.fr/2021/11/21/0/0/1800/1200/110/74/60/0/90081d5_344040001-fotojet-1.jpg', 'description': 'Si vous n’avez pas suivi l’actualité de ce week-end des 20 et 21\xa0novembre, voici ce qu’il faut retenir des dernières quarante-huit heures.'}
2021-11-30 13:26:56 [scrapy.core

2021-11-30 13:26:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/climat/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/facebook-files/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/fragments-de-france/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:56 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/peche-post-brexit/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La « maison commune », rassemblement des différentes chapelles de la majorité, lancée à la Mutualité', 'image': 'https://img.lemde.fr/2021/11/30/0/0/5899/3933/110/74/60/0/c03fd06_215822447-jmug211129062.jpg', 'description': 'L’association Ensemble citoyens\xa0!, qui réunit les soutiens d’Emmanuel Macron en vue 

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': '« On bloque, mais on se bloque aussi » : une nuit sur le barrage de La Boucan, en Guadeloupe', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5999/3996/110/74/60/0/ecdd5e0_712124319-olm-guadeloupe-62.jpg', 'description': 'Depuis le 18\xa0novembre, une partie des habitants de la commune de Sainte-Rose empêche tout accès à la ville pour exprimer un profond mal-être social et économique. «\xa0Le Monde\xa0» a pu passer une nuit derrière les barrages.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Bercy prolonge d’un an la protection des fleurons nationaux', 'image': 'https://img.lemde.fr/2021/11/29/0/480/3292/2195/110/74/60/0/0cd1571_780288981-000-1pq5h3.jpg', 'description': 'Le contrôle du gouvernement pour toute prise de participation d’au moins 10\xa0% par un investisseur non européen dans une société cotée

2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Nissan annonce son grand plan électrique à 15 milliards d’euros', 'image': 'https://img.lemde.fr/2021/11/29/4/369/4217/2811/110/74/60/0/f13b2d1_468684957-000-9rv4hl.jpg', 'description': 'Le constructeur japonais s’appuiera sur une technologie de batterie solide développée en interne, et dont son allié français Renault pourrait profiter.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Quelles sont les capacités de séquençage de nouveaux variants du Covid-19 en France ?', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5341/3560/110/74/60/0/5514049_333427055-000-8za43b.jpg', 'description': 'La France a accru ses efforts dans la surveillance des variants du Covid-19 depuis début 2021, mais le séquençage n’y est pas systématique.'}
2021-11-30 13:26:56 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.f

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Dans le nord du Kenya, la sécheresse affame les hommes et les bêtes', 'image': 'https://img.lemde.fr/2021/11/07/0/0/5398/3599/110/74/60/0/bdbfc35_5510cd56fe3548fca404d69b6f445b1b-5510cd56fe3548fca404d69b6f445b1b-0.jpg', 'description': 'Face au risque d’insécurité alimentaire qui touche déjà 2,5\xa0millions de personnes, la réponse du gouvernement est lente à se mettre en place.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Maroc et Israël signent un accord sécuritaire « sans précédent »', 'image': 'https://img.lemde.fr/2021/11/24/0/0/2120/1413/110/74/60/0/fa45ba7_5075409-01-06.jpg', 'description': 'L’accord intervient un an à peine après la normalisation des relations entre les deux pays, alors que Rabat est en froid avec son voisin algérien.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped fro

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'L’Afghanistan sous le regard de Shahrbanoo Sadat, cinéaste « à l’optimisme naïf »', 'image': 'https://img.lemde.fr/2021/11/29/0/189/1620/1080/110/74/60/0/99495bf_57658494-03-still-the-orphanage-credit-virginie-surdej-1.jpg', 'description': 'La réalisatrice, qui a fui son pays en août, présentait son deuxième long-métrage, «\xa0L’Orphelinat\xa0», au festival Films Femmes Méditerranée à Marseille.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Le télétravail améliorerait la productivité', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5928/3952/110/74/60/0/d9da296_622711920-000-1rn4el.jpg', 'description': 'Alors que sa pratique a décru depuis l’été et que le patronat se montre réticent à sa généralisation, le travail à distance serait bénéfique à la fois aux salariés et aux entreprises, selon une note à pa

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Elle ne dépensait rien » : à Vauvillers, le legs surprise de la religieuse à son église', 'image': 'https://img.lemde.fr/2021/11/22/0/0/975/650/110/74/60/0/d41ad08_154469-3248623.jpg', 'description': 'A sa mort à l’âge de 97 ans, l’ancienne nonne d’un village de Haute-Saône a fait don de 421\xa0000\xa0euros à sa commune pour la rénovation de l’église. Personne n’imaginait que cette femme d’apparence si modeste ait pu économiser une telle somme.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': '« Si les banques centrales ont pu sauver les économies, pourquoi ne le feraient-elles pas pour le réchauf\xadfement climatique ? »', 'image': 'https://img.lemde.fr/2021/11/01/359/0/7370/4903/110/74/60/0/4710859_bd8c37833f6f4b64acae9f0fa6971644-bd8c37833f6f4b64acae9f0fa6971644-0.jpg', 'description': 'Alors que l’équilibre cli

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Entre éleveurs et bergers, la loi des alpages', 'image': 'https://img.lemde.fr/2021/11/02/0/6/6036/4024/110/74/60/0/78a3dec_74805852-027070-009.jpg', 'description': 'Fragments de France | Alors que le métier de berger, au plus près de la nature, n’a jamais autant fasciné les citadins, un conflit opposant deux saisonniers aux éleveurs qui les emploient agite le Queyras.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Pêche post-Brexit : journée d’action nationale des pêcheurs français pour protester contre les licences', 'image': 'https://img.lemde.fr/2021/11/26/0/0/3840/2560/110/74/60/0/f234e78_1e6c96ceb7e047c8ad3cf18ac9cb11f5-1e6c96ceb7e047c8ad3cf18ac9cb11f5-0.jpg', 'description': 'En vertu de l’accord de Brexit, les pêcheurs européens peuvent continuer à travailler dans les eaux britann

2021-11-30 13:26:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:57 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/vaccins-contre-le-covid-19/> (referer: https://www.lemonde.fr)
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un an de prison ferme et 375 000 euros d’amende requis contre François Fillon en appel', 'image': 'https://img.lemde.fr/2021/11/30/0/0/2155/1436/110/74/60/0/7d744de_98469427-000-9t68ej.jpg', 'description': 'Le parquet général a également demandé deux ans de prison avec sursis, 100\xa0000\xa0euros d’amende et deux ans d’inéligibilité envers son épouse Penelope Fillon.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Inondations : une octogénaire retrouvée morte dans le Nord, deux départeme

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'La butte Bergeyre à Paris, un paradis menacé', 'image': 'https://img.lemde.fr/2021/11/22/0/0/1209/802/110/74/60/0/d9154e7_154411-3236557.jpg', 'description': 'Cinq rues bucoliques haut perchées du 19e\xa0arrondissement, presque pas de voitures, de jolies maisons des années 1930… Cet îlot préservé est en danger. Son sous-sol instable fragilise les habitations et les promoteurs immobiliers menacent l’âme du quartier.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Papa, maman, c’est quoi un métis ? » : dans le quotidien riche et complexe des couples mixtes', 'image': 'https://img.lemde.fr/2021/11/26/0/0/5472/3648/110/74/60/0/2428804_528129306-objets-chez-couple-franco-marocain-006.jpg', 'description': 'Les familles multiculturelles françaises doivent composer avec les stéréotypes et les débats identitaires. Qu

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Biélorussie : dans le piège de Loukachenko, des migrants syriens prêts à tout pour entrer en Europe', 'image': 'https://img.lemde.fr/2021/11/25/0/0/4896/3264/110/74/60/0/2c02ae1_508434718-dscf2986-edit2.jpg', 'description': 'Ceux qui ont choisi de passer par Minsk pour gagner la Pologne ou la Lituanie n’étaient pas forcément dupes des intentions du président biélorusse. Mais pour eux, pas question de rester en Turquie, au Liban ou en Jordanie.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': 'Pour modérer 220 millions d’utilisateurs en langue arabe, Facebook n’emploie que 766 modérateurs', 'image': 'https://img.lemde.fr/2021/11/12/0/0/3000/2000/110/74/60/0/4af7fa3_376089961-modo-fr-et-arabe.jpg', 'description': '«\xa0Facebook Files\xa0» | Un document interne du réseau social, datant de 2020, révèle de

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Au procès des attentats du 13-Novembre, les omissions d’un enquêteur sur les « loupés » de la police belge', 'image': 'https://img.lemde.fr/2021/11/27/10/0/3748/2498/110/74/60/0/3b4fb55_6879122-aquindo-26nov-enque-teurs-belges.jpg', 'description': 'Interrogé sur les ratés côté belge, un policier fédéral a éludé la responsabilité de son service. Une avocate a démontré à l’audience qu’il n’en disait pas assez.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle : chez les candidats LR, à chacun sa façon de préparer l’ultime débat', 'image': 'https://img.lemde.fr/2021/11/23/1/0/1496/996/110/74/60/0/541e957_154717-3248737.jpg', 'description': 'Le 30 novembre, Eric Ciotti, Valérie Pécresse, Michel Barnier, Philippe Juvin et Xavier Bertrand, tous prétendant

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à ouvrir une voie légale d’immigration', 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg', 'description': 'Le ministre de l’intérieur français a également affirmé la nécessité d’un accord entre l’Union européenne et le Royaume-Uni et précisé que Jean Castex écrirait mardi à Boris Johnson pour lui proposer un accord.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à ouvrir une voie légale d’immigration', 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg', 'description': 'Le ministre de l’intérieur français a également affirmé la nécessi

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Yan Marchal, satiriste français amateur, persona non grata en Thaïlande', 'image': 'https://img.lemde.fr/2021/11/19/0/0/3840/2560/110/74/60/0/3d1bc44_f52210f428184d878f54ccfa565d105d-aa130e9c2e6e4daa9dbfd8eef17bbf0d-0.jpg', 'description': 'Cet entrepreneur français qui vit à Bangkok depuis 2003 avait pour hobby la satire du gouvernement et des ultraroyalistes sur TikTok.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Affaire Peng Shuai : ce que l’on sait de la disparition de la joueuse de tennis chinoise', 'image': 'https://img.lemde.fr/2021/11/20/21/0/1076/717/110/74/60/0/d348ad4_708567739-screenshot-2.jpg', 'description': 'Deux nouvelles vidéos montrant Peng Shuai à un tournoi de tennis à Pékin ont été publiées par des journalistes proches du pouvoir central chinois.'}
2021-11-30 13:26:57 [scrap

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Steffen Mau : « Sommes-nous prêts à assumer les coûts politiques, sociaux et moraux d’une Europe forteresse ? »', 'image': 'https://img.lemde.fr/2021/11/25/1008/0/3024/2016/110/74/60/0/34fce32_687047041-the-didactic-wall-by-mladen-miljanovic-de-atil1-engraved-drawing-on-marble-2019.jpg', 'description': 'Dans un entretien au «\xa0Monde\xa0», le sociologue allemand explique que, depuis le début des années 2000, les «\xa0murs-frontières\xa0» se multiplient. Si leur objectif est souvent d’empêcher l’arrivée de migrants, il s’agit aussi parfois, pour un Etat, d’affirmer sa souveraineté face à un voisin perçu comme menaçant.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Contre l’Europe, l’arme migratoire des régimes autoritaires', 'image': 'https://img.lemde.fr/2021/11/25/0/0/4896/3264/110/74/60/0/2c02ae1_508

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Sous le golf de Longwy gît la sidérurgie', 'image': 'https://img.lemde.fr/2021/10/07/0/0/1500/1000/110/74/60/0/81795af_874394107-web-526-golf-06.jpg', 'description': 'Dans l’ancien bassin industriel lorrain, l’aciérie historique a cédé la place à un golf en\xa02011. Reposant au milieu du parcours, le haut-fourneau continue de rappeler ce passé ouvrier aux cadres supérieurs venus de Belgique et du Luxembourg parfaire leur swing.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Face à sa nouvelle communauté écologiste, Saint-André entre deux eaux', 'image': 'https://img.lemde.fr/2021/10/07/4/0/5645/3763/110/74/60/0/5f34a39_44081905-sl-hameaux-legers-203.jpg', 'description': 'Dans ce petit bourg des Côtes-d’Armor, la construction d’un hameau de «\xa0maisons réversibles\xa0» par des jeunes d

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Plusieurs villes de l’ouest du Canada paralysées par des pluies torrentielles', 'image': 'https://img.lemde.fr/2021/11/15/0/0/3499/2333/110/74/60/0/d25d7ee_ppp-abb104-canada-flood-1115-11.jpg', 'description': 'Les pluies abondantes en Colombie-Britannique ont provoqué des inondations et des glissements de terrain dans la province. Des milliers de personnes ont dû être évacuées.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'En Camargue, un projet controversé de pont sur le Rhône', 'image': 'https://img.lemde.fr/2021/11/12/0/0/5760/3840/110/74/60/0/89929fc_180283449-034-3238701.jpg', 'description': 'A Salin-de-Giraud, l’ouvrage faciliterait la vie des habitants, mais ouvrirait l’accès routier à des zones protégées.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/clima

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': 'Facebook : Frances Haugen, une lanceuse d’alerte à la démarche très structurée', 'image': 'https://img.lemde.fr/2021/10/05/0/0/3499/2333/110/74/60/0/8ba2a94_17660334-737663.jpg', 'description': 'La spécialiste des «\xa0classements algorithmiques\xa0» a quitté le réseau social en emportant des milliers de documents de forums internes et organise, depuis ses révélations, une sortie médiatique et politique millimétrée.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : lutter contre l’inégalité vaccinale mondiale', 'image': 'https://img.lemde.fr/2021/11/30/0/1/5998/3999/110/74/60/0/7dd516b_190418935-256629.jpg', 'description': 'La trajectoire du nouveau variant Omicron montre, une nouvelle fois, que le virus ignore les frontières. L’équité dans la distribution et l’administration

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Dans le Doubs, du froid, du fioul et beaucoup d’incompréhension', 'image': 'https://img.lemde.fr/2021/10/13/0/0/3000/2000/110/74/60/0/78f6ddf_46040349-img-1212.jpg', 'description': 'La fin progressive des chaudières au fioul domestique, à partir de juillet 2022, agace les habitants de Gilley. Ici, la température chute vite et les autres énergies sont chères.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Entre Béarn et Pays basque, les utopies en campagne', 'image': 'https://img.lemde.fr/2021/10/07/1248/0/3545/2348/110/74/60/0/2ef5df1_105947298-le-monde-fragments-france-labastide-villefranche-reportage-2156.jpg', 'description': 'Le long du gave d’Oloron, dans les Pyrénées-Atlantiques, architectes, artistes, paysagistes et restaurateurs réinventent la ruralité en créant des lieux de vie

2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Comment le Covid-19 a « ruiné les progrès » récents en matière de dépistage et de prévention du sida', 'image': 'https://img.lemde.fr/2021/06/03/0/0/2868/1912/110/74/60/0/509e75f_923643679-000-hkg393499.jpg', 'description': 'A l’approche de la Journée mondiale de lutte contre le sida, mercredi\xa01er\xa0décembre, les associations s’alarment de la chute du nombre de tests de dépistage du VIH et craignent un rebond épidémique à court et moyen termes.'}
2021-11-30 13:26:57 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : lutter contre l’inégalité vaccinale mondiale', 'image': 'https://img.lemde.fr/2021/11/30/0/1/5998/3999/110/74/60/0/7dd516b_190418935-256629.jpg', 'description': 'La trajectoire du nouveau variant Omicron montre, une nouvelle fois, que le virus ignore les frontières. L’équité dans 

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Au procès des attentats du 13-Novembre : « Je suis celui que le terroriste tenait en joue sur la scène »', 'image': 'https://img.lemde.fr/2021/10/13/228/0/2326/1550/110/74/60/0/74adbbb_137390645-guillaume-otage-amimour-12-10-21.jpg', 'description': 'Guillaume a raconté, mardi, à la cour d’assises de Paris, ce moment où le commissaire de la BAC\xa075 et son coéquipier l’ont sauvé en tirant sur le terroriste Samy Amimour.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Emmanuel Macron tente de s’adresser aux catholiques depuis Rome', 'image': 'https://img.lemde.fr/2021/11/24/78/0/4474/2970/110/74/60/0/e035aea_176663765-000-16n0xi.jpg', 'description': 'Le chef de l’Etat doit s’entretenir vendredi avec le pape François, lors d’une audience hautement symbolique.'}
2

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Dans le Kent, des volontaires se mobilisent en faveur des migrants', 'image': 'https://img.lemde.fr/2021/11/25/146/705/2683/1788/110/74/60/0/8bb5e87_e6b6654942a0423a87b42d293f512596-e6b6654942a0423a87b42d293f512596-0.jpg', 'description': 'A Hastings, loin des discours de fermeté du gouvernement de Boris Johnson, une association collecte des fonds et des équipements. Ici, des canots égarés s’échouent désormais presque toutes les semaines.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': '« Travail des enfants, salaires de misère… Cette face sombre de la mondialisation ne peut plus être tolérée »', 'image': 'https://img.lemde.fr/2021/05/08/0/25/3450/2300/110/74/60/0/6962eb0_gggyh07-europe-day-schuman-0508-11.JPG', 'description': 'Alors que la Commission européenne prépare une directive contre l

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Vaccination contre le Covid-19 : le pic des doses de rappel en France devrait avoir lieu en janvier', 'image': 'https://img.lemde.fr/2021/11/26/0/103/906/604/110/74/60/0/1e42f79_607881551-capture-d-e-cran-2021-11-26-a-14-58-24.png', 'description': 'EN UN GRAPHIQUE. La majorité des Français ont complété leur schéma vaccinal au tout début de l’été. La demande de doses de rappel, entre cinq et sept mois après, sera au plus haut début janvier.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Bruxelles recommande une harmonisation du certificat Covid', 'image': 'https://img.lemde.fr/2021/11/26/0/0/3499/2333/110/74/60/0/c3e4327_601668660-852876.jpg', 'description': 'L’Union européenne risque de se fragmenter à nouveau sous l’effet des mesures prises dans chaque pays pour lutter c

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La colère des associations après la mort de 27 migrants dans la Manche : « C’étaient des hommes, des femmes, des enfants, des humains »', 'image': 'https://img.lemde.fr/2021/11/25/207/0/4252/2831/110/74/60/0/edb987f_886966410-l1030694-3.jpg', 'description': 'La plupart des victimes étaient des Kurdes, originaires d’Irak ou d’Iran. Après ce drame inédit, les autorités ciblent les passeurs et les ONG réclament des voies légales de migration vers le Royaume-Uni.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Après le naufrage de migrants dans la Manche, Boris Johnson appelle la France à une meilleure collaboration', 'image': 'https://img.lemde.fr/2021/11/25/0/0/3400/2266/110/74/60/0/5ac74ba_755620893-000-9ta73g.jpg', 'description': 'Les deux pays «\xa0sont convenus de l’urgence de ren

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Le dilemme des journalistes face aux propos de Salah Abdeslam', 'image': 'https://img.lemde.fr/2021/09/14/8/0/1500/1000/110/74/60/0/f025fc1_136053-3238466.jpg', 'description': 'Dès le début du procès des attentats du 13-Novembre, les médias ont été confrontés aux propos provocants du principal accusé, seul membre encore en vie du commando terroriste. Et s’interrogent sur la place à lui accorder.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'title': 'Les policiers de la BAC75N, premiers à entrer dans le Bataclan et héros « oubliés » de l’assaut', 'image': 'https://img.lemde.fr/2021/09/17/641/802/3472/2314/110/74/60/0/58fd74f_751489399-v6a7294.jpg', 'description': 'Le soir du 13\xa0novembre\xa02015, l’intervention des membres de la BAC de nuit est restée longtemps

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Assister à un concert masqué ne présente pas de risque de contamination aggravé', 'image': 'https://img.lemde.fr/2021/07/09/0/0/6000/4000/110/74/60/0/50321b9_964957763-choix-29052021-l2340627.jpg', 'description': 'L’étude menée à l’occasion d’un concert d’Indochine, en mai à Paris, montre que la jauge admise lors d’un spectacle influe peu sur le risque de transmission\xa0: seuls comptent vraiment les gestes barrières et le passe sanitaire.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'L’Europe veut sanctionner la Biélorussie, responsable d’un afflux de migrants à la frontière de la Pologne', 'image': 'https://img.lemde.fr/2021/11/08/0/0/3072/2048/110/74/60/0/eaf3cfe_5979956-01-06.jpg', 'description': 'L’Union européenne accuse le président biélorusse, Alexandre Loukachenko – lequel dément –

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Pascal Brice, Daniel Cohn-Bendit et Romain Goupil : face à la crise migratoire, « l’UE ne peut pas se transformer en financeur de barbelés »', 'image': 'https://img.lemde.fr/2021/11/16/0/0/3072/2048/110/74/60/0/78fc3a6_5025544-01-06.jpg', 'description': 'L’ex-directeur de l’\xa0l’Office français de protection des réfugiés et apatrides, l’ancien député européen et le réalisateur prônent la fermeté à l’égard du régime biélorusse et exigent un accueil digne et maîtrisé des réfugiés, pour des raisons humanitaires et économiques.'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'A la frontière entre la Biélorussie et la Pologne, des milliers de migrants visés par des canons à eau et des gaz lacrymogènes', 'image': 'https://img.lemde.fr/2021/11/16/47/0/2831/1887/110/74/60/0/680e7d8_b1788369

2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Guadeloupe : l’obligation vaccinale des soignants ne sera pas levée, selon le gouvernement', 'image': 'https://img.lemde.fr/2021/11/25/0/0/3885/2590/110/74/60/0/7dca9b6_5080452-01-06.jpg', 'description': 'Les maires de l’île avaient plaidé pour une suspension du dispositif lors d’une réunion en visioconférence avec le ministre des outre-mer, Sébastien Lecornu. Le ministère s’est engagé à appliquer la loi «\xa0avec proportionnalité et discernement\xa0».'}
2021-11-30 13:26:58 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : En Guyane, le couvre-feu est levé suite à la décrue de l’épidémie', 'image': 'https://img.lemde.fr/2021/11/25/85/0/2048/1365/110/74/60/0/5f85e52_30732113-kourou-beach.jpeg', 'description': 'Cinq communes dont Cayenne et Kourou y étaient toujours soumises de 22\xa0heures à 5\xa

In [25]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.xml

2021-11-30 13:27:01 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:27:01 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:27:01 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:27:01 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:27:01 [scrapy.extensions.telnet] INFO: Telnet Password: 3bafdb57374ecddc
2021-11-30 13:27:01 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:27:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Comment le Covid-19 a « ruiné les progrès » récents en matière de dépistage et de prévention du sida', 'image': 'https://img.lemde.fr/2021/06/03/0/0/2868/1912/110/74/60/0/509e75f_923643679-000-hkg393499.jpg', 'description': 'A l’approche de la Journée mondiale de lutte contre le sida, mercredi\xa01er\xa0décembre, les associations s’alarment de la chute du nombre de tests de dépistage du VIH et craignent un rebond épidémique à court et moyen termes.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Le Maroc disposé à favoriser une reprise des négociations entre Israël et Palestiniens', 'image': 'https://img.lemde.fr/2021/11/30/0/0/2250/1500/110/74/60/0/fecb7fe_278284556-000-9tb4y4.jpg', 

2021-11-30 13:27:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sport/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Omicron : le nouveau variant détecté dans de plus en plus de pays, l’OMS s’inquiète d’un « risque très élevé » à l’échelle planétaire', 'image': 'https://img.lemde.fr/2021/11/29/0/0/3500/2333/110/74/60/0/9c508bb_ggg-aus101-health-coronavirus-australia-1129-11.jpg', 'description': 'L’Organisation mondiale de la santé estime que le variant du SARS-CoV-2 présente un nombre de mutations «\xa0sans précédent\xa0», dont plusieurs «\xa0sont préoccupantes en raison de leur impact potentiel sur la trajectoire de l’épidémie\xa0» de Covid-19.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Grande Sécu » : « Les primes des complémentaires sont doublement inégalitaires, aux dépens des plus pauvr

2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'RDC : l’attaque d’un camp de déplacés fait vingt-deux morts en Ituri', 'image': 'https://img.lemde.fr/2021/11/22/0/0/3600/2400/110/74/60/0/6adf46d_5064392-01-06.jpg', 'description': 'Les miliciens du groupe Codeco, qui prétend défendre les intérêts de la communauté des Lendu de cette province, sont soupçonnés d’être responsables de l’assaut.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'En RDC, l’armée ougandaise autorisée à passer la frontière pour traquer les rebelles ADF', 'image': 'https://img.lemde.fr/2021/11/16/0/0/4093/2728/110/74/60/0/5edc48f_9c90fa69f8304308a1a6479c68cdd49b-9c90fa69f8304308a1a6479c68cdd49b-0.jpg', 'description': 'Certains voient cette décision comme une «\xa0solution provisoire\xa0» avant une réorganisation de l’armée congolaise, alors que près de 1\xa0200 civils ont été massacrés dans

2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des réseaux sociaux dans le cadre de sa fusion avec Giphy, spécialisé dans les animations courtes sur Internet.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'La FAGE, école du terrain pour les futurs responsables politiques', 'image': 'https://img.lemde.fr/2021/04/27/0/0/5568/3712/110/74/60/0/e64d4ed_981380121-000-13f924.jpg', 'description': 'Le syndicat étudiant, qui se dit apartisan, a «\xa0formé\xa0» de nombreux jeunes qui ont ensuite intégré des cabinets ou s

2021-11-30 13:27:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/facebook-files/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/actualite-en-continu/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Ghada Hatem, celle qui répare les femmes victimes de violences', 'image': 'https://img.lemde.fr/2021/11/10/301/0/5315/3540/110/74/60/0/625ee38_575873577-le-monde-allongement-delais-ivg-mai-2020-02.jpg', 'description': 'La gynécologue obstétricienne a créé la Maison des femmes à Saint-Denis en\xa02016. Depuis, des dizaines d’autres structures ont vu le jour, grâce à son combat féministe pour mieux soigner les femmes victimes de violences.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« L’accès aux vaccins pour tous est une question d

2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': '« C’est aller vite en besogne de prétendre que les Ottomans sont accourus à l’appel des élites algéroises »', 'image': 'https://img.lemde.fr/2021/11/25/5/0/3475/2310/110/74/60/0/096b6a9_750485831-pns-2779040.jpg', 'description': 'L’un des frères Barberousse, après avoir chassé les Espagnols d’Alger, prit la décision de se déclarer vassal du sultan ottoman en\xa01520, avec l’accord des oulémas et des notables algérois, précise l’historien Alain Blondy, qui répond à une précédente tribune au «\xa0Monde\xa0» de l’historien M’hamed Oualdi.'}
2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Danse au Maroc, expo au Sénégal, débat d’idées en Mauritanie : l’agenda culturel du « Monde Afrique »', 'image': 'https://img.lemde.fr/2021/11/26/0/6/2386/1591/110/74/60/0/3cab7ad_376377670-2006-06-22t000000z-1978779432-gm1dswsihja

2021-11-30 13:27:02 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'L’activité physique a un effet anxiolytique', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5464/3643/110/74/60/0/2133543_888610936-000-1oo79a.jpg', 'description': 'Une étude suédoise a montré que l’exercice physique réduit l’anxiété. Un constat partagé, qui devrait conduire à prescrire plus largement l’activité physique.'}
2021-11-30 13:27:02 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/fragments-de-france/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/bielorussie/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Sur la 5G, nous demandons à l’Anses de rétablir sa crédibilité en matière d’expertise »', 'image': 'https://img.lemde.fr/2021/11/17/1/0/5200/3466/110/74/60/0/c39a803_5111

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 à l’école : un nouveau protocole sanitaire, des dépistages qui explosent et une incidence en forte hausse', 'image': 'https://img.lemde.fr/2021/11/30/24/0/1044/695/110/74/60/0/6b97d54_171834610-capture-d-e-cran-2021-11-30-a-11-15-59.png', 'description': 'Le nouveau protocole sanitaire à l’école sera généralisé à partir du 6\xa0décembre. Les fermetures de classes sont évitées, au profit de tests conditionnant le retour en classe.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Comment la pandémie de Covid-19 a bouleversé l’édition scientifique', 'image': 'https://img.lemde.fr/2021/11/29/441/0/3090/2060/110/74/60/0/9422e58_348158779-bios-2444399.jpg', 'description': 'En\xa02020, la croissance spectaculaire du nombre d’articles scientifiques consacrés au Covid s’est accompagnée d’une baisse de 18\xa0% de

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les incendies dopés par la disparition des grands herbivores', 'image': 'https://img.lemde.fr/2021/11/26/0/0/4768/3179/110/74/60/0/991c654_448040779-000-jm67f.jpg', 'description': 'Des scientifiques américains ont établi un lien direct entre l’extinction de la mégafaune à la fin du quaternaire et l’augmentation massive des feux de prairie.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Une intoxication par des champignons entraîne des troubles moteurs mimant une sclérose latérale amyotrophique', 'image': 'https://img.lemde.fr/2021/11/27/25/0/640/426/110/74/60/0/1e230dd_603432748-1dd36221-scle-rose-late-rale-amyotrophique-champignons-morilles-fausses-morelles-neurologie-gyromitres-gyromitre-gyromitra-gigas-gygomitra-esculenta.jpg', 'description': 'Un homme ayant consommé des champignons en 2015 s’est vu diagnos

2021-11-30 13:27:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Le GHB de nouveau mis en cause dans des cas de violences sexuelles dans des bars', 'image': 'https://img.lemde.fr/2021/11/11/162/232/591/394/110/74/60/0/bf2ef71_419493107-ghb.png', 'description': 'Devant l’afflux de témoignages, plusieurs appels au boycott d’établissements ont été lancés en Belgique. Et le phénomène concerne aussi le Royaume-Uni et la France. En cause, le GHB, ou «\xa0drogue du violeur\xa0», ingéré à leur insu par les victimes.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Aux urgences du Mans, tenir bon malgré la désertif

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Pesticides : la nouvelle hégémonie chinoise', 'image': 'https://img.lemde.fr/2021/11/29/0/0/3000/2000/110/74/60/0/1420ec7_88835561-2020-11-12t000000z-797837569-mt1ltana0002eabc5-rtrmadp-3-africa-animals-environment-kenya-locusts.JPG', 'description': 'Selon une enquête dévoilée mardi et menée par un groupe d’experts pour le compte d’ONG, la Chine produit chaque année près de la moitié des 4\xa0millions de tonnes fabriquées dans le monde.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'A la Guadeloupe, couvre-feu prolongé après une brève rencontre entre des syndicats et le ministre des outre-mer', 'image': 'https://img.lemde.fr/2021/11/29/0/0/5568/3712/110/74/60/0/1e363dc_5103999-01-06.jpg', 'description': 'Les discussions ont tourné court, les syndicats refusant de «\xa0condamner des tentatives d’assassinat con

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un régulateur britannique ordonne à Facebook de vendre Giphy', 'image': 'https://img.lemde.fr/2021/11/18/0/144/3453/2302/110/74/60/0/1e470e2_846c296cb77d44f48a34177c63f2de8a-846c296cb77d44f48a34177c63f2de8a-0.jpg', 'description': 'Le mois dernier, le gendarme britannique de la concurrence avait infligé une amende de 50,5\xa0millions de livres au géant des réseaux sociaux dans le cadre de sa fusion avec Giphy, spécialisé dans les animations courtes sur Internet.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Handicap moteur : une solution d’électrostimulation reproduit les mouvements', 'image': 'https://img.lemde.fr/2021/11/22/54/0/1776/1184/110/74/60/0/3b85efb_575381449-werize-he-pha-rower-mobility-2.jpg', 'description': 'Une technique d’électrostimulation permet à des personnes avec un handicap

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'L’association de consommateurs CLCV assigne quatre fournisseurs d’électricité en justice', 'image': 'https://img.lemde.fr/2021/11/30/0/4/4464/2976/110/74/60/0/e80dd47_392139661-electricite.jpg', 'description': 'Mint Energie, GreenYellow, OVO Energy et ekWateur, qui représentent entre 500\xa0000\xa0et 600\xa0000\xa0clients particuliers, sont attaqués pour certaines de leurs pratiques.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Dans les universités, des élections plus que jamais désertées par les étudiants', 'image': 'https://img.lemde.fr/2021/11/29/90/0/7542/5028/110/74/60/0/5492aea_606694772-elections-clr-01.jpeg', 'description': 'Alors que les taux d’abstention aux élections universitaires battent des records, les étudiants pourront pour la première voter en ligne, du 6 au 10\xa0décembre, pour désigner l

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Quelles sont les données qui montrent la dégradation de la santé psychique des Français ?', 'image': 'https://img.lemde.fr/2019/09/12/0/268/4753/3169/110/74/60/0/639cae6_tpEnHcMJxPZjMTnS0Mnlos5C.jpg', 'description': 'Etats anxieux et dépressifs, recours aux antidépresseurs, hospitalisations pour tentative de suicide… Différents indicateurs restent au rouge depuis le début de la pandémie.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Inondations : une octogénaire retrouvée morte dans le Nord, deux départements toujours en vigilance « crues »', 'image': 'https://img.lemde.fr/2021/11/29/0/95/774/516/110/74/60/0/85f83d3_613991910-capture.PNG', 'description': 'Selon la gendarmerie, cette dame, «\xa0sujette à malaise, aurait fait une chute dans l’escalier et s’est noyée\xa0» dans sa cave. Le Nord et le Pas-de-Cala

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/fragments-de-france/>
{'title': 'Entre éleveurs et bergers, la loi des alpages', 'image': 'https://img.lemde.fr/2021/11/02/0/6/6036/4024/110/74/60/0/78a3dec_74805852-027070-009.jpg', 'description': 'Fragments de France | Alors que le métier de berger, au plus près de la nature, n’a jamais autant fasciné les citadins, un conflit opposant deux saisonniers aux éleveurs qui les emploient agite le Queyras.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Comment la crise sanitaire a secoué le journalisme', 'image': 'https://img.lemde.fr/2021/11/22/0/14/5602/3735/110/74/60/0/d6b54f3_6e4b54ce7c184d6088af1bc0c66f06ea-6e4b54ce7c184d6088af1bc0c66f06ea-0.jpg', 'description': 'Dans la revue «\xa0Cahiers Droit, Sciences & Technologies\xa0», les journalistes Stéphane Foucart et Sylvestre Huet reviennent sur le thème de l’information scientifiqu

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Biélorussie : dans le piège de Loukachenko, des migrants syriens prêts à tout pour entrer en Europe', 'image': 'https://img.lemde.fr/2021/11/25/0/0/4896/3264/110/74/60/0/2c02ae1_508434718-dscf2986-edit2.jpg', 'description': 'Ceux qui ont choisi de passer par Minsk pour gagner la Pologne ou la Lituanie n’étaient pas forcément dupes des intentions du président biélorusse. Mais pour eux, pas question de rester en Turquie, au Liban ou en Jordanie.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Comparez les programmes des cinq prétendants à l’investiture des Républicains pour la présidentielle', 'image': 'https://img.lemde.fr/2021/11/30/283/0/6916/4610/110/74/60/0/63b7660_913407538-000-9rn49j.jpg', 'description': 'Retrouvez les principales propositions des cinq prétendants à l’investiture des Républicain

2021-11-30 13:27:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemonde.fr)
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Peter Scolari, acteur de « Chérie, j’ai rétréci les gosses » et de « Girls », meurt à 66 ans', 'image': 'https://img.lemde.fr/2021/10/24/158/0/2586/1724/110/74/60/0/3f78cfa_178971387-063-453792576.jpg', 'description': 'Scolari est mort, vendredi matin, d’un cancer qu’il combattait depuis deux ans.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Marcel Bluwal, réalisateur pionnier de la télévision, est mort', 'image': 'https://img.lemde.fr/2021/10/24/47/0/1899/1266/110/74/60/0/8888d2e_602264867-000-par

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Sciences Po Paris : plus que trois candidats en lice pour la direction', 'image': 'https://img.lemde.fr/2018/02/07/0/0/5472/3648/110/74/60/0/bb97b05_8431-1l2ajns.pedkl.jpg', 'description': 'La commission chargée d’organiser la succession de Frédéric Mion a retenu trois noms - Olivier Faron, Christine Musselin, Mathias Vicherat - sur lesquels les deux conseils de gouvernance de l’établissement voteront les 9 et 10\xa0novembre.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Laissez-nous vivre ! » : dans le Béarn, les rêves et les cauchemars des enfants d’agriculteurs', 'image': 'https://img.lemde.fr/2021/10/02/0/0/5749/3833/110/74/60/0/a597b14_481022227-lgeau-lycee-agricole-fragment94.jpg', 'description': 'Au lycée agricole de Pau-Montardon, s’épanouit une jeunesse rurale dont l’horizon est souvent la reprise de l

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Pêche post-Brexit : journée d’action nationale des pêcheurs français pour protester contre les licences', 'image': 'https://img.lemde.fr/2021/11/26/0/0/3840/2560/110/74/60/0/f234e78_1e6c96ceb7e047c8ad3cf18ac9cb11f5-1e6c96ceb7e047c8ad3cf18ac9cb11f5-0.jpg', 'description': 'En vertu de l’accord de Brexit, les pêcheurs européens peuvent continuer à travailler dans les eaux britanniques à condition de prouver qu’ils y pêchaient auparavant. Mais Français et Britanniques se disputent sur la nature et l’ampleur des justificatifs à fournir.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': '« Si les banques centrales ont pu sauver les économies, pourquoi ne le feraient-elles pas pour le réchauf\xadfement climatique ? »', 'image': 'https://img.lemde.fr/2021/11/01/359/0/7370/4903/110/74/60/0/4710859_bd8c37833f6f4b64ac

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Sébastien Rogues et Matthieu Souben remportent la Transat Jacques Vabre, Franck Cammas et Charles Caudrelier triomphent en Ultim', 'image': 'https://img.lemde.fr/2021/11/23/0/0/4408/2939/110/74/60/0/0643dc3_252432407-648905.jpg', 'description': 'Arrivé dans la nuit à Fort-de-France, le duo s’impose en Ocean Fifty à bord de «\xa0Primonial\xa0», en un peu plus de quinze jours et treize heures. Franck Cammas et Charles Caudrelier (Maxi Edmond de Rothschild) l’ont emporté mardi dans la catégorie Ultim.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'En montagne, le débat est ouvert sur un avenir sans neige et sans ski', 'image': 'https://img.lemde.fr/2021/11/22/0/0/5616/3744/110/74/60/0/1270e42_589772417-maury-itemlameije-lemonde-0003.jpg', 'description': 'La question du changement de modèle de développement agite les

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Le chanteur corse Petru Guelfucci est mort', 'image': 'https://img.lemde.fr/2021/10/08/0/8/402/268/110/74/60/0/2f44d40_758075548-capture.PNG', 'description': 'Souvent présenté comme l’une des plus belles voix de la chanson corse, le chanteur, qui était hospitalisé à Marseille, est mort à 66\xa0ans des suites d’une longue maladie.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Obsèques de Bernard Tapie : Marseille enterre « un mythe »', 'image': 'https://img.lemde.fr/2021/10/08/0/63/5442/3628/110/74/60/0/457465f_5788117-01-06.jpg', 'description': 'L’homme d’affaires, qui fut aussi président de l’Olympique de Marseille, souhaitait être enterré dans le petit cimetière de Mazargues, dans le sud de la cité phocéenne.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemond

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': 'Santé mentale des adolescents : Instagram mis en difficulté par les sénateurs américains', 'image': 'https://img.lemde.fr/2021/09/27/0/226/4548/3032/110/74/60/0/34d28be_5721808-01-06.jpg', 'description': 'Une haute responsable de Facebook était entendue par les sénateurs américains après une série de révélations du «\xa0Wall Street Journal\xa0» montrant que l’entreprise avait conscience des impacts négatifs de ses services sur les adolescents.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'title': 'Facebook accusé d’inaction face à des dérives créées par ses applications', 'image': 'https://img.lemde.fr/2021/09/16/0/0/4555/3037/110/74/60/0/7db48c0_a75ee0291c8b45ff8d0b9b6eda7dcce5-a75ee0291c8b45ff8d0b9b6eda7dcce5-0.jpg', 'description': 'Le « Wall Street Journal » révèle que le réseau social, alerté par de

2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Valérie Pécresse dévoile son projet de réforme constitutionnelle « sur la sécurité intérieure et contre l’islamisme »', 'image': 'https://img.lemde.fr/2021/11/15/0/0/6720/4480/110/74/60/0/73f5942_867754864-cbi0947066.jpg', 'description': 'La candidate à l’investiture du parti Les Républicains souhaite notamment étendre le champ de la légitime défense, mettre en place des peines planchers et renforcer les prérogatives de la police municipale.'}
2021-11-30 13:27:03 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les nouveaux paradoxes de la physique quantique', 'image': 'https://img.lemde.fr/2021/11/25/1096/261/3876/2584/110/74/60/0/9664414_330507597-out-of-joint-2019-switched-vintage-photo-136x84mm-copie.jpg', 'description': 'Omniprésente dans les nouvelles technologies, la physique quantique fait partie de

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'La joueuse de tennis chinoise Peng Shuai a parlé en vidéo avec le président du CIO', 'image': 'https://img.lemde.fr/2021/11/21/0/155/1588/1059/110/74/60/0/8b0abb8_3584625-screenshot-1.jpg', 'description': 'Alors que la communauté internationale s’inquiétait de la disparition de la sportive, des vidéos avaient montré une apparition à un tournoi à Pékin, mais des doutes persistent.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Ligue 1 : Peter Bosz le « Toulonnais » retrouve Marseille pour son premier « olympico »', 'image': 'https://img.lemde.fr/2021/10/21/0/0/2925/1950/110/74/60/0/920fd1a_41ddb43992c14ad4859d9a3ae52b1b86-41ddb43992c14ad4859d9a3ae52b1b86-0.jpg', 'description': 'Pour avoir évolué trois ans à Toulon comme joueur à la fin des années 1980, l’entraîneur de Lyon connaît la rivalité avec l’OM, qu’il défi

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 : le port du masque rétabli en plein air dans les endroits fréquentés à Paris, et dans les équipements sportifs', 'image': 'https://img.lemde.fr/2021/07/15/0/0/3621/2414/110/74/60/0/331317b_5220700-01-06.jpg', 'description': 'Le préfet de police de Paris a annoncé, vendredi, avoir pris un arrêté rendant le port du masque à nouveau obligatoire lors de rassemblements sur la voie publique, de festivals, de spectacles, de marchés, de brocantes ou encore dans les files d’attente.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Brésil : inquiétante ruée vers l’or en Amazonie', 'image': 'https://img.lemde.fr/2021/11/24/0/0/3499/2333/110/74/60/0/0faf5c4_ggg-sms204-brazil-environment-mining-1123-11.jpg', 'description': 'Des centaines d’embarcations d’orpailleurs s’amassent depuis plusieurs jours sur le rio Mad

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle : chez les candidats LR, à chacun sa façon de préparer l’ultime débat', 'image': 'https://img.lemde.fr/2021/11/23/1/0/1496/996/110/74/60/0/541e957_154717-3248737.jpg', 'description': 'Le 30 novembre, Eric Ciotti, Valérie Pécresse, Michel Barnier, Philippe Juvin et Xavier Bertrand, tous prétendants à l’investiture présidentielle pour Les Républicains, débattront une dernière fois avant le vote des militants du parti.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Jersey, l’île anglo-normande qui se retrouve au milieu de la bataille de la pêche entre Paris et Londres', 'image': 'https://img.lemde.fr/2021/11/02/0/0/4500/3000/110/74/60/0/00557af_190523814-jersey-alcock-029.JPG', 'description': 'La fermeture des ports français supprimerait 80 % des débouchés pour les p

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un an de prison ferme et 375 000 euros d’amende requis contre François Fillon en appel', 'image': 'https://img.lemde.fr/2021/11/30/0/0/2155/1436/110/74/60/0/7d744de_98469427-000-9t68ej.jpg', 'description': 'Le parquet général a également demandé deux ans de prison avec sursis, 100\xa0000\xa0euros d’amende et deux ans d’inéligibilité envers son épouse Penelope Fillon.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Inondations : une octogénaire retrouvée morte dans le Nord, deux départements toujours en vigilance « crues »', 'image': 'https://img.lemde.fr/2021/11/29/0/95/774/516/110/74/60/0/85f83d3_613991910-capture.PNG', 'description': 'Selon la gendarmerie, cette dame, «\xa0sujette à malaise, aurait fait une chute dans l’escalier et s’est noyée\xa0» dans sa cave. Le Nord et le Pas-de

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'La France pèse-t-elle vraiment 10 % à 15 % des dépenses sociales mondiales ?', 'image': 'https://img.lemde.fr/2021/10/13/0/0/5760/3840/110/74/60/0/d9a2afa_444189089-pns-6307555.jpg', 'description': 'Dans une attaque contre l’«\xa0assistanat\xa0», Eric Zemmour a repris un chiffre souvent agité par la droite libérale. Il est pourtant remis en question, y compris par Julien Damon, le sociologue à son origine.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Des millions de fausses cartes Vitale sont-elles vraiment en circulation ?', 'image': 'https://img.lemde.fr/2021/10/12/0/0/5314/3543/110/74/60/0/0a220c0_71343661-pns-1081421.jpg', 'description': 'DERRIÈRE LE CHIFFRE. Nicolas Dupont-Aignan déplore dans son dernier livre l’«\xa0incroyable scandale des millions de cartes Vitale surnuméraires\xa0», mais

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Variant Omicron : les contaminations grimpent en flèche en Afrique du Sud', 'image': 'https://img.lemde.fr/2021/11/30/115/0/5043/3362/110/74/60/0/ef63fa6_953545865-256337.jpg', 'description': 'Les experts estiment que le pays pourrait enregistrer plus de 10\xa0000 cas de Covid-19 par jour d’ici à la fin de la semaine, contre 300 à la mi-novembre.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 à l’école : un nouveau protocole sanitaire, des dépistages qui explosent et une incidence en forte hausse', 'image': 'https://img.lemde.fr/2021/11/30/24/0/1044/695/110/74/60/0/6b97d54_171834610-capture-d-e-cran-2021-11-30-a-11-15-59.png', 'description': 'Le nouveau protocole sanitaire à l’école sera généralisé à partir du 6\xa0décembre. Les fermetures de classes sont évitées, au profi

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Pêche post-Brexit : l’Union européenne et le Royaume-Uni sont parvenus à un accord', 'image': 'https://img.lemde.fr/2020/12/09/1/0/3500/2333/110/74/60/0/a96ee20_gggpr13-britain-eu-fishing-1209-11.JPG', 'description': 'L’accord, dont la signature est attendue dans les prochains jours, garantit les droits de pêche des flottes des deux parties dans leurs eaux respectives jusqu’à la fin de 2021. L’échange de quotas sera possible.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'Tensions à Jersey : la pêche dans la Manche, un sujet encore conflictuel après l’accord post-Brexit', 'image': 'https://img.lemde.fr/2021/05/07/0/62/2927/1949/110/74/60/0/994ff94_857954860-choix.jpg', 'description': 'Les pêcheurs français reprochent aux Britanniques de ne pas respecter l’accord commercial consécutif au Br

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': '« Le dédoublement des CP et CE1 repose sur une logique chiffrée dont l’efficacité reste encore à démontrer »', 'image': 'https://img.lemde.fr/2019/11/18/0/0/5568/3712/110/74/60/0/86cd780_6s5vUWxaCc15cYGg7Nqjt4Tb.jpg', 'description': 'Yannick Trigance, conseiller régional d’Ile-de-France et secrétaire national chargé de l’éducation au sein du PS, estime, dans une tribune au «\xa0Monde\xa0», que le ministre de l’éducation Jean-Michel Blanquer se satisfait un peu trop vite des mesures prises dans les écoles primaires des réseaux prioritaires.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Autonomie de la Guadeloupe : les enjeux d’un débat nécessaire', 'image': 'https://img.lemde.fr/2021/11/28/0/0/5407/3604/110/74/60/0/60c9145_553338558-667252.jpg', 'description': 'Le ministre des outre-mer, qui s’est rendu aux 

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Pandora Papers » : sur les traces du pilleur de temples khmers', 'image': 'https://img.lemde.fr/2021/10/05/668/192/1696/1131/110/74/60/0/e891290_245278625-aladdin-antiquite-s-appel.jpg', 'description': 'Le collectionneur Douglas Latchford, accusé d’avoir pillé des centaines d’antiquités au\xa0Cambodge, a monté des structures offshore opaques juste après être entré dans le viseur de la justice américaine.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Pandora Papers » : les millions envolés des Légionnaires du Christ', 'image': 'https://img.lemde.fr/2021/10/05/476/610/2036/1357/110/74/60/0/dcc614e_503738049-aladdin-le-gionnaires-christ-appel.jpg', 'description': 'Des figures de cette congrégation catholique secouée par les scandales sexuels ont discrètement exfiltré des centaines de millions de

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Matthieu Orphelin, porte-parole de Yannick Jadot et proche de Nicolas Hulot, mis « en retrait » de la campagne écologiste', 'image': 'https://img.lemde.fr/2021/11/27/0/3/4026/2684/110/74/60/0/1460598_5095481-01-06.jpg', 'description': 'Après les accusations de viol et d’agressions sexuelles qui visent l’ancien ministre, le directeur de campagne du candidat d’EELV explique que Matthieu Orphelin n’a plus la «\xa0sérénité nécessaire à l’exercice de ses fonctions\xa0». Ce dernier évoque, lui, des «\xa0tensions internes\xa0» liées à la campagne.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Election présidentielle 2022 : à Marseille, Eric Zemmour termine une visite ratée par un doigt d’honneur', 'image': 'https://img.lemde.fr/2021/11/27/1/0/5564/3709/110/74/60/0/6fd742f_5

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Présidentielle 2022 : à Marseille, la précampagne d’Eric Zemmour finit mal', 'image': 'https://img.lemde.fr/2021/11/27/0/0/3499/2333/110/74/60/0/e11fac4_155473214-monge-myop-zemmour-31.jpg', 'description': 'Le polémiste d’extrême droite et quasi-candidat à l’élection d’avril\xa02022 a conclu son tour de France en solitaire. Cet épilogue intervient après une série de défections.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Rachat de « La Provence » : Rodolphe Saadé et Xavier Niel à l’heure des offres', 'image': 'https://img.lemde.fr/2021/11/29/0/4/4920/3280/110/74/60/0/fb86605_669630082-000-par7622195.jpg', 'description': 'Les deux chefs d’entreprise déposeront, mardi 30\xa0novembre, leurs propositions chiffrées pour la reprise du quotidien marseillais, dont la valeur est estimée à 40\xa0milli

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'A la frontière entre la Pologne et la Biélorussie, l’enfer des migrants', 'image': 'https://img.lemde.fr/2021/10/16/316/0/4743/3162/110/74/60/0/4620d0c_455215219-jn543565.jpg', 'description': 'Des centaines de réfugiés errent dans la forêt, dans la peur des refoulements et des menaces des gardes-frontières.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'Quand le biélorusse devient la « langue de l’opposition »', 'image': 'https://img.lemde.fr/2021/10/07/1/0/8192/5461/110/74/60/0/da74203_308788672-000-9ku9q4.jpg', 'description': 'L’usage de cet idiome, jusqu’ici marginalisé au profit du russe, apparaît comme un nouveau marqueur du mouvement de contestation face au régime d’Alexandre Loukachenko.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>


2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'title': 'En France, le secteur de la pêche se prépare à la tempête du Brexit', 'image': 'https://img.lemde.fr/2017/05/23/0/4/4248/2832/110/74/60/0/6e1beb7_15441-1cemgd3.pbvox647vi.jpg', 'description': 'Avec la sortie du Royaume-Uni de l’UE et les risques de démantèlement de la politique commune de la pêche, la filière halieutique, inquiète, s’organise. En France, trente ports sont concernés.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Les émissions mondiales de CO2 rebondissent à leur niveau d’avant la crise sanitaire', 'image': 'https://img.lemde.fr/2021/11/03/0/6/6036/4024/110/74/60/0/5dc8bee_577180779-561556.jpg', 'description': 'Les émissions de la Chine et de l’Inde devraient dépasser les valeurs pré-Covid, du fait d’un recours accru au charbon. A l’inverse, celles de l’Union européenne et des Etats-U

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Covid-19 : « Le passe sanitaire doit servir à accélérer les doses de rappel »', 'image': 'https://img.lemde.fr/2021/10/25/0/0/6000/4000/110/74/60/0/40648ef_8a1a5713d20a4c6cafb56ca9f336b7e2-8a1a5713d20a4c6cafb56ca9f336b7e2-0.jpg', 'description': 'Face à la rapide propagation du virus, le mathématicien Miquel Oliu-Barton et l’économiste Bary Pradelski pressent, dans une tribune au «\xa0Monde\xa0», le gouvernement de rendre accessible sans attendre une troisième dose de vaccin pour tous et de renforcer les critères du passe sanitaire.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'title': 'En Pologne, le gouvernement national conservateur organise une opération de dénigrement des migrants', 'image': 'https://img.lemde.fr/2021/09/28/10/0/3500/2333/110/74/60/0/fb6a16d_ag104-europe-migrants-belarus-po

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Yannick Jadot veut rassembler la gauche à la présidentielle, Anne Hidalgo répond que seule « la social-démocratie » peut y parvenir', 'image': 'https://img.lemde.fr/2021/11/18/0/0/3306/2204/110/74/60/0/7313b92_5039923-01-06.jpg', 'description': 'Persuadés que la gauche peut encore gagner alors que l’élection présidentielle aura lieu dans moins de cinq mois, les candidats écologistes et socialistes appellent au rassemblement… sans tomber d’accord sur qui peut encore l’incarner.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Présidentielle 2022 : LRM déjà en quête des parrainages pour Emmanuel Macron', 'image': 'https://img.lemde.fr/2021/11/22/0/0/3600/2400/110/74/60/0/b689e92_367667498-macron-nord-aisne-05.jpg', 'description': 'Lundi, une réunion a eu lieu dans la mati

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Qui sont les 17 000 enfants de moins de 12 ans déjà vaccinés contre le Covid-19 en France ?', 'image': 'https://img.lemde.fr/2021/11/23/0/0/5472/3648/110/74/60/0/569c2e1_817548299-000-9t72jf.jpg', 'description': 'Contrairement aux Etats-Unis ou à Israël, la France n’a pas ouvert la vaccination aux jeunes enfants. Pourtant, les exceptions se multiplient, avec des justifications diverses.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'title': 'Vaccin contre le Covid-19 : la perspective d’une troisième dose pour tous les adultes se précise', 'image': 'https://img.lemde.fr/2021/11/17/0/17/3465/2310/110/74/60/0/027fda6_gggmahe03-health-coronavirus-france-1117-11.jpg', 'description': 'Selon le conseil scientifique et le conseil d’orientation de la stratégie vaccinale, l’élargissement du

2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Le Var, désormais unique département en vigilance orange', 'image': 'https://img.lemde.fr/2021/10/30/109/0/1010/672/110/74/60/0/d1cf4f5_373756965-capture-d-e-cran-2021-10-30-a-22-54-53.png', 'description': 'La situation pluvio-orageuse localisée dans le Var nécessite une vigilance particulière au vu de son intensité. L’Ardèche, le Gard et la Lozère sortent de la vigilance.'}
2021-11-30 13:27:04 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'A Vienne, retrouvailles diplomatiques tendues autour du nucléaire iranien', 'image': 'https://img.lemde.fr/2021/11/26/8/0/3894/2596/110/74/60/0/4b97b95_877092670-649508.jpg', 'description': 'Alors que les négociations reprennent lundi 29 novembre dans la capitale autrichienne, les motifs d’inquiétude s’accumulent et l’espoir de sauver l’accord de 2015 est mince.'}
2021-11-30 13:27:04 [scr

2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le nouveau variant Omicron assombrit l’horizon économique', 'image': 'https://img.lemde.fr/2021/11/27/16/0/4336/2885/110/74/60/0/2cd4e28_642698437-249350.jpg', 'description': 'Partout en Europe, les restrictions budgétaires se multiplient. La croissance devrait être presque nulle au quatrième trimestre en zone euro et les marchés boursiers s’inscrivent en forte baisse.'}
2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'A l’aéroport de Casablanca, le désarroi des voyageurs à destination de la France', 'image': 'https://img.lemde.fr/2021/11/26/0/0/4645/3096/110/74/60/0/e890b62_326255139-ap-20197670050779.jpg', 'description': 'Les voyageurs ont dû s’organiser dans l’urgence, après l’annonce soudaine des autorités marocaines de la suspension des vols, due à la situation sanitaire en France

2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Akira, ce collectif anonyme aux idées révolutionnaires qui veut se faire entendre pendant la campagne présidentielle', 'image': 'https://img.lemde.fr/2021/11/19/364/291/1901/1267/110/74/60/0/04967d8_745972720-capture-d-e-cran-2021-11-19-a-11-13-40.jpeg', 'description': 'Une femme masquée a annoncé la candidature collective et symbolique d’un groupe qui ne se reconnaît dans aucun «\xa0mot en «\xa0isme\xa0»\xa0», ni dans aucun camp.'}
2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'title': 'Eric Zemmour, nouveau pôle d’attraction de l’ultradroite', 'image': 'https://img.lemde.fr/2021/11/19/0/0/5472/3648/110/74/60/0/5bad56f_561473929-000-9q49l6.jpg', 'description': 'De nombreux militants de l’extrême droite la plus radicale et violente, qui jugent Marine Le Pen trop modérée, soutien

2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Emmanuel Macron veut faire peser la contrainte sur les non-vaccinés', 'image': 'https://img.lemde.fr/2021/11/26/71/0/7359/4906/110/74/60/0/e2a87e6_726021797-656736.jpg', 'description': 'A cinq mois de la présidentielle, le chef de l’Etat ne veut pas recourir à des restrictions sociales fortes pour faire face au redémarrage de l’épidémie, mais cherche à pousser toujours plus la vaccination.'}
2021-11-30 13:27:05 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Guadeloupe : l’obligation vaccinale des soignants ne sera pas levée, selon le gouvernement', 'image': 'https://img.lemde.fr/2021/11/25/0/0/3885/2590/110/74/60/0/7dca9b6_5080452-01-06.jpg', 'description': 'Les maires de l’île avaient plaidé pour une suspension du dispositif lors d’une réunion en visioconférence avec le ministre des outre-mer, Sébastie


## Votre premier Item

La classe `Item` permet de structurer les données que l'on souhaite
récupérer sous la forme d'un modèle. Les items doivent être définis dans
le fichier `items.py` créé par la commande `scrapy startproject`. Les
`Item` héritent de la class `scrapy.Item`.

On veut structurer les données avec deux champs : le titre et le prix de
l'annonce. Scrapy utilise une classe `scrapy.Field` permettant de
'déclarer' ces champs. Dans notre cas :

In [28]:
# %load newscrawler/newscrawler/items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    image = scrapy.Field()
    description = scrapy.Field()

Utiliser la classe `scrapy.Item` plutôt qu'un simple dictionnaire permet
plus de contrôle sur la structure des données. En effet, on ne peut
insérer dans les items que des données avec des clés 'déclarées'. Ce qui
assure une plus grande cohérence au sein d'un projet.

On peut instancier un item de plusieurs façons :

In [29]:
article_item = ArticleItem(title="Gilets Jaunes", image=None, description="Un samedi de manifestations")

In [30]:
print(article_item)

{'description': 'Un samedi de manifestations',
 'image': None,
 'title': 'Gilets Jaunes'}


In [31]:
article_item = ArticleItem()
article_item["title"] = 'Gilets Jaunes'
article_item["description"] = 'Un samedi de manifestations'

In [32]:
print(article_item)

{'description': 'Un samedi de manifestations', 'title': 'Gilets Jaunes'}


La définition d'un item permet de palier toutes les erreurs de typo dans
les champs.

In [33]:
article_item = ArticleItem()
article_item["titelkjwnxvmnscbvmknxc"] = 'Gilets Jaunes'

KeyError: 'ArticleItem does not support field: titelkjwnxvmnscbvmknxc'

Les items héritent des dictionnaires Python, et possèdent donc toutes
les méthodes de ceux-ci:

In [37]:
article_item = ArticleItem(title="Gilets Jaunes")
print(article_item["title"]) # Méthode __getitem__()
print(article_item.get("description", "no description provided")) # Méthode get()
print(article_item.get("description")) # Méthode get()

Gilets Jaunes
no description provided
None


On peut transformer un `Item` en dictionnaire très facilement, en le
passant au constructeur:

In [31]:
article_item = ArticleItem(title="Drone DJI")
print(type(article_item))
dict_item = dict(article_item)
print(type(dict_item))
print(dict_item)

<class '__main__.ArticleItem'>
<class 'dict'>
{'title': 'Drone DJI'}


On intègre maintenant cet item dans notre spider.

In [None]:
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from ..items import ArticleItem
class LemondeSpider(scrapy.Spider):
    name = "lemonde"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)

    def parse_category(self, response):
        for article in response.css(".fleuve")[0].css("article"):
            title = self.clean_spaces(article.css("h3 a::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()

            yield ArticleItem(
                title=title,
                image=image,
                description=description
            )

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On voit bien que le générateur retourne maintenant un `Item`.

### Exercice : 

Relancer la spider pour vérifier le bon déroulement de l'extraction.


In [38]:
!cd newscrawler/ && scrapy crawl lemondev4

2021-11-30 13:40:57 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 13:40:58 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 13:40:58 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 13:40:58 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 13:40:58 [scrapy.extensions.telnet] INFO: Telnet Password: 4677767c37d76650
2021-11-30 13:40:58 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/0/0/2250/1500/110/74/60/0/fecb7fe_278284556-000-9tb4y4.jpg',
 'title': 'Le Maroc disposé à favoriser une reprise des négociations entre '
          'Israël et Palestiniens'}
2021-11-30 13:40:59 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/roo

2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/1/0/5000/3333/110/74/60/0/ea024cb_625226901-000-9tl8mh.jpg',
 'title': 'Trente rhinocéros blancs introduits, en Boeing 747, au Rwanda'}
2021-11-30 13:40:59 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/p

2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2017/11/28/0/0.5/3499/2332/110/74/60/0/c55e529_PHW06_AFRICA-FRANCE-MACRON_1128_11.JPG',
 'title': 'Thomas Borrel et Antoine Glaser : « Un retrait militaire français '
          'd’Afrique serait un marqueur de rupture »'}
2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/2784/1856/110/74/60/0/6781584_696672112-dsc3521.jpg',
 'title': 'Le pari risqué des Chinois installés au Soudan du Sud'}
2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/164/3172/2115/110/74/60/0/9a37437_301035848-850615.jpg',
 'title': '« Chinafrique », l’heure des désillusions'}
2021-11-30 13:40:59 [scrapy.core.scraper] DEBUG: Scrape

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/27/0/2/2332/1555/110/74/60/0/835c4b2_739060372-algerie.jpeg',
 'title': 'Algérie : les électeurs appelés aux urnes pour des scrutins locaux'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/49/3166/2111/110/74/60/0/493dd64_240919156-livre-elgas.jpg',
 'title': 'Avec « Mâle noir », Elgas renouvelle avec brio le genre du roman de '
          'formation'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'description': None,
 'image': 'https://img.lemde.fr/2014/10/30/0/0/3870/2576/110/74/60/0/742fcf4_32462-aj7zuf.jpg',
 'title': 'Dalila Kerchouche : « Enfant des camps de harkis, je ne donne pas '
          'le droit à l’Etat de chiffrer ma souffrance

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/04/29/131/0/4377/2918/110/74/60/0/1471154_5689933-01-06.jpg',
 'title': 'En Autriche, les tests du Covid-19 partent en sucettes pour les '
          'enfants'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/04/28/6/309/2380/1586/110/74/60/0/118311b_2018355-capture-d-e-cran-2021-04-28-a-16-41-07.jpg',
 'title': 'Vladislav Ivanov, star de la télé-réalité chinoise à l’insu de son '
          'plein gré'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'description': None,
 'image': 'https://img.lemde.fr/2017/08/30/0/0/1618/1079/110/74/60/0/83a13fb_4749-k4qt53.rqmbpm0a4i.jpg',
 'title': 'Accusée de ne pas avoir rendu une cassette VHS en 1999, une 

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/24/0/130/1136/757/110/74/60/0/38909ce_769402250-perronne-cnews.png',
 'title': 'Vaccination contre le Covid-19 : les assertions trompeuses du '
          'professeur Perronne'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/0/0/5464/3643/110/74/60/0/2133543_888610936-000-1oo79a.jpg',
 'title': 'L’activité physique a un effet anxiolytique'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/22/54/0/1776/1184/110/74/60/0/3b85efb_575381449-werize-he-pha-rower-mobility-2.jpg',
 'title': 'Handicap moteur : une solution d’électrostimulation reproduit les '
          'mouvements'}
2021-11-30 13:41:00 [sc

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/104/0/3257/2172/110/74/60/0/e00b0be_548533118-pns-4685984.jpg',
 'title': '« Pourquoi est-il encore si difficile, dans nos sociétés '
          'contemporaines, d’évoquer le deuil périnatal ? »'}
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/climat/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/peche-post-brexit/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/fragments-de-france/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/bielorussie/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/27/0/0/3837/2558/110/74/60/0/3bc0823_5094925-01-06.jpg',
 'title': 'Ligue 1 : mauvaise surprise pour Nice piégé par la lanterne rouge '
          'Metz, Lille toujours au ralenti'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/23/0/0/5233/3489/110/74/60/0/50418a8_5067402-01-06.jpg',
 'title': 'Affaire Peng Shuai : la WTA réitère son inquiétude pour la joueuse '
          'chinoise'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'description': None,
 'image': 'https://img.lemde.fr/2020/10/25/0/3/4269/2847/110/74/60/0/82dedda_5589454-01-06.jpg',
 'title': 'Amine Gouiri, l’aiglon qui vole au-dessus de la Ligue 1'}
2021-11-30 13:41:00 [scrapy.core.scraper

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/22/0/0/6240/4160/110/74/60/0/e6d2517_926108692-080-hl-bdurand-1030004.jpg',
 'title': '« Je pensais qu’à l’hôpital, elle serait protégée » : le suicide '
          'd’une jeune fille au sein de l’AP-HP interroge sur les normes de '
          'sécurité'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/22/0/0/5479/3653/110/74/60/0/8244599_33522377-000-1g20re.jpg',
 'title': '« Le suicide d’un patient, c’est la plus grande peur du soignant »'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/25/0/0/3504/2336/110/74/60/0/e0e1a5f_420864799-sagesfemmes.jpg',
 'title': 'Accord sur de nouvelles hausses de

2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/vaccins-contre-le-covid-19/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/election-presidentielle-2022/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/immigration-en-europe/> (referer: https://www.lemonde.fr)
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/4/0/8362/5574/110/74/60/0/00058a5_5107581-01-06.jpg',
 'title': 'Allemagne : un Irakien de l’EI condamné à la perpétuité pour « '
          'génocide » des yézidis'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/03/24/207/0/3000/2000/110/74/60/0/e38285b_39

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/17/0/0/5568/3712/110/74/60/0/5a26769_100745829-iss065e056881-orig.jpeg',
 'title': 'Le tir antisatellite russe ravive le spectre de la guerre spatiale'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': None,
 'title': 'La menace des « chatbots » manipulateurs'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/15/0/0/6577/4384/110/74/60/0/690ad26_640090325-trailscientifique-alexisberg-8632.jpg',
 'title': 'Un ultra-trail de 156 km pour faire avancer la science'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'description': None,
 'image': 'https://img.lemde.fr/2021

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/53/0/3704/2469/110/74/60/0/a381499_278898327-651493.jpg',
 'title': 'A Doha, les talibans en quête de dialogue avec les Occidentaux'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/1/0/7277/4851/110/74/60/0/d9a4cc1_286562386-667732.jpg',
 'title': 'Covid-19 : la Haute Autorité de santé recommande de ne vacciner que '
          'les enfants à risque'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/3/0/5900/3933/110/74/60/0/5b1221f_535926494-jmug211125006.jpg',
 'title': '« Les défenseurs de la “grande Sécu” n’ont pas dit leur dernier mot '
          '»'}

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/08/0/8/402/268/110/74/60/0/2f44d40_758075548-capture.PNG',
 'title': 'Le chanteur corse Petru Guelfucci est mort'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/08/0/63/5442/3628/110/74/60/0/457465f_5788117-01-06.jpg',
 'title': 'Obsèques de Bernard Tapie : Marseille enterre « un mythe »'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/08/69/57/1658/1105/110/74/60/0/9c41859_375443599-franc-ois-roche.jpeg',
 'title': 'François Roche, cofondateur de l’enseigne Roche Bobois, est mort'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/le

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/01/359/0/7370/4903/110/74/60/0/4710859_bd8c37833f6f4b64acae9f0fa6971644-bd8c37833f6f4b64acae9f0fa6971644-0.jpg',
 'title': '« Si les banques centrales ont pu sauver les économies, pourquoi ne '
          'le feraient-elles pas pour le réchauf\xadfement climatique ? »'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/peche-post-brexit/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/3840/2560/110/74/60/0/f234e78_1e6c96ceb7e047c8ad3cf18ac9cb11f5-1e6c96ceb7e047c8ad3cf18ac9cb11f5-0.jpg',
 'title': 'Pêche post-Brexit : journée d’action nationale des pêcheurs '
          'français pour protester contre les licences'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/20

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/1/0/2000/1333/110/74/60/0/fffae68_486629328-prod-94.jpeg',
 'title': 'Guerre d’Algérie : les propositions du groupe « Regards de la jeune '
          'génération sur les mémoires franco-algériennes » à Emmanuel Macron'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/0/0/5899/3933/110/74/60/0/c03fd06_215822447-jmug211129062.jpg',
 'title': 'La « maison commune », rassemblement des différentes chapelles de '
          'la majorité, lancée à la Mutualité'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/0/4/4464/2976/110/74/60/0/e80dd47_392139661

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/13/0/9/3481/2321/110/74/60/0/cd14314_fw1-facebook-harassment-1013-11.jpg',
 'title': 'Après la fuite de documents internes, Facebook limite l’accès de '
          'ses salariés à certaines informations'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/09/560/0/3531/2354/110/74/60/0/1aa2636_496352820-ap20008611379189.jpg',
 'title': '« L’idée que Facebook place les profits avant les gens est fausse »'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/facebook-files/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/05/0/0/3946/2631/110/74/60/0/019a220_2db574ac891b4c20bc376e7408864344-169b5e6eacd142b8bb128ffeaf18fa9e-0.jpg',
 'title': 'Fa

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/30/0/1/5998/3999/110/74/60/0/7dd516b_190418935-256629.jpg',
 'title': 'Covid-19 : lutter contre l’inégalité vaccinale mondiale'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/23/0/0/4252/2834/110/74/60/0/49109ce_394955495-garagesebauto-114.jpg',
 'title': '« Des fois, on se demande pourquoi on travaille » : dans la Vienne, '
          'le blues du garagiste indépendant'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/19/158/0/2763/1842/110/74/60/0/3efe265_867348601-fdhi-uganda-day01-7726.jpg',
 'title': 'Le pétrole de Total impose le silence et la peur en Ouganda'}
2021-

2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/28/62/0/2162/1440/110/74/60/0/5b6701d_439505817-chateaubanane-plan-de-travail-1.jpg',
 'title': 'Un négociant de vin condamné à de la prison ferme pour atteinte à '
          'la concurrence et à l’image des vins de Bordeaux'}
2021-11-30 13:41:00 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/4/369/4217/2811/110/74/60/0/f13b2d1_468684957-000-9rv4hl.jpg',
 'title': 'Nissan annonce son grand plan électrique à 15 milliards d’euros'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/0/0/5341/3560/110/74/60/0/5514049_333427055-000-8za43b.jpg',
 'title': 'Quelles sont les capacités de séquençage de nouveaux variants du '
  

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/0/0/5842/3894/110/74/60/0/a4f8952_195924335-241383.jpg',
 'title': '« Inflation : espérons que les années 2020 ne ressemblent pas aux '
          'années 1970 »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/0/4/3492/2328/110/74/60/0/66e7c43_hs-pxp-34-global-poy-2021-1124-11.jpg',
 'title': 'Migrants dans la Manche : Gérald Darmanin appelle le Royaume-Uni à '
          'ouvrir une voie légale d’immigration'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/29/11/0/4600/3066/110/74/60/0/3f4d505_633931556-000-nic6448937.jpg',
 'title': 'Israël donne son feu vert à l’

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/28/0/0/5005/3336/110/74/60/0/4247add_5099487-01-06.jpg',
 'title': 'Covid-19 : le variant Omicron se propage, « une course contre la '
          'montre » est engagée, selon la présidente de Commission européenne'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2017/05/26/0/0/4270/2846/110/74/60/0/75e28f7_15431-1v4dlxf.zpwp8yf1or.jpg',
 'title': 'Désinformation et populisme : comment Florian Philippot a adapté '
          'son discours aux militants antivax'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/43/0/3500/2333/110/74/60/0/1600fd

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/6000/4000/110/74/60/0/748b177_01edd3087c7b46918a5ac088aa08465d-01edd3087c7b46918a5ac088aa08465d-0.jpg',
 'title': '« Purs calculs électoraux », « furie » de la France… la presse '
          'britannique se divise sur la crise entre Londres et Paris'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/18/177/0/4252/2834/110/74/60/0/bc2fba0_256408451-19.jpg',
 'title': 'Migrants dans la Manche : « La crise s’explique par le Brexit qui '
          'agit comme un poison lent entre Paris et Londres »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/2

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/23/0/0/5184/3456/110/74/60/0/3f6e41f_851746386-pns-6299078.jpg',
 'title': 'Surendettement : il ne faut pas cacher les sommes gagnées au Loto'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/23/1/0/5000/3333/110/74/60/0/187836d_709044553-girette-hl-13006.JPG',
 'title': 'Contraception masculine : « Il n’y a aucune raison pour que cette '
          'charge repose uniquement sur ma copine »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/27/10/0/3748/2498/110/74/60/0/3b4fb55_6879122-aquindo-26nov-enque-teurs-belges.jpg',
 'title': 'Au procès des attentats du 13-Novembre, les omissions d’un 

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/31/0/0/3600/2400/110/74/60/0/43451ca_90322917-cop26-20211031-10.jpg',
 'title': 'COP26 : après un tourbillon d’annonces, la crédibilité des nouveaux '
          'engagements en question'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/10/29/0/1606/5103/3397/110/74/60/0/25eaf46_98e247de91d34d37884ce9c74c8dbec6-f07b3493f8694718aab123004ddd9579-0.jpg',
 'title': 'Vanessa Nakate, militante ougandaise pour le climat : « Je veux des '
          'actions maintenant, pas dans dix ans »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/01/0/0/5500/3666/110/74/60/0/fce20ea_0f4fb65b1acb4ddc8c36cbf391203c50-

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/25/0/0/5758/3838/110/74/60/0/114379b_761615564-0m7a5009.jpg',
 'title': 'Avec des réfugiés palestiniens revenus au Liban après l’enfer en '
          'Biélorussie : « On a les mêmes problèmes qu’avant, des dettes en '
          'plus »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/177/0/4252/2834/110/74/60/0/0b2a57d_875625192-21.jpg',
 'title': 'Migrants dans la Manche : de la lettre de Boris Johnson à la colère '
          'de Paris, un jour de crise entre la France et le Royaume-Uni'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/5

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/22/60/0/1500/999/110/74/60/0/3f614d2_154471-3248618.jpg',
 'title': '« On sait que vous protégez les coupables, on ne vous lâchera pas » '
          ': à Beyrouth, des agitatrices en quête de vérité'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/27/0/0/5184/3456/110/74/60/0/84c86c8_efa0ba1a46cd463b9adf21197f288a7a-efa0ba1a46cd463b9adf21197f288a7a-0.jpg',
 'title': 'Migrants dans la Manche : pour l’Europe, c’est à Londres de gérer '
          'le contrôle de ses frontières'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/05/08/0/25/3450/2300/110/74/60/0/6962eb0_gggyh07-euro

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/18/1/0/8192/5461/110/74/60/0/655b2bf_671195665-000-9re77c.jpg',
 'title': 'Jean Pisani-Ferry : « Dans l’optique de la présidentielle 2022, la '
          'clarté sur les choix est une condition de la légitimité de l’action '
          'à venir »'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/20/0/0/5108/3405/110/74/60/0/9be416e_985283943-590670.jpg',
 'title': 'Entre 2017 et 2022, La France insoumise a amendé son programme à la '
          'marge'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/election-presidentielle-2022/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/18/0/0/3900/2600/110/74/60/0/e

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/07/16/0/17/3465/2310/110/74/60/0/a388b67_fw1-health-coronavirus-france-vaccination-0716-11.jpg',
 'title': 'Les Français plus circonspects qu’antivaccin'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/17/0/6/5934/3956/110/74/60/0/82bec81_5033846-01-06.jpg',
 'title': 'Quatrième jour de mobilisation en Guadeloupe contre le passe '
          'sanitaire et l’obligation vaccinale'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/vaccins-contre-le-covid-19/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/17/0/0/3000/2000/110/74/60/0/c8d6fef_81422325-025-msf-briancon-julien-benard.jpg',
 'title': '« Les enjeux sanita

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/07/88/0/1848/1230/110/74/60/0/30dd2fa_492199675-667922.jpg',
 'title': 'En Biélorussie, la figure de l’opposition Maria Kolesnikova '
          'condamnée à onze ans de prison'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/bielorussie/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/06/0/67/2866/1911/110/74/60/0/4d30ab1_5585124-01-06.jpg',
 'title': 'L’opposante Maria Kolesnikova condamnée à onze ans de prison en '
          'Biélorussie'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/proces-des-attentats-du-13-novembre/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/09/09/137/124/4580/3053/110/74/60/0/da044b2_949790955-brun-proces01006.jpg',
 'title': 'Au deuxième jour du procès du 13-Novembre,

2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/25/0/17/5782/3858/110/74/60/0/7c9240b_744190146-000-93r29q.jpg',
 'title': '« On n’avait jamais connu ça » : le nombre de classes fermées pour '
          'cause de Covid-19 a doublé en une semaine'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/13/4974/3316/110/74/60/0/f29cb66_615078797-2021-11-25t112539z-665301519-rc2n1r9ishxv-rtrmadp-3-health-coronavirus-africa.JPG',
 'title': 'Covid-19 en Afrique : seul un professionnel de santé sur quatre est '
          'entièrement vacciné'}
2021-11-30 13:41:01 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'description': None,
 'image': 'https://img.lemde.fr/2021/11/26/0/0/3499/23

## Postprocessing

Si l'on se réfère au diagramme d'architecture de Scrapy, on voit qu'il
est possible d'insérer des composants supplémentaires dans le flux de
traitement. Ces composants s'appellent `Pipelines`.

Par défaut, tous les `Item` générés au sein d'un projet Scrapy passent
par les `Pipelines`. Les pipelines sont utilisés la plupart du temps
pour :

-   Nettoyer du contenu HTML ;
-   Valider les données scrapées ;
-   Supprimer les items qu'on ne souhaite pas stocker ;
-   Stocker ces objets dans des bases de données.

Les pipelines doivent être définis dans le fichier `pipelines.py`.

Dans notre cas on peut vouloir nettoyer le champ `title` pour enlever
les caractères superflus.

Nous allons alors transferer la fonction de nettoyage du code html dans
une Pipeline.

In [None]:
# %load newscrawler/newscrawler/pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exceptions import DropItem

class TextPipeline(object):

    def process_item(self, item, spider):
        if item['title']:
            item["title"] = clean_spaces(item["title"])
            return item
        else:
            raise DropItem("Missing title in %s" % item)


def clean_spaces(string):
    if string:
        return " ".join(string.split())

Pour dire au process Scrapy de faire transiter les items par ces
pipelines. Il faut le spécifier dans le fichier de paramétrage
`settings.py`.

In [None]:
ITEM_PIPELINES = {
     'newscrawler.pipelines.TextPipeline': 300,
 }

On peut maintenant supprimer la fonction `clean_spaces()` de
l'extraction des données et laisser le Pipeline faire son travail. La
valeur entière définie permet de déterminer l'ordre dans lequel les
pipelines vont être appelés. Ces entiers peuvent être compris entre 0 et
1000.

On relance notre spider :

In [None]:
!cd newscrawler/ && scrapy crawl lemondev5 -o ../data/articles.json

2021-11-30 14:03:32 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2021-11-30 14:03:32 [scrapy.utils.log] INFO: Versions: lxml 4.6.4.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.12 (default, Nov 17 2021, 16:58:51) - [GCC 10.2.1 20210110], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.10.16.3-microsoft-standard-WSL2-x86_64-with-glibc2.2.5
2021-11-30 14:03:32 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-11-30 14:03:32 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2021-11-30 14:03:32 [scrapy.extensions.telnet] INFO: Telnet Password: 4ce7df12ccfab9e4
2021-11-30 14:03:32 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.e

2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/campus/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sante/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/afrique/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/le-monde-et-vous/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/big-browser/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/pixels/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/disparitions/> (referer: https://www.lemonde.fr)
2021-11-30 14:03:34 [scrapy.core.engine] DEBUG: 

On peut aussi utiliser les Pipelines pour stocker les données récupérées
dans une base de données. Pour stocker les items dans des documents
mongo :

In [None]:
import pymongo

class MongoPipeline(object):

    collection_name = 'scrapy_items'

    def open_spider(self, spider):
        self.client = pymongo.MongoClient()
        self.db = self.client["lemonde"]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

Ici on redéfinit deux autres méthodes: `open_spider()`et
`close_spider()`, ces méthodes sont appelées comme leur nom l'indique,
lorsque la Spider est instanciée et fermée.

Ces méthodes nous permettent d'ouvrir la connexion Mongo et de la fermer
lorsque le scraping se termine. La méthode `process_item()` est appelé à
chaque fois qu'un item passe dans le mécanisme interne de scrapy. Ici,
la méthode permet d'insérer l'item en tant que document mongo.

Pour que ce pipeline soit appelé il faut l'ajouter dans les settings du
projet.

In [None]:
ITEM_PIPELINES = {
    'newscrawler.pipelines.TextPipeline': 100,
    'newscrawler.pipelines.MongoPipeline': 300
}

Le pipeline est ajoutée à la fin du process pour profiter des deux
précédents.

## Settings

Scrapy permet de gérer le comportement des spiders avec certains
paramètres. Comme expliqué dans le premier cours, il est important de
suivre des règles en respectant la structure des différents sites. Il
existe énormément de paramètres mais nous allons (dans le cadre de ce
cours) aborder les plus utilisés :

-   DOWNLOAD\_DELAY : Le temps de téléchargement entre chaque requête
    sur le même domaine ;
-   CONCURRENT\_REQUESTS\_PER\_DOMAIN : Nombre de requêtes simultanées
    par domaine ;
-   CONCURRENT\_REQUESTS\_PER\_IP : Nombre de requêtes simultanées par
    IP ;
-   DEFAULT\_REQUEST\_HEADERS : Headers HTTP utilisés pour les requêtes
    ;
-   ROBOTSTXT\_OBEY : Scrapy récupère le robots.txt et adapte le
    scraping en fonction des règles trouvées ;
-   USER\_AGENT : UserAgent utilisé pour faire les requêtes ;
-   BOT\_NAME : Nom du bot annoncé lors des requêtes
-   HTTPCACHE\_ENABLED : Utilisation du cache HTTP, utile lors du
    parcours multiple de la même page.

Le fichiers `settings.py` permet de définir les paramètres globaux d'un
projet. Si votre projet contient un grand nombre de spiders, il peut
être intéressant d'avoir des paramètres distincts pour chaque spider. Un
moyen simple est d'ajouter un attribut `custom_settings` à votre spider
:

In [None]:
class LeMondeSpider(scrapy.Spider):
        name = "lemonde"
        allowed_domains = ["lemonde.fr"]
        start_urls = ['http://lemonde.fr/']
        custom_settings = {
            "HTTPCACHE_ENABLED":True, 
            "CONCURRENT_REQUESTS_PER_DOMAIN":100
        }