
# Introduction

[Scrapy](https://scrapy.org/) est un framework permettant de crawler des
sites web et d'en extraire les données de façon structurée.

## Installation

Nous travaillerons dans un environnement
[Anaconda](https://www.anaconda.com/download/), déjà présent sur les
machines de l'ESIEE. Sur vos machines personnelles, télécharger la
distribution correspondant à la version la plus récente de Python.

[Scrapy](https://scrapy.org/) ne fait pas partie de la distribution par
défaut de Python et doit être installé manuellement. Ici, le package est
déjà installé grâce à Pipenv.

Si vous avez besoin d'installer dans un autre cadre.

-   Avec **Pipenv** : `pipenv install scrapy`
-   Avec **Anaconda** : `conda install -c conda-forge scrapy`

Tester la réussite de l'opération dans un interpréteur Python. Avant
installation:

In [None]:
!pip install scrapy

In [13]:
import scrapy

## Architecture

[Scrapy](https://scrapy.org/) est un framework comportant plusieurs
composants.

<img src="images/architecture.png" alt="image" class="align-center" />

L'ensemble du processus est contrôlé par l'**engine** (les termes anglo
saxons ont été retenus pour un meilleur référencement dans la
[documentation officielle](https://docs.scrapy.org/en/latest/)).

Le framework est articulé avec plusieurs composants qui gèrent chacun un
rôle différent. Nous allons les détailler.

-   Les **Spiders** : permettent de naviguer sur un site et de
    référencer les règles d'extraction de la donnée.
-   Les **Pipelines** : font le lien entre la donnée brute et des objets
    structurés
-   Les **Middlewares** : permettent d'effectuer des transformations sur
    les objets ou sur les requêtes exécutées par l'engine.
-   Le **Scheduler** : gère l'ordre et le timing des requêtes
    effectuées.

## Fonctionnement

[Scrapy](https://scrapy.org/) est entièrement organisé autour d'un
composant central : l'*engine*.

Le rôle de l'*engine* est de contrôler le flux de données entre les
différents composants du système.

1.  En particulier, il est chargé de récupérer les *requests* définies
    dans les *spiders*
2.  Ces *requests* sont ensuite fournies au *scheduler* qui se charge de
    leur ordonnancement
3.  Les *requests* sont présentées selon cet ordonnancement à
    l'*engine*...
4.  ... qui les transmet au *downloader*
5.  Le *downloader* effectue la *request* et transmet la *response* (le
    contenu de la page web) à l'*engine*...
6.  ... puis l'envoie au *spider* pour traitement
7.  Le *spider* génére des *items* qui sont transmis à l'*engine*
8.  Les *items* sont ensuite poussés dans un pipeline pour nettoyage,
    validation et stockage

Ce processus est répété jusqu'à épuisement des requêtes.

[Scrapy](https://scrapy.org/) est un [framework orienté
événements](https://en.wikipedia.org/wiki/Event-driven_architecture)
(basé sur [Twisted](https://twistedmatrix.com/)) permettant une
programmation asynchrone (non bloquante). C'est particulièrement
intéressant dans les opérations de scraping, puisque **le programme
n'attend pas le résultat d'une requête pour en lancer une autre**.

En effet, lorsque l'on sollicite une ressource (requête réseau, système
de fichier, etc.) en mode bloquant, l'exécution du programme est
suspendue le temps que la transaction avec la ressource se termine (par
exemple le temps qu'une page web soit complètement téléchargée).
L'intérêt de faire des appels non bloquants, c'est que l'on peut gérer
de multiples téléchargements en parallèle, et que le programme peut
continuer à tourner pendant ce temps.

# Un scraping élémentaire

Avant de rentrer dans les détails du framework, nous allons mettre en
oeuvre un premier script permettant de récupérer l'information présente
sur [la page web](http://evene.lefigaro.fr/citations/winston-churchill)
recensant les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill).

**Exercice**

Examiner le code source de cette page avec l'inspecteur de votre
navigateur. Identifier les éléments contenant l'information recherchée,
ici la chaîne de caractères contenant la citation proprement dite.

## Le code source

Le code utilisé est le suivant:

In [14]:
# %load citations_churchill_spider1.py
import scrapy

class ChurchillQuotesSpider(scrapy.Spider):
    name = "citations de Churchill"
    start_urls = ["http://evene.lefigaro.fr/citations/winston-churchill",]

    def parse(self, response):
        for cit in response.xpath('//div[@class="figsco__quote__text"]'):
            text_value = cit.xpath('a/text()').extract_first()
            yield { 'text' : text_value }

## Le fonctionnement

Le fonctionnement est le suivant:

-   On importe le module [Scrapy](https://scrapy.org/) (3)
-   et on définit une sous classe de `scrapy.Spider` (5)
-   la variable `start_urls` contient la liste des pages à scraper (7)
-   On redéfinit la méthode $parse$ dont la signature est définie dans
    la classe mère (9)
-   L'objet
    [response](https://docs.scrapy.org/en/latest/topics/request-response.html#response-objects)
    représente la réponse à la requête HTTP (l'attribut $text$ permet
    d'accéder à son contenu). On recherche ensuite tous les containers
    `<div>` identifiés dans l'exercice précédent. Ici la page est
    particulièrement bien structurée et les citations disposent de leur
    propre container, identifié par l'attribut `class` de valeur
    `figsco__quote__text`. La sélection se fait par une expression
    [XPath](https://en.wikipedia.org/wiki/XPath), un langage de
    sélection de noeud dans un document XML (10). En langage naturel, la
    requête pourrait se formuler : "On recherche tous les containers
    `<div>` dont la valeur de l'attribut `class` est égal à
    `figsco__quote__text`".
-   Pour chaque résultat, on construit un dictionnaire dont la clé est
    `text` et la valeur le contenu du lien `<a>`. Ce résultat est fourni
    par un générateur ($yield$) (12).

On lance le scraping depuis un terminal:

In [15]:
!scrapy runspider citations_churchill_spider1.py

2020-11-16 13:49:07 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2020-11-16 13:49:07 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-16 13:49:07 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-16 13:49:07 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2020-11-16 13:49:07 [scrapy.extensions.telnet] INFO: Telnet Password: 956f35b1f5006986
2020-11-16 13:49:07 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.logstats.LogStats']
2020-11-16 13:49:07 [scrapy.middleware] INFO: Enabled downloader 

On y trouve des informations sur les paramètres
utilisés:

In [None]:
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2018-01-10 17:21:05 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}

les
[extensions](https://docs.scrapy.org/en/latest/topics/extensions.html)
...:

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole',
'scrapy.extensions.logstats.LogStats']

[Les composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html)
... :

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']

Idem pour [les composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
...:

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']

Aucun
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
n'est activé :

In [None]:
2018-01-10 17:21:05 [scrapy.middleware] INFO: Enabled item pipelines:
[]

**Exercice**

Identifier la position des [composants middleware
downloader](https://docs.scrapy.org/en/latest/topics/downloader-middleware.html),
des [composants middleware
spider](https://docs.scrapy.org/en/latest/topics/spider-middleware.html)
et du
[pipeline](https://docs.scrapy.org/en/latest/topics/item-pipeline.html)
dans $l'architecture <Introduction>$

L'exécution du scraping proprement dit débute :

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider opened
2018-01-10 17:21:05 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2018-01-10 17:21:05 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023

La première URL est poussée par le scheduler:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://evene.lefigaro.fr/citations/winston-churchill> (referer: None)

## Les résultats

Les résultats sont fournis par le générateur défini dans la méthode
$parse$ dans un dictionnaire. Ils contiennent le texte des citations
dans la valeur de la clé `text` :

In [None]:
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': '“Le vice inhérent au capitalisme consiste en une répartition inégale des richesses. La vertu inhérente au socialisme consiste en une égale répartition de la misère.”'}
2018-01-10 17:21:05 [scrapy.core.scraper] DEBUG: Scraped from <200 http://evene.lefigaro.fr/citations/winston-churchill>
{'text': "Faire le bien, éviter le mal, c'est ça le paradis."}

## Les statistiques

Une fois le scraping effectué, quelques statistiques sont affichées sur
le terminal:

In [None]:
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Closing spider (finished)
2018-01-10 17:21:05 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 242,
'downloader/request_count': 1,
'downloader/request_method_count/GET': 1,
'downloader/response_bytes': 17435,
'downloader/response_count': 1,
'downloader/response_status_count/200': 1,
'finish_reason': 'finished',
'finish_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 858347),
'item_scraped_count': 16,
'log_count/DEBUG': 18,
'log_count/INFO': 7,
'response_received_count': 1,
'scheduler/dequeued': 1,
'scheduler/dequeued/memory': 1,
'scheduler/enqueued': 1,
'scheduler/enqueued/memory': 1,
'start_time': datetime.datetime(2018, 1, 10, 16, 21, 5, 645347)}
2018-01-10 17:21:05 [scrapy.core.engine] INFO: Spider closed (finished)

On observe notamment que notre code permet de récupérer la taille de la
page web (17435 bytes), le temps d'exécution à partir des valeurs
`finish_time` et `start_time`, le nombre d'items scrapés (16), etc...

**Exercice**

Les citations extraites sont elles toutes de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) ? Il sera
peut être nécessaire de modifier le sélecteur XPath. Nous verrons ça
lorsque il faudra récupérer les données relative à l'auteur.

## Modifier les données

Il est parfois nécessaire de faire un traitement sur les données
scrapées, pour ajouter ou retirer de l'information.

**Exercice**

Retirer les caractères `“` et `”` qui délimitent la citation. Ces
caractères sont identifiés en Unicode comme [LEFT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201c/index.htm) et
[RIGHT DOUBLE QUOTATION
MARK](http://www.fileformat.info/info/unicode/char/201d/index.htm).

## Plus de données

Il est souvent nécessaire de récupérer plusieurs informations relatives
à un même item. Dans cet exemple, il est judicieux d'associer à la
citation le nom de son auteur, en allant chercher cette information au
plus près du texte lui même.

**Exercice**

Examiner le code source de la page web et identifier la structuration de
la donnée associée à l'auteur. En déduire l'expression XPath permettant
de la récupérer. S'assurer que seules les citations de [Sir Winston
Churchill](https://en.wikipedia.org/wiki/Winston_Churchill) sont
extraites. Ajouter une clé `author` au dictionnaire retourné par le
$yield$ dont la valeur est précisément la chaîne de caractères contenant
l'auteur.

Un exemple de dictionnaire retourné:

In [None]:
{   'text': "“Si deux hommes ont toujours la même opinion, l'un d'eux est de trop.”", 
    'author': 'Winston Churchill'}

Pour lancer l'exécution de la spider :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py

On peut aussi vouloir stocker les données extraites :

> \$ scrapy runspider spiders/citations\_churchill\_spider2.py -o
> data/citation.json -t json

In [34]:
!scrapy runspider citations_churchill_spider2.py -o data/citation.json -t json

  feeds = feed_process_params_from_cli(
2020-11-16 14:03:10 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2020-11-16 14:03:10 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-16 14:03:10 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-16 14:03:10 [scrapy.crawler] INFO: Overridden settings:
{'SPIDER_LOADER_WARN_ONLY': True}
2020-11-16 14:03:10 [scrapy.extensions.telnet] INFO: Telnet Password: 51ca27151dfc1811
2020-11-16 14:03:10 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage',
 'scrapy.extensions.feedexport.FeedExporter',
 'scrapy.extensions


# Votre premier projet


Dans un premier temps vous devez créer un projet Scrapy avec la commande
:

In [4]:
!scrapy startproject newscrawler

New Scrapy project 'newscrawler', using template directory '/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/templates/project', created in:
    /home/dev/code/2Scrapy/newscrawler

You can start your first spider with:
    cd newscrawler
    scrapy genspider example example.com


Cette commande va créer un dossier `monprojet` contenant les éléments
suivants correspondant au squelette :

In [36]:
newscrawler/
    scrapy.cfg            # Options de déploiement

    newscrawler/             # Le module Python contenant les informations
        __init__.py

        items.py          # Fichier contenant les items

        middlewares.py    # Fichier contenant les middlewares

        pipelines.py      # Fichier contenant les pipelines

        settings.py       # Fichier contenant les paramètres du projet

        spiders/          # Dossier contenant toutes les spiders
            __init__.py

SyntaxError: invalid syntax (<ipython-input-36-9b22719ef29e>, line 1)

# Votre première Spider

Une Spider est une classe Scrapy qui permet de mettre en place toute
l'architecture complexe vue dans l'introduction. Pour définir une
spider, il vous faut hériter de la classe $scrapy.Spider$. La seule
chose à faire est de définir la première requête à effectuer et comment
suivre les liens. La Spider s'arrêtera lorsqu'elle aura parcouru tous
les liens qu'on lui a demandé de suivre.

Pour créer une Spider on utilise la syntaxe:

In [None]:
!scrapy genspider <SPIDER_NAME> <DOMAIN_NAME>

Par exemple,

In [5]:
!cd newscrawler && scrapy genspider lemonde lemonde.fr

Created spider 'lemonde' using template 'basic' in module:
  {spiders_module.__name__}.{module}


Cette commande permet de créer une spider appelée `lemonde` pour scraper
le domaine `lemonde.fr`. Cela crée le fichier Python
`spiders/lemonde.py` suivant :

In [None]:
# %load newscrawler/newscrawler/spiders/lemonde.py
import scrapy


class LemondeSpider(scrapy.Spider):
    name = 'lemonde'
    allowed_domains = ['lemonde.fr']
    start_urls = ['http://lemonde.fr/']

    def parse(self, response):
        pass


Une bonne pratique pour commencer à développer une Spider est de passer
par l'interface Shell proposée par Scrapy. Elle permet de récupérer un
objet `Response` et de tester les méthodes de récupération des données.

# ATTENTION : Les commandes scrapy shell doivent être lancées dans un terminal 

In [48]:
!scrapy shell 'http://lemonde.fr'

2020-11-16 15:05:38 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2020-11-16 15:05:38 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-16 15:05:38 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-16 15:05:38 [scrapy.crawler] INFO: Overridden settings:
{'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0}
2020-11-16 15:05:38 [scrapy.extensions.telnet] INFO: Telnet Password: 7fdaf0eaca3c0e84
2020-11-16 15:05:38 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2020-11-16 15:05:38 [scrapy.middleware] INFO: Enabled do

In [50]:
response

NameError: name 'view' is not defined

Pour les utilisateurs de windows il vous faut mettre des doubles quotes
:

In [None]:
scrapy shell "http://lemonde.fr"

Scrapy lance un kernel Python

In [None]:
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Scrapy 1.3.3 started (bot: newscrawler)
2018-12-02 16:05:50 [scrapy.utils.log] INFO: Overridden settings: {'BOT_NAME': 'newscrawler', 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', 'LOGSTATS_INTERVAL': 0, 'NEWSPIDER_MODULE': 'newscrawler.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['newscrawler.spiders']}
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
'scrapy.extensions.telnet.TelnetConsole']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
'scrapy.downloadermiddlewares.retry.RetryMiddleware',
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
'scrapy.downloadermiddlewares.stats.DownloaderStats']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
'scrapy.spidermiddlewares.referer.RefererMiddleware',
'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
'scrapy.spidermiddlewares.depth.DepthMiddleware']
2018-12-02 16:05:50 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2018-12-02 16:05:50 [scrapy.extensions.telnet] DEBUG: Telnet console listening on 127.0.0.1:6023
2018-12-02 16:05:50 [scrapy.core.engine] INFO: Spider opened
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/robots.txt> (referer: None)
2018-12-02 16:05:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/> (referer: None)
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
2018-12-02 16:05:54 [traitlets] DEBUG: Using default logger
[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.Crawler object at 0x10fc38c18>
[s]   item       {}
[s]   request    <GET https://www.lemonde.fr/>
[s]   response   <200 https://www.lemonde.fr/>
[s]   settings   <scrapy.settings.Settings object at 0x113bb0898>
[s]   spider     <DefaultSpider 'default' at 0x113e60cc0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser

Grâce à cette interface, vous avez accès à plusieurs objets comme la
`Response`, la `Request`, la `Spider` par exemple. Vous pouvez aussi
exécuter `view(response)` pour afficher ce que Scrapy récupère dans un
navigateur.

In [None]:
In [1]: response
Out[1]: <200 https://www.lemonde.fr/>

In [3]: request
Out[3]: <GET https://www.lemonde.fr/>

In [4]: type(request)
Out[4]: scrapy.http.request.Request

In [5]: spider
Out[5]: <LemondeSpider 'lemonde' at 0x1080fccc0>

In [6]: type(spider)
Out[6]: monprojet.spiders.lemonde.LeMondeSpider

Ici on voit que la Spider est une instance de LemondeSpider. Lorsqu'on
lance le $scrapy shell$ scrapy va chercher dans les spiders si une
correspond au lien passé en paramètre, si oui , il l'utilise sinon une
$DefaultSpider$ est instanciée.

## Vos premières requêtes

On peut commencer à regarder comment extraire les données de la page web
en utilisant le langage de requêtes proposé par Scrapy. Il existe deux
types de requêtes : les requêtes `css` et `xpath`. Les requêtes `xpath`
sont plus complexes mais plus puissantes que les requêtes `css`. Dans le
cadre de ce tutorial, nous allons uniquement aborder les requêtes `css`,
elles nous suffiront pour extraire les données dont nous avons besoin
(en interne, Scrapy transforme les requêtes `css`en requêtes `xpath`.

Que ce soit les requêtes `css` ou `xpath`, elles crééent des sélecteurs
de différents types. Quelques exemples :

Pour récupérer le titre d'une page :

In [None]:
In [1]: response.css('title')
Out[1]: [<Selector xpath='descendant-or-self::title' data='<title>Le Monde.fr - Actualités et Infos'>]

On récupère une liste de sélecteurs correspondant à la requête `css`
appelée. La requête précédente était unique, d'autres requêtes moins
restrictives permettent de récupérer plusieurs résultats. Par exemple
pour rechercher l'ensemble des liens présents sur la page, on va
rechercher les balises HTML `<a></a>`

In [None]:
In [5]: response.css("a")[0:10]
Out[5]:
[<Selector xpath='descendant-or-self::a' data='<a target="_blank" data-target="jelec-he'>,
<Selector xpath='descendant-or-self::a' data='<a href="/"> <div class="logo__lemonde l'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://secure.lemonde.fr/sfuse'>,
<Selector xpath='descendant-or-self::a' data='<a href="https://abo.lemonde.fr/#xtor=CS'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="/" class="Burger__right-arrow j'>,
<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>]

Pour récupérer le texte contenu dans les balises, on passe le paramètre
`<TAG>::text`. Par exemple :

In [None]:
In [6]: response.css("title::text")
Out[6]: [<Selector xpath='descendant-or-self::title/text()' data='Le Monde.fr - Actualités et Infos en Fra'>]

### Exercice

  Comparer les résultats des deux requêtes `response.css('title')` et
`response.css('title::text')`.

Maintenant pour extraire les données des selecteurs on utilise l'une des
deux méthodes suivantes : - `extract()` permet de récupérer une liste
des données extraites de tous les sélecteurs - `extract_first()` permet
de récupérer une `String` provenant du premier sélecteur de la liste.

In [None]:
In [7]: response.css('title::text').extract_first()
Out[7]: 'Le Monde.fr - Actualités et Infos en France et dans le monde'

On peut récupérer un attribut d'une balise avec la syntaxe
`<TAG>::attr(<ATTRIBUTE_NAME>)` :

Par exemple, les liens sont contenus dans un attribut `href`.

In [None]:
In [9]: response.css('a::attr(href)')[0:10]
Out[9]:
[<Selector xpath='descendant-or-self::a/@href' data='https://journal.lemonde.fr'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='https://secure.lemonde.fr/sfuser/connexi'>,
<Selector xpath='descendant-or-self::a/@href' data='https://abo.lemonde.fr/#xtor=CS1-454[CTA'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='/'>,
<Selector xpath='descendant-or-self::a/@href' data='#'>,
<Selector xpath='descendant-or-self::a/@href' data='/mouvement-des-gilets-jaunes/'>,
<Selector xpath='descendant-or-self::a/@href' data='/carlos-ghosn/'>,
<Selector xpath='descendant-or-self::a/@href' data='/implant-files/'>]

Comme vu précédemment, si on veut récupérer la liste des liens de la page on applique la méthode $extract()$

In [None]:
In [11]: response.css('a::attr(href)').extract()[0:10]
Out[11]:
['https://journal.lemonde.fr',
'/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'/',
'/',
'#',
'/mouvement-des-gilets-jaunes/',
'/carlos-ghosn/',
'/implant-files/']

Les liens dans une page HTML sont souvent codés de manière relative par
rapport à la page courante. La méthode de l'objet `Response` peut être
utilisée pour recréer l'url complet.

Un exemple sur le 4e élément :

In [None]:
In [14]: response.urljoin(response.css('a::attr(href)').extract()[8])
Out[14]: 'https://www.lemonde.fr/carlos-ghosn/'

alors que

In [None]:
In [15]: response.css('a::attr(href)').extract()[8]
Out[15]: '/carlos-ghosn/'

### Exercice : 

Utiliser une liste compréhension pour transformer les 10
premiers liens relatifs récupérés par la méthode `extract()` en liens
absolus.    

Le résultat doit ressembler à :

In [None]:
Out[23]: 
['https://journal.lemonde.fr',
'https://www.lemonde.fr/',
'https://secure.lemonde.fr/sfuser/connexion',
'https://abo.lemonde.fr/#xtor=CS1-454[CTA_LMFR]-[HEADER]-5-[Home]',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/',
'https://www.lemonde.fr/mouvement-des-gilets-jaunes/',
'https://www.lemonde.fr/carlos-ghosn/',
'https://www.lemonde.fr/implant-files/']

## Des requêtes plus complexes

On peut créer des requêtes plus complexes en utilisant à la fois la
structuration HTML du document mais également la couche de présentation
CSS. On utilise l'inspecteur de `Google Chrome` pour identifier le type
et l'identifiant de la balise contenant les informations.

Il y a au moins deux choses à savoir en `css` :  

-   Les `.` représentent les classes
-   Les `#` représentent les id

On se propose de récupérer toutes les sous-catégories de news dans la
catégorie **Actualités**. On remarque en utilisant l'inspecteur
d'élement de Chrome que toutes les catégories sont rangées dans une
balise avec l'id $#nav-markup$ ensuite dans les classes $Nav__item$.

A partir de cette structure HTML on peut construire la requête suivante
pour récupérer la barre de navigation:

In [None]:
In [19]: response.css("#nav-markup")
Out[19]: [<Selector xpath="descendant-or-self::*[@id = 'nav-markup']" data='<ul id="nav-markup"> <li class="Nav__ite'>]

Ensuite pour récupérer les différentes catégories :

In [None]:
In [24]: response.css("#nav-markup .Nav__item")
Out[24]:
[<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item js-burger-to-show N'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item Nav__item--home Nav'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>,
<Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="/recherc'>]

On veut maintenant retourner tous les liens présents dans cette
catégorie. On remarque qu'elle apparait à la 4eme position.

In [None]:
In [34]: response.css("#nav-markup .Nav__item")[3]
Out[34]: <Selector xpath="descendant-or-self::*[@id = 'nav-markup']/descendant-or-self::*/*[@class and contains(concat(' ', normalize-space(@class), ' '), ' Nav__item ')]" data='<li class="Nav__item"> <a href="#" class'>

Maintenant pour récupérer tous les liens on peut chainer les requêtes.
On accède alors à toutes les balises $a$.

In [None]:
In [35]: response.css("#nav-markup .Nav__item")[3].css("a")
Out[35]:
[<Selector xpath='descendant-or-self::a' data='<a href="#" class="js-dropdown Burger__r'>,
<Selector xpath='descendant-or-self::a' data='<a href="/mouvement-des-gilets-jaunes/" '>,
<Selector xpath='descendant-or-self::a' data='<a href="/carlos-ghosn/" data-suggestion'>,
<Selector xpath='descendant-or-self::a' data='<a href="/implant-files/" data-suggestio'>,
<Selector xpath='descendant-or-self::a' data='<a href="/climat/" data-suggestion>Clima'>,
<Selector xpath='descendant-or-self::a' data='<a href="/affaire-khashoggi/" data-sugge'>,
<Selector xpath='descendant-or-self::a' data='<a href="/emmanuel-macron/" data-suggest'>,
<Selector xpath='descendant-or-self::a' data='<a href="/ukraine/" data-suggestion>Ukra'>,
<Selector xpath='descendant-or-self::a' data='<a href="/russie/" data-suggestion>Russi'>,
<Selector xpath='descendant-or-self::a' data='<a href="/referendum-sur-le-brexit/" dat'>,
<Selector xpath='descendant-or-self::a' data='<a href="/harcelement-sexuel/" data-sugg'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-en-continu/" data-su'>,
<Selector xpath='descendant-or-self::a' data='<a href="/international/">International<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/politique/">Politique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/societe/">Société</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/les-decodeurs/">Les Décodeurs<'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sport/">Sport</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/planete/">Planète</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sciences/">Sciences</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/campus/">M Campus</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/afrique/">Le Monde Afrique</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/pixels/">Pixels</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/actualite-medias/">Médias</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/sante/">Santé</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/big-browser/">Big Browser</a>'>,
<Selector xpath='descendant-or-self::a' data='<a href="/disparitions/">Disparitions</a'>]

Et pour récupérer les titres :

In [None]:
In [37]: response.css("#nav-markup .Nav__item")[3].css("a::text").extract()
Out[37]:
['Actualités',
'Mouvement des "gilets jaunes"',
'Carlos Ghosn',
'Implant Files',
'Climat',
'Affaire Khashoggi',
'Emmanuel Macron',
'Ukraine',
'Russie',
'Brexit',
'Harcèlement sexuel',
'Toute l’actualité en continu',
'International',
'Politique',
'Société',
'Les Décodeurs',
'Sport',
'Planète',
'Sciences',
'M Campus',
'Le Monde Afrique',
'Pixels',
'Médias',
'Santé',
'Big Browser',
'Disparitions']

Le shell Scrapy permet de définir la structure des requêtes et de
s'assurer de la pertinence du résultat retourné. Pour automatiser le
processus, il faut intégrer cette syntaxe au code Python des modules de
spider définis dans la structure du projet.

## Intégration des requêtes

Le squelette de la classe `LeMondeSpider` généré lors de la création du
projet doit maintenant être enrichi. Par défaut 3 attributs et une
méthode `parse()` ont été créés :

-   `name` permet d'identifier sans ambiguïté la spider dans le code.
-   `allowed_domain` permet de filtrer les requêtes et forcer la spider
    à rester sur une liste de domaines.
-   `starts_urls` est la liste des urls d'où la spider va partir pour
    commencer son scraping.
-   `parse()` est une méthode héritée de la classe `scrapy.Spider`. Elle
    doit être redéfinie selon les requêtes que l'on doit effectuer et
    sera appelée sur l'ensemble des urls contenus dans la liste
    `starts_urls`.

`parse()` est une fonction `callback` qui sera appelée automatiquement
sur chaque objet `Response` retourné par la requête. Cette fonction est
appelée de manière asynchrone. Plusieurs requêtes peuvent ainsi être
lancées en parallèles sans bloquer le thread principal. L'objet
`Response` passé en paramètre est le même que celui mis à disposition
lors de l'exécution du Scrapy Shell.

In [None]:
def parse(self, response):
    title = response.css('title::text').extract_first()
    all_links = {
        name:response.urljoin(url) for name, url in zip(
        response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
        response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
    }
    yield {
        "title":title,
        "all_links":all_links
    }

La fonction est un générateur (`yield`) et retourne un dictionnaire
composé de deux éléments :

-   Le titre de la page;
-   La liste des liens sortants sous forme de String.

Pour le moment cette spider ne parcourt que la page d'accueil, ce qui
n'est pas très productif.

## Votre premier scraper

Récupérer les données sur un ensemble de pages webs nécessite d'explorer
en profondeur la structure du site en suivant tout ou partie des liens
rencontrés.

La spider peut se `balader` sur un site assez efficacement. Il suffit de
lui indiquer comment faire. Il faut spécifier à Scrapy de générer une
requête vers une nouvelle page en construisant l'objet `Request`
correspondant. Ce nouvel objet `Request` est alors inséré dans le
scheduler de Scrapy. On peut évidemment générer plusieurs `Request`
simultanément, correspondant par exemple, à différents liens sur la page
courante. Ils sont insérés séquentiellement dans le scheduler.

Pour cela on modifie la méthode `parse()` de façon à ce qu'elle retourne
un objet `Request` pour chaque nouveau lien rencontré. On associe
également à cet objet une fonction de callback qui déterminera la
manière dont cette nouvelle page doit être extraite.

Par exemple, pour que la spider continue dans les liens des différentes
régions (pour l'instant la fonction de callback ne fait rien) :

In [4]:
# %load newscrawler/newscrawler/spiders/lemonde_v2.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev2"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        yield {
            "title":title,
            "all_links":all_links
        }
        

Pour lancer la spider

In [5]:
!cd newscrawler && scrapy crawl lemondev2

2020-11-17 16:44:45 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2020-11-17 16:44:45 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-17 16:44:45 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-17 16:44:45 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2020-11-17 16:44:45 [scrapy.extensions.telnet] INFO: Telnet Password: 1692e1eda6f6dbfa
2020-11-17 16:44:45 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsag

On veut ensuite *entrer* dans les liens des différentes sous-catégories
pour récupérer les articles. Pour cela, nous créons une méthode
`parse_category()` prend en argument un objet `Response` qui sera la
réponse correspondant aux liens des régions. On peut comme ceci
traverser un site en définissant des méthodes différentes en fonction du
type de contenu.

Si la structure du site est plus profonde, on peut empiler autant de
couches que souhaité.

Quand on arrive sur une page d'une sous-catégorie, on peut vouloir
récupérer tous les éléments de la page. Pour cela, on réutilise le
scrapy Shell pour commencer le développement de la nouvelle méthode
d'extraction.

Par exemple pour la page `https://www.lemonde.fr/international/` :

In [7]:
!scrapy shell 'https://www.lemonde.fr/international/'

2020-11-23 12:53:33 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: scrapybot)
2020-11-23 12:53:33 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-23 12:53:33 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-23 12:53:33 [scrapy.crawler] INFO: Overridden settings:
{'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0}
2020-11-23 12:53:33 [scrapy.extensions.telnet] INFO: Telnet Password: 7a4e5840efb0bec6
2020-11-23 12:53:33 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2020-11-23 12:53:33 [scrapy.middleware] INFO: Enabled do

Le fil des articles est stocké dans une balise avec la classe
`class=river`.

In [None]:
In [3]: response.css(".river")
Out[3]:
[<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n   <section>\n      '>,
<Selector xpath="descendant-or-self::*[@class and contains(concat(' ', normalize-space(@class), ' '), ' fleuve ')]" data='<div class="fleuve">\n</div>'>]

Pour récupérer chacun des articles, il faut adresser les balises
`<article>` contenues dans le sélecteur:

In [None]:
In [4]: response.css(".river")[0].css(".teaser")
Out[4]:
[<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi mg'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>,
<Selector xpath='descendant-or-self::article' data='<article class="grid_12 alpha enrichi">\n'>]   

Comme précédemment, on peut empiler les sélecteurs `css` pour créer des
requêtes plus complexes.

Par exemple, pour récupérer tous les titres des différents articles :

In [None]:
In [8]: response.css(".river")[0].css(".teaser h3::text").extract()
Out[8]:
['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili\r\n\r\n\r\n',
'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition\r\n\r\n\r\n',
'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête\r\n\r\n\r\n',
'Donald Trump veut «\xa0mettre fin\xa0» à l’Aléna rapidement\r\n\r\n\r\n',
'Le cauchemar de la «\xa0rééducation\xa0» des musulmans en Chine\r\n\r\n',
'\r\n',
'«\xa0AMLO\xa0» lance sa transformation du Mexique\r\n\r\n\r\n',
'«\xa0Paris brûle\xa0»\xa0: les médias étrangers relatent le «\xa0chaos\xa0» en marge des défilés des «\xa0gilets jaunes\xa0»\r\n\r\n\r\n',
'Andrés Manuel Lopez Obrador intronisé président du Mexique\r\n\r\n\r\n']

En HTML les données sont souvent de très mauvaise qualité. Il faut
définir des méthodes permettant de les nettoyer pour être intégrées dans
des bases de données.

Par exemple, pour supprimer tous les espaces superflus :

In [None]:
def clean_spaces(string_):
    if string_ is not None: 
        return " ".join(string_.split())

Pour l'appliquer à tous les titres récupérés, on peut faire une list
comprehension : 

In [None]:
In [11]: [clean_spaces(article) for article in response.css(".river")[0].css(".teaser h3::text").extract()]  

Out[11]: ['Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili',
          'A Budapest en Hongrie, un îlot décroissant pour favoriser la transition', 
          'En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête',
          'Donald Trump veut « mettre fin » à l’Aléna rapidement', 
          'Le cauchemar de la « rééducation » des musulmans en Chine',
          '',
          '« AMLO » lance sa transformation du Mexique', 
          '« Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »',
          'Andrés Manuel Lopez Obrador intronisé président du Mexique'
         ]


La méthode précédente est intéressante si l'on ne recherche qu'une seule
information par article.

Par contre si l'on veut récupérer d'autres caractéristiques comme
l'image ou la description par exemple, il est plus intéressant et plus
efficace de récupérer l'objet et d'effectuer plusieurs traitements sur
ce dernier.

Chaque objet retourné par les requêtes `css` est un selecteur avec
lequel on peut interagir.

Par exemple pour récupérer le titre et le prix

In [None]:
In [25]: for article in response.css(".fleuve")[0].css("article"):
...:     title = clean_spaces(article.css("h3 a::text").extract_first())
...:     image = article.css("img::attr(data-src)").extract_first()
...:     description = article.css(".txt3::text").extract_first()
...:     print(f"Title :{title} \nImage :{image}\nDescription :{description}\n ----")


In [None]:
Title Des dizaines de milliers de Géorgiens contestent dans la rue l’élection de Salomé Zourabichvili
Image https://s1.lemde.fr/image/2018/12/02/147x97/5391641_7_5874_les-partisans-de-l-opposant-grigol-vashadze_20d2e8693a49b83fd3c5578f7799ae9c.jpg
Description Elue présidente (un rôle essentiellement symbolique en Géorgie), l’ex-diplomate française, candidate du pouvoir, est contestée par l’opposition.
----
Title A Budapest en Hongrie, un îlot décroissant pour favoriser la transition
Image https://img.lemde.fr/2018/12/01/10/0/4214/2809/147/97/60/0/15b32ca_1EY4qISQ_BP4kPAh1fozJdXZ.jpg
Description Le centre logistique Cargonomia sert de matrice aux coopératives de l’économie durable et solidaire hongroise.
----
Title En Israël, la police recommande l’inculpation de Nétanyahou dans une troisième enquête
Image https://img.lemde.fr/2018/12/02/167/0/4207/2804/147/97/60/0/9e02c9b_3580d043ebc94b48b0f2cfef4e9a21e7-3580d043ebc94b48b0f2cfef4e9a21e7-0.jpg
Description Le premier ministre est soupçonné de corruption, fraude et abus de pouvoir, dans une affaire impliquant le groupe de télécoms israélien Bezeq.
----
Title Donald Trump veut « mettre fin » à l’Aléna rapidement
Image https://img.lemde.fr/2018/11/30/0/0/4861/3240/147/97/60/0/8b87184_5826023-01-06.jpg
Description Le président américain souhaite voir disparaître l’accord de libre-échange remontant à 1994 avec le Mexique et le Canada, qu’il qualifie régulièrement de « pire accord jamais signé », en faveur du nouveau traité négocié difficilement avec ses voisins nord-américains ces derniers mois.
----
Title Le cauchemar de la « rééducation » des musulmans en Chine
Image https://img.lemde.fr/2018/11/15/151/0/5000/3333/147/97/60/0/118c78f_248b226e6b91450aa8a68bd0ea5525a8-248b226e6b91450aa8a68bd0ea5525a8-0.jpg
Description Ouïgours et Kazakhs du Xinjiang... C’est toute une population musulmane que Pékin veut « rééduquer » en internant des centaines de milliers d’entre eux dans des camps.
----
Title « AMLO » lance sa transformation du Mexique
Image https://img.lemde.fr/2018/12/02/45/0/1497/998/147/97/60/0/a33c174_GGGTBR84_MEXICO-POLITICS-_1202_11.JPG
Description Education et santé gratuites, hausse du salaire minimum, bourses scolaires : à peine investi, le président Andres Manuel Lopez Obrador a listé les mesures qu’il entend prendre pour redresser le pays.
----
Title « Paris brûle » : les médias étrangers relatent le « chaos » en marge des défilés des « gilets jaunes »
Image https://img.lemde.fr/2018/12/02/361/0/598/396/147/97/60/0/ba46a6e_XVIt1Ffwm50iYBheccVieUQQ.jpg
Description Les images de destructions, d’échauffourées ou de voitures enflammées s’affichaient samedi soir en « une » de nombreux sites d’actualité internationaux.
----
Title Andrés Manuel Lopez Obrador intronisé président du Mexique
Image https://img.lemde.fr/2018/12/02/91/145/1346/897/147/97/60/0/877cd51_a4618baa8da2414bb62bab28a6d4c745-a4618baa8da2414bb62bab28a6d4c745-0.jpg
Description Le nouveau chef d’Etat a promis de lutter contre la corruption en menant une transformation « profonde et radicale » du pays.
----

## Persistence des données

Pour pouvoir stocker les informations que l'on récupère en parcourant un
site il faut pouvoir les stocker. On utilise soit de simples
dictionnaires Python, ou mieux des `scrapy.Item` qui sont des
dictionnaires améliorés.

Nous allons voir les deux façons de faire. On peut réécrire la méthode
`parse_category()` pour lui faire retourner un dictionnaire
correspondant à chaque offre rencontrée.

In [None]:
def parse_category(self, response):
    for article in response.css(".fleuve")[0].css("article"):
        title = self.clean_spaces(article.css("h3 a::text").extract_first())
        image = article.css("img::attr(data-src)").extract_first()
        description = article.css(".txt3::text").extract_first()
        yield {
            "title":title,
            "image":image,
            "description":description
        }

Si on combine tout dans la spider :

In [6]:
# %load newscrawler/newscrawler/spiders/lemonde_v3.py
import scrapy
from scrapy import Request


class LemondeSpider(scrapy.Spider):
    name = "lemondev3"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)
            
    def parse_category(self, response):
        for article in response.css(".river")[0].css(".teaser"):
            title = self.clean_spaces(article.css("h3::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()
            yield {
                "title":title,
                "image":image,
                "description":description
            }

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On peut maintenant lancer notre spider avec la commande suivante :

In [None]:
scrapy crawl <NAME>

`scrapy crawl` permet de démarrer le processus en allant chercher la
classe `scrapy.Spider` dont l'attribut `name` = &lt;NAME&gt;.

Par exemple, pour la spider `LeMondeSpider` :

In [9]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.csv

2020-11-23 12:57:08 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2020-11-23 12:57:08 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-23 12:57:08 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-23 12:57:08 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2020-11-23 12:57:08 [scrapy.extensions.telnet] INFO: Telnet Password: 380704d83cdbe39e
2020-11-23 12:57:08 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsag

2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'EDF perd autour de 150 000 clients par mois en France, au profit des 47 autres fournisseurs d’électricité', 'image': 'https://img.lemde.fr/2020/11/23/0/194/5085/3390/110/74/60/0/8abb27a_765432298-000-1va2p0.jpg', 'description': None}
2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Eloge du temps long au festival Entrevues de Belfort', 'image': 'https://img.lemde.fr/2020/11/23/3/0/1840/1226/110/74/60/0/21a3cf2_572967410-les-travaux-et-les-jours-10.JPG', 'description': None}
2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'L’idée de vous faire vacciner contre le coronavirus vous inquiète ? Témoignez', 'image': 'https://img.lemde.fr/2020/11/23/0/44/2764/1843/110/74/60/0/712cf32_0df35c2d6a3f40fab947d45ebc77fe9b-0df35c2d6a3f40fab947d45ebc77fe9b-0.jpg', 'descrip

2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Vendée Globe : Alex Thomson, l’un des favoris de la course, contraint à des réparations', 'image': 'https://img.lemde.fr/2020/11/20/0/4/4920/3280/110/74/60/0/e50008c_5745860-01-06.jpg', 'description': None}
2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Covid-19 : « Plus de 120 000 emplois dépendent de l’ouverture des stations de ski »', 'image': 'https://img.lemde.fr/2020/11/20/0/76/5314/3543/110/74/60/0/b4a7935_297635445-frtfdr.jpg', 'description': None}
2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Rugby : et maintenant, place aux « finisseurs »', 'image': 'https://img.lemde.fr/2020/11/20/0/45/4434/2956/110/74/60/0/1712910_890409381-000-1on17z.jpg', 'description': None}
2020-11-23 12:57:10 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemon

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'La presse doit pouvoir travailler « librement », rappelle la Commission européenne', 'image': 'https://img.lemde.fr/2020/11/22/1/0/5750/3833/110/74/60/0/1b2748c_471041727-lgeai-22nov2020-manif-trocadero44.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Numérique : avec le Covid-19, « la présence physique s’est avérée soudainement porteuse d’une dimension politique »', 'image': 'https://img.lemde.fr/2020/11/18/0/0/1023/682/110/74/60/0/a55eefe_271015417-000-1rn1pe.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« Les avancées de l’intelligence artificielle pourraient rendre les “deepfakes” encore plus redoutables »', 'image': 'https://img.lemde.fr/2020/11/19/150/0/3600/2400/110/74/60/0/3d20cb8_447316590-

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le kiwi au centre d’une grossière fraude électorale en Nouvelle-Zélande', 'image': 'https://img.lemde.fr/2020/11/12/354/0/5857/3904/110/74/60/0/edc3f03_291902235-pns-900009.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'En une phrase, le boys band BTS provoque la colère des internautes chinois', 'image': 'https://img.lemde.fr/2020/09/30/0/0/3319/2212/110/74/60/0/79795ae_ba6f8ff7b7494f3aae1c2e180b55934f-ba6f8ff7b7494f3aae1c2e180b55934f-0.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Football : pour le SC Fribourg, un nouveau stade à 76 millions d’euros… et l’interdiction d’y jouer à cause du bruit', 'image': 'https://img.lemde.fr/2020/09/19/0/0/3859/2573/110/74/60/0/90d8652_7975a1e9a2c0

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Accord entre la SNCF et la Mairie de Paris pour réduire le projet de rénovation de la Gare du Nord', 'image': 'https://img.lemde.fr/2020/01/15/2/0/3500/2333/110/74/60/0/0864768_GFM101_FRANCE-PROTESTS-PENSIONS_0115_11.JPG', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Semaine de l’économie positive : « One earth… One health ? » (« Une planète, une santé ? »)', 'image': 'https://img.lemde.fr/2020/11/19/0/0/1051/700/110/74/60/0/2a5b3e3_253761357-capture-d-e-cran-2020-11-19-a-09-29-03.png', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Etudes de santé : quand la Paces renaît de ses cendres', 'image': 'https://img.lemde.fr/2020/11/20/0/6/6036/4024/110/74/60/0/6d8ac18_992251312-000-8vh6nj.jpg', 'desc

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Peut-on vraiment dire que le pic de la seconde vague de Covid-19 a été atteint ?', 'image': 'https://img.lemde.fr/2020/11/23/510/763/4804/3202/110/74/60/0/13d0253_892683797-000-8uw422.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Commerces : d’où vient le chiffre de « 2,2 emplois détruits pour 1 créé par Amazon » ?', 'image': 'https://img.lemde.fr/2020/11/17/8/0/3000/2000/110/74/60/0/cd8e03c_5732329-01-06.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Pourquoi bars et restaurants sont considérés comme des lieux à risque pour attraper le Covid-19', 'image': 'https://img.lemde.fr/2020/10/25/0/0/4000/2666/110/74/60/0/fff18be_78c8cd3909234d80a7dfc8b0c72b21bd-78c8cd3909234d80a7df

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le « lamphone », ou l’espionnage d’une conversation en observant l’ampoule de la pièce', 'image': 'https://img.lemde.fr/2017/01/25/2134/5/2826/1888/110/74/60/0/c278385_23922-o818w6.mu5wzbbj4i.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/deuxieme-confinement/> (referer: https://www.lemonde.fr)
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Election présidentielle de 2022 : EELV lance sa primaire sur fond de polémique avec Anne Hidalgo', 'image': 'https://img.lemde.fr/2020/11/23/0/164/4116/2744/110/74/60/0/2a22512_51694803-122003.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Christian Jacob : « Pour respecter les accords de Paris via la décroissan

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Production de café : « L’homme doit être en harmonie avec mère nature »', 'image': 'https://img.lemde.fr/2020/11/02/0/0/1399/933/110/74/60/0/db07e96_278271227-3-2-grands-prix.png', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'A l’université, les IAE connaissent une forte hausse de leur attractivité', 'image': 'https://img.lemde.fr/2020/11/13/237/0/3826/2550/110/74/60/0/f1e4426_916335340-iae-poitiers-bu-esteban-torres-timothe-e-alamargot.JPG', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Les écoles de commerce poussées dans les bras des fonds d’investissement', 'image': 'https://img.lemde.fr/2020/11/16/1358/0/3543/2362/110/74/60/0/d4aa0a7_14691972-pns-3897503-2.jpg', 'description': None}
2020-11-23 12:57:11 

2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Présidentielle au Burkina Faso : de l’euphorie à la désillusion, le bilan mitigé de Kaboré', 'image': 'https://img.lemde.fr/2020/11/19/0/0/2500/1665/110/74/60/0/89d5f0e_445083478-143628.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Sur les îles Canaries, les arrivées massives de migrants africains font craindre l’apparition d’une « nouvelle Lesbos »', 'image': 'https://img.lemde.fr/2020/11/16/0/0/6646/4430/110/74/60/0/315a225_562567100-bt7a5785.jpg', 'description': None}
2020-11-23 12:57:11 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Sahara occidental : la Jordanie va ouvrir un consulat à Laâyoune', 'image': 'https://img.lemde.fr/2020/11/20/15/0/6789/4526/110/74/60/0/c1075e7_93318296-000-8uj4wa.jpg', 'description': None}
2020-11-23 12

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'De la douche mobile au four à pain, l’énergie solaire à concentration se développe', 'image': 'https://img.lemde.fr/2020/11/20/0/0/5616/3744/110/74/60/0/27b7f04_983999404-pns-2303935.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Karine Lacombe, infectiologue : « Mon métier me porte, me nourrit, m’enthousiasme, m’envahit »', 'image': 'https://img.lemde.fr/2020/11/20/215/0/3528/2344/110/74/60/0/1b9a595_464192274-147561.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'En France, pas de déconfinement en vue à partir du 1er décembre, mais des « assouplissements »', 'image': 'https://img.lemde.fr/2020/11/20/27/0/4106/2737/110/74/60/0/8d638fb_913357567-000-1mo8c4.jpg', 'description': None}
2020-11-23 12:57

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Diplomatie, Covid-19, économie... ces grenades dégoupillées par Donald Trump pour entraver la transition avec Joe Biden', 'image': 'https://img.lemde.fr/2020/11/20/0/0/4767/3178/110/74/60/0/4d9d8eb_89fd04d324f5413fa1373a2dacc2cbfc-89fd04d324f5413fa1373a2dacc2cbfc-0.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Acculés, les Palestiniens misent sur Joe Biden pour rétablir le statu quo avec Israël', 'image': 'https://img.lemde.fr/2020/11/20/0/65/4518/3012/110/74/60/0/2d519e5_438706944-140177.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Donald Trump fait pression sur des responsables républicains pour modifier les résultats de la

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Pourquoi l’Etat n’a-t-il pas ouvert de nouveaux lits de réanimation ? », « Pourquoi une balade seul en forêt est-elle dangereuse ? » : nos 36 réponses à vos questions sur la pandémie de Covid-19', 'image': 'https://img.lemde.fr/2020/11/16/0/150/1620/1080/110/74/60/0/904f32d_a3244d0f24f84656bd42467aff82990b-a3244d0f24f84656bd42467aff82990b-0.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Si l’argumentaire complotiste sur le Covid-19 de "Hold-up" est aussi séduisant, c’est parce qu’il prétend apporter des réponses catégoriques »', 'image': 'https://img.lemde.fr/2020/11/13/0/0/1800/1200/110/74/60/0/5b938bf_968818604-tchat-covid1.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Avec la moitié de l’humanité confinée, les vibrations de la Terre sont plus perceptibles', 'image': 'https://img.lemde.fr/2020/04/13/0/209/1867/1245/110/74/60/0/7137d6e_QOcfMtgXrITcq13KGwabzD4J.jpeg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Pied-pong, soutifs et morpion-croquettes : les malheurs du confinement racontés sur Twitter', 'image': 'https://img.lemde.fr/2020/03/24/651/40/3714/2476/110/74/60/0/0d0cd8a_Gjo69j7vxoF9ExdIxiTz8Hcw.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Coronavirus : dans le monde, la fièvre du stockage et une ruée sur le papier toilette', 'image': 'https://img.lemde.fr/2020/03/16/0/0/2700/1800/110/74/60/0/5aeb4e9_149e0012bbd648c183857aa64ad45e6f-149e00

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'L’Azerbaïdjan reprend Agdam, district voisin du Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/11/19/0/0/5472/3648/110/74/60/0/42985ba_f45505e9a6914ea1bf52f74975491106-f45505e9a6914ea1bf52f74975491106-0.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Les rêves de retour des déplacés du Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/11/18/0/0/3543/2362/110/74/60/0/762ec82_306077512-mb-201114-031.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Haut-Karabakh : l’Azerbaïdjan donne un délai pour l’évacuation de la région de Kelbajar', 'image': 'https://img.lemde.fr/2020/11/15/29/0/4703/3135/110/74/60/0/5466164_31baa84e8bc840ccae9c14973585ab84-2a

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'L’écrivain américain Luke Rhinehart est mort', 'image': 'https://img.lemde.fr/2020/11/14/0/0/299/199/110/74/60/0/500d753_977939813-ann-smedgeorge.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de Nelly Kaplan, réalisatrice de « La Fiancée du pirate »', 'image': 'https://img.lemde.fr/2020/11/13/375/0/3744/2491/110/74/60/0/1e8d63c_734680288-152482.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Jerry Rawlings, ancien président ghanéen et figure historique du continent africain, est mort', 'image': 'https://img.lemde.fr/2020/11/12/41/0/3154/2102/110/74/60/0/003d610_5704492-01-06.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 ht

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': '« Il n’y aura pas de traité de libre-échange sans un accord de pêche équilibré »', 'image': 'https://img.lemde.fr/2016/06/13/2/0/7020/4680/110/74/60/0/3f4adfd_5063912-01-06.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Mourir sur un champ de bataille, oui, mais pas à l’école » : le parcours tragique de Jallal Hami, noyé lors d’un bizutage à Saint-Cyr', 'image': 'https://img.lemde.fr/2020/11/21/527/0/1762/1176/110/74/60/0/1dfc1d4_590609427-jallal-hami-def-1.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Qui seront les imams homologués ? Les limites du futur conseil national des imams', 'image': 'https://img.lemde.fr/2020/11/20/0/0/5177/3444/110/74/60/0/15fe249_935556310-1141

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Découverte d’une nouvelle espèce de singe en Birmanie', 'image': 'https://img.lemde.fr/2020/11/11/0/0/4771/3181/110/74/60/0/bdb8459_5697750-01-06.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Accès aux gymnases : les malades chroniques prioritaires', 'image': 'https://img.lemde.fr/2020/11/09/4/690/3187/2124/110/74/60/0/3854224_87113216-pns-6035631-2.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'L’art discret de la vélotypie mis en lumière par le sous-titrage hasardeux du discours de Macron', 'image': 'https://img.lemde.fr/2020/03/13/3/360/2927/1948/110/74/60/0/fb9bd03_dE1l-zUs4mjWJ1On1-6cGywv.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Le Haut-Karabakh, une victoire en demi-teinte pour la Turquie', 'image': 'https://img.lemde.fr/2020/11/11/0/32/2950/1967/110/74/60/0/8925f11_5699615-01-06.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Haut-Karabakh : à Fizouli, abandonnée depuis 1993, l’Azerbaïdjan reprend possession de ruines et de bunkers', 'image': 'https://img.lemde.fr/2020/11/12/0/6/6036/4024/110/74/60/0/e57514f_773962443-050418.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': '« Vous ne pourrez pas arrêter tout le pays » : colère en Arménie après l’accord de cessez-le-feu au Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/11/11/0/71/3358/2239/110/74/60/0/5da31ed_vah004

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Déplacements de fin d’année et réouvertures : Macron devrait annoncer un « allégement des contraintes » du confinement', 'image': 'https://img.lemde.fr/2020/11/23/39/423/5305/3536/110/74/60/0/2c1a31e_143506053-000-8vb8m3.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'La relance économique sera-t-elle verte ou grise ?', 'image': 'https://img.lemde.fr/2020/06/08/189/587/3935/2623/110/74/60/0/a489549___78YKDHEU7lCa0qHohMtDlk.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Pourquoi l’Allemagne fait figure d’exemple dans sa gestion de l’épidémie due au coronavirus', 'image': 'https://img.lemde.fr/2020/05/27/0/0/3499/2333/110/74/60/0/38d6687_GDN_GERMANY-POLITICS-_0527_1L.JPG', 'descri

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': '« Kamala Harris » : la première fois que « Le Monde » l’a écrit', 'image': 'https://img.lemde.fr/2020/11/10/0/0/4000/2666/110/74/60/0/d22e956_367335706-000-8un6m3.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Des pro-Trump contre le comptage des votes : c’est peut-être un détail pour vous…', 'image': 'https://img.lemde.fr/2020/11/10/0/0/1500/1000/110/74/60/0/0054818_919404038-web-478-478-sem-beauge-usa-201109-155503.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Joe Biden remporte l’Arizona, Donald Trump la Caroline du Nord', 'image': 'https://img.lemde.fr/2020/11/13/0/0/4500/3000/110/74/60/0/99718d2_5708602-01-06.jpg', 'descri

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Masque dès 6 ans à l’école : trois idées reçues sur les risques encourus par les enfants', 'image': 'https://img.lemde.fr/2020/11/03/0/0/6000/4000/110/74/60/0/6f6d39c_995659481-dsf1646.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Golf : l’Américain Dustin Johnson remporte son deuxième Grand Chelem et succède à Tiger Woods', 'image': 'https://img.lemde.fr/2020/11/15/1/0/7406/4937/110/74/60/0/1389a37_5723371-01-07.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Lewis Hamilton, messes et sarcophages : les 5 infos à retenir du week-end', 'image': 'https://img.lemde.fr/2020/11/15/0/0/3000/2000/110/74/60/0/495fc0e_39101762-recap1511.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scr

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': '« L’Equipe » lance un plan de sauvegarde de l’emploi et compte supprimer une soixantaine de postes', 'image': 'https://img.lemde.fr/2020/06/01/0/0/5184/3456/110/74/60/0/55f60c8_-Lp8XSPJkmD7gke5uK5Q5vs7.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': '« Le pire serait qu’elle soit morte pour rien » : Irina Slavina, le « sacrifice » d’une femme derrière les flammes', 'image': 'https://img.lemde.fr/2020/10/28/73/0/4064/2709/110/74/60/0/1a6c7ba_374996184-abaca-brtass20201006-208.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Comment l’économie sociale et solidaire s’adapte à la crise économique et sanitaire', 'image': 'https://img.lemde.fr/2020/09/28/0/587/1803/1202/110/74

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': '« Ce sont aussi mes idées que j’affirme » : ces femmes puissantes qui cassent les clichés sur les muscles', 'image': 'https://img.lemde.fr/2020/11/20/989/0/2708/1798/110/74/60/0/21a99a2_447755651-30-julien-vallon.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Mort de la résistante Noëlla Rouget, la déportée qui fit gracier son bourreau', 'image': 'https://img.lemde.fr/2019/09/10/655/0/1667/1105/110/74/60/0/a001dd7_QfPCUEa2Ya5v9SeTiaVZddkT.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Pas de crime d’écocide, mais un délit pour punir les atteintes à l’environnement', 'image': 'https://img.lemde.fr/2020/11/18/1/0/6887/4591/110/74/60/0/bb6ba33_5735412-01-06.

2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort du cinéaste mexicain Paul Leduc', 'image': 'https://img.lemde.fr/2020/11/01/0/0/1344/896/110/74/60/0/a88d052_190413118-014-81202116.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'Benoît Elleboode, un parcours (de santé) très scruté', 'image': 'https://img.lemde.fr/2020/11/03/0/11/1477/985/110/74/60/0/16fab63_65988-3195278.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '1,65 m au Bangladesh, 1,83 m aux Pays-Bas… L’alimentation accentue les disparités de taille des jeunes dans le monde', 'image': 'https://img.lemde.fr/2020/11/10/0/0/4000/2666/110/74/60/0/7301795_730612235-080809.jpg', 'description': None}
2020-11-23 12:57:12 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.f

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'La mort du mathématicien Pierre Rosenstiehl', 'image': 'https://img.lemde.fr/2020/11/09/93/0/2240/1493/110/74/60/0/c1c4ff4_529579183-pierre-rosenstiehl.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Toronto : la ville canadienne qui rivalise avec la Silicon Valley', 'image': 'https://img.lemde.fr/2020/11/06/4/82/1711/1138/110/74/60/0/cbc6f91_547471240-000-app1999112954691.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Polygamie, fichage, exercice des cultes… ce que contient le projet de loi sur les « principes républicains »', 'image': 'https://img.lemde.fr/2020/11/19/0/0/5899/3933/110/74/60/0/4477726_174676675-jmug201020022.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] D

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : « La dénutrition, est-ce possible dans une société d’abondance ? »', 'image': 'https://img.lemde.fr/2020/11/20/1592/0/3400/2251/110/74/60/0/3823f7b_390677458-gtrfuyt.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : les musées américains ont perdu près de 30 milliards de dollars', 'image': 'https://img.lemde.fr/2020/11/20/0/0/6000/4000/110/74/60/0/064f76c_59708519-met.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Kiddy Smile : « Je fais partie des artistes qui existent grâce au spectacle vivant »', 'image': 'https://img.lemde.fr/2020/04/23/43/0/341/226/110/74/60/0/0305445_HeeE2UlkqgHk6lKaq61MQM0e.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Infographie : une coloscopie guidée par un robot magnétique', 'image': 'https://img.lemde.fr/2020/10/30/212/0/321/214/110/74/60/0/a96c438_710532765-scie-4520-coloscopie-magnetique.png', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'De Rocard à Macron en passant par Sarkozy : Emmanuel Moulin, un « transcourant » à la tête du Trésor', 'image': 'https://img.lemde.fr/2020/11/18/662/1541/3828/2552/110/74/60/0/adc7da8_804291323-t6a8725.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': '« Il faut demander un effort à ceux qui ont profité de la crise » : la « dette Covid » et le débat sur la taxation des riches', 'image': 'https://img.lemde.fr/2020/11/19/595/0/4000/2662/110/74/60/0/d8f9e46_96626775-pns-4722916

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Oui à des concours spécifiques pour diversifier l’accès à la haute fonction publique »', 'image': 'https://img.lemde.fr/2020/02/18/0/4/4920/3280/110/74/60/0/f1fd867_5200704-01-06.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'A l’université, l’émancipation des étudiants LGBT fragilisée par la crise', 'image': 'https://img.lemde.fr/2020/10/26/90/0/7542/5028/110/74/60/0/5cac9b0_819377846-lgbt-clr-01.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'L’offensive postale du syndicat étudiant UNI « contre la radicalisation islamiste »', 'image': 'https://img.lemde.fr/2020/10/26/24/0/2280/1520/110/74/60/0/1caa254_46719331-000-par1619021.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Semaine de l’économie positive : « Lutter contre la pauvreté par le biais de l’éducation »', 'image': 'https://img.lemde.fr/2020/11/19/0/0/1051/700/110/74/60/0/2a5b3e3_253761357-capture-d-e-cran-2020-11-19-a-09-29-03.png', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Du rejet des masques à la « prétendue » deuxième vague… comment le discours des médecins « rassuristes » a émergé', 'image': 'https://img.lemde.fr/2020/10/22/0/0/5568/3712/110/74/60/0/949e690_5447308-000-1wu5fc.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Confinement et économie : huit graphiques qui montrent l’onde de choc depuis mars', 'image': 'https://img.lemde.fr/2020/10/30/0/34/1500/1000/110/74/60/0/4f2338a_446402040-medi

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Du pape François au prince William, des dizaines de personnalités alertent sur l’urgence climatique', 'image': 'https://img.lemde.fr/2020/10/10/43/0/4922/3281/110/74/60/0/db75ba3_5489424-01-06.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Climat: une victoire démocrate devrait ramener les Etats-Unis dans l’accord de Paris', 'image': 'https://img.lemde.fr/2020/10/09/0/0/6000/4000/110/74/60/0/bb86eb6_680569944-197146.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Convention citoyenne pour le climat : l’exécutif évoque du retard, justifié par la crise du coronavirus', 'image': 'https://img.lemde.fr/2020/10/07/0/5/5017/3345/110/74/60/0/d39a24b_c18d3ec19b984ae7bdbd82871b0f08dd-c18d3ec19b984ae7bdbd828

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/affaires-de-sarkozy/>
{'title': 'Financement libyen : Alexandre Djouhri défie les juges', 'image': 'https://img.lemde.fr/2018/02/22/0/0/2141/1421/110/74/60/0/014f9e6_PSU303_FRANCE-SARKOZY-DJOURHI_0222_11.JPG', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/affaires-de-sarkozy/>
{'title': 'Saïf Al-Islam Kadhafi, le modéré devenu paria', 'image': 'https://img.lemde.fr/2018/09/11/115/0/2156/1437/110/74/60/0/bb994fd_jAxYRJSqNBGtDiMEyyOSIqqU.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/affaires-de-sarkozy/>
{'title': 'Financement libyen : Claude Guéant entendu par les juges d’instruction', 'image': 'https://img.lemde.fr/2018/06/05/0/70/3423/2282/110/74/60/0/c792bce_17826-1cphqt.d0fjx.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scra

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Covid-19 : sous pression de la justice, New Delhi se décide à agir', 'image': 'https://img.lemde.fr/2020/11/13/32/0/3500/2333/110/74/60/0/5954784_ppp-del105-health-coronavirus-india-cases-1113-11.JPG', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Diplomatie, Covid-19, économie... ces grenades dégoupillées par Donald Trump pour entraver la transition avec Joe Biden', 'image': 'https://img.lemde.fr/2020/11/20/0/0/4767/3178/110/74/60/0/4d9d8eb_89fd04d324f5413fa1373a2dacc2cbfc-89fd04d324f5413fa1373a2dacc2cbfc-0.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Afghanistan, l’ombre des talibans plane à nouveau sur les trésors de Bamiyan', 'image': 'https://img.lemde.fr/2020/11/11/4/0/

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Tempête Alex : cinq morts, dont deux en Italie, et une vingtaine de disparus en France', 'image': 'https://img.lemde.fr/2020/10/04/0/0/5568/3712/110/74/60/0/81814f3_5452413-01-06.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Dans la vallée de la Vésubie : « Il n’a pas plu depuis trois mois, et là, tout est tombé d’un coup »', 'image': 'https://img.lemde.fr/2020/10/03/0/0/3000/2000/110/74/60/0/6e1ed71_268862114-20201003-intemperiesalpesmaritimes36.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Tempête Alex : deux morts en Italie, une vingtaine de personnes portées disparues en France', 'image': 'https://img.lemde.fr/2020/10/03/0/0/5472/3648/110/74/60/0/61a32b1_5447693-01-06.jpg', 'description': N

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Un apéro avec Patrick Pelloux : « J’adore l’ivresse, c’est une parenthèse d’espérance »', 'image': 'https://img.lemde.fr/2020/11/18/0/0/6462/4308/110/74/60/0/4d5c5eb_435093703-pelloux-alcock-028.JPG', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Peut-on vraiment dire que le pic de la seconde vague de Covid-19 a été atteint ?', 'image': 'https://img.lemde.fr/2020/11/23/510/763/4804/3202/110/74/60/0/13d0253_892683797-000-8uw422.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Covid-19 : sous pression de la justice, New Delhi se décide à agir', 'image': 'https://img.lemde.fr/2020/11/13/32/0/3500/2333/110/74/60/0/5954784_ppp-del105-health-coronavirus-india-cases

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Les deux journalistes du « Monde » blessés dans le Haut-Karabakh en cours d’évacuation vers Erevan puis Paris', 'image': 'https://img.lemde.fr/2020/10/02/0/0/3654/2436/110/74/60/0/e95bcc4_728971133-241622.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Deux journalistes du « Monde » blessés au Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/10/01/0/0/1920/1280/110/74/60/0/ee6323d_624016416-986989.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Frappés par la deuxième vague, les Ehpad confrontés à des familles sous tension', 'image': 'https://img.lemde.fr/2020/11/14/0/0/5251/3500/110/74/60/0/173e96e_278429506-153685.jpg', 'description': None}
20

2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Covid-19 : retrouvez la conférence de presse de Jean Castex sur la situation sanitaire', 'image': 'https://img.lemde.fr/2020/11/12/1/0/7951/5300/110/74/60/0/27bf109_522329349-153510.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Les demandes d’activité partielle multipliées par cinq depuis le reconfinement', 'image': 'https://img.lemde.fr/2020/10/30/0/0/6000/4000/110/74/60/0/00d89ee_837212494-30102020-l1890882.jpg', 'description': None}
2020-11-23 12:57:13 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Personnes vulnérables : un nouveau décret déclenche la colère des associations', 'image': 'https://img.lemde.fr/2020/11/12/0/0/5568/3712/110/74/60/0/460c996_414359317-000-8tp4e3.jpg', 'description': Non

On peut exporter les résultats de ces retours dans différents formats de
fichiers.

-   CSV : `scrapy crawl lemonde -o lbc.csv`
-   JSON : `scrapy crawl lemonde -o lbc.json`
-   JSONLINE : `scrapy crawl lemonde -o lbc.jl`
-   XML : `scrapy crawl lemonde -o lbc.xml`

### Exercice :

Exécuter la spider avec les différents formats de stockage.
Explorer ensuite le contenu des fichiers ainsi créés.

In [8]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.csv

2020-11-17 17:05:29 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2020-11-17 17:05:29 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-17 17:05:29 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-17 17:05:29 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2020-11-17 17:05:29 [scrapy.extensions.telnet] INFO: Telnet Password: ce81fc897e632cd3
2020-11-17 17:05:30 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsag

2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« La crise de la santé mentale étudiante précède le Covid-19, elle ne s’éteindra pas avec lui »', 'image': 'https://img.lemde.fr/2020/10/13/99/467/3010/2008/110/74/60/0/f078819_704781066-upec-eg201006-022.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« On a la même vie que des personnes âgées » : quand la solitude menace les étudiants', 'image': 'https://img.lemde.fr/2020/05/24/56/0/5558/3700/110/74/60/0/21e0290_Wsw-6P88UCkF9Vl-HxGPPy8d.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Le « club des recalés » des Sciences Po, entre amertume et nouveaux horizons : « C’était tout un projet de vie qui s’effondrait »', 'image': 'https://img.lemde.fr/2020/11/15/0/118/2302/1535/110/74/60/0/7ab54c3_535905232-c

2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'L’épidémie de Covid-19 et la popularité des théories complotistes en France', 'image': 'https://img.lemde.fr/2020/11/17/238/0/2268/1506/110/74/60/0/695ab7c_983874493-le-monde-b.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'En une phrase, le boys band BTS provoque la colère des internautes chinois', 'image': 'https://img.lemde.fr/2020/09/30/0/0/3319/2212/110/74/60/0/79795ae_ba6f8ff7b7494f3aae1c2e180b55934f-ba6f8ff7b7494f3aae1c2e180b55934f-0.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Football : pour le SC Fribourg, un nouveau stade à 76 millions d’euros… et l’interdiction d’y jouer à cause du bruit', 'image': 'https://img.lemde.fr/2020/09/19/0/0/3859/2573/110/74/60/0/90d8652_7975a1e9a2c04

2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'L’épidémie de Covid-19 et la popularité des théories complotistes en France', 'image': 'https://img.lemde.fr/2020/11/17/238/0/2268/1506/110/74/60/0/695ab7c_983874493-le-monde-b.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'L’association Un bout du Monde veut faire entrer lecteurs et journalistes au capital des médias', 'image': 'https://img.lemde.fr/2020/11/16/0/28/564/376/110/74/60/0/803d361_624670204-large-a5472cf5-5129-4122-83bb-659f01de1ba4.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Delphine Ernotte : « La diversité sera le fil rouge de mon mandat » à France Télévisions', 'image': 'https://img.lemde.fr/2020/11/15/0/0/5256/3504/110/74/60/0/38eaf83_136702045-ernott

2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Aux Etats-Unis, deux coiffeuses atteintes du Covid-19 évitent une contamination massive grâce au port du masque', 'image': 'https://img.lemde.fr/2020/07/16/24/0/5832/3888/110/74/60/0/8b86683_244318278-000_1V45HB.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Le monde du Scrabble s’interroge sur l’interdiction des insultes racistes et sexistes en compétition', 'image': 'https://img.lemde.fr/2020/04/23/0/0/6720/4480/110/74/60/0/217c15a_-c4bmSlq7GCMhlO2krvrh_7-.jpg', 'description': None}
2020-11-17 17:05:31 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Thé et œufs brouillent la « special relationship » entre le Royaume-Uni et les Etats-Unis', 'image': 'https://img.lemde.fr/2020/06/26/2/0/4000/2666/110/74/60/0/4e2f2fb_VAx7YMbqugja

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Au Cameroun, des élèves et enseignants tiraillés entre l’amour de l’école et le désir de rester en vie', 'image': 'https://img.lemde.fr/2020/11/17/0/0/5184/3456/110/74/60/0/dfef5f4_857253996-rtx87m7c.JPG', 'description': None}
2020-11-17 17:05:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/climat/> (referer: https://www.lemonde.fr)
2020-11-17 17:05:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/elections-americaines-de-2020/> (referer: https://www.lemonde.fr)
2020-11-17 17:05:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/conflit-au-haut-karabakh/> (referer: https://www.lemonde.fr)
2020-11-17 17:05:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/coronavirus-2019-ncov/> (referer: https://www.lemonde.fr)
2020-11-17 17:05:32 [scrapy.core.engine] DEBUG: Crawled (200) <GET h

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': '« Les musulmans de France ordinaires, ceux qui sont amarrés à la République, en prennent plein la figure alors qu’il faudrait les conforter »', 'image': 'https://img.lemde.fr/2020/10/21/0/0/5749/3833/110/74/60/0/24e1714_965859165-lgeai-marche-blanche-conflans59.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Attentat de Conflans : à Paris, un lieu portera bientôt le nom de Samuel Paty', 'image': 'https://img.lemde.fr/2020/10/20/2/0/5000/3333/110/74/60/0/50a2d3e_502905445-girette-hl-samuelpaty-21020.JPG', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Education aux médias : « Chacun doit prendre sa part »', 'image': 'https://img.lemde.fr/2020/11/02/0/35/3429/2286/110/74/

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Revanche londonienne, retour au port et avalanche de buts : ce qu’il fallait aussi retenir du week-end sportif', 'image': 'https://img.lemde.fr/2020/11/15/0/72/3199/2133/110/74/60/0/228adb7_29759dc625694538b2770878cc5d7ef6-29759dc625694538b2770878cc5d7ef6-0.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Jeux olympiques de Tokyo : le président du CIO « très confiant » d’avoir des spectateurs', 'image': 'https://img.lemde.fr/2020/11/16/0/3/4351/2901/110/74/60/0/fe0b8f2_5724639-01-06.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Un chiffre de contaminations au Covid-19 « maîtrisé » à l’école : Jean-Michel Blanquer, encore loin du compte', 'image': 'https://img.lemde.fr/2020/11/05/14/0/2667/1778/110

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Thierry Coulhon, clivant évaluateur en chef de la recherche et de l’université françaises', 'image': 'https://img.lemde.fr/2020/11/09/500/0/3543/2362/110/74/60/0/ec8498e_740166176-dsf5238.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Autorisations, precommandes et livraisons : les vaccins anti-Covid-19 au centre de discussions mondiales', 'image': 'https://img.lemde.fr/2020/11/16/0/0/5472/3648/110/74/60/0/c822bcc_5727174-01-06.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Vol du musée de Dresde : la police arrête des suspects et cherche les diamants', 'image': 'https://img.lemde.fr/2020/11/17/0/0/5568/3712/110/74/60/0/8029a65_5728921-01-06.jpg', 'description': None}
2020-11-17 

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': '« Le Monde des lecteurs » - Christian Estrosi est-il allé trop loin ?', 'image': 'https://img.lemde.fr/2020/11/07/0/53/3769/2513/110/74/60/0/bed1ea8_5672500-01-06.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'L’Union européenne veut « accélérer » les projets visant à lutter contre le terrorisme', 'image': 'https://img.lemde.fr/2020/11/10/382/86/4019/2679/110/74/60/0/4b706b9_be517a98c6024071a6decfc4f19fa420-be517a98c6024071a6decfc4f19fa420-0.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'Hommage national à Nice : Jean Castex exprime sa « compassion » et son « indignation »', 'image': 'https://img.lemde.fr/2020/11/07/0/32/526

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Un homme grièvement blessé par un policier hors service', 'image': 'https://img.lemde.fr/2020/11/17/0/196/4162/2775/110/74/60/0/eddad91_313514122-000-1ta2w7.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Coronavirus : un excès de mortalité de 10 % observé par rapport à l’automne 2019', 'image': 'https://img.lemde.fr/2020/11/13/0/39/415/277/110/74/60/0/392ce66_908434315-deces.png', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': '« Pourquoi l’Etat n’a-t-il pas ouvert de nouveaux lits de réanimation ? », « Pourquoi une balade seul en forêt est-elle dangereuse ? » : nos 36 réponses à vos questions sur la pandémie de Covid-19', 'image': 'https://img.lemde.fr/2020/11/16/0/150/1620/1080/110/74/6

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Mort de Louis Astre, ancien dirigeant syndical de la Fédération de l’éducation nationale', 'image': 'https://img.lemde.fr/2020/11/03/455/0/1199/796/110/74/60/0/e1fc5c2_692739450-r1600px-2011-07-10-louisastre-lbz-02.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort du cinéaste mexicain Paul Leduc', 'image': 'https://img.lemde.fr/2020/11/01/0/0/1344/896/110/74/60/0/a88d052_190413118-014-81202116.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Le maestro Alexander Vedernikov est mort, des suites du Covid-19', 'image': 'https://img.lemde.fr/2020/11/02/0/0/3405/2268/110/74/60/0/7a78d8d_517201152-rtr1grlb.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG:

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Face au Covid-19, la Pologne refuse l’aide allemande', 'image': 'https://img.lemde.fr/2020/11/16/0/128/2982/1988/110/74/60/0/9ce8dfd_540460484-283401.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Vous êtes parents d’un élève handicapé, racontez-nous comment se passe la scolarité de votre enfant en période de Covid-19', 'image': 'https://img.lemde.fr/2020/11/10/0/5/5325/3550/110/74/60/0/426b891_820911290-000-8ue2xl.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Six semaines après la tempête Alex, l’amertume et les départs rythment la vie de la vallée de la Roya', 'image': 'https://img.lemde.fr/2020/11/15/0/0/6720/4480/110/74/60/0/a0ab59a_562103845-jfrank-intemperiesalpesmaritimes08.jpg', 'descripti

2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'L’absentéisme baisse, mais les troubles psychosociaux augmentent', 'image': 'https://img.lemde.fr/2020/11/17/374/0/4695/3128/110/74/60/0/a2399d1_138533425-pns-6279308.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Après les attentats, Emmanuel Macron déplore une France isolée sur la scène internationale', 'image': 'https://img.lemde.fr/2020/10/22/0/0/3600/2400/110/74/60/0/0dcedf5_574062452-macron-hommage-paty-sorbonne-18.jpg', 'description': None}
2020-11-17 17:05:32 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Les membres permanents du Conseil de sécurité des Nations unies sur la sellette', 'image': 'https://img.lemde.fr/2020/11/02/8/0/2592/1727/110/74/60/0/e978e14_465804014-pns-4427745.jpg', 'description': None}
2020-11-17

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Violences sexuelles : un ex-dirigeant de la fédération de judo suspendu', 'image': 'https://img.lemde.fr/2020/11/11/0/181/3637/2425/110/74/60/0/4e22608_368343600-000-par7073317.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Equipe de France : Kylian Mbappé absent pour le choc face au Portugal', 'image': 'https://img.lemde.fr/2020/11/13/0/0/3000/2000/110/74/60/0/e70decf_5712283-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Sur le Vendée Globe, le temps s’écoule autrement', 'image': 'https://img.lemde.fr/2020/11/08/0/0/5262/3508/110/74/60/0/aa9e563_5685154-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'tit

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Sean Connery, premier interprète de James Bond au cinéma, est mort à l’âge de 90 ans', 'image': 'https://img.lemde.fr/2020/10/31/279/3/1435/955/110/74/60/0/2952080_571980751-104445.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Mort de l’homme d’affaires Sindika Dokolo, collectionneur et mari d’Isabel dos Santos', 'image': 'https://img.lemde.fr/2020/10/30/0/0/3000/1998/110/74/60/0/3e4b0f5_141283162-000-8u876q.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Mohamed Melehi, figure de proue de l’art contemporain marocain, est mort', 'image': 'https://img.lemde.fr/2020/10/30/0/94/1012/675/110/74/60/0/bc58b08_898204232-m-88.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le Pérou perd son deuxième président en une semaine', 'image': 'https://img.lemde.fr/2020/11/16/29/0/3027/2018/110/74/60/0/8d44ec1_798317708-000-8va37y.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': '« Des risques de contamination par les prisonniers comme par les surveillants » : l’alerte de la contrôleuse générale', 'image': 'https://img.lemde.fr/2020/11/17/0/0/5437/3625/110/74/60/0/ad931bd_761068348-000-8q99nj.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'L’Etat va financer 4 000 conseillers pour former les Français au numérique', 'image': 'https://img.lemde.fr/2020/11/06/0/0/5568/3712/110/74/60/0/d16a8f6_986664287-000-1q82uz.jpg', 'description': None}
2020-

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Elections américaines : « La course aux deux derniers sièges du Sénat promet d’être aussi formidable que la présidentielle »', 'image': 'https://img.lemde.fr/2020/11/14/0/328/2987/1991/110/74/60/0/e5b7e0c_977971399-juyghy.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': '« Quatre ans de plus ! » : les partisans de Donald Trump dénoncent à Washington le « vol » de la présidentielle', 'image': 'https://img.lemde.fr/2020/11/14/0/0/3499/2333/110/74/60/0/1417571_577869605-885968.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Des partisans de Donald Trump manifestent à Washington et dénoncent des fraudes électorales', 'image': 'https://i

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Comment l’économie sociale et solidaire s’adapte à la crise économique et sanitaire', 'image': 'https://img.lemde.fr/2020/09/28/0/587/1803/1202/110/74/60/0/f61ccaa_409852588-header-1.png', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': '« Il n’y aurait pas pire symbole que d’affaiblir la loi de 1881 qui protège la liberté d’expression »', 'image': 'https://img.lemde.fr/2020/10/25/174/0/1949/1296/110/74/60/0/6f12b05_242625401-liberteexpression.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Le « New York Times » admet avoir donné crédit aux affabulations d’un « djihadiste » pour des reportages sur l’Etat islamique', 'image': 'https://img.lemde.fr/2016/08/07/0/0/5760/3840/110/

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Antidopage : suspension de deux ans pour l’athlète kényan Elijah Manangoi', 'image': 'https://img.lemde.fr/2020/11/13/0/0/4691/3127/110/74/60/0/e8f7faf_5711286-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Football : en Afrique, les sélections nationales face au casse-tête du Covid-19', 'image': 'https://img.lemde.fr/2020/11/13/90/0/2839/1892/110/74/60/0/d9a0b19_232919795-rtx87gjj.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Le match de rugby France-Fidji ne se jouera pas dimanche 15 novembre pour cause de cas de Covid-19', 'image': 'https://img.lemde.fr/2020/11/11/0/1/4960/3307/110/74/60/0/1d96951_5701162-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Sc

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Europe et migrants : la nécessité d’un compromis', 'image': 'https://img.lemde.fr/2020/09/24/0/26/3448/2299/110/74/60/0/0ca0288_319890846-750791.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Migrants : le navire humanitaire « Alan Kurdi » a accosté dans un port italien', 'image': 'https://img.lemde.fr/2020/09/24/0/0/5184/3456/110/74/60/0/4e6b62c_779924103-000-1qf8tx.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Le président de Samsung, Lee Kun-hee, est mort', 'image': 'https://img.lemde.fr/2020/10/25/3/159/3171/2113/110/74/60/0/dc8a8d7_395660341-834747.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.l

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': '« Nous nous sommes endormis sur nos lauriers » : la Suisse romande débordée par l’épidémie', 'image': 'https://img.lemde.fr/2020/11/16/12/0/3500/2333/110/74/60/0/1ac0aa5_ppp-dba09-health-coronavirus-swiss-business-1116-11.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'En Biélorussie, la répression s’accroît sur les manifestants', 'image': 'https://img.lemde.fr/2020/11/16/0/0/3500/2329/110/74/60/0/c1d4c0d_409134836-887497.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'La signature d’un vaste accord de libre-échange renforce le rôle de la Chine dans la zone Asie-Pacifique', 'image': 'https://img.lemde.fr/2020/11/16/0/0/2343/1562/110/74/60/0/c5837c3_279006960-887430.jpg', 'descr

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'La tournée d’adieu de Mike Pompeo suscite des interrogations sur l’Iran', 'image': 'https://img.lemde.fr/2020/11/14/0/0/6000/4000/110/74/60/0/5057b52_48a35af3b4a54117942d54a51b397a5d-48a35af3b4a54117942d54a51b397a5d-0.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Les Français, ces experts d’Amérique', 'image': 'https://img.lemde.fr/2020/11/07/0/0/5646/3764/110/74/60/0/9de68c1_1a2e8b487b574b31a5d64d4d7816b0be-1a2e8b487b574b31a5d64d4d7816b0be-0.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': '« Soit je reste à boire, soit je pars et je brûle cette maison » : Stepanakert, capitale engloutie du Haut-Karabakh', 'image': 'https://img.lemde.

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'A La Réunion, un élu condamné pour des revenus excessifs', 'image': 'https://img.lemde.fr/2020/11/13/0/54/589/393/110/74/60/0/afee7e7_9388903-olivier-riviere.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Les deux grandes revues d’Hollywood font groupe commun', 'image': 'https://img.lemde.fr/2020/10/12/0/62/1437/958/110/74/60/0/8d77fca_60204-3191941.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'La revue « Terrain » interroge le sens de la diplomatie', 'image': 'https://img.lemde.fr/2020/10/20/115/0/375/250/110/74/60/0/77397e4_901231352-premiere-couverture-small480.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.f

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Avec son projet de « pacte pour la migration », l’Union européenne relance les débats sur les réfugiés', 'image': 'https://img.lemde.fr/2020/09/22/0/0/6000/4000/110/74/60/0/be999c8_402639260-gratacap-dublin-31.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Calais : la justice maintient l’arrêté interdisant la distribution de nourriture aux migrants', 'image': 'https://img.lemde.fr/2020/09/17/0/0/5472/3648/110/74/60/0/21a1547_5340074-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': '« Beaucoup de progrès restent à faire » dans l’intégration des réfugiés en France', 'image': 'https://img.lemde.fr/2020/09/22/0/0/8256/5504/110/74/60/0/1fb0542_953568470-

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'La compagnie Korean Air va racheter Asiana Airlines pour 1,4 milliard d’euros', 'image': 'https://img.lemde.fr/2020/11/16/0/19/3462/2308/110/74/60/0/cbe9363_fw1-asiana-airlines-m-a-hanjin-group-1116-1a.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Etats-Unis : « Le système électoral donne un avantage structurel au Parti républicain »', 'image': 'https://img.lemde.fr/2020/11/04/3/0/7360/4906/110/74/60/0/c44bc56_996503134-20201103-us-election-day-1289.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Elections américaines : « Le vote par correspondance est la meilleure arme des démocrates pour défaire le trumpisme »', 'image': 'https://img.lemde.fr/2020/10/28/0/0/4555/3037/110/74

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Aux Etats-Unis, Cori Bush, une vie de lutte et de renaissance', 'image': 'https://img.lemde.fr/2020/11/12/0/0/4938/3292/110/74/60/0/a765f75_809390999-316931.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Poutine scelle la défaite de l’Arménie dans le Haut-Karabakh après l’accord de « cessez-le-feu total » avec l’Azerbaïdjan', 'image': 'https://img.lemde.fr/2020/11/10/0/0/4000/2666/110/74/60/0/ff8dfc9_551145750-v4b8796.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Haut-Karabakh : Vladimir Poutine confirme un accord de « cessez-le-feu total » entre l’Arménie et l’Azerbaïdjan', 'image': 'https://img.lemde.fr/2020/11/10/0/0/5472/3648/110/74/

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Le livre au format poche s’autorise tout', 'image': 'https://img.lemde.fr/2020/10/14/0/0/6144/4096/110/74/60/0/a94be87_506196559-pns-3518183.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Ligue 1 : « Mediapro a attendu la fin du mercato, dès le lendemain, on a appris que les dés étaient pipés »', 'image': 'https://img.lemde.fr/2017/05/27/0/0/5472/3648/110/74/60/0/65fe720_5324892-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Reconfinement : à Tignes, les flocons n’empêchent pas la morosité', 'image': 'https://img.lemde.fr/2020/11/14/2/0/6500/4333/110/74/60/0/65f9ccd_153334193-gnz3779.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBU

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Les travailleurs handicapés sont en droit d’attendre la même mobilisation que celle mise en place pour les jeunes »', 'image': 'https://img.lemde.fr/2020/11/16/0/0/5616/3744/110/74/60/0/cc7a2d2_539529964-gtryfr.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Jean-Michel Blanquer annonce le recrutement de renforts et des primes pour les enseignants en 2021', 'image': 'https://img.lemde.fr/2020/11/12/1/0/3500/2333/110/74/60/0/c1428ae_gdn-health-coronavirus-france-pm-1112-1a.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Hospitalisations, morts, réanimation... le second confinement arrive « plus tard » que le premier', 'image': 'https://img.lemde.fr/2020/10/29/0/99/1464/976/110/74/60/0/a6a

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Des forêts du Cameroun aux temples du Vietnam, itinéraire d’une nouvelle mafia du bois', 'image': 'https://img.lemde.fr/2020/11/10/0/0/3000/2000/110/74/60/0/a983aca_38191014-extra-5.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Les établissements se parlent, se répartissent les patients » : cliniques privées à la rescousse d’hôpitaux publics face à l’épidémie', 'image': 'https://img.lemde.fr/2020/11/02/0/0/3500/2330/110/74/60/0/d67433f_501893971-807467.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': '« Il est possible de diminuer les risques d’aggravation de l’état d’un patient atteint de Covid-19 »', 'image': 'https://img.lemde.fr/2020/11/01/0/0/5700/3800/110/74/60/0/a4c7947_911398759-pns-703253

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Du pape François au prince William, des dizaines de personnalités alertent sur l’urgence climatique', 'image': 'https://img.lemde.fr/2020/10/10/43/0/4922/3281/110/74/60/0/db75ba3_5489424-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Aux Etats-Unis, les républicains ne sont plus qu’à un siège de conserver le Sénat', 'image': 'https://img.lemde.fr/2020/11/10/0/0/3499/2333/110/74/60/0/fac58d5_ppp-ems201-usa-congress-senate-1110-11.JPG', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': '« C’est une source d’embarras, honnêtement » : Joe Biden gêné et ralenti par le déni de Donald Trump', 'image': 'https://img.lemde.fr/2020/11/10/123/0/3000/2000/110/74/60/0/

2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Covid-19 : les règles du confinement « inchangées au moins pour les quinze prochains jours », confirme Castex', 'image': 'https://img.lemde.fr/2020/11/12/1/0/6921/4614/110/74/60/0/e65f4aa_5705799-01-06.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Mediapro et le spectre de la faillite qui hante le football français', 'image': 'https://img.lemde.fr/2020/10/16/93/178/1820/1213/110/74/60/0/e3237a5_591320424-foot-mediapro-copie-1.jpg', 'description': None}
2020-11-17 17:05:33 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': '« L’affaire Mediapro est due à la cupidité des clubs professionnels de football »', 'image': 'https://img.lemde.fr/2020/10/16/0/4/3838/2559/110/74/60/0/2f93642_336158485-000-1wl0aa.jpg', 'description': No

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Daniil Medvedev gagne pour la première fois le Masters 1 000 de Bercy', 'image': 'https://img.lemde.fr/2020/11/08/55/0/4304/2869/110/74/60/0/6c48a08_none-tennis-paris-1108-1c.JPG', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Ligue 1 : première défaite de la saison pour Lille, Lyon remporte le derby', 'image': 'https://img.lemde.fr/2020/11/08/0/8/5376/3584/110/74/60/0/bcc7a07_5682568-01-06.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Primoz Roglic s’adjuge son deuxième Tour d’Espagne', 'image': 'https://img.lemde.fr/2020/11/07/0/0/3826/2551/110/74/60/0/c391f64_5674432-01-06.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'L’épidémie de grippe saisonnière sera-t-elle différente dans le contexte de la pandémie de Covid-19 ?', 'image': 'https://img.lemde.fr/2020/10/27/0/126/321/214/110/74/60/0/1074f90_651674305-568c7fc4-grippe-saisonniere-influenza-covid-19-sars-cov-2-coronavirus.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Les abeilles domestiques d’une même ruche se reconnaissent grâce à leur microbiome', 'image': 'https://img.lemde.fr/2020/10/22/168/0/4032/2688/110/74/60/0/5e94818_444384575-guard-inspection-2-credit-nathan-beach.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Le risque d’une nouvelle campagne de terreur de l’Etat islamique en Europe', 'image': 'https://img.lemde.fr/2020/11/03/0/0/3472/

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Conflit au Haut-Karabakh : Lika Zakaryan, la « voix » de Stepanakert', 'image': 'https://img.lemde.fr/2020/10/15/0/0/4032/2688/110/74/60/0/e3ec166_361320691-v4b6016.JPG', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Le rôle capital des mercenaires syriens acheminés par la Turquie dans la guerre au Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/10/12/0/0/4032/2688/110/74/60/0/857d409_74333187-v4b5431.JPG', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Haut-Karabakh : l’Arménie accuse l’Azerbaïdjan d’avoir violé la nouvelle « trêve humanitaire »', 'image': 'https://img.lemde.fr/2020/10/17/0/0/3499/2333/110/74/60/0/3dcfd98_ppp-ank102-armenia-azerbaij

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/enquete-feminicides/>
{'title': 'Aux assises de l’Isère, le procès d’un mari ayant tué sa femme : « Je l’avais déjà perdue »', 'image': None, 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/enquete-feminicides/>
{'title': 'Violences conjugales : « Même si ça a été dur, je veux dire que c’est possible de s’en sortir »', 'image': None, 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/enquete-feminicides/>
{'title': '« Papa, il a tué maman, Gilles et lui » : enquête sur cinq féminicides à La Réunion', 'image': 'https://img.lemde.fr/2019/08/30/1250/0/3000/2000/110/74/60/0/c484ca1_Ot6BLJAkEOCpgaUfPsYnYZ1Z.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': '« Boucler un ac

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Procès de l’attentat du Thalys : le tireur se dit « désolé » de ce qu’il a fait aux victimes', 'image': 'https://img.lemde.fr/2020/11/16/0/5/1554/1036/110/74/60/0/65cf17d_5725468-01-06.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Au Pérou, le député centriste Francisco Sagasti devient président par intérim', 'image': 'https://img.lemde.fr/2020/11/16/57/0/1276/849/110/74/60/0/f1e45a9_5727466-01-06.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/climat/>
{'title': 'Tempête Alex : deux morts en Italie, une vingtaine de personnes portées disparues en France', 'image': 'https://img.lemde.fr/2020/10/03/0/0/5472/3648/110/74/60/0/61a32b1_5447693-01-06.jpg', 'description': None}
2020-11-17 17:05

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Indépendants : que faire en cas de difficultés à payer vos impôts durant le confinement ?', 'image': 'https://img.lemde.fr/2020/11/05/0/0/6720/4480/110/74/60/0/c3bc82f_315409281-pns-725373493.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'A Roscoff, Brittany Ferries traverse « la pire crise de son histoire »', 'image': 'https://img.lemde.fr/2020/08/29/0/12/4920/3280/110/74/60/0/9e0d84f_553501007-000_1UB27I.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Eurostar en difficulté avec un trafic quasi inexistant', 'image': 'https://img.lemde.fr/2020/08/29/0/0/6720/4480/110/74/60/0/3794026_557319432-000_1WI1NM.jpg', 'description': None}
2020-11-17 17:05

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': '« N’écoutez pas les médias, ce n’est pas fini » : les « soldats numériques » pro-Trump entre déni, découragement et torses bombés', 'image': 'https://img.lemde.fr/2020/11/08/0/0/5157/3438/110/74/60/0/46aa7de_243508133-000-8ut4pn.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': '« C’est un vol ! » : des supporteurs de Donald Trump contestent les résultats de la présidentielle américaine', 'image': 'https://img.lemde.fr/2020/11/08/0/0/6000/4000/110/74/60/0/155268d_5680700-01-07.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Le vieux conflit du Haut-Karabakh, reflet des dérèglements de l’ordre international', 'image': 'https://img.lemde.fr

2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Gérald Darmanin veut mieux répartir policiers et gendarmes sur le territoire national', 'image': 'https://img.lemde.fr/2020/10/31/0/0/5184/3456/110/74/60/0/2fa4ccf_ccc398e44f5c414aa7e4aef9748ee2e3-ccc398e44f5c414aa7e4aef9748ee2e3-0.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Menaces, enlèvements, assassinat… Coke en docks au port du Havre', 'image': 'https://img.lemde.fr/2020/11/09/345/0/1200/798/110/74/60/0/8cf45ac_68272-3194532.jpg', 'description': None}
2020-11-17 17:05:34 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Journal de crise des blouses blanches : « J’ai l’impression d’être embourbé dans une guerre de tranchées »', 'image': 'https://img.lemde.fr/2020/11/13/0/0/1500/1000/110/74/60/0/9811dc5_183709942-18.jpg', 'description':

In [9]:
!cd newscrawler && scrapy crawl lemondev3 -o lbc.xml

2020-11-17 17:09:48 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2020-11-17 17:09:48 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-17 17:09:48 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-17 17:09:48 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2020-11-17 17:09:48 [scrapy.extensions.telnet] INFO: Telnet Password: 857474b491266e69
2020-11-17 17:09:48 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsag

2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Walid Al-Mouallem, ministre des affaires étrangères syrien, est mort', 'image': 'https://img.lemde.fr/2020/11/16/0/4/2752/1835/110/74/60/0/25eed58_567005691-000-1ty17h.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sante/>
{'title': 'L’absentéisme baisse, mais les troubles psychosociaux augmentent', 'image': 'https://img.lemde.fr/2020/11/17/374/0/4695/3128/110/74/60/0/a2399d1_138533425-pns-6279308.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/les-decodeurs/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/societe/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/politique/> (referer: 

2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Autorisations, precommandes et livraisons : les vaccins anti-Covid-19 au centre de discussions mondiales', 'image': 'https://img.lemde.fr/2020/11/16/0/0/5472/3648/110/74/60/0/c822bcc_5727174-01-06.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/attentat-de-la-basilique-de-nice/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/enquete-feminicides/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/international/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/actualite-en-continu/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https:

2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sciences/>
{'title': 'Que sentait Paris au XVIe siècle ? Des chercheurs créent une encyclopédie des odeurs du passé', 'image': 'https://img.lemde.fr/2020/11/17/56/0/2264/1509/110/74/60/0/5ddfa74_5730067-01-06.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'La mort de Nelly Kaplan, réalisatrice de « La Fiancée du pirate »', 'image': 'https://img.lemde.fr/2020/11/13/375/0/3744/2491/110/74/60/0/1e8d63c_734680288-152482.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/disparitions/>
{'title': 'Jerry Rawlings, ancien président ghanéen et figure historique du continent africain, est mort', 'image': 'https://img.lemde.fr/2020/11/12/41/0/3154/2102/110/74/60/0/003d610_5704492-01-06.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scrap

2020-11-17 17:09:50 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/elections-americaines-de-2020/> (referer: https://www.lemonde.fr)
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Coronavirus : l’Algérie adopte de nouvelles restrictions face à une situation « préoccupante »', 'image': 'https://img.lemde.fr/2020/11/15/0/0/3499/2333/110/74/60/0/a18f9eb_fw1-health-coronavirus-algeria-tebboune-1115-11.JPG', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'En Algérie, chute du puissant magnat de la presse Anis Rahmani, proche de l’ex-président Bouteflika', 'image': 'https://img.lemde.fr/2020/11/15/0/179/1441/961/110/74/60/0/8ec7145_989514989-presse-alge-rien.jpeg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Arts plastiques : Sammy

2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Vaccination obligatoire contre le Covid-19 : pourquoi le débat est prématuré', 'image': 'https://img.lemde.fr/2020/11/16/0/150/1620/1080/110/74/60/0/904f32d_a3244d0f24f84656bd42467aff82990b-a3244d0f24f84656bd42467aff82990b-0.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'En une phrase, le boys band BTS provoque la colère des internautes chinois', 'image': 'https://img.lemde.fr/2020/09/30/0/0/3319/2212/110/74/60/0/79795ae_ba6f8ff7b7494f3aae1c2e180b55934f-ba6f8ff7b7494f3aae1c2e180b55934f-0.jpg', 'description': None}
2020-11-17 17:09:50 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Football : pour le SC Fribourg, un nouveau stade à 76 millions d’euros… et l’interdiction d’y jouer à cause du bruit', 'image': 'https://img.lemde.fr/202

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'Le reconfinement grève un peu plus le marché publicitaire', 'image': 'https://img.lemde.fr/2020/11/10/47/0/8036/5357/110/74/60/0/5fe12fa_178601851-000-8up324.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': '« L’article 24 de la future loi « sécurité globale » menace la liberté d’informer », alertent des sociétés de journalistes', 'image': 'https://img.lemde.fr/2020/06/08/0/1/3622/2415/110/74/60/0/6738faa_5788354-01-06.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-medias/>
{'title': 'L’absence de Darius Rochebin sur LCI se prolonge', 'image': 'https://img.lemde.fr/2020/11/08/0/0/5382/3588/110/74/60/0/e3c12a0_117976746-000-8q779c.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scrap

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': '« Les musulmans de France ordinaires, ceux qui sont amarrés à la République, en prennent plein la figure alors qu’il faudrait les conforter »', 'image': 'https://img.lemde.fr/2020/10/21/0/0/5749/3833/110/74/60/0/24e1714_965859165-lgeai-marche-blanche-conflans59.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Revanche londonienne, retour au port et avalanche de buts : ce qu’il fallait aussi retenir du week-end sportif', 'image': 'https://img.lemde.fr/2020/11/15/0/72/3199/2133/110/74/60/0/228adb7_29759dc625694538b2770878cc5d7ef6-29759dc625694538b2770878cc5d7ef6-0.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Jeux olympiques de Tokyo : le président du CIO « très confiant » d’

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'La méthode Pilates, plus forte que la grippe espagnole ? Un mythe qui repose sur du vent', 'image': 'https://img.lemde.fr/2020/11/12/0/23/549/366/110/74/60/0/320c233_609114311-new-pilates-2-wi595he366moscalebgwhite.png', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Lewis Hamilton, messes et sarcophages : les 5 infos à retenir du week-end', 'image': 'https://img.lemde.fr/2020/11/15/0/0/3000/2000/110/74/60/0/495fc0e_39101762-recap1511.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Reconfinement : six graphiques qui montrent que les Français sont plus mobiles qu’en mars', 'image': 'https://img.lemde.fr/2020/11/13/0/31/723/482/110/74/60/0/30a887a_133739645-appel.PNG', 'description': None}

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Régulation des contenus : YouTube incite les autorités européennes « à la prudence »', 'image': 'https://img.lemde.fr/2020/11/13/385/0/3712/2460/110/74/60/0/059d6cb_137070515-063-1178614290.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Interdit en Inde, le jeu à succès « PUBG Mobile » tente son grand retour en rompant avec la Chine', 'image': 'https://img.lemde.fr/2020/11/12/0/4/3492/2328/110/74/60/0/e2ada70_fw1-india-pubg-1112-11.JPG', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Menacée d’interdiction aux Etats-Unis, l’application TikTok obtient un sursis', 'image': 'https://img.lemde.fr/2020/11/12/0/181/4368/2912/110/74/60/0/4d83a32_5707498-01-06.jpg', 'description': None}
2020-11-17 17:09:51 [s

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'La crise liée au Covid-19 perturbe les lancements de jeux vidéo', 'image': 'https://img.lemde.fr/2020/11/16/39/0/5694/3796/110/74/60/0/fa16118_520272537-console-xbox-microsoft.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Covid-19 : « L’enfant est en attente des mots de l’adulte et d’une tonalité rassurante »', 'image': 'https://img.lemde.fr/2020/11/16/0/0/5326/3551/110/74/60/0/cf31833_652765768-000-8ue37y.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'La crise sanitaire a exacerbé les inégalités de revenus', 'image': 'https://img.lemde.fr/2020/11/12/0/0/3500/2333/110/74/60/0/068aa1b_gdn-health-coronavirus-france-pm-1112-1a.JPG', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper]

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Football : la Hongrie rejoint le groupe de la France pour l’Euro', 'image': 'https://img.lemde.fr/2020/11/12/40/0/1955/1303/110/74/60/0/f9edd16_cpg270-soccer-euro-hun-ice-report-1112-11.JPG', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Le discret labeur des pompes funèbres au temps du Covid-19', 'image': 'https://img.lemde.fr/2020/03/23/0/0/6000/4000/110/74/60/0/5ce29a8_2euYQQJ_WqwLElgm8hvzXeaO.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Laurent Lafitte : « L’ennui est l’ennemi ultime »', 'image': 'https://img.lemde.fr/2016/05/11/0/64/3627/2418/110/74/60/0/d226b27_EGA31_FILMFESTIVAL-CANNES-_0511_11.JPG', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https:/

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Trump a sondé ses conseillers quant à une éventuelle frappe contre un site nucléaire iranien', 'image': 'https://img.lemde.fr/2020/11/16/0/137/4960/3307/110/74/60/0/4ed0682_faf00c7bb60a4db099c90e5e556d9f3d-d83798f3db474361988aff83ecff29cd-0.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Fragilisés par le Covid-19, les musées cherchent à monétiser leur offre numérique', 'image': 'https://img.lemde.fr/2020/11/17/0/0/5390/3590/110/74/60/0/53dba54_343360380-000-8t43fj.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un homme grièvement blessé par un policier hors service', 'image': 'https://img.lemde.fr/2020/11/17/0/196/4162/2775/110/74/60/0/eddad91_313514122-000-1ta2w7.jp

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Marion Verdaguer, l’infirmière bretonne qui a rendu l’hôpital polyglotte', 'image': 'https://img.lemde.fr/2020/10/02/564/0/1536/1023/110/74/60/0/abfb433_119780836-img-1203.JPG', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': '« Je ne m’occupe plus que du Covid » : paroles d’infirmiers et de médecins scolaires', 'image': 'https://img.lemde.fr/2020/10/12/1/0/8255/5503/110/74/60/0/3c05547_853637865-maxnewsworldfive161495.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/campus/>
{'title': 'Ces fintech qui font de l’œil aux jeunes', 'image': 'https://img.lemde.fr/2020/10/12/0/150/1620/1080/110/74/60/0/d1ab651_901894310-yeeld-power.png', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www

2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Après la victoire de Joe Biden à la présidentielle américaine, le Royaume-Uni craint l’isolement', 'image': 'https://img.lemde.fr/2019/08/25/0/0/5857/3904/110/74/60/0/5a7cf87_5477819-01-06.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Brexit : des « divergences » entre Ursula von der Leyen et Boris Johnson avant la reprise des négociations', 'image': 'https://img.lemde.fr/2020/10/23/71/0/3517/2344/110/74/60/0/c5923fe_27bec6a52b7745d49c81f109b7624a64-27bec6a52b7745d49c81f109b7624a64-0.jpg', 'description': None}
2020-11-17 17:09:51 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Royaume-Uni : « En pleine pandémie, on ne peut se permettre un Brexit sans accord »', 'image': 'https://img.lemde.

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Les Français, ces experts d’Amérique', 'image': 'https://img.lemde.fr/2020/11/07/0/0/5646/3764/110/74/60/0/9de68c1_1a2e8b487b574b31a5d64d4d7816b0be-1a2e8b487b574b31a5d64d4d7816b0be-0.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Aux Etats-Unis, Donald Trump s’enfonce dans le déni, une semaine après la victoire de Joe Biden', 'image': 'https://img.lemde.fr/2020/11/13/0/0/6000/4000/110/74/60/0/061cd13_5713164-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Présidentielle américaine :: « Le soulagement est grand dans la Silicon Valley »', 'image': 'https://img.lemde.fr/2020/10/01/0/0/5287/3524/110/74/60/0/9e672ef_ce6fe46b5a9c4481b4ce1565b3f0

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Elections américaines : Facebook désactive plusieurs pages liées à Steve Bannon', 'image': 'https://img.lemde.fr/2018/10/31/16/0/4848/3232/110/74/60/0/24c11f0_07ad7f09644949e5a7270dfde88bf4c1-07ad7f09644949e5a7270dfde88bf4c1-0.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': '« La désinformation a pris un rôle de premier plan lors des élections américaines »', 'image': 'https://img.lemde.fr/2020/09/25/0/0/1895/1263/110/74/60/0/f08ef86_784506445-compo-posts-02.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'Cloud : alliance inédite entre l’américain Google et le français OVH', 'image': 'https://img.lemde.fr/2020/11/10/0/53/5568/3712/110/74/60/0/72481ae_693339372-rtx6fk4c.JPG', 'description': None}
20

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': '« Pour une banque centrale, ne pas incorporer les risques climatiques dans sa gestion des risques financiers serait très inquiétant »', 'image': 'https://img.lemde.fr/2020/11/14/757/0/4252/2831/110/74/60/0/39c9999_481128879-gytrftgt.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Risque climatique : « Les superviseurs bancaires semblent avoir perdu le contact avec la réalité du terrain »', 'image': 'https://img.lemde.fr/2020/11/14/78/0/4574/3044/110/74/60/0/933d306_467611206-bgytrc.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/planete/>
{'title': 'Reconfinement : la soudaine portée symbolique des librairies', 'image': 'https://img.lemde.fr/2020/10/31/0/0/8256/5504/110/74/60/0/e95d3e6_756200237-lemondehd-26.jpg', '

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'Attentat à la basilique de Nice : le point sur l’enquête', 'image': 'https://img.lemde.fr/2020/11/01/0/4/4920/3280/110/74/60/0/43135ae_5634162-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'Après l’attentat de Nice, Jean Castex à Rouen pour échanger avec la communauté catholique', 'image': 'https://img.lemde.fr/2020/10/29/0/0/5568/3712/110/74/60/0/722937a_5618266-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'Sur l’islam, « c’est d’abord à nous de prendre la parole » estime le recteur de la Mosquée de Paris', 'image': 'https://img.lemde.fr/2020/10/31/158/0/7305/4870/110/74/60/0/247ff89_679286233-100303.jpg',

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'L’Europe veut resserrer son étau autour de la City', 'image': 'https://img.lemde.fr/2020/10/08/0/0/4685/3122/110/74/60/0/f771ad1_843657313-la-city-londres.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': '« Nous manquons de temps » : derniers pourparlers pour arriver à un accord post-Brexit et encore des divergences', 'image': 'https://img.lemde.fr/2020/10/01/13/0/2569/1712/110/74/60/0/fe68dc7_5433592-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Brexit : la Commission européenne lance une procédure d’infraction contre le Royaume-Uni', 'image': 'https://img.lemde.fr/2020/09/29/0/0/3926/2617/110/74/60/0/3949b81_edcec742994f454baa938c7a7fc4b

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Au Pérou, le député centriste Francisco Sagasti devient président par intérim', 'image': 'https://img.lemde.fr/2020/11/16/57/0/1276/849/110/74/60/0/f1e45a9_5727466-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Les avancées en trompe-l’œil de la loi de programmation de la recherche, censée empêcher le décrochage de la France', 'image': 'https://img.lemde.fr/2020/11/17/1110/0/4122/2744/110/74/60/0/52bb02b_534999902-pns-4723017.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Un chiffre de contaminations au Covid-19 « maîtrisé » à l’école : Jean-Michel Blanquer, encore loin du compte', 'image': 'https://img.lemde.fr/2020/11/05/14/0/2667/1778/110/74/60/0/f4572d

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/pixels/>
{'title': 'La justice américaine saisit 1 milliard de dollars en bitcoins liés à Silk Road, ex-supermarché de la drogue en ligne', 'image': 'https://img.lemde.fr/2018/01/18/0/0/3499/2333/110/74/60/0/8750997_BTE02_SOUTHKOREA-BITCOIN-_0118_11.JPG', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': '« Les travailleurs handicapés sont en droit d’attendre la même mobilisation que celle mise en place pour les jeunes »', 'image': 'https://img.lemde.fr/2020/11/16/0/0/5616/3744/110/74/60/0/cc7a2d2_539529964-gtryfr.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/societe/>
{'title': 'Jean-Michel Blanquer annonce le recrutement de renforts et des primes pour les enseignants en 2021', 'image': 'https://img.lemde.fr/2020/11/12/1/0/3500/2333/110/74/60

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Angola : violente répression de manifestants antigouvernementaux', 'image': 'https://img.lemde.fr/2020/11/11/0/0/3600/2400/110/74/60/0/27e0e03_5700034-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Côte d’Ivoire : première rencontre entre Alassane Ouattara et Henri Bédié depuis le début de la crise politique', 'image': 'https://img.lemde.fr/2020/11/11/0/18/3214/2143/110/74/60/0/9a8d904_5701297-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/afrique/>
{'title': 'Félicien Kabuga refuse de se prononcer sur les accusations de génocide commis au Rwanda', 'image': 'https://img.lemde.fr/2020/11/11/173/0/4160/2773/110/74/60/0/011c290_985735504-000-1ry7b9.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.c

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/sport/>
{'title': 'Daniil Medvedev gagne pour la première fois le Masters 1 000 de Bercy', 'image': 'https://img.lemde.fr/2020/11/08/55/0/4304/2869/110/74/60/0/6c48a08_none-tennis-paris-1108-1c.JPG', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Alain Passard : « Le drame, c’est lorsque vous croisez dans la casserole l’hiver avec l’été »', 'image': 'https://img.lemde.fr/2015/08/07/271/0/6496/4330/110/74/60/0/22c32b2_22278-lvaojd.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/podcasts/>
{'title': 'Pierre Hardy : « Aujourd’hui, on n’est plus obligé de s’habiller en sportif ou en banquier pour être un garçon »', 'image': 'https://img.lemde.fr/2019/10/25/0/13/4518/3012/110/74/60/0/4e0ddce_dCY2IuQow5JDiOC_gtNMpI8R.jpg', 'description': None}
2

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Le taux d’occupation en réanimation, un chiffre clé qui pose question', 'image': 'https://img.lemde.fr/2020/10/26/0/0/6475/4317/110/74/60/0/03407a1_777169020-201021jbalague-lemonde-covid-bichat-soins-43.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'L’art discret de la vélotypie mis en lumière par le sous-titrage hasardeux du discours de Macron', 'image': 'https://img.lemde.fr/2020/03/13/3/360/2927/1948/110/74/60/0/fb9bd03_dE1l-zUs4mjWJ1On1-6cGywv.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/big-browser/>
{'title': 'Pour lutter contre le coronavirus, chansons et chorégraphies pédagogiques se multiplient autour du monde', 'image': 'https://img.lemde.fr/2020/03/06/0/0/4825/3217/110/74/60/0/55a10e4_532852

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La migration vue par ceux qui restent : au Sénégal, Adji raconte l’absence d’un frère', 'image': 'https://img.lemde.fr/2020/09/24/0/150/1620/1080/110/74/60/0/9a27c67_172640900-adjimediaappel-still001.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Un nouveau drame de l’immigration clandestine à Mayotte fait plusieurs morts, dont un enfant', 'image': 'https://img.lemde.fr/2020/09/25/0/0/3984/2656/110/74/60/0/f3f44a7_866308144-000-1fn9ny.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'La Défenseure des droits dénonce les conditions de vie « inhumaines » des migrants à Calais', 'image': 'https://img.lemde.fr/2019/09/24/0/6/3409/2273/110/74/60/0/5669424_FQeD

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Climat : le timide plan de la France pour diminuer son soutien aux énergies fossiles', 'image': 'https://img.lemde.fr/2020/11/12/3/0/7360/4906/110/74/60/0/2f75e33_651367475-000-8rb9xw.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Reconfinement : des maires veulent la réouverture les équipements municipaux', 'image': 'https://img.lemde.fr/2020/11/12/11/0/3136/2090/110/74/60/0/7b341f4_470474851-000-8ur39r.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/politique/>
{'title': 'Mis en examen pour viol, Pierre Aidenbaum démissionne du Conseil de Paris', 'image': 'https://img.lemde.fr/2020/11/12/20/0/5124/3416/110/74/60/0/0c493ee_674605818-000-par7845539.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.sc

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': '« Une fois encore, la France a été frappée par une attaque terroriste islamiste » : Emmanuel Macron sous le feu roulant des crises', 'image': 'https://img.lemde.fr/2020/10/30/0/0/5472/3648/110/74/60/0/1a31f71_883294682-097150.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': 'De l’Assemblée au Sénat, l’« effroi » du monde politique face à un « enchevêtrement de crises »', 'image': 'https://img.lemde.fr/2020/10/30/263/348/2468/1645/110/74/60/0/ced3e7b_919064722-castex-conf-de-presse-covid-16.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/attentat-de-la-basilique-de-nice/>
{'title': '« Accueillir la misère, oui, les assassins, non » : partout en France, l’émoi devant les

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Mort de Sean Connery, reconfinements en Europe, prêtre orthodoxe blessé… Les six infos à retenir du week-end', 'image': 'https://img.lemde.fr/2020/11/01/0/0/3000/2000/110/74/60/0/4f970db_886684103-fotojet.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Comment le découpage électoral aux Etats-Unis influe sur l’élection de leurs députés', 'image': 'https://img.lemde.fr/2020/10/29/0/31/568/379/110/74/60/0/325251c_442873417-capture-d-e-cran-2020-10-29-a-11-47-36.png', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Confinement et économie : huit graphiques qui montrent l’onde de choc depuis mars', 'image': 'https://img.lemde.fr/2020/10/30/0/34/1500/1000/110/74/60/0/4f2338a_446402040-med

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Des ONG accusent l’Italie de retarder une opération de secours de migrants en Méditerranée', 'image': 'https://img.lemde.fr/2019/05/20/0/187/2697/1798/110/74/60/0/d44815c_08b2be8cb65f4e5a952ca3bb227ebc36-08b2be8cb65f4e5a952ca3bb227ebc36-0.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'Sur l’île grecque de Lesbos, la majorité des migrants installés dans un nouveau camp', 'image': 'https://img.lemde.fr/2020/09/17/0/0/5901/3934/110/74/60/0/baa8f58_903c32176b4c48be91ab44ba313eb534-c5044ff2f3c24c598cc34e8fde2ecd86-0.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/immigration-en-europe/>
{'title': 'A Lesbos, double fronde contre la construction d’un nouveau camp de réfugiés', 'image': 'https:/

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Enquête vidéo : les preuves de bombardements sur des civils dans le conflit du Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/10/22/1/300/1619/1079/110/74/60/0/8644f47_36457480-image-d-appel.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Conflit au Haut-Karabakh : Lika Zakaryan, la « voix » de Stepanakert', 'image': 'https://img.lemde.fr/2020/10/15/0/0/4032/2688/110/74/60/0/e3ec166_361320691-v4b6016.JPG', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Le rôle capital des mercenaires syriens acheminés par la Turquie dans la guerre au Haut-Karabakh', 'image': 'https://img.lemde.fr/2020/10/12/0/0/4032/2688/110/74/60/0/857d409_74333187-v4b5431.JPG'

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/enquete-feminicides/>
{'title': '« Papa, il a tué maman, Gilles et lui » : enquête sur cinq féminicides à La Réunion', 'image': 'https://img.lemde.fr/2019/08/30/1250/0/3000/2000/110/74/60/0/c484ca1_Ot6BLJAkEOCpgaUfPsYnYZ1Z.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': '« Ici, on dirait un pays en décadence » : entre le Covid-19 et le Brexit, le blues des Français de Londres', 'image': 'https://img.lemde.fr/2020/09/09/1/0/3250/2166/110/74/60/0/38cc55a_71516958-rea-222788-072-1.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/referendum-sur-le-brexit/>
{'title': 'Pour l’UE, le projet de loi britannique sur le Brexit « violerait le droit international »', 'image': 'https://img.lemde.fr/2020/09/08/0/0/4453/2968/110/74/60/0/

2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/international/>
{'title': 'Mystère de la guerre de 14-18, le « tunnel du Winterberg » livre ses premiers secrets', 'image': 'https://img.lemde.fr/2020/11/12/0/101/5679/3786/110/74/60/0/6b77d44_486950033-img-9263-1.jpeg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'Evacuation d’un important campement de migrants au pied du Stade de France', 'image': 'https://img.lemde.fr/2020/11/17/0/0/4683/3122/110/74/60/0/8ad4a60_5729216-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/actualite-en-continu/>
{'title': 'La capsule Dragon de SpaceX s’est arrimée à la Station spatiale internationale', 'image': 'https://img.lemde.fr/2020/11/17/9/0/3000/2000/110/74/60/0/7c3ef19_5728535-01-06.jpg', 'description': None}
2020-11-17 17:09:52 [s

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/conflit-au-haut-karabakh/>
{'title': 'Haut-Karabakh : malgré le cessez-le-feu, les bombardements continuent', 'image': 'https://img.lemde.fr/2020/10/11/0/0/3499/2333/110/74/60/0/086e2ba_ppp-ank09-armenia-azerbaijan-1011-11.JPG', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Des catholiques réclament le retour des messes en public', 'image': 'https://img.lemde.fr/2020/11/16/0/0/4928/3285/110/74/60/0/2fba251_160658993-163800.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Bercy au chevet des petits commerces avant Noël', 'image': 'https://img.lemde.fr/2020/11/12/1/0/3500/2333/110/74/60/0/b0b374c_gdn-health-coronavirus-france-pm-1112-1a.JPG', 'description': None}
2020-11-17 17:09:53 [scrapy.cor

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/les-decodeurs/>
{'title': 'Attentat de Conflans, début du couvre-feu, Haut-Karabakh… les cinq infos à retenir du week-end', 'image': 'https://img.lemde.fr/2020/10/17/0/0/5749/3833/110/74/60/0/f2f4067_248187633-lgeai-conflans-hommage-17-oct65.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'The American Elections : can Joe Biden turn relief into hope ?', 'image': 'https://img.lemde.fr/2020/11/08/158/0/3040/2026/110/74/60/0/68d3b39_5680269-01-07.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'La fausse rumeur sur les cloches de Paris qui auraient sonné en l’honneur de Joe Biden', 'image': 'https://img.lemde.fr/2020/11/09/0/0/900/600/110/74/60/0/06b0bf5_199980159-media-paris.j

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Le gouvernement confronté au casse-tête d’un Noël sous Covid-19', 'image': 'https://img.lemde.fr/2020/11/12/2/0/3500/2333/110/74/60/0/0dfe006_par03-christmas-season-paris-1112-11.JPG', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'La restauration collective paye cher la généralisation du télétravail', 'image': 'https://img.lemde.fr/2020/11/15/533/33/2078/1385/110/74/60/0/c31f216_931469138-cantoche.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': '« On a la même vie que des personnes âgées » : quand la solitude menace les étudiants', 'image': 'https://img.lemde.fr/2020/05/24/56/0/5558/3700/110/74/60/0/21e0290_Wsw-6P88UCkF9Vl-HxGPPy8d.jpg', 'description': None}

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Après la victoire de Joe Biden à la présidentielle américaine, le Royaume-Uni craint l’isolement', 'image': 'https://img.lemde.fr/2019/08/25/0/0/5857/3904/110/74/60/0/5a7cf87_5477819-01-06.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'Brocardée par Trump, l’Allemagne est soulagée par la victoire de Biden', 'image': 'https://img.lemde.fr/2015/02/07/0/88/3006/2004/110/74/60/0/88b83ab_5902897-01-06.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/elections-americaines-de-2020/>
{'title': 'A Wilmington, l’émotion des partisans du « guérisseur » Joe Biden', 'image': 'https://img.lemde.fr/2020/11/08/168/0/4032/2688/110/74/60/0/48217db_430919980-joearcenciel.JPG', 'description':

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/coronavirus-2019-ncov/>
{'title': 'Vaccin anti-Covid : la « success story » du couple fondateur du laboratoire allemand BioNTech', 'image': 'https://img.lemde.fr/2020/11/14/3/973/3918/2610/110/74/60/0/d81609d_753263324-abacanewsroy-747438-001.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': '« La France doit sortir du “stop and go” sanitaire pour préserver sa croissance potentielle »', 'image': 'https://img.lemde.fr/2020/11/02/0/0/2500/1666/110/74/60/0/7d39880_495105279-hribes-20201030-0129.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Qu’est-il légal de faire en France pendant le reconfinement ? Nos réponses à vos questions', 'image': 'https://img.lemde.fr/2020/11/02/0/0/5472/3648/110/74/6

2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': '« Pour que le masque soit bien accepté par son enfant, il faut mettre en place une routine »', 'image': 'https://img.lemde.fr/2020/11/02/1006/0/3283/2189/110/74/60/0/b9205af_5640777-01-06.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Les Champs-Elysées s’illumineront dès le 22 novembre malgré le confinement', 'image': 'https://img.lemde.fr/2020/11/03/0/0/4927/3285/110/74/60/0/923d4b0_906996402-000-1nd9i8.jpg', 'description': None}
2020-11-17 17:09:53 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.lemonde.fr/deuxieme-confinement/>
{'title': 'Reconfinement : le gouvernement embarrassé par les polémiques sur Amazon', 'image': 'https://img.lemde.fr/2020/11/02/0/34/4272/2848/110/74/60/0/2d27f7a_241051762-000-8u69a3-1.jpg', 'description': None}
2020


## Votre premier Item

La classe `Item` permet de structurer les données que l'on souhaite
récupérer sous la forme d'un modèle. Les items doivent être définis dans
le fichier `items.py` créé par la commande `scrapy startproject`. Les
`Item` héritent de la class `scrapy.Item`.

On veut structurer les données avec deux champs : le titre et le prix de
l'annonce. Scrapy utilise une classe `scrapy.Field` permettant de
'déclarer' ces champs. Dans notre cas :

In [10]:
# %load newscrawler/newscrawler/items.py

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    image = scrapy.Field()
    description = scrapy.Field()

Utiliser la classe `scrapy.Item` plutôt qu'un simple dictionnaire permet
plus de contrôle sur la structure des données. En effet, on ne peut
insérer dans les items que des données avec des clés 'déclarées'. Ce qui
assure une plus grande cohérence au sein d'un projet.

On peut instancier un item de plusieurs façons :

In [11]:
article_item = ArticleItem(title="Gilets Jaunes", image=None, description="Un samedi de manifestations")

In [12]:
print(article_item)

{'description': 'Un samedi de manifestations',
 'image': None,
 'title': 'Gilets Jaunes'}


In [13]:
article_item = ArticleItem()
article_item["title"] = 'Gilets Jaunes'
article_item["description"] = 'Un samedi de manifestations'

In [14]:
print(article_item)

{'description': 'Un samedi de manifestations', 'title': 'Gilets Jaunes'}


La définition d'un item permet de palier toutes les erreurs de typo dans
les champs.

In [15]:
article_item = ArticleItem()
article_item["titelkjwnxvmnscbvmknxc"] = 'Gilets Jaunes'

KeyError: 'ArticleItem does not support field: titelkjwnxvmnscbvmknxc'

Les items héritent des dictionnaires Python, et possèdent donc toutes
les méthodes de ceux-ci:

In [15]:
article_item = ArticleItem(title="Gilets Jaunes")
print(article_item["title"]) # Méthode __getitem__()
print(article_item.get("description", "no description provided")) # Méthode get()

Gilets Jaunes
no description provided


On peut transformer un `Item` en dictionnaire très facilement, en le
passant au constructeur:

In [16]:
article_item = ArticleItem(title="Drone DJI")
print(type(article_item))
dict_item = dict(article_item)
print(type(dict_item))
print(dict_item)

<class '__main__.ArticleItem'>
<class 'dict'>
{'title': 'Drone DJI'}


On intègre maintenant cet item dans notre spider.

In [None]:
# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from ..items import ArticleItem
class LemondeSpider(scrapy.Spider):
    name = "lemonde"
    allowed_domains = ["www.lemonde.fr"]
    start_urls = ['https://www.lemonde.fr']

    def parse(self, response):
        title = response.css('title::text').extract_first()
        all_links = {
            name:response.urljoin(url) for name, url in zip(
            response.css("#nav-markup .Nav__item")[3].css("a::text").extract(),
            response.css("#nav-markup .Nav__item")[3].css("a::attr(href)").extract())
        }
        for link in all_links.values():
            yield Request(link, callback=self.parse_category)

    def parse_category(self, response):
        for article in response.css(".fleuve")[0].css("article"):
            title = self.clean_spaces(article.css("h3 a::text").extract_first())
            image = article.css("img::attr(data-src)").extract_first()
            description = article.css(".txt3::text").extract_first()

            yield ArticleItem(
                title=title,
                image=image,
                description=description
            )

    def clean_spaces(self, string):
        if string:
            return " ".join(string.split())

On voit bien que le générateur retourne maintenant un `Item`.

### Exercice : 

Relancer la spider pour vérifier le bon déroulement de l'extraction.


In [27]:
!cd newscrawler/ && scrapy crawl lemonde -o data.csv

2020-11-17 17:39:06 [scrapy.utils.log] INFO: Scrapy 2.4.0 started (bot: newscrawler)
2020-11-17 17:39:06 [scrapy.utils.log] INFO: Versions: lxml 4.6.1.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 20.3.0, Python 3.8.6 (default, Oct 13 2020, 20:37:26) - [GCC 8.3.0], pyOpenSSL 19.1.0 (OpenSSL 1.1.1h  22 Sep 2020), cryptography 3.2.1, Platform Linux-5.4.39-linuxkit-x86_64-with-glibc2.2.5
2020-11-17 17:39:06 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2020-11-17 17:39:06 [scrapy.crawler] INFO: Overridden settings:
{'BOT_NAME': 'newscrawler',
 'NEWSPIDER_MODULE': 'newscrawler.spiders',
 'ROBOTSTXT_OBEY': True,
 'SPIDER_MODULES': ['newscrawler.spiders']}
2020-11-17 17:39:06 [scrapy.extensions.telnet] INFO: Telnet Password: ad2b60606dee942c
2020-11-17 17:39:06 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsag

2020-11-17 17:39:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/planete/> (referer: https://www.lemonde.fr)
2020-11-17 17:39:08 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/sciences/> (referer: https://www.lemonde.fr)
2020-11-17 17:39:08 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/big-browser/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy

2020-11-17 17:39:08 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/podcasts/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  File "/root/.local/sha

2020-11-17 17:39:08 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/sciences/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  File "/root/.local/sha

2020-11-17 17:39:09 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.lemonde.fr/elections-americaines-de-2020/> (referer: https://www.lemonde.fr)
2020-11-17 17:39:09 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/politique/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/co

2020-11-17 17:39:09 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/attentat-de-la-basilique-de-nice/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:


2020-11-17 17:39:09 [scrapy.core.scraper] ERROR: Spider error processing <GET https://www.lemonde.fr/climat/> (referer: https://www.lemonde.fr)
Traceback (most recent call last):
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/defer.py", line 120, in iter_errback
    yield next(it)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/utils/python.py", line 353, in __next__
    return next(self.data)
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/core/spidermw.py", line 62, in _evaluate_iterable
    for r in iterable:
  File "/root/.local/share/virtualenvs/code-AFz48Hjb/lib/python3.8/site-packages/scrapy/spidermiddlewares/offsite.py", line 29, in process_spider_output
    for x in result:
  File "/root/.local/share

## Postprocessing

Si l'on se réfère au diagramme d'architecture de Scrapy, on voit qu'il
est possible d'insérer des composants supplémentaires dans le flux de
traitement. Ces composants s'appellent `Pipelines`.

Par défaut, tous les `Item` générés au sein d'un projet Scrapy passent
par les `Pipelines`. Les pipelines sont utilisés la plupart du temps
pour :

-   Nettoyer du contenu HTML ;
-   Valider les données scrapées ;
-   Supprimer les items qu'on ne souhaite pas stocker ;
-   Stocker ces objets dans des bases de données.

Les pipelines doivent être définis dans le fichier `pipelines.py`.

Dans notre cas on peut vouloir nettoyer le champ `title` pour enlever
les caractères superflus.

Nous allons alors transferer la fonction de nettoyage du code html dans
une Pipeline.

In [None]:
# %load newscrawler/newscrawler/pipelines.py

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy.exceptions import DropItem

class TextPipeline(object):

    def process_item(self, item, spider):
        if item['title']:
            item["title"] = clean_spaces(item["title"])
            return item
        else:
            raise DropItem("Missing title in %s" % item)


def clean_spaces(string):
    if string:
        return " ".join(string.split())

Pour dire au process Scrapy de faire transiter les items par ces
pipelines. Il faut le spécifier dans le fichier de paramétrage
`settings.py`.

In [None]:
ITEM_PIPELINES = {
     'newscrawler.pipelines.TextPipeline': 300,
 }

On peut maintenant supprimer la fonction `clean_spaces()` de
l'extraction des données et laisser le Pipeline faire son travail. La
valeur entière définie permet de déterminer l'ordre dans lequel les
pipelines vont être appelés. Ces entiers peuvent être compris entre 0 et
1000.

On relance notre spider :

In [None]:
scrapy crawl lemonde -o ../data/articles.json

On peut aussi utiliser les Pipelines pour stocker les données récupérées
dans une base de données. Pour stocker les items dans des documents
mongo :

In [None]:
import pymongo

class MongoPipeline(object):

    collection_name = 'scrapy_items'

    def open_spider(self, spider):
        self.client = pymongo.MongoClient()
        self.db = self.client["lemonde"]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        self.db[self.collection_name].insert_one(dict(item))
        return item

Ici on redéfinit deux autres méthodes: `open_spider()`et
`close_spider()`, ces méthodes sont appelées comme leur nom l'indique,
lorsque la Spider est instanciée et fermée.

Ces méthodes nous permettent d'ouvrir la connexion Mongo et de la fermer
lorsque le scraping se termine. La méthode `process_item()` est appelé à
chaque fois qu'un item passe dans le mécanisme interne de scrapy. Ici,
la méthode permet d'insérer l'item en tant que document mongo.

Pour que ce pipeline soit appelé il faut l'ajouter dans les settings du
projet.

In [None]:
ITEM_PIPELINES = {
    'newscrawler.pipelines.TextPipeline': 100,
    'newscrawler.pipelines.MongoPipeline': 300
}

Le pipeline est ajoutée à la fin du process pour profiter des deux
précédents.

## Settings

Scrapy permet de gérer le comportement des spiders avec certains
paramètres. Comme expliqué dans le premier cours, il est important de
suivre des règles en respectant la structure des différents sites. Il
existe énormément de paramètres mais nous allons (dans le cadre de ce
cours) aborder les plus utilisés :

-   DOWNLOAD\_DELAY : Le temps de téléchargement entre chaque requête
    sur le même domaine ;
-   CONCURRENT\_REQUESTS\_PER\_DOMAIN : Nombre de requêtes simultanées
    par domaine ;
-   CONCURRENT\_REQUESTS\_PER\_IP : Nombre de requêtes simultanées par
    IP ;
-   DEFAULT\_REQUEST\_HEADERS : Headers HTTP utilisés pour les requêtes
    ;
-   ROBOTSTXT\_OBEY : Scrapy récupère le robots.txt et adapte le
    scraping en fonction des règles trouvées ;
-   USER\_AGENT : UserAgent utilisé pour faire les requêtes ;
-   BOT\_NAME : Nom du bot annoncé lors des requêtes
-   HTTPCACHE\_ENABLED : Utilisation du cache HTTP, utile lors du
    parcours multiple de la même page.

Le fichiers `settings.py` permet de définir les paramètres globaux d'un
projet. Si votre projet contient un grand nombre de spiders, il peut
être intéressant d'avoir des paramètres distincts pour chaque spider. Un
moyen simple est d'ajouter un attribut `custom_settings` à votre spider
:

In [None]:
class LeMondeSpider(scrapy.Spider):
        name = "lemonde"
        allowed_domains = ["lemonde.fr"]
        start_urls = ['http://lemonde.fr/']
        custom_settings = {
            "HTTPCACHE_ENABLED":True, 
            "CONCURRENT_REQUESTS_PER_DOMAIN":100
        }