# Aspects légaux et éthiques du webscraping

## 1. Aspects légaux du webscraping

* **Une zone grise juridique :**
    * Pourtant, une **définition précise** de l'activité : le webscraping est une technique d'extraction automatique du contenu de sites web (donc du contenu de code HTML)
    * Selon le contexte, différentes normes s'appliquent (propriété intellectuelle, données personnelles, etc.)
    * De nombreuses réflexions sont en cours autour de solutions comme les CGR (conditions générales de réutilisation) pour encadrer la réutilisation de données collectées sur les sites web : celles-ci s'appuieraient notamment sur des licences (précisant les droits et permissions) directement attachées aux données collectées

## 1. Aspects légaux du webscraping

* **D'une situation à l'autre :**
    * Le **contexte est important** lorsqu'on parle de webscraping, selon les données que l'on souhaite collecter, selon ce qu'on souhaite en faire, il faut prêter attention à différents aspects
    * Ce qui importe avant tout est l'**usage des données** qui est fait suite à la collecte
    * Et ce qui compte, par ailleurs, est la **façon d'extraire les données**

## 1. Aspects légaux du webscraping

* **Une pratique pas forcément bien vue et légitimement discutable :**

    * Il s'agit de copier des informations collectées, produites par un tiers (cela peut donc être vu comme une forme de vol ou, du moins, d'appropriation)
    * Pour autant, les pages web sont **librement accessibles** et leur **code source ouvert** (peut-être voler quelque chose qui est librement accessible ?)
    * Cela rejoint aussi une philosophie sous-jacente des technologies du web et plus largement, de l'histoire d'internet (ouverture, gratuité, libre accès, neutralité des réseaux, etc.)

## 1. Aspects légaux du webscraping

* **Les cas d'affaires concernent d'abord des entreprises qui tirent un profit des données collectées :**
    * Il existe depuis 2015 en France **une loi sur le "vol de donnée"** (modifie l'article 323-3 du Code pénal) qui interdit "d'extraire, de détenir, de reproduire, de transmettre frauduleusement les données d'un système de traitement automatisé de données"
    * Il existe divers enjeux autour du webscraping, mais le plus conflictuel reste ceux qui touchent à la **propriété intellectuelle**, à la concurrence et à l'appropriation de données décisives sur certains marchés
    * Si on récupère des données sur un site web, il faut au moins les modifier substanciellement ou en tirer une nouvelle information pour considérer que l'on est pas dans un cas de **plagiat**
    * Lorsqu'on utilise ces techniques dans le cadre d'une recherche, on se situe, a priori, dans ce cadre
    * On fera alors attention à l'usage fait des **données collectées**, notamment celles qui constituent des données personnelles (et donc soumises au RGPD), mais également aux **données protégées par un droit d'auteur** (image, musique, vidéo, etc.)
    * Ceci étant, le droit d'auteur protège uniquement les **créations originales** et pas les faits, les statistiques (et donc les métadonnées)
    * Le **droit d'auteur** ne protège pas contre la collecte de données mais uniquement contre la publication et la mise à disposition : a priori, on peut donc également collecter des données protégées par un droit d'auteur si c'est dans un unique but d'analyse

## 2. Eléments de culture numérique

## 2. Eléments de culture numérique

* **On peut se référer à ce que nous disent les sites web eux-mêmes :**
    * A la racine de chaque site web, on retrouve régulièrement un fichier qui se nomme `robots.txt`
    * Il permet de définir ce que les robots (y compris les scrapers donc) sont autorisés ou non à faire sur le site web
    * ```User-agent: *
      Disallow: /``` : aucun robot n'est autorisé à parcourir quelconque page de ce site web

## 2. Eléments de culture numérique

* **On ne doit pas accéder à un espace qui est explicitement protégé et dont l'accès est restreint :**
    * Lorsqu'une page web est protégée par un **mot de passe**, il s'agit d'une restriction explicite qui nous place en dehors des bornes légales si on tente de la franchir
    * De la même façon, contourner les limites posées par les dispositifs comme les fameux **CAPTCHA** destinés à exclure les robots, constitue une infraction à une restriction explicite
    * Certains sites web affichent explicitement qu'ils refusent être parcourus par des robots (en faisant accepter, par exemple, des **termes d'usage**) : dans ce cas, on contreviendra à cette disposition si on souhaite tout de même le scraper sans obtenir le consentement des administrateurs du site en question

## 2. Eléments de culture numérique

* **On peut être tenu responsable d'impacter le fonctionnement des serveurs requêtés :**
    * Une pratique mal maîtrisée de scraping peut **endommager ou contribuer à endommager les serveurs** auxquels des requêtes HTTP sont envoyées : dans ce cas, on peut s'exposer à des poursuites de la part des administrateurs ou propriétaires de ces serveurs (exemple des attaques de type **DDOS** ou "attaques par déni de service")
    * Avant d'endommager (ce qui est un peu extrême), on pourra éventuellement contribuer à **limiter l'accès d'autres utilisateurs** aux ressources que le serveur rend accessibles
    * Enfin, si on écrit un morceau de code, c'est que l'on sait ce que l'on est en train de faire : on est alors responsable des actions de ce script

## 3. Bonnes pratiques

## 3. Bonnes pratiques

* **Avant de se lancer tête baissée :**
    * On peut vérifier si le site web que l'on veut scraper ne **met pas à disposition une API** : cela constitue un accès réglementé et donc légal et peut, par ailleurs, parfois grandement faciliter les opérations de collecte de données
    * Si aucune API n'est disponible ou ne permet pas de récupérer les informations qui nous intéressent, on commencera alors à modéliser le schéma des données qui nous intéresse et à cibler les pages d'intérêt (plutôt que de parcourir toutes les pages du site web et de récupérer plus d'information que nécessaire)

## 3. Bonnes pratiques

* **Pour éviter de surcharger les serveurs :**
    * On veillera à scraper **lentement** : les instructions dans Python sont exécutées rapidement (par exemple, on peut parcourir une boucle sur 10 000 éléments en moins d'une seconde), mais les serveurs ne peuvent pas répondre aussi rapidement
    * Pour cela, on peut utiliser l'instruction `time.sleep(5)` pour demander à notre script de faire une pause de 5 secondes entre chaque tour de boucle, par exemple
    * Pour éviter de ralentir les requêtes d'autres utilisateurs, on peut lancer une opération de scraping très longue durant la nuit plutôt que la journée

**Références :**
* Ryan Mitchell, *Web scraping with Python. Collecting more data from the modern web*, Sebastopol, O'Reilly, 2018.
* Thomas Saint-Aubin et Charles Leconte, "Droit : Comment faire du scraping de données en toute légalité ?", 2020, URL : https://www.archimag.com/univers-data/2020/01/14/droit-comment-web-scraping-donnees-legalite, consulté le 21 février 2021.