# Scraping - Exercices

## Obtenir les derniers articles du Monde (**)

* Obtenir le titre et le chapeau (description) des 10 derniers articles sur https://www.lemonde.fr/actualite-en-continu/ (*)


In [51]:
import requests
from bs4 import BeautifulSoup

In [7]:
url = "https://www.lemonde.fr/actualite-en-continu/"

response = requests.get(url)

content = response.content

soup = BeautifulSoup(content)

In [None]:
#lister toutes les balises h3 avec la classe teaser__title
soup.find_all("h3", "teaser__title")

In [None]:
#récupérer les 10 premières balises h3 teaser__title
soup.find_all("h3", "teaser__title")[:10]

In [None]:
#récupérer le titre contenu dans la première balise
soup.find_all("h3", "teaser__title")[0].text

In [28]:
#récupérer les 10 premiers titres
#méthode 1: avec une boucle for

top_titles = []

for balise in soup.find_all("h3", "teaser__title")[:10]:
    title = balise.text #récupérer le texte
    title = title.replace("\xa0","") #enlever les symboles
    top_titles.append(title) #ajouter le titre à la liste créée vide plus haut
    
#méthode 2: liste compréhension
#top_titles = [ balise.text.replace("\xa0","") for balise in soup.find_all("h3")[:10] ]

In [None]:
#récupérer tous les chapeaux (descriptions) contenus dans la classe teaser__desc
descriptions = soup.find_all("p", "teaser__desc")

In [26]:
#récupérer les 10 premiers chapeaux (descriptions) contenus dans la classe teaser__desc
#méthode 1: avec une boucle for

top_descriptions = []

for balise in soup.find_all("p", "teaser__desc")[:10]:
    description = balise.text #récupérer le texte
    description = description.replace("\xa0","") #enlever les symboles
    top_descriptions.append(description) #ajouter le titre à la liste créée vide plus haut
    
#méthode 2: liste compréhension
#top_titles = [ balise.text.replace("\xa0","") for balise in soup.find_all("h3")[:10] ]

In [44]:
#Question 2: récupérer les liens des pages
#soup.find_all("a", "teaser__link")[0]["href"]

## Question 2: récupérer la liste des 10 premiers articles du blog de Databird

URL: https://www.data-bird.co/blog


## Le beau temps fait-il le bonheur ? (**)

Les gens sont-ils plus heureux dans les pays ensoleillés ? Y a-t-il un lien entre le taux de dépression et le manque de soleil ? Intéressons-nous aux données pour répondre à cette question.

<br>

**_Hypothèse :_**

Moins un pays compte d'heures d'ensoleillement, plus le taux d'individus déprimés est élevé.

**_Data à collecter :_**
* Noms de pays
* Taux de personnes déprimées
* Moyenne des heures d'ensoleillement 

**_Ressources à utiliser :_**
* https://en.wikipedia.org/wiki/Epidemiology_of_depression
* https://en.wikipedia.org/wiki/List_of_cities_by_sunshine_duration

**_Questions :_**

1. Scraper les 2 tables (taux d'individus déprimés et heures d'ensoleillement). (**)
2. Nettoyer les données et calculer les moyennes annuelles d'ensoleillement par pays. (**)
3. Fusionner les tables. (*)
4. Afficher la corrélation à l'aide d'un scatter plot (`sns.scatterplot`). (*)

<br>

_**INDICES :**_

Dans cet exercice, nous scrapons des tables sur un site web. Pour cette tâche, on peut utiliser BeautifulSoup comme d'habitude, ou utiliser la fonction pandas **`pd.read_html()`** qui est plus rapide (meilleure solution ici). Après avoir scrapé les données des articles, il reste simplement à les fusionner et à étudier la corrélation.

## Encyclopedia (***)

On souhaite constituer une encyclopédie au cas où Wikipedia disparaîtrait. 

Pour cela, nous avons besoin d'une importante base d'articles pour que notre encyclopédie soit viable. Nous allons donc nous référer à l'article wikipédia qui liste les articles que toute bonne encyclopédie devrait posséder : https://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Liste_d%27articles_que_toutes_les_encyclop%C3%A9dies_devraient_avoir.

L'objectif de l'exercice est de sauvegarder cette liste d'articles au bon format, c'est-à-dire en préservant la hiérarchie des articles en sections et sous-sections. 

_Indice : Le dictionnaire pourrait être un bon format._

## Choisir son futur ordinateur (***)

**_[MAJ] Boulanger vient de modifier le code du site et de mettre en place des mesures anti-scraping. Cet exercice ne peut donc plus être effectué en l'état. MAJ à venir avec un autre site de vente d'informatique équivalent._**

Supposons que vous souhaitiez changer d'ordinateur. Vous utilisez vos nouvelles compétences en scraping pour réaliser une étude des références disponibles sur le site **Boulanger**.

* Scraper la première page de la catégorie  **[ultrabooks](https://www.boulanger.com/c/ultrabook-ultra-portable)**. Pour chaque produit de la page, récupérer son nom, son prix, la réduction s'il y en a une, le nombre d'étoiles et les caractéristiques principales. Sauvegarder ces informations dans un fichier csv.
* Faire la même chose avec toutes les pages de la catégorie ultrabooks.

_Indice : Partir de l'URL : https://www.boulanger.com/c/ultrabook-ultra-portable. La première question est réalisable sans ouvrir chaque page de produit._

## BONUS : Le chasseur d'opportunités (*****, hacker level)

Enregistrer le contenu de toutes les offres de poste contenant "Data Analyst" sur Welcome to the jungle.

Cette tâche est rendue très compliquée par les méthodes anti-scraping mises en place par Welcome to the jungle.

*__Marche à suivre__*

L'URL à utiliser pour cet exercice est : 
https://www.welcometothejungle.com/fr/jobs?page=1&refinementList%5Bprofession_name.fr.Tech%5D%5B%5D=Data%20Analysis&refinementList%5Bcontract_type_names.fr%5D%5B%5D=CDI

On peut remarquer que : 

1. Il y a plusieurs pages de résultats, que l'on peut parcourir simplement **en changeant `page=k` dans l'URL**. Il y a **30 postes proposés par page** de résultats.
<br><br>
2. Welcome to the jungle a implémenté des mesures anti-scraping. En particulier, une partie du HTML est cachée lorsque l'on requête la page avec  `requests`. Il est indispensable de **commencer à scroller** la page pour lancer le code JavaScript qui révèle le contenu caché.
<br><br>
$\rightarrow$ Pour résoudre ce problème, on ne peut se contenter de BeautifulSoup. Il faut **Simuler le comportement d'une vraie personne** qui parcourt la page avec sa souris, c'est donc **Selenium** qu'il nous faut
<br><br>
$\rightarrow$ Voilà une fonction qui permet de simuler un scroll de page jusqu'à la ième offre d'emploi :
<br><br>
```
def scroll(driver, i):
        scroll_delta = int(250)
        scroll_delta += 140*i
        driver.execute_script("window.scrollBy(0, "+ str(scroll_delta) + ")")
```
<br>

3. Une autre mesure anti-scraping concerne les noms de classes, les ids et même les liens vers des images dans le code HTML. Tous ces noms sont aléatoires (ex:`class="sc-1flb27e-5 cdtiMs"`) et changent à chaque chargement de la page.<br><br>
$\rightarrow$ Une bonne nouvelle quand même : toutes les classes ne sont pas aléatoires, certaines restent fixes. Pour les noms aléatoires, certaines lettres du nom sont fixes également. On peut donc toujours utiliser des similarités pour désigner certains tags spécifiques (ex : le tag header, contenant le nombre total de résultats, commence toujours par "hd").<br><br>
$\rightarrow$ Pour exploiter cette faille, il est conseillé d'utiliser la méthode Selenium **`find_elements_by_css_selector()`** pour désigner des tags précis, car cette méthode permet de d'identifier un tag par un texte partiel (ex: `driver.find_elements_by_css_selector("header[class^='hd']")` pour toutes les classes de headers qui commencent par "hd").
<br><br>
4. Au bout du compte, on souhaite sauvegarder le contenu de chaque offre d'emploi dans un fichier .txt.<br><br>
$\rightarrow$ Il va donc falloir cliquer sur chaque offre d'emploi avec la méthode **`.click()`** de Selenium. Pour chaque offre d'emploi, le contenu de l'offre est stocké dans un dictionnaire à l'intérieur d'un tag `<script>`. On peut utiliser la méthode  **`json.loads()`** pour manipuler ce dictionnaire. On peut finalement l'enregistrer en .txt avec les fonctions **`open()`** et **`.write`**. 

In [1]:
# importations nécessaires

import time
import json

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from webdriver_manager.chrome import ChromeDriverManager

Les cellules ci-dessous donnent des indications pour se lancer dans la marche à suivre présentée plus haut. Ce n'est qu'une proposition, et sans doute pas la seule méthode..!

In [None]:
# fonction pour ouvrir une page
####

# fonction pour scroller jusqu'à une offre d'emploi 
####

# fonction pour obtenir le nombre d'offres sur la page
####

# fonction pour cliquer sur une offre d'emploi 
####

# function pour parser une page, extraire son contenu et l'enregistrer en .txt
####

In [None]:
# création du driver Selenium
####

In [None]:
# ouverture de la page récupération du nombre d'offres
####

In [None]:
# boucle de scraping 
####