# Scrapping

La première étape avant toutes choses et de récupérer les données qui nous intéressent pour pouvoir les analyser et les utiliser par la suite. Voici la marche à suivre : 

* Se connecter à une page Web
* Analyser (Parser) le html à l’aide de Beautiful Soup ou Selenium
* Mettre en place des boucles à travers les éléments qui nous intéressent
* Écrire les données récupérées dans un fichier CSV

Pour se connecter et récuperer la page nous avons besoin d'un outil.

**Beautiful Soup** est pour moi le plus simple mais le plus basique outil de scrapping.  
**Selenium** permet de simuler un naviguateur et donc d'aller plus en profondeur dans le scrapping.  

Je vais donc utiliser selenium pour la suite de la démonstration.  
Voir le notebook *demo_bs4* pour une petite démo avec Beautiful Soup.

In [1]:
# let's install our tools
!pip install selenium
!pip install pandas



In [2]:
# import librairies ...
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options # Pour les utilisateurs de Google Chrome

import time
import pandas as pd
import os

In [3]:
# Récupération de l'url de base en variable ( de la ou on part pour le scrapping )
base_url = "https://www.blablagues.net/blagues.html"

# Initialisons du web driver
options = Options()
options.page_load_strategy = 'normal'

driver = webdriver.Chrome('/home/leersla/driver/chromedriver', options=options)
driver.implicitly_wait(10)

# Variable spécifique à CE scrapping (et donc pas indispensable)
nombre_de_page = 2
joke_list = []

# Connection et récupération de la page par le driver
driver.get(base_url)

In [4]:
# Exemple de récupération de tout le body du site
body = driver.find_element_by_tag_name('body')
body.get_attribute('innerHTML')

'<noscript id="noscript" style="background-color: white;position: fixed;z-index: 1000;top: 0;right: 0;bottom: 0;left: 0;transition: opacity 1s;"><div style="top: 50%;left: 50%;transform: translate(-50%,-50%);width: 60%;max-width: 400px;"><img src="assets/img/offline/unpluged.gif" style="margin: auto;" width="100%" alt="logo_unpluged"><img src="assets/img/logo/logo_base.svg" style="margin: auto;" width="100%" alt="logo_base"><img src="assets/img/logo/logo_txt_load.svg" style="margin: auto" width="100%" alt="logo_txt_load"><p style="font-size: 4vh;font-weight: bold;text-align: center;padding-top: 15px;">Oups... ne fonctionne pas sans Javascript ! Active Javascript sur ton navigateur !</p><p style="font-size: 3vh;padding-top: 20px;">Pour savoir comment faire, clique ici : <a href="https://www.enable-javascript.com/fr/" target="_blank" style="color: #7ddd21;font-weight: bold;">procédure d\'activation de Javascript</a></p></div></noscript><div id="menu"><div class="news"><div class="logo"><

In [5]:
try:
    for i in range(nombre_de_page):
        """
            boucle pour charger les elements sur la page
            en clickant sur "more" toutes les 3 secondes

        """
        more = driver.find_element_by_css_selector("button#more")
        more.click()
        time.sleep(3)

    for card_content in driver.find_elements_by_css_selector("div.card-content"):
        """
            pour chaque "card" on va récuperer la ligne
            de texte correspondant à la blague et
            on l'envoie dans un tableau
        """
        time.sleep(1)
        joke = card_content.find_elements_by_css_selector("div.card-body > div.inner > div.wrap")
        for line in joke:
            print(line.text)
            joke_list.append(line.text)

except AttributeError:
    print("error")

print(joke_list)
driver.close()

Un jour, si quelqu'un vous dit "du c🤥n" vous lui répondez :
Enchanté moi c'est... (puis votre prénom ou votre nom de famille ! 😉)
Quels sont les animaux que l’on retrouve en grand nombre dans la montagne ?
Les chats lait ! 🐈🥛
(histoire vraie)
2 camarades discutent :
« Je vais passer un test covid pour revoir mes grands-parents
- Je te souhaite que du positif !
- ... »
Quelle est la différence entre du chocolat et une belle mère ?
Le chocolat ça constipe et la belle mère ça fait chier ! 🍫
C’est un aveugle qui rentre dans un bar,
puis dans une table, puis dans une chaise, puis dans un mur, puis... 🕶️
Ta mère est tellement grosse,
Que quand elle se met sur une balance elle affiche : "1 personne à la fois SVP" ! ⚖️
Quelle est l'expression préférée des vampires ?
Bon sang !
Un jeune couple de squelettes arrive à l'hôtel :
- Nous voudrions une belle chambre pour notre nuit de n'os ! 🦴
Melon et Melèche veulent acheter un billard...
Melon achète la table et Melèche les boules !
Qu’est ce qui a

Une fois les données récupérées il ne reste plus qu'à les écrires dans un fichier CSV

In [6]:
# Creation du dossier ./data
outdir = './data'
if not os.path.exists(outdir):
    os.mkdir(outdir)
    
# Ecriture sur un fichier CSV
df = pd.DataFrame(joke_list)
df.to_csv("./data/joke.csv", index=True)

joke_csv = pd.read_csv('./data/joke.csv')
print(joke_csv)

    Unnamed: 0                                                  0
0            0  Un jour, si quelqu'un vous dit "du c🤥n" vous l...
1            1  Quels sont les animaux que l’on retrouve en gr...
2            2  (histoire vraie)\n2 camarades discutent :\n« J...
3            3  Quelle est la différence entre du chocolat et ...
4            4  C’est un aveugle qui rentre dans un bar,\npuis...
5            5  Ta mère est tellement grosse,\nQue quand elle ...
6            6  Quelle est l'expression préférée des vampires ...
7            7  Un jeune couple de squelettes arrive à l'hôtel...
8            8  Melon et Melèche veulent acheter un billard......
9            9  Qu’est ce qui a 2 pattes et qui saigne beaucou...
10          10  Qu’est ce qui sent le cul de vache ?\nLa langu...
11          11  Quelle est le comble pour un jardinier ? 👨‍🌾\n...
12          12  Comment appelle-t-on un chien dans une pharmac...
13          13  Tu veux que je te raconte une blague à 2 balle...
14        

And voilà !