# Scrapping

La premi√®re √©tape avant toutes choses et de r√©cup√©rer les donn√©es qui nous int√©ressent pour pouvoir les analyser et les utiliser par la suite. Voici la marche √† suivre : 

* Se connecter √† une page Web
* Analyser (Parser) le html √† l‚Äôaide de Beautiful Soup ou Selenium
* Mettre en place des boucles √† travers les √©l√©ments qui nous int√©ressent
* √âcrire les donn√©es r√©cup√©r√©es dans un fichier CSV

Pour se connecter et r√©cuperer la page nous avons besoin d'un outil.

**Beautiful Soup** est pour moi le plus simple mais le plus basique outil de scrapping.  
**Selenium** permet de simuler un naviguateur et donc d'aller plus en profondeur dans le scrapping.  

Je vais donc utiliser selenium pour la suite de la d√©monstration.  
Voir le notebook *demo_bs4* pour une petite d√©mo avec Beautiful Soup.

In [1]:
# let's install our tools
!pip install selenium
!pip install pandas



In [2]:
# import librairies ...
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options # Pour les utilisateurs de Google Chrome

import time
import pandas as pd
import os

In [3]:
# R√©cup√©ration de l'url de base en variable ( de la ou on part pour le scrapping )
base_url = "https://www.blablagues.net/blagues.html"

# Initialisons du web driver
options = Options()
options.page_load_strategy = 'normal'

driver = webdriver.Chrome('/home/leersla/driver/chromedriver', options=options)
driver.implicitly_wait(10)

# Variable sp√©cifique √† CE scrapping (et donc pas indispensable)
nombre_de_page = 2
joke_list = []

# Connection et r√©cup√©ration de la page par le driver
driver.get(base_url)

In [4]:
# Exemple de r√©cup√©ration de tout le body du site
body = driver.find_element_by_tag_name('body')
body.get_attribute('innerHTML')

'<noscript id="noscript" style="background-color: white;position: fixed;z-index: 1000;top: 0;right: 0;bottom: 0;left: 0;transition: opacity 1s;"><div style="top: 50%;left: 50%;transform: translate(-50%,-50%);width: 60%;max-width: 400px;"><img src="assets/img/offline/unpluged.gif" style="margin: auto;" width="100%" alt="logo_unpluged"><img src="assets/img/logo/logo_base.svg" style="margin: auto;" width="100%" alt="logo_base"><img src="assets/img/logo/logo_txt_load.svg" style="margin: auto" width="100%" alt="logo_txt_load"><p style="font-size: 4vh;font-weight: bold;text-align: center;padding-top: 15px;">Oups... ne fonctionne pas sans Javascript ! Active Javascript sur ton navigateur !</p><p style="font-size: 3vh;padding-top: 20px;">Pour savoir comment faire, clique ici : <a href="https://www.enable-javascript.com/fr/" target="_blank" style="color: #7ddd21;font-weight: bold;">proc√©dure d\'activation de Javascript</a></p></div></noscript><div id="menu"><div class="news"><div class="logo">

In [5]:
try:
    for i in range(nombre_de_page):
        """
            boucle pour charger les elements sur la page
            en clickant sur "more" toutes les 3 secondes

        """
        more = driver.find_element_by_css_selector("button#more")
        more.click()
        time.sleep(3)

    for card_content in driver.find_elements_by_css_selector("div.card-content"):
        """
            pour chaque "card" on va r√©cuperer la ligne
            de texte correspondant √† la blague et
            on l'envoie dans un tableau
        """
        time.sleep(1)
        joke = card_content.find_elements_by_css_selector("div.card-body > div.inner > div.wrap")
        for line in joke:
            print(line.text)
            joke_list.append(line.text)

except AttributeError:
    print("error")

print(joke_list)
driver.close()

Un jour, si quelqu'un vous dit "du cü§•n" vous lui r√©pondez :
Enchant√© moi c'est... (puis votre pr√©nom ou votre nom de famille ! üòâ)
Quels sont les animaux que l‚Äôon retrouve en grand nombre dans la montagne ?
Les chats lait ! üêàü•õ
(histoire vraie)
2 camarades discutent :
¬´ Je vais passer un test covid pour revoir mes grands-parents
- Je te souhaite que du positif !
- ... ¬ª
Quelle est la diff√©rence entre du chocolat et une belle m√®re ?
Le chocolat √ßa constipe et la belle m√®re √ßa fait chier ! üç´
C‚Äôest un aveugle qui rentre dans un bar,
puis dans une table, puis dans une chaise, puis dans un mur, puis... üï∂Ô∏è
Ta m√®re est tellement grosse,
Que quand elle se met sur une balance elle affiche : "1 personne √† la fois SVP" ! ‚öñÔ∏è
Quelle est l'expression pr√©f√©r√©e des vampires ?
Bon sang !
Un jeune couple de squelettes arrive √† l'h√¥tel :
- Nous voudrions une belle chambre pour notre nuit de n'os ! ü¶¥
Melon et Mel√®che veulent acheter un billard...
Melon ach√®t

Une fois les donn√©es r√©cup√©r√©es il ne reste plus qu'√† les √©crires dans un fichier CSV

In [6]:
# Creation du dossier ./data
outdir = './data'
if not os.path.exists(outdir):
    os.mkdir(outdir)
    
# Ecriture sur un fichier CSV
df = pd.DataFrame(joke_list)
df.to_csv("./data/joke.csv", index=True)

joke_csv = pd.read_csv('./data/joke.csv')
print(joke_csv)

    Unnamed: 0                                                  0
0            0  Un jour, si quelqu'un vous dit "du cü§•n" vous l...
1            1  Quels sont les animaux que l‚Äôon retrouve en gr...
2            2  (histoire vraie)\n2 camarades discutent :\n¬´ J...
3            3  Quelle est la diff√©rence entre du chocolat et ...
4            4  C‚Äôest un aveugle qui rentre dans un bar,\npuis...
5            5  Ta m√®re est tellement grosse,\nQue quand elle ...
6            6  Quelle est l'expression pr√©f√©r√©e des vampires ...
7            7  Un jeune couple de squelettes arrive √† l'h√¥tel...
8            8  Melon et Mel√®che veulent acheter un billard......
9            9  Qu‚Äôest ce qui a 2 pattes et qui saigne beaucou...
10          10  Qu‚Äôest ce qui sent le cul de vache ?\nLa langu...
11          11  Quelle est le comble pour un jardinier ? üë®‚Äçüåæ\n...
12          12  Comment appelle-t-on un chien dans une pharmac...
13          13  Tu veux que je te raconte une bl

And voil√† !