# Scrapping

La première étape avant toutes choses dans le machine learning est de récupérer les données qui nous intéressent pour pouvoir les analyser et les utiliser par la suite. Voici la marche à suivre : 

* Se connecter à une page Web
* Analyser (Parser) le html à l’aide de Beautiful Soup ou Selenium
* Mettre en place des boucles à travers les éléments qui nous intéressent
* Écrire les données récupérées dans un fichier CSV

Pour se connecter et récuperer la page nous avons besoin d'un outil.

**Beautiful Soup** est pour moi l'outil de base du scrapping.  
**Selenium** permet de simuler un naviguateur et donc d'aller plus en profondeur dans le scrapping (cliquer à certains endroit par exemple ...).  

Je vais donc utiliser selenium pour la suite de la démonstration.  
Voir le notebook *demo_bs4* pour une petite démo avec Beautiful Soup.

In [1]:
# let's install our tools
!pip install pandas
!pip install bs4
!pip install selenium




You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


Collecting bs4
  Using cached bs4-0.0.1-py3-none-any.whl
Collecting beautifulsoup4
  Using cached beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
Collecting soupsieve>1.2
  Using cached soupsieve-2.2-py3-none-any.whl (33 kB)
Installing collected packages: soupsieve, beautifulsoup4, bs4
Successfully installed beautifulsoup4-4.9.3 bs4-0.0.1 soupsieve-2.2


You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


Collecting selenium
  Using cached selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Collecting urllib3
  Using cached urllib3-1.26.3-py2.py3-none-any.whl (137 kB)
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.26.3


You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


In [2]:
# import librairies ...
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options # Pour les utilisateurs de Google Chrome

import time
import pandas as pd
import os

In [5]:
# Récupération de l'url de base en variable ( de la ou on part pour le scrapping )
base_url = "https://www.blablagues.net/blagues.html"

# Initialisons du web driver
options = Options()
options.page_load_strategy = 'normal'

driver = webdriver.Chrome('driver/chromedriver', options=options)
driver.implicitly_wait(10)

# Variable spécifique à CE scrapping (et donc pas indispensable)
nombre_de_page = 2
joke_list = []

# Connection et récupération de la page par le driver
driver.get(base_url)

In [7]:
# Exemple de récupération de tout le body du site
body = driver.find_element_by_tag_name('body')
# body.get_attribute('innerHTML')

In [8]:
try:
    for i in range(nombre_de_page):
        """
            boucle pour charger les elements sur la page
            en clickant sur "more" toutes les 3 secondes

        """
        more = driver.find_element_by_css_selector("button#more")
        more.click()
        time.sleep(3)

    for card_content in driver.find_elements_by_css_selector("div.card-content"):
        """
            pour chaque "card" on va récuperer la ligne
            de texte correspondant à la blague et
            on l'envoie dans un tableau
        """
        time.sleep(1)
        joke = card_content.find_elements_by_css_selector("div.card-body > div.inner > div.wrap")
        for line in joke:
            print(line.text)
            joke_list.append(line.text)

except AttributeError:
    print("error")

print(joke_list)
driver.close()

Qu'est-ce qui est jaune et qui attend ?
Tes dents qui attendent chez le dentiste !
Quelle est la différence entre ma femme et une vidéo YouTube ?
La vidéo on peut la mettre en sourdine !
Un belge s'appuie sur le mur, lequel cède en premier ?
Le mur ! C'est le plus intelligent qui cède !
Deux chèvres, BABI et BABA sont sur un bateau.
BABA tombe dans l'eau.
Que se passe-t-il ?
BABYBEL !
Un homme demande à un avocat :
« Quel est le montant de vos honoraires ? »
L'avocat lui répond qu'il est de 1000€ pour trois questions.
L'homme lui demande alors :
« N'est-ce pas un peu excessif ? »
Et l'avocat lui répond :
« Non. Quelle est votre troisième question ? »
Ton père est tellement vieux qu’il pète de la poussière.
Qu’est-ce qu’un homme intelligent en Belgique ?
Un touriste.
Bonjour, vous avez des céréales hallal ?
Oui, j’ai aussi des tartines tines tines et de la confiture ture ture…
Ton frère est tellement bête que quand il joue avec le chien c'est lui qui va chercher la balle !
Ta mère est t

Une fois les données récupérées il ne reste plus qu'à les écrires dans un fichier CSV pour les sauvergarder.

In [11]:
# Creation du dossier ./data
outdir = './data'
if not os.path.exists(outdir):
    os.mkdir(outdir)
    
# Ecriture sur un fichier CSV
df = pd.DataFrame(joke_list)
df.to_csv("./scrapped_data/joke.csv", index=True)

joke_csv = pd.read_csv('./scrapped_data/joke.csv')
print(joke_csv)

    Unnamed: 0                                                  0
0            0  Qu'est-ce qui est jaune et qui attend ?\nTes d...
1            1  Quelle est la différence entre ma femme et une...
2            2  Un belge s'appuie sur le mur, lequel cède en p...
3            3  Deux chèvres, BABI et BABA sont sur un bateau....
4            4  Un homme demande à un avocat :\n« Quel est le ...
..         ...                                                ...
57          57  Les grains de sables\nDeux grains de sables so...
58          58  Qu'est ce qui monte, qui descend, qui tourne, ...
59          59  Que dit un œuf qui attend son pote depuis 1 he...
60          60  - Pète puis Répète s'en vont à l'eau, Pète tom...
61          61  Deux poissons discutent :\n– On rentre ?\n– Ou...

[62 rows x 2 columns]


And voilà !