# Scrapping

La premi√®re √©tape avant toutes choses dans le machine learning est de r√©cup√©rer les donn√©es qui nous int√©ressent pour pouvoir les analyser et les utiliser par la suite. Voici la marche √† suivre : 

* Se connecter √† une page Web
* Analyser (Parser) le html √† l‚Äôaide de Beautiful Soup ou Selenium
* Mettre en place des boucles √† travers les √©l√©ments qui nous int√©ressent
* √âcrire les donn√©es r√©cup√©r√©es dans un fichier CSV

Pour se connecter et r√©cuperer la page nous avons besoin d'un outil.

**Beautiful Soup** est pour moi l'outil de base du scrapping.  
**Selenium** permet de simuler un naviguateur et donc d'aller plus en profondeur dans le scrapping (cliquer √† certains endroit par exemple ...).  

Je vais donc utiliser selenium pour la suite de la d√©monstration.  
Voir le notebook *demo_bs4* pour une petite d√©mo avec Beautiful Soup.

In [1]:
# let's install our tools
!pip install pandas
!pip install bs4
!pip install selenium




You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


Collecting bs4
  Using cached bs4-0.0.1-py3-none-any.whl
Collecting beautifulsoup4
  Using cached beautifulsoup4-4.9.3-py3-none-any.whl (115 kB)
Collecting soupsieve>1.2
  Using cached soupsieve-2.2-py3-none-any.whl (33 kB)
Installing collected packages: soupsieve, beautifulsoup4, bs4
Successfully installed beautifulsoup4-4.9.3 bs4-0.0.1 soupsieve-2.2


You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


Collecting selenium
  Using cached selenium-3.141.0-py2.py3-none-any.whl (904 kB)
Collecting urllib3
  Using cached urllib3-1.26.3-py2.py3-none-any.whl (137 kB)
Installing collected packages: urllib3, selenium
Successfully installed selenium-3.141.0 urllib3-1.26.3


You should consider upgrading via the 'c:\users\leers\desktop\turing4\my-ml-cheat-sheet\venv\scripts\python.exe -m pip install --upgrade pip' command.


In [2]:
# import librairies ...
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options # Pour les utilisateurs de Google Chrome

import time
import pandas as pd
import os

In [5]:
# R√©cup√©ration de l'url de base en variable ( de la ou on part pour le scrapping )
base_url = "https://www.blablagues.net/blagues.html"

# Initialisons du web driver
options = Options()
options.page_load_strategy = 'normal'

driver = webdriver.Chrome('driver/chromedriver', options=options)
driver.implicitly_wait(10)

# Variable sp√©cifique √† CE scrapping (et donc pas indispensable)
nombre_de_page = 2
joke_list = []

# Connection et r√©cup√©ration de la page par le driver
driver.get(base_url)

In [7]:
# Exemple de r√©cup√©ration de tout le body du site
body = driver.find_element_by_tag_name('body')
# body.get_attribute('innerHTML')

In [8]:
try:
    for i in range(nombre_de_page):
        """
            boucle pour charger les elements sur la page
            en clickant sur "more" toutes les 3 secondes

        """
        more = driver.find_element_by_css_selector("button#more")
        more.click()
        time.sleep(3)

    for card_content in driver.find_elements_by_css_selector("div.card-content"):
        """
            pour chaque "card" on va r√©cuperer la ligne
            de texte correspondant √† la blague et
            on l'envoie dans un tableau
        """
        time.sleep(1)
        joke = card_content.find_elements_by_css_selector("div.card-body > div.inner > div.wrap")
        for line in joke:
            print(line.text)
            joke_list.append(line.text)

except AttributeError:
    print("error")

print(joke_list)
driver.close()

Qu'est-ce qui est jaune et qui attend ?
Tes dents qui attendent chez le dentiste !
Quelle est la diff√©rence entre ma femme et une vid√©o YouTube ?
La vid√©o on peut la mettre en sourdine !
Un belge s'appuie sur le mur, lequel c√®de en premier ?
Le mur ! C'est le plus intelligent qui c√®de !
Deux ch√®vres, BABI et BABA sont sur un bateau.
BABA tombe dans l'eau.
Que se passe-t-il ?
BABYBEL !
Un homme demande √† un avocat :
¬´ Quel est le montant de vos honoraires ? ¬ª
L'avocat lui r√©pond qu'il est de 1000‚Ç¨ pour trois questions.
L'homme lui demande alors :
¬´ N'est-ce pas un peu excessif ? ¬ª
Et l'avocat lui r√©pond :
¬´ Non. Quelle est votre troisi√®me question ? ¬ª
Ton p√®re est tellement vieux qu‚Äôil p√®te de la poussi√®re.
Qu‚Äôest-ce qu‚Äôun homme intelligent en Belgique ?
Un touriste.
Bonjour, vous avez des c√©r√©ales hallal ?
Oui, j‚Äôai aussi des tartines tines tines et de la confiture ture ture‚Ä¶
Ton fr√®re est tellement b√™te que quand il joue avec le chien c'est lui qui v

Une fois les donn√©es r√©cup√©r√©es il ne reste plus qu'√† les √©crires dans un fichier CSV pour les sauvergarder.

In [11]:
# Creation du dossier ./data
outdir = './data'
if not os.path.exists(outdir):
    os.mkdir(outdir)
    
# Ecriture sur un fichier CSV
df = pd.DataFrame(joke_list)
df.to_csv("./scrapped_data/joke.csv", index=True)

joke_csv = pd.read_csv('./scrapped_data/joke.csv')
print(joke_csv)

    Unnamed: 0                                                  0
0            0  Qu'est-ce qui est jaune et qui attend ?\nTes d...
1            1  Quelle est la diff√©rence entre ma femme et une...
2            2  Un belge s'appuie sur le mur, lequel c√®de en p...
3            3  Deux ch√®vres, BABI et BABA sont sur un bateau....
4            4  Un homme demande √† un avocat :\n¬´ Quel est le ...
..         ...                                                ...
57          57  Les grains de sables\nDeux grains de sables so...
58          58  Qu'est ce qui monte, qui descend, qui tourne, ...
59          59  Que dit un ≈ìuf qui attend son pote depuis 1 he...
60          60  - P√®te puis R√©p√®te s'en vont √† l'eau, P√®te tom...
61          61  Deux poissons discutent :\n‚Äì On rentre ?\n‚Äì Ou...

[62 rows x 2 columns]


And voil√† !