# 3. Web Scraping - Selenium

<img src = 'https://xn--kvin-duranty-beb.fr/wp-content/uploads/2022/10/Web-Scraping-_-IPSSI-PRS-2.png' >



Dans cet exercice, nous utiliserons la bibliothèque Selenium afin de collecter les données des sites internet suivants :

- Partie 1 : [Doctolib](https://www.doctolib.fr/dentiste/paris)
Nous continuerons là où Beautifullsoup montrait ses limites en collectant de manière automatisée toutes les pages référencées par Doctolib.


- Partie 2 : [Les Echos](https://www.lesechos.fr/)
Nous collecterons les articles correspondants à la thématiques `Intelligence artificielle`.



# Partie 1 - [Doctolib](https://www.doctolib.fr/)


<img src='https://upload.wikimedia.org/wikipedia/fr/thumb/7/7f/Logo-doctolib.svg/640px-Logo-doctolib.svg.png'>


Les informations que nous souhaitons collecter sont les suivantes :
- le nom du praticien
- la profession du praticien
- l'adresse du praticien
- la ville du praticien
- l'image de la fiche Doctolib du praticien



## 3.1 Installez la bibliothèque Selenium
Utilitisez la commande suivante dans votre terminal :  `pip install BeautifulSoup`

## 3.2 Télécharger le webdriver [chrome](https://chromedriver.chromium.org/downloads)
Placez le ensuite dans le dossier Web-scraping

## 3.3 Importer l'objet `webdriver`de la bibliothèque de `selenium`
Importez également `By` depuis `selenium.webdriver.common.by`

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By

## 3.4 Deffinissez une variable `driver = webdriver.Chrome(DRIVER_PATH)` 
Où `DRIVER_PATH` est le chemin du web driver téléchargé à la question **3.2** ==> `"./chromedriver"`.

In [None]:
DRIVER_PATH = "./chromedriver"
driver = webdriver.Chrome(DRIVER_PATH)

  driver = webdriver.Chrome(DRIVER_PATH)


## 3.5 Utilisez la méthode `get(BASE_URL)` de l'objet `driver` puis notez vos observations.
`BASE_URL`est le lien pointant vers le site de Doctolib `"https://www.doctolib.fr/dentiste/paris"`

In [None]:
BASE_URL = "https://www.doctolib.fr/dentiste/paris"
driver.get(BASE_URL)

In [None]:
id_ = driver.session_id
id_

'b0ee40c6fc4eb015bed8077fd7648b6e'

## 3.6 Affichez l'adresse url courante ainsi que le titre de la page.

In [None]:
driver.current_url

'https://www.doctolib.fr/dentiste/paris'

## 3.7 Récupérez dans une variable `selection` la liste des praticients présents sur la page
Utilisez la méthéode `find_elements`, cette méthode prend deux arguments `By.CLASS_NAME` ainsi que le nom de la class recherchée sur la page.

In [None]:
selection = driver.find_elements(By.CLASS_NAME, 'dl-search-result')
selection

[<selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="01448bf0-b077-4fe3-9f9c-754a9f030103")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="98f96612-8a1c-41dc-b97b-10a13c278f2b")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="32a3912d-4cf5-4ca0-b90f-570b7ababaaf")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="595be926-25c5-4d35-b4dc-896d9a33c067")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="9c829445-388f-4034-a845-ddcea5721856")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="11e85c32-ffe5-4292-891e-141fbbac3496")>,
 <selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="f78a3c83-2a4a-4cc0-9197-18

## 3.8 Affichez les information du premier élément de `selection` via son instance `text``.

In [None]:
driver.find_elements(By.CLASS_NAME, 'dl-search-result')[0].text.split('\n')

['Dr Muhammad BESEISSO',
 'Chirurgien-dentiste',
 '59 bis Rue de Rochechouart',
 '75009 Paris',
 'Conventionné',
 'PRENDRE RENDEZ-VOUS']

In [None]:
driver.find_elements(By.CLASS_NAME, 'dl-search-result')[-1].text.split('\n')

['Centre de Santé République (CSR)',
 'Centre de santé',
 '2 chirurgiens-dentistes',
 '13 Rue Yves Toudic',
 '75010 Paris',
 'Établissement conventionné',
 'PRENDRE RENDEZ-VOUS']

## 3.9 Recherchez à nouveau à l'aide de la méthode `find_element` la photo du premier praticien figurant dans la liste ``selection``.

In [None]:
driver.find_elements(By.CLASS_NAME, 
                     'dl-search-result-presentation')[0].find_element(By.CLASS_NAME, 
                                                                      'dl-image')

<selenium.webdriver.remote.webelement.WebElement (session="b0ee40c6fc4eb015bed8077fd7648b6e", element="8d7cc0a5-5fd0-4826-bcb3-88ac2302c2cb")>

## 3.10 Récupérez à présent le lien de cette image en utilisant la méthode `get_attribute`.

In [None]:
driver.find_elements(By.CLASS_NAME, 
                     'dl-search-result-presentation')[0].find_element(By.CLASS_NAME, 
                                                                      'dl-image').get_attribute('src')

'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/nebsb2ahbrs4g3minql6.jpg'

## 3.11 Créez une fonction `collect_data` qui renvoie un fichier `json` contenant les informations de tous les praticiens ainsi que leurs photos de profil.

In [None]:
def collect_data(selection):
    data = {}

    for u in selection:
        id_ = u.get_attribute('id')
        data_praticien = {}
        
        data_praticien['name'] = u.text.split('\n')[0]
        data_praticien['job'] = u.text.split('\n')[1]
        data_praticien['adress'] = u.text.split('\n')[2]
        data_praticien['city'] = u.text.split('\n')[3]
        data_praticien['img'] = u.find_element(By.CLASS_NAME, 'dl-image').get_attribute('src')
        
        data[id_] = data_praticien

    return data

In [None]:
data = collect_data(selection)
len(data), data

{'search-result-1183855': {'name': 'Jack BEN GUIGUI',
  'job': 'Chirurgien-dentiste',
  'adress': '20 Rue de Rivoli',
  'city': '75004 Paris',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/default_doctor_avatar_m.jpg'},
 'search-result-116905': {'name': 'Dr Alain AFLALO',
  'job': 'Chirurgien-dentiste',
  'adress': '79 BOULEVARD DE GRENELLE',
  'city': '75015 PARIS',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/l0dfhw0bhuozrv7nh2lm.jpg'},
 'search-result-145485': {'name': 'Dr Jacques NAHON',
  'job': 'Chirurgien-dentiste',
  'adress': '73 Avenue Paul Doumer',
  'city': '75116 Paris',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/iob4bpezjuf4eztsb02i.jpg'},
 'search-result-426758': {'name': 'Dr Caroline Chenneveau',
  'job': 'Chirurgien-dentiste',
  'adress': '97 Rue de Belleville',
  'city': '75019 Paris',
  'img': 'https://media.doctolib.com/

## 3.9 Automatisez la collecte sur les pages 5 premières pages de résultats.

In [None]:
data

{0: {'name': 'Jack BEN GUIGUI',
  'job': 'Chirurgien-dentiste',
  'adress': '20 Rue de Rivoli',
  'city': '75004 Paris',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/default_doctor_avatar_m.jpg'},
 1: {'name': 'Dr Alain AFLALO',
  'job': 'Chirurgien-dentiste',
  'adress': '79 BOULEVARD DE GRENELLE',
  'city': '75015 PARIS',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/l0dfhw0bhuozrv7nh2lm.jpg'},
 2: {'name': 'Dr Jacques NAHON',
  'job': 'Chirurgien-dentiste',
  'adress': '73 Avenue Paul Doumer',
  'city': '75116 Paris',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/iob4bpezjuf4eztsb02i.jpg'},
 3: {'name': 'Dr Caroline Chenneveau',
  'job': 'Chirurgien-dentiste',
  'adress': '97 Rue de Belleville',
  'city': '75019 Paris',
  'img': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,w_160,h_160,c_fill,g_face/rarvuib8fddtyahprt7s.jpg'},


In [None]:
for n in range(2, 5):
    
    driver.get(f'https://www.doctolib.fr/dentiste/paris?page={n}')
    
    selection = driver.find_elements(By.CLASS_NAME, 'dl-search-result')
    data.update(collect_data(selection))
    
    
len(data), data

# Partie 2 - Collectes automatisée | [Les Echos](https://www.lesechos.fr/)



<br>

<br>


<img src = 'https://upload.wikimedia.org/wikipedia/fr/thumb/b/bb/Les_echos_%28logo%29.svg/1200px-Les_echos_%28logo%29.svg.png'>

<br><br>

Les informations que nous souhaitons collecter sont les suivantes :

- l’auteur,
- la date de publication,
- le titre,
- le contenu de la page,


In [None]:
import time
DRIVER_PATH = "./chromedriver"
BASE_URL = "https://www.lesechos.fr"
driver = webdriver.Chrome(DRIVER_PATH)

driver.get(BASE_URL)


# Cookies concents
buttons = driver.find_elements(By.CLASS_NAME,"didomi-components-button")
buttons[1].click()


# Bouton recherche
driver.find_elements(By.TAG_NAME, "button")[1].click()

time.sleep(2)

driver.find_element(By.CLASS_NAME, 
                    'sc-14kwckt-29').send_keys('Intelligence Artificielle\ue007')


time.sleep(2)

# Liste des articles
articles = driver.find_elements(By.CLASS_NAME, "sc-14kwckt-6.sc-1ohdft1-0.jOjJTh.eUIWcH.sc-4cuy4z-0.iruOfP")
nb_article = len(articles)

data = []

for n in range(nb_article):
    
    try:
        articles[n].click()
        time.sleep(2)
        data.append([t.text for t in driver.find_elements(By.CLASS_NAME, 'sc-14kwckt-6')])

        driver.back()
        time.sleep(2)
        articles = driver.find_elements(By.CLASS_NAME, "sc-14kwckt-6.sc-1ohdft1-0.jOjJTh.eUIWcH.sc-4cuy4z-0.iruOfP")

    except:pass

  driver = webdriver.Chrome(DRIVER_PATH)


True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True
True


In [None]:
# Correction V2

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import sys


driver = webdriver.Chrome('./chromedriver')
driver.get('https://www.lesechos.fr/')
driver.set_window_size(800,2000)
driver.set_window_position(800,0)
#driver.implicitly_wait(1)



search_query = 'Intelligence artificielle'
n = 1

#search_query = ''.join(arg+' ' for arg in sys.argv[1:-1])
#n = int(sys.argv[-1])

def metadata_collect(data):
    time.sleep(2)
    articles = driver.find_elements(By.TAG_NAME, 'article')
    print(f'Collection des métédata de la page de recherche : {len(articles)} articles')
    
    for article in articles: 
        data_temp = {}

        # Collecte des images des articles
        try:data_temp['img'] = article.find_element(By.TAG_NAME, 'img').get_attribute('src')
        except:data_temp['img'] = None

        # Collecte des images des titres
        try:data_temp['title'] = article.find_element(By.TAG_NAME, 'h3').text
        except:data_temp['title'] = None

        # Collecte des images des liens
        try:
            data_temp['link'] = article.find_element(By.TAG_NAME, 'a').get_attribute('href')
            id_= data_temp['link'].split('-')[-1]
        except:data_temp['link'] = None

        # Collecte des images des contents
        try:data_temp['content'] = True
        except:data_temp['content'] = None

        data[id_] = data_temp
    return data


def content_collect(data, search_query):
    for u in data:
        driver.get(data[u]['link'])
        time.sleep(2)

        # Collecte des images des dates de publication
        try:data[u]['time'] = driver.find_element(By.XPATH, 
                                                  '/html/head/meta[22]').get_attribute('content')
        except:data[u]['time'] = None

        # Collecte des images du contenue des pages   
        try:data[u]['content'] = str([p.text for p in driver.find_elements(By.CLASS_NAME,
                                                                           'sc-14kwckt-6.gPHWRV')])
        except:
            data[u]['content'] = None

        # Collecte des auteurs 
        try:
            data[u]['author'] = driver.find_element(By.CLASS_NAME,'sc-1oe11kk-0.gPfqhZ').text
        except:
            data[u]['author'] = None
            
        print(data)

        with open(f'data {search_query}.json', 'w') as f:
            f.write(str(data))

    return data


# Cookies consent
driver.find_element(By.ID, 'didomi-notice-agree-button').click()

# Bare de recherche
driver.find_element(By.CLASS_NAME,
                    'sc-14kwckt-16.sc-5udzxv-0.hIJloJ.fPxKzE.sc-ctlfsq-0.cQrgEv').click()

time.sleep(1)
# Recherche par mots clés
driver.find_element(By.TAG_NAME, 
                    'input').send_keys(search_query+Keys.ENTER)

# Url de la page de recherche
serach_url = driver.current_url

data = {}

for page in range(2,n+2):
    print(f'Data Collect from page : {page-1}')
    data = metadata_collect(data)
    driver.get(serach_url + f'&page={page}')


data = content_collect(data, search_query)

#driver.close()