# 3. Web Scraping - Selenium

<img src = 'https://xn--kvin-duranty-beb.fr/wp-content/uploads/2022/10/Web-Scraping-_-IPSSI-PRS-2.png' >



Dans cet exercice, nous utiliserons la bibliothèque Selenium afin de collecter les données des sites internet suivants :

- Partie 1 : [Doctolib](https://www.doctolib.fr/dentiste/paris)
Nous continuerons là où Beautifullsoup montrait ses limites en collectant de manière automatisée toutes les pages référencées par Doctolib.


- Partie 2 : [Les Echos](https://www.lesechos.fr/)
Nous collecterons les articles correspondants à la thématique `Intelligence artificielle`.



# **Partie 1 - [Doctolib](https://www.doctolib.fr/)**


<img src='https://upload.wikimedia.org/wikipedia/fr/thumb/7/7f/Logo-doctolib.svg/640px-Logo-doctolib.svg.png'>


Les informations que nous souhaitons collecter sont les suivantes :
- le nom du praticien
- la profession du praticien
- l'adresse du praticien
- la ville du praticien
- l'image de la fiche Doctolib du praticien



## 3.1 Installez la bibliothèque Selenium
Utilitisez la commande suivante dans votre terminal :  `pip install selenium`

## 3.2 Télécharger le webdriver [chrome](https://chromedriver.chromium.org/downloads)
Placez le ensuite dans le dossier Web-scraping

## 3.3 Importer l'objet `webdriver`de la bibliothèque de `selenium`
Importez également `By` depuis `selenium.webdriver.common.by`

In [1]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.16.0-py3-none-any.whl (10.0 MB)
     ---------------------------------------- 0.0/10.0 MB ? eta -:--:--
     - -------------------------------------- 0.4/10.0 MB 7.8 MB/s eta 0:00:02
     ---- ----------------------------------- 1.2/10.0 MB 14.8 MB/s eta 0:00:01
     ------- -------------------------------- 2.0/10.0 MB 15.7 MB/s eta 0:00:01
     ------------ --------------------------- 3.1/10.0 MB 18.0 MB/s eta 0:00:01
     ---------------- ----------------------- 4.2/10.0 MB 19.2 MB/s eta 0:00:01
     --------------------- ------------------ 5.4/10.0 MB 20.3 MB/s eta 0:00:01
     --------------------------- ------------ 6.9/10.0 MB 21.9 MB/s eta 0:00:01
     --------------------------------- ------ 8.3/10.0 MB 23.0 MB/s eta 0:00:01
     --------------------------------------  10.0/10.0 MB 24.5 MB/s eta 0:00:01
     --------------------------------------- 10.0/10.0 MB 22.7 MB/s eta 0:00:00
Collecting urllib3[socks]<3,>=1.26
  Downloading url


[notice] A new release of pip is available: 23.0.1 -> 23.3.2
[notice] To update, run: C:\Users\aatia\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


## 3.4 Deffinissez une variable `driver = webdriver.Chrome(DRIVER_PATH)`.
Où `DRIVER_PATH` est le chemin du web driver téléchargé à la question **3.2** ==> `"./chromedriver"`.

In [11]:
import selenium.webdriver.common.by as By
from selenium import webdriver

driver = webdriver.Edge()

## 3.5 Utilisez la méthode `get(BASE_URL)` de l'objet `driver` puis notez vos observations.
`BASE_URL`est le lien pointant vers le site de Doctolib `"https://www.doctolib.fr/dentiste/paris"`

In [6]:
driver.get("https://www.doctolib.fr/dentiste/paris")

## 3.6 Affichez l'adresse url courante ainsi que le titre de la page.

In [7]:
print("URL actuelle:", driver.current_url)
print("Titre de la page:", driver.title)

URL actuelle: https://www.doctolib.fr/dentiste/paris
Titre de la page: Chirurgien-dentiste Paris 75000 : Prenez rendez-vous en ligne | Doctolib


## 3.7 Récupérez dans une variable `selection` la liste des praticients présents sur la page.
Utilisez la méthéode `find_elements`, cette méthode prend deux arguments `By.CLASS_NAME` ainsi que le nom de la class recherchée sur la page.

## 3.8 Affichez les information du premier élément de `selection` via son instance `text``.

## 3.9 Recherchez à nouveau à l'aide de la méthode `find_element` la photo du premier praticien figurant dans la liste ``selection``.

## 3.10 Récupérez à présent le lien de cette image en utilisant la méthode `get_attribute`.

## 3.11 Créez une fonction `collect_data` qui renvoie un fichier `json` contenant les informations de tous les praticiens ainsi que leurs photos de profil.

## 3.9 Automatisez la collecte sur les pages 5 premières pages de résultats.

In [13]:
from time import sleep
import selenium.webdriver.common.by as By
from selenium import webdriver


def scraping_doctolib(n_page=5, time_sleep=1):
    # Start Project
    driver = webdriver.Edge()
    driver.get("https://www.doctolib.fr/dentiste/paris")
    driver.find_element(By.ID, 'didomi-notice-agree-button').click()
    data_doctors = {}
    for n in range(1, n_page):
        driver.get(f'https://www.doctolib.fr/dentiste/paris?page={n}')
        sleep(time_sleep)
        doctors = driver.find_elements(By.CLASS_NAME, "dl-search-result-presentation")
        for doctor in doctors:
            data_doctors[doctor.find_element(By.TAG_NAME,'h3').text] = {
                'img' : doctor.find_element(By.TAG_NAME, 'img').get_attribute('src'),
                'adresse' : doctor.find_element(By.TAG_NAME,'span').text
            }
    driver.quit()
    return data_doctors

scraping_doctolib()

AttributeError: module 'selenium.webdriver.common.by' has no attribute 'ID'

# **Partie 2 - Collectes automatisée | [Les Echos](https://www.lesechos.fr/)**



<br>

<br>


<img src = 'https://upload.wikimedia.org/wikipedia/fr/thumb/b/bb/Les_echos_%28logo%29.svg/1200px-Les_echos_%28logo%29.svg.png'>

<br><br>

Les informations que nous souhaitons collecter sont les suivantes :

- l’auteur,
- la date de publication,
- le titre,
- le contenu de la page,


In [None]:
import time

def scraping_les_echos(theme='IA', n_articles=10):

    driver = Chrome('./chromedriver')

    driver.get('https://www.lesechos.fr/')
    # Cookies consent
    driver.find_element(By.ID, 'didomi-notice-agree-button').click()

    driver.find_element(By.CLASS_NAME, 'sc-14kwckt-16.sc-16o6ckw-0.WiTvs.bvLlpL.sc-ctlfsq-0.lnDWGz').click()
    time.sleep(2)
    driver.find_element(By.CLASS_NAME, 'sc-14kwckt-28 sc-ywv8p0-0 sc-166k8it-1 wwuyu jCZKki cQRcWN'.replace(' ', '.')).send_keys(theme+Keys.ENTER)
    time.sleep(2)
    data_les_echos = {}
    articles = driver.find_elements(By.TAG_NAME, 'article')
    for n_article in range(1, n_articles):
        time.sleep(2)
        title = articles[n_article].find_element(By.TAG_NAME, 'h3').text                            #Tire
        link = articles[n_article].find_element(By.TAG_NAME, 'a').get_attribute('href')             #Lien
        
        try:img = articles[n_article].find_element(By.TAG_NAME, 'img').get_attribute('src')             # Image
        except:img = None

        driver.get(link)
        time.sleep(2)

        try:author = driver.find_element(By.CLASS_NAME, 'sc-kla0ai-0.hEKJIU').text                      # Autor
        except: author = None

        try:date = driver.find_element(By.CLASS_NAME, 'sc-17ifq26-0.eJxzlO').text                       # Date de publication
        except: date=None
        driver.back()
        time.sleep(2)
        
        articles = driver.find_elements(By.TAG_NAME, 'article')
        data_les_echos[str(random.randint(10000, 1000000))] ={
            'title':title,
            'link':link,
            'img':img,
            'date':date,
            'author':author,
        }
    driver.quit()
    return data_les_echos

In [15]:
!pip install SQLAlchemy==1.4.40

Collecting SQLAlchemy==1.4.40
  Downloading SQLAlchemy-1.4.40-cp310-cp310-win_amd64.whl (1.6 MB)
     ---------------------------------------- 0.0/1.6 MB ? eta -:--:--
     - -------------------------------------- 0.1/1.6 MB 2.0 MB/s eta 0:00:01
     ------ --------------------------------- 0.2/1.6 MB 2.9 MB/s eta 0:00:01
     ------------- -------------------------- 0.5/1.6 MB 4.0 MB/s eta 0:00:01
     ---------------------- ----------------- 0.9/1.6 MB 5.0 MB/s eta 0:00:01
     ----------------------------- ---------- 1.2/1.6 MB 5.3 MB/s eta 0:00:01
     ---------------------------------------  1.6/1.6 MB 5.8 MB/s eta 0:00:01
     ---------------------------------------- 1.6/1.6 MB 5.5 MB/s eta 0:00:00
Collecting greenlet!=0.4.17
  Downloading greenlet-3.0.3-cp310-cp310-win_amd64.whl (292 kB)
     ---------------------------------------- 0.0/292.3 kB ? eta -:--:--
     -------------------------------------- 292.3/292.3 kB 9.1 MB/s eta 0:00:00
Installing collected packages: greenlet, 


[notice] A new release of pip is available: 23.0.1 -> 23.3.2
[notice] To update, run: C:\Users\aatia\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.10_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


---
# **Partie 3 : Programation Orientée Objet et Gestion d'une base de données**



### **1. Définition d'une Classe**
**Definition**

La programmation orientée objet (POO) est un paradigme de programmation qui repose sur le concept d'objets. Dans ce paradigme, le code est organisé autour d'entités appelées "objets", qui représentent des instances concrètes ou abstraites de concepts du monde réel. Chaque objet peut avoir des propriétés (appelées attributs) et des comportements (appelés méthodes).

Voici quelques concepts clés de la programmation orientée objet :

- **Objets** : Les objets sont des instances spécifiques d'une classe, qui est un modèle ou un plan pour créer des objets. Par exemple, si une classe est définie pour représenter des voitures, un objet spécifique pourrait être une voiture particulière.

- **Classes** : Les classes sont des structures qui définissent la manière dont les objets sont créés. Elles définissent les attributs (caractéristiques) et les méthodes (comportements) que les objets de la classe auront. Une classe est une sorte de modèle à partir duquel des objets peuvent être créés.

- **Encapsulation** : L'encapsulation est le principe de regrouper les données (attributs) et les méthodes qui les manipulent au sein d'une même entité, c'est-à-dire une classe. Cela permet de cacher les détails d'implémentation et d'isoler le fonctionnement interne de l'objet.

- **Héritage** : L'héritage est un mécanisme qui permet à une classe d'hériter des propriétés et des méthodes d'une autre classe. Cela favorise la réutilisation du code et la création de hiérarchies de classes.

- **Polymorphisme** : Le polymorphisme permet à un même nom de méthode d'avoir des comportements différents en fonction du contexte. Il existe deux types de polymorphisme : le polymorphisme statique (surcharge) et le polymorphisme dynamique (redéfinition).

- **Abstraction** : L'abstraction consiste à simplifier un concept complexe en modélisant uniquement les aspects pertinents tout en masquant les détails complexes.

      # Déclaration d'une classe, paramètre 1 et 2 seront

      class NomDeLaClasse:
        # Définition des attributs au moment de l'instanciation
        def __init__(self, parametre1, parametre2):
          self.parametre1 = parametre1
          self.parametre2 = parametre2

        def __repr__(self):
          return "Exemple de retour"

        # Définition d'une méthode
        def nom_de_la_methode(self, p1, p2):
          self.value = p1 * p2 # Création d'un nouvel attribut

      # Instance de classe
      objet = NomDeLaClasse('parametre1', 'parametre2')

      # Héritage :
      class ClasseFille(NomDeLaClasseMère):
        def __init__(self, parametre1, parametre2, parametre3):
          NomDeLaClasseMère.__init__(self, parametre1, parametre2)
          self.parametre3 = parametre3
        
        # Méthode utilisable uniquement dans la classe :
        def __methode_encapsulee(self):
          print("Test")


- __init__: permet de définir les attributs nécessaires à l'objet lors de son instanciation.
- __repr__: permet de définir le type d'objet retourné par défaut.
- __str__ : permet de définir ce qui est affiché par défaut lorsque l'on print un objet.
- __add__ : permet de définir ce ci se produit lorsque l'on additionne des objets entre eux.





In [None]:
# Définir une classe


In [None]:
# Instancier un objet


In [None]:
# Héritage

### **2. Gestion d'une base de données avec la bibliothèque [SQLalchemy](https://docs.sqlalchemy.org/en/14/)**

<img src='https://miro.medium.com/v2/resize:fit:1400/0*msfsws06ImMSJYop.jpg'>

SQLAlchemy est une bibliothèque Python très populaire qui facilite l'interaction avec des bases de données relationnelles en utilisant un langage Python. Elle fournit un ensemble d'outils puissants pour travailler avec des bases de données SQL tout en offrant une abstraction flexible qui permet de travailler avec différents types de bases de données.

Voici quelques caractéristiques clés de SQLAlchemy :

**ORM (Object-Relational Mapping)** : SQLAlchemy propose un ORM qui permet de représenter des tables de base de données sous forme d'objets Python. Ces objets peuvent être manipulés comme n'importe quel autre objet Python, offrant ainsi une abstraction plus élevée des opérations sur la base de données.

**Prise en Charge de Diverses Bases de Données** : SQLAlchemy prend en charge plusieurs types de bases de données, y compris MySQL, PostgreSQL, SQLite, Oracle, et d'autres.

**Flexibilité** : Vous pouvez utiliser SQLAlchemy de manière transparente avec un ORM complet, un langage SQL pur, ou une combinaison des deux, en fonction des besoins de votre application.

**Communauté Active** : SQLAlchemy est largement utilisé dans la communauté Python et dispose d'une documentation complète et d'une base d'utilisateurs active.

---


1. Installation de la bibliothèque : `pip install SQLAlchemy`

2. Installez [SQLite Viewer](https://marketplace.visualstudio.com/items?itemName=qwtel.sqlite-viewer) pour visualiser votre base données.

<img src='https://qwtel.gallerycdn.vsassets.io/extensions/qwtel/sqlite-viewer/0.3.13/1691231169503/Microsoft.VisualStudio.Services.Icons.Default'>

In [None]:
# Gestion d'une base de données
import sqlalchemy as db

class DataBase():
    def __init__(self, name_database='database'):
        self.name = name_database
        self.url = f"sqlite:///{name_database}.db"
        self.engine = db.create_engine(self.url)
        self.connection = self.engine.connect()
        self.metadata = db.MetaData()
        self.table = self.engine.table_names()


    def create_table(self, name_table, **kwargs):
        colums = [db.Column(k, v, primary_key = True) if 'id_' in k else db.Column(k, v) for k,v in kwargs.items()]
        db.Table(name_table, self.metadata, *colums)
        self.metadata.create_all(self.engine)
        print(f"Table : '{name_table}' are created succesfully")

    def read_table(self, name_table, return_keys=False):
        table = db.Table(name_table, self.metadata, autoload=True, autoload_with=self.engine)
        if return_keys:table.columns.keys()
        else : return table


    def add_row(self, name_table, **kwarrgs):
        name_table = self.read_table(name_table)

        stmt = (
            db.insert(name_table).
            values(kwarrgs)
        )
        self.connection.execute(stmt)
        print(f'Row id added')


    def delete_row_by_id(self, table, id_):
        name_table = self.read_table(name_table)

        stmt = (
            db.delete(name_table).
            where(students.c.id_ == id_)
            )
        self.connection.execute(stmt)
        print(f'Row id {id_} deleted')

    def select_table(self, name_table):
        name_table = self.read_table(name_table)
        stm = db.select([name_table])
        return self.connection.execute(stm).fetchall()

In [None]:
# Création d'une base de données
database = DataBase('data')

In [None]:
# Création d'un Tableau1
database.create_table('Tableau1', id_user=db.Integer, colonne1=db.String, colonne2=db.Integer)

In [None]:
# Création d'un Tableau2
database.create_table('Tableau2', id_shop=db.Integer, id_colonne1=db.String, colonne2=db.Integer)

In [None]:
# Ajouter une ligne à la base de données
database.add_row('Tableau2', id_shop=3086, id_colonne1='Iphone')

In [None]:
# Ajouter plusieurs lignes à la base de données
for i in range(10):
    database.add_row('Tableau2',id_shop=i, id_colonne1='Iphone'*(i+1), colonne2=99*i)

database.select_table('Tableau2')

In [None]:
# Afficher le Tableau1
database.select_table('Tableau2')

# Exercice Collecte d’articles sur le site [Cdiscount](https://www.cdiscount.com/)

<img src='https://marketplace.cdiscount.com/wp-content/uploads/2020/06/french-days-cdiscount.jpg'>

Dans cet exercice nous allons collecter les informations des articles présents sur le site Cdiscount.
Parmis une liste de produit, collectez dans une base de données les informations suivantes :
- le nom de l’article,
- le lien de l’image,
- le lien de l’article
- le prix de l’article
- la note de l’article

Nous créerons un script qui automatisera la collecte des données en prenant en compte les exceptions et qui retournera un fichier csv contenant l'ensemble de nos données. Voici la liste des produits à collecter (choisir un article) :
- Iphone 13
- Samsung Galaxy S21
- Xiaomi Redmi Note 10

1. Créez une fonction `collecte_Cdiscount` qui prends en entrée une chaine de caractère (produit à collecter) et qui retourne un fichier csv contenant les produits scrappé avec la bibliothèque Selenium.
2. Placez vcette fonction dans un fichier `functions.py`.
3. Créez une page dans votre application streamlit qui demande à l'utilisateur de saisir le nom d'un produit à collecter puis fait appel à la fonction `collecte_Cdiscount` pour collecter ces produits. La collecte ne doit pas ouvrir de navigateur.
4. Ajoutez les données dans une base de données MySQL ou SQL Lite.