# 3. Web Scraping - Selenium

<img src = 'https://xn--kvin-duranty-beb.fr/wp-content/uploads/2022/10/Web-Scraping-_-IPSSI-PRS-2.png' >



Dans cet exercice, nous utiliserons la bibliothèque Selenium afin de collecter les données des sites internet suivants :

- Partie 1 : [Doctolib](https://www.doctolib.fr/dentiste/paris)
Nous continuerons là où Beautifullsoup montrait ses limites en collectant de manière automatisée toutes les pages référencées par Doctolib.


- Partie 2 : [Les Echos](https://www.lesechos.fr/)
Nous collecterons les articles correspondants à la thématique `Intelligence artificielle`.



# **Partie 1 - [Doctolib](https://www.doctolib.fr/)**


<img src='https://upload.wikimedia.org/wikipedia/fr/thumb/7/7f/Logo-doctolib.svg/640px-Logo-doctolib.svg.png'>


Les informations que nous souhaitons collecter sont les suivantes :
- le nom du praticien
- la profession du praticien
- l'adresse du praticien
- la ville du praticien
- l'image de la fiche Doctolib du praticien



## 3.1 Installez la bibliothèque Selenium
Utilitisez la commande suivante dans votre terminal :  `pip install selenium`

In [1]:
!pip install selenium

[33mDEPRECATION: omegaconf 2.0.6 has a non-standard dependency specifier PyYAML>=5.1.*. pip 24.0 will enforce this behaviour change. A possible replacement is to upgrade to a newer version of omegaconf or contact the author to suggest that they release a version with a conforming dependency specifiers. Discussion can be found at https://github.com/pypa/pip/issues/12063[0m[33m
[0m

## 3.2 Télécharger le webdriver [chrome](https://chromedriver.chromium.org/downloads)
Placez le ensuite dans le dossier Web-scraping

## 3.3 Importer l'objet `webdriver`de la bibliothèque de `selenium`
Importez également `By` depuis `selenium.webdriver.common.by`

In [2]:
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium import webdriver
import time

In [3]:
Keys.ENTER

'\ue007'

In [4]:
Keys.BACK_SPACE

'\ue003'

In [5]:
By.CLASS_NAME

'class name'

In [6]:
By.ID

'id'

In [7]:
By.TAG_NAME

'tag name'

## 3.4 Deffinissez une variable `driver = webdriver.Chrome(DRIVER_PATH)`.
Où `DRIVER_PATH` est le chemin du web driver téléchargé à la question **3.2** ==> `"./chromedriver"`.

In [8]:
# Change windows size
options = Options()

# Taille maximale
#options.add_argument("--start-maximized")

# Taille personnalisée
options.add_argument('--window-size=1100,1000')

# Headless
#options.add_argument('--headless')

# Open Chrome
driver = webdriver.Chrome('./data/chromedriver', chrome_options=options)

  driver = webdriver.Chrome('./data/chromedriver', chrome_options=options)
  driver = webdriver.Chrome('./data/chromedriver', chrome_options=options)


## 3.5 Utilisez la méthode `get(BASE_URL)` de l'objet `driver` puis notez vos observations.
`BASE_URL`est le lien pointant vers le site de Doctolib `"https://www.doctolib.fr/dentiste/paris"`

In [9]:
# Access to a website
driver.get('https://www.doctolib.fr')

In [10]:
# Accept cookies
driver.find_element(By.ID, 'didomi-notice-agree-button').click()

In [11]:
# Search for a doctor (Generalist)
driver.find_element(By.ID, ':r0:').send_keys('Médecin généraliste')

#driver.find_element(By.CLASS_NAME,'searchbar-input searchbar-place-input'.replace(' ', '.')).send_keys('Lyon')
driver.get('https://www.doctolib.fr/medecin-generaliste/lyon')

# Click on the first suggestion
driver.find_element(By.CLASS_NAME, 'Tappable-inactive dl-button-primary searchbar-submit-button dl-button dl-button-size-medium'.replace(' ', '.')).click()

## 3.6 Affichez l'adresse url courante ainsi que le titre de la page.

In [12]:
# Get current URL
driver.current_url

'https://www.doctolib.fr/medecin-generaliste/garges-les-gonesse'

## 3.7 Récupérez dans une variable `selection` la liste des praticients présents sur la page.
Utilisez la méthéode `find_elements`, cette méthode prend deux arguments `By.CLASS_NAME` ainsi que le nom de la class recherchée sur la page.

In [13]:
selection = driver.find_elements(By.TAG_NAME, 'article')
selection

[<selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_4550")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_4551")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_1246")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_1247")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_4552")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_4553")>,
 <selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cd

In [14]:
[u.text for u in selection]

["Dr Badra Tlemsani\nMédecin généraliste\nRue Edith Piaf\n95140 Garges-lès-Gonesse\nConventionné secteur 1\nPRENDRE RENDEZ-VOUS\njeudi\n14 déc.\nvendredi\n15 déc.\nsamedi\n16 déc.\ndimanche\n17 déc.\n12:30\n12:45\n13:00\n13:15\nlundi\n18 déc.\nmardi\n19 déc.\nVOIR PLUS D'HORAIRES",
 'Dr Badra Tlemsani\nMédecin généraliste\nRue Edith Piaf\n95140 Garges-lès-Gonesse\nConventionné secteur 1\nPRENDRE RENDEZ-VOUS',
 'Dr Haroon MOHAMMAD AHSAN\nMédecin généraliste\n17 Rue Victor Hugo\n95140 Garges-lès-Gonesse\nConventionné secteur 1\nPRENDRE RENDEZ-VOUS\njeudi\n14 déc.\nvendredi\n15 déc.\nsamedi\n16 déc.\ndimanche\n17 déc.\nlundi\n18 déc.\nmardi\n19 déc.\nProchain RDV le 20 décembre 2023',
 'Dr Haroon MOHAMMAD AHSAN\nMédecin généraliste\n17 Rue Victor Hugo\n95140 Garges-lès-Gonesse\nConventionné secteur 1\nPRENDRE RENDEZ-VOUS',
 "Dr Sonia GHANEM\nMédecin généraliste\n8 Rue Gisèle Halimi\n95140 Garges-lès-Gonesse\nConventionné secteur 1\nPRENDRE RENDEZ-VOUS\njeudi\n14 déc.\nvendredi\n15 déc.\ns

## 3.8 Affichez les information du premier élément de `selection` via son instance `text`.

In [15]:
[doctor.find_elements(By.CLASS_NAME, 'flex.flex-wrap.gap-x-4')[0].text for doctor in selection]

['Rue Edith Piaf\n95140 Garges-lès-Gonesse',
 'Rue Edith Piaf\n95140 Garges-lès-Gonesse',
 '17 Rue Victor Hugo\n95140 Garges-lès-Gonesse',
 '17 Rue Victor Hugo\n95140 Garges-lès-Gonesse',
 '8 Rue Gisèle Halimi\n95140 Garges-lès-Gonesse',
 '8 Rue Gisèle Halimi\n95140 Garges-lès-Gonesse',
 '18 Rue Auguste Renoir\n95140 Garges-lès-Gonesse',
 '18 Rue Auguste Renoir\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '14 Rue Philibert Delorme\n95140 Garges-lès-Gonesse',
 '14 Rue Philibert Delorme\n95140 Garges-lès-Gonesse',
 '6 Rue Gisèle Halimi\n95140 Garges-lès-Gonesse',
 '6 Rue Gisèle Halimi\n95140 Garges-lès-Gonesse',
 '2 Rue Edith Piaf\n95140 Garges-lès-Gonesse',
 '2 Rue Edith Piaf\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '3 Rue Alfred Sisley\n95140 Garges-lès-Gonesse',
 '7 

## 3.9 Recherchez à nouveau à l'aide de la méthode `find_element` la photo du premier praticien figurant dans la liste ``selection``.

## 3.10 Récupérez à présent le lien de cette image en utilisant la méthode `get_attribute`.

## 3.11 Créez une fonction `collect_data` qui renvoie un fichier `json` contenant les informations de tous les praticiens ainsi que leurs photos de profil.

## 3.9 Automatisez la collecte sur les pages 5 premières pages de résultats.

In [174]:
driver = webdriver.Chrome('./chromedriver')

driver.get('https://www.doctolib.fr/medecin-generaliste/lyon')

  driver = webdriver.Chrome('./chromedriver')


In [183]:
selection = driver.find_elements(By.CLASS_NAME, 'dl-card dl-card-bg-white dl-card-variant-default dl-card-border dl-padding-0 dl-p-doctor-result-card'.replace(' ', '.'))
len(selection)

20

In [203]:
selection[-1]

'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/drzuhcckehftwm90xgfz'

In [218]:
str(0+1)

'1'

In [251]:
presentation = driver.find_elements(By.CLASS_NAME, 'dl-search-result')

In [253]:
presentation[0].text.split('\n')

['Dr Cao Thang PHAM',
 'Médecin généraliste',
 'Consultation vidéo disponible',
 'En savoir plus',
 '87 Avenue Paul Santy',
 '69008 Lyon',
 'Conventionné secteur 1',
 'PRENDRE RENDEZ-VOUS']

In [None]:
presentation[0].find_element(By.TAG_NAME, 'h3')

In [242]:
driver.find_elements(By.CLASS_NAME, 'dl-search-result-presentation')[0].find_element(By.CLASS_NAME, 'dl-link').text

''

In [29]:
# Headless 
from selenium.webdriver.chrome.options import Options

options = Options()
#options.add_argument('--headless')

driver = webdriver.Chrome('./chromedriver', options=options)

driver.get('https://www.doctolib.fr/medecin-generaliste/lyon')

NameError: name 'webdriver' is not defined

In [16]:
driver.find_element(By.TAG_NAME, 'article')

<selenium.webdriver.remote.webelement.WebElement (session="2da432c2177282cdf251230dc3594af0", element="2F545052C36797E2E40FFDE319536664_element_4550")>

In [28]:
# Headless 
from selenium.webdriver.chrome.options import Options


def collect_data_from_doctolib(url='https://www.doctolib.fr/medecin-generaliste/lyon', n=1):
    options = Options()
    #options.add_argument('--headless')

    driver = webdriver.Chrome('./chromedriver', options=options)
    driver.get(url)
    driver.find_element(By.ID, 'didomi-notice-agree-button').click()

    data = {}

    for i in range(n):
        driver.get(url+f'?page={str(i+1)}')
        time.sleep(3)

        try:
            selection = driver.find_elements(By.CLASS_NAME, 'dl-search-result-presentation')
        except:
            try:
                selection = driver.find_elements(By.TAG_NAME, 'article')
            except:
                selection = driver.find_elements(By.CLASS_NAME, 'dl-card dl-card-bg-white dl-card-variant-default dl-card-border dl-padding-0 dl-p-doctor-result-card'.replace(' ', '.'))

        for doctor in selection:

            infos = doctor.text.split('\n')
            if len(infos)>2:
                id = doctor.get_attribute('id').split('-')[-1]

                data[id] = {
                    'Name' : infos[0],
                    'Address' : infos[1],
                    'image' : doctor.find_element(By.TAG_NAME, 'img').get_attribute('src')
                }
        print('Collecting page : ', i+1)
    return data

In [3]:
collect_data_from_doctolib()

NameError: name 'webdriver' is not defined

In [25]:
# Headless 
from selenium.webdriver.chrome.options import Options

def data_collect_doctolib(url='https://www.doctolib.fr/medecin-generaliste/lyon'):
    options = Options()
    #options.add_argument('--headless')

    driver = webdriver.Chrome('./data/chromedriver', options=options)

    data = {}

    for i in range(6):
        driver.get(url +f'?page={str(i+1)}')
        time.sleep(2)
        selection = driver.find_elements(By.CLASS_NAME, 'dl-search-result')
        print(len(selection))

        for doctor in selection:
            print(doctor.text)
            indos = doctor.text.split('\n')
            id = doctor.get_attribute('id').split('-')[-1]

            data[id] = {
                'Name' : indos[0],
                'Address' : indos[1],
                'image' : doctor.find_element(By.TAG_NAME, 'img').get_attribute('src')
            }
        print('Collecting page : ', i+1)
    
    return data

In [26]:
data_collect_doctolib()

NameError: name 'webdriver' is not defined

# **Partie 2 - Collectes automatisée | [Les Echos](https://www.lesechos.fr/)**



<br>

<br>


<img src = 'https://upload.wikimedia.org/wikipedia/fr/thumb/b/bb/Les_echos_%28logo%29.svg/1200px-Les_echos_%28logo%29.svg.png'>

<br><br>

Les informations que nous souhaitons collecter sont les suivantes :

- l’auteur,
- la date de publication,
- le titre,
- le contenu de la page,


In [45]:
from selenium.webdriver.chrome.options import Options





In [41]:
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome('./chromedriver')

driver.get('https://www.journaldugeek.com/')
driver.find_element(By.CLASS_NAME, 'flex.gap-4.sm:gap-8.my-4.group').click()




AttributeError: 'str' object has no attribute 'capabilities'

In [43]:
options = Options()
options.add_argument("--headless")

driver = webdriver.Chrome('./data/chromedriver', chrome_options=options)


driver.get('https://www.lesechos.fr/recherche?q=IA')

TypeError: WebDriver.__init__() got an unexpected keyword argument 'chrome_options'

In [44]:
from bs4 import BeautifulSoup
options = Options()
options.add_argument("--headless")

driver = webdriver.Chrome('./chromedriver', chrome_options=options)


driver.get('https://www.lesechos.fr/recherche?q=IA')
time.sleep(1)
#driver.find_elements(By.ID, 'didomi-notice-agree-button')[0].click()
driver.find_elements(By.TAG_NAME, 'article')[1].click()

time.sleep(1)
soup = BeautifulSoup(driver.page_source.split('Par ')[1], 'html.parser')
print(soup.find('a').text)

driver.quit()


TypeError: WebDriver.__init__() got an unexpected keyword argument 'chrome_options'

In [358]:
driver.page_source

'<html lang="fr" data-rh="lang"><head><script async="" src="https://snap.licdn.com/li.lms-analytics/insight.old.min.js"></script><script async="" src="https://snap.licdn.com/li.lms-analytics/insight.old.min.js"></script><script type="text/javascript" async="" src="https://snap.licdn.com/li.lms-analytics/insight.min.js"></script><script async="" src="https://snap.licdn.com/li.lms-analytics/insight.old.min.js"></script><script type="text/javascript" async="" src="https://snap.licdn.com/li.lms-analytics/insight.min.js"></script><script async="" src="https://snap.licdn.com/li.lms-analytics/insight.old.min.js"></script><script type="text/javascript" async="" src="https://snap.licdn.com/li.lms-analytics/insight.min.js"></script><script async="" src="https://snap.licdn.com/li.lms-analytics/insight.old.min.js"></script><script type="text/javascript" async="" src="https://snap.licdn.com/li.lms-analytics/insight.min.js"></script><script async="" src="https://snap.licdn.com/li.lms-analytics/insig

---
# **Partie 3 : Programation Orientée Objet et Gestion d'une base de données**



### **1. Définition d'une Classe**
**Definition**

La programmation orientée objet (POO) est un paradigme de programmation qui repose sur le concept d'objets. Dans ce paradigme, le code est organisé autour d'entités appelées "objets", qui représentent des instances concrètes ou abstraites de concepts du monde réel. Chaque objet peut avoir des propriétés (appelées attributs) et des comportements (appelés méthodes).

Voici quelques concepts clés de la programmation orientée objet :

- **Objets** : Les objets sont des instances spécifiques d'une classe, qui est un modèle ou un plan pour créer des objets. Par exemple, si une classe est définie pour représenter des voitures, un objet spécifique pourrait être une voiture particulière.

- **Classes** : Les classes sont des structures qui définissent la manière dont les objets sont créés. Elles définissent les attributs (caractéristiques) et les méthodes (comportements) que les objets de la classe auront. Une classe est une sorte de modèle à partir duquel des objets peuvent être créés.

- **Encapsulation** : L'encapsulation est le principe de regrouper les données (attributs) et les méthodes qui les manipulent au sein d'une même entité, c'est-à-dire une classe. Cela permet de cacher les détails d'implémentation et d'isoler le fonctionnement interne de l'objet.

- **Héritage** : L'héritage est un mécanisme qui permet à une classe d'hériter des propriétés et des méthodes d'une autre classe. Cela favorise la réutilisation du code et la création de hiérarchies de classes.

- **Polymorphisme** : Le polymorphisme permet à un même nom de méthode d'avoir des comportements différents en fonction du contexte. Il existe deux types de polymorphisme : le polymorphisme statique (surcharge) et le polymorphisme dynamique (redéfinition).

- **Abstraction** : L'abstraction consiste à simplifier un concept complexe en modélisant uniquement les aspects pertinents tout en masquant les détails complexes.

      # Déclaration d'une classe, paramètre 1 et 2 seront

      class NomDeLaClasse:
        # Définition des attributs au moment de l'instanciation
        def __init__(self, parametre1, parametre2):
          self.parametre1 = parametre1
          self.parametre2 = parametre2

        def __repr__(self):
          return "Exemple de retour"

        # Définition d'une méthode
        def nom_de_la_methode(self, p1, p2):
          self.value = p1 * p2 # Création d'un nouvel attribut

      # Instance de classe
      objet = NomDeLaClasse('parametre1', 'parametre2')

      # Héritage :
      class ClasseFille(NomDeLaClasseMère):
        def __init__(self, parametre1, parametre2, parametre3):
          NomDeLaClasseMère.__init__(self, parametre1, parametre2)
          self.parametre3 = parametre3
        
        # Méthode utilisable uniquement dans la classe :
        def __methode_encapsulee(self):
          print("Test")


- __init__: permet de définir les attributs nécessaires à l'objet lors de son instanciation.
- __repr__: permet de définir le type d'objet retourné par défaut.
- __str__ : permet de définir ce qui est affiché par défaut lorsque l'on print un objet.
- __add__ : permet de définir ce ci se produit lorsque l'on additionne des objets entre eux.





In [415]:
# Définir une classe

class Voiture:
    def __init__(self, brand:str, model:str, color:str, km:int=10):
        self.brand = brand
        self.model = model
        self.color = color
        self.km = km

    def travel(self, position:str, destination:str, distance:int) -> str:
        """ 
        Permet de se déplacer d'un point A à un point B

        Parameters
        ----------
        position : str
            Position actuelle de la voiture
        destination : str

        distance : int
            Distance à parcourir

        Returns
        -------
        str
            Position actuelle de la voiture
        """
        self.destination = destination
        self.position = position

        self.km += distance

        return f'Position actuelle {self.position}'

    def show_data(self, *args):
        for arg in args:
            print(arg)

    def show_multiple_data(self, **kwargs):
        print(kwargs)

In [416]:
# Instancier un objet
voiture = Voiture('Peugeot', 306, 'rouge', 10)

voiture.show_multiple_data(name='Kevin', age=25, job='Data Scientist')

{'name': 'Kevin', 'age': 25, 'job': 'Data Scientist'}


In [419]:
list_data = ['Kevin', 25, 'Data Scientist']

In [420]:
voiture.show_data(*list_data)

Kevin
25
Data Scientist


In [392]:
type(voiture.model)

int

In [406]:
[1, 2, 3, 4]

[1, 2, 3, 4]

In [None]:
voiture.travel

In [None]:
# Héritage
class VoitureElectrique(Voiture):
    def __init__(self, brand:str, model:str, color:str, km:int=10, battery:int=100):
        super().__init__(brand, model, color, km)
        self.battery = battery

    def travel(self, position:str, destination:str, distance:int) -> str:
        """ 
        Permet de se déplacer d'un point A à un point B

        Parameters
        ----------
        position : str
            Position actuelle de la voiture
        destination : str

        distance : int
            Distance à parcourir

        Returns
        -------
        str
            Position actuelle de la voiture
        """
        self.destination = destination
        self.position = position

        self.km += distance
        self.battery -= distance

        return f'Position actuelle {self.position}'

### **2. Gestion d'une base de données avec la bibliothèque [SQLalchemy](https://docs.sqlalchemy.org/en/14/)**

<img src='https://miro.medium.com/v2/resize:fit:1400/0*msfsws06ImMSJYop.jpg'>

SQLAlchemy est une bibliothèque Python très populaire qui facilite l'interaction avec des bases de données relationnelles en utilisant un langage Python. Elle fournit un ensemble d'outils puissants pour travailler avec des bases de données SQL tout en offrant une abstraction flexible qui permet de travailler avec différents types de bases de données.

Voici quelques caractéristiques clés de SQLAlchemy :

**ORM (Object-Relational Mapping)** : SQLAlchemy propose un ORM qui permet de représenter des tables de base de données sous forme d'objets Python. Ces objets peuvent être manipulés comme n'importe quel autre objet Python, offrant ainsi une abstraction plus élevée des opérations sur la base de données.

**Prise en Charge de Diverses Bases de Données** : SQLAlchemy prend en charge plusieurs types de bases de données, y compris MySQL, PostgreSQL, SQLite, Oracle, et d'autres.

**Flexibilité** : Vous pouvez utiliser SQLAlchemy de manière transparente avec un ORM complet, un langage SQL pur, ou une combinaison des deux, en fonction des besoins de votre application.

**Communauté Active** : SQLAlchemy est largement utilisé dans la communauté Python et dispose d'une documentation complète et d'une base d'utilisateurs active.

---


1. Installation de la bibliothèque : `pip install SQLAlchemy`

2. Installez [SQLite Viewer](https://marketplace.visualstudio.com/items?itemName=qwtel.sqlite-viewer) pour visualiser votre base données.

<img src='https://qwtel.gallerycdn.vsassets.io/extensions/qwtel/sqlite-viewer/0.3.13/1691231169503/Microsoft.VisualStudio.Services.Icons.Default'>

In [12]:
import sqlalchemy as db

In [2]:
db.__version__

'1.4.40'

In [46]:
# Gestion d'une base de données
import sqlalchemy as db

class DataBase():
    def __init__(self, name_database='journaldugeek'):
        self.name = name_database
        self.url = f"sqlite:///{name_database}.db"
        self.engine = db.create_engine(self.url)
        self.connection = self.engine.connect()
        self.metadata = db.MetaData()
        self.table = self.engine.table_names()


    def create_table(self, name_table, **kwargs):
        colums = [db.Column(k, v, primary_key = True) if 'id_' in k else db.Column(k, v) for k,v in kwargs.items()]
        db.Table(name_table, self.metadata, *colums)
        self.metadata.create_all(self.engine)
        print(f"Table : '{name_table}' are created succesfully")

    def read_table(self, name_table, return_keys=False):
        table = db.Table(name_table, self.metadata, autoload=True, autoload_with=self.engine)
        if return_keys:table.columns.keys()
        else : return table


    def add_row(self, name_table, **kwarrgs):
        name_table = self.read_table(name_table)

        stmt = (
            db.insert(name_table).
            values(kwarrgs)
        )
        self.connection.execute(stmt)
        print(f'Row id added')

    def select_table(self, name_table):
        name_table = self.read_table(name_table)
        stm = db.select([name_table])
        return self.connection.execute(stm).fetchall()

In [47]:
# Création d'une base de données
database = DataBase('journaldugeek')

  self.table = self.engine.table_names()


In [48]:
# Création d'un Tableau1
database.create_table('articles', titre=db.String, link=db.String, theme=db.String, image=db.String, author=db.String)  

Table : 'articles' are created succesfully


In [19]:
# Création d'un Tableau2
database.create_table('Tableau2', id_shop=db.Integer, id_colonne1=db.String, colonne2=db.Integer)

Table : 'Tableau2' are created succesfully


In [20]:
# Visualiser les tables
database = DataBase('data')
database.table

  self.table = self.engine.table_names()


['Tableau1', 'Tableau2']

In [21]:
# Ajouter une ligne à la base de données
database.add_row('Tableau2', id_shop=3086, id_colonne1='Iphone')

Row id added


In [9]:
# Ajouter plusieurs lignes à la base de données
for i in range(10):
    database.add_row('Tableau2',id_shop=i, id_colonne1='Iphone'*(i+1), colonne2=99*i)

database.select_table('Tableau2')

Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added


[(3086, 'Iphone', None),
 (0, 'Iphone', 0),
 (1, 'IphoneIphone', 99),
 (2, 'IphoneIphoneIphone', 198),
 (3, 'IphoneIphoneIphoneIphone', 297),
 (4, 'IphoneIphoneIphoneIphoneIphone', 396),
 (5, 'IphoneIphoneIphoneIphoneIphoneIphone', 495),
 (6, 'IphoneIphoneIphoneIphoneIphoneIphoneIphone', 594),
 (7, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 693),
 (8, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 792),
 (9, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 891)]

In [10]:
# Afficher le Tableau1
import pandas as pd
pd.DataFrame(database.select_table('Tableau2'))

Unnamed: 0,id_shop,id_colonne1,colonne2
0,3086,Iphone,
1,0,Iphone,0.0
2,1,IphoneIphone,99.0
3,2,IphoneIphoneIphone,198.0
4,3,IphoneIphoneIphoneIphone,297.0
5,4,IphoneIphoneIphoneIphoneIphone,396.0
6,5,IphoneIphoneIphoneIphoneIphoneIphone,495.0
7,6,IphoneIphoneIphoneIphoneIphoneIphoneIphone,594.0
8,7,IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone,693.0
9,8,IphoneIphoneIphoneIphoneIphoneIphoneIphoneIpho...,792.0


# Exercice Collecte d’articles sur le site [Cdiscount](https://www.cdiscount.com/)

<img src='https://marketplace.cdiscount.com/wp-content/uploads/2020/06/french-days-cdiscount.jpg'>

Dans cet exercice nous allons collecter les informations des articles présents sur le site Cdiscount.
Parmis une liste de produit, collectez dans une base de données les informations suivantes :
- le nom de l’article,
- le lien de l’image,
- le lien de l’article
- le prix de l’article
- la note de l’article

Nous créerons un script qui automatisera la collecte des données en prenant en compte les exceptions et qui retournera un fichier csv contenant l'ensemble de nos données. Voici la liste des produits à collecter (choisir un article) :
- Iphone 13
- Samsung Galaxy S21
- Xiaomi Redmi Note 10

1. Créez une fonction `collecte_Cdiscount` qui prends en entrée une chaine de caractère (produit à collecter) et qui retourne un fichier csv contenant les produits scrappé avec la bibliothèque Selenium.
2. Placez cette fonction dans un fichier `functions.py`.
3. Créez une page dans votre application streamlit qui demande à l'utilisateur de saisir le nom d'un produit à collecter puis fait appel à la fonction `collecte_Cdiscount` pour collecter ces produits. La collecte ne doit pas ouvrir de navigateur.
4. Ajoutez les données dans une base de données MySQL ou SQL Lite.

In [14]:
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium import webdriver
import time

def data_collect_products_from_cdiscount(product="Iphon 13", np_page=2):
    driver = webdriver.Chrome('./data/chromedriver')

    # Création/connexion à la base de données
    database = DataBase('data/data_cdiscount')

    driver.get('https://www.cdiscount.com/')
    time.sleep(2)

    # Accept cookies
    driver.find_element(By.ID, "footer_tc_privacy_button_2").click()

    # Search for a product
    driver.find_element(By.ID, 'search').send_keys(product + Keys.ENTER)

    # Create a table
    try:
        database.create_table(product, 
                          id_product=db.String, 
                          name=db.String, 
                          star=db.String, 
                          image=db.String, 
                          price=db.String)
    except:pass

    data = {}

    for n in range(np_page):
        time.sleep(2)
        
        template_products = driver.find_element(By.ID, 'lpBloc')
        list_article = template_products.find_elements(By.TAG_NAME, 'li')
        
        for article in list_article:
            if article.get_attribute('data-sku'):
                id = article.get_attribute('data-sku')

                try:name = article.find_element(By.TAG_NAME, 'a').text
                except:name = None

                try:star = article.find_element(By.CLASS_NAME, 'u-visually-hidden').text
                except:star = None

                try:image = article.find_element(By.TAG_NAME, 'img').get_attribute('src')
                except:image = None

                try:price = article.find_element(By.CLASS_NAME, 'lpSavings').text
                except:price = None

                data[id] = {
                    'name' : name,
                    'star' : star,
                    'image' : image,
                    'price' : price
                }
                try:
                    database.add_row(product, 
                                 id_product=id, 
                                 name=name, 
                                 star=star, 
                                 image=image, 
                                 price=price)
                except:pass


        # Change page
        try:driver.find_element(By.CLASS_NAME, 'jsNxtPage'.replace(' ', '.')).click()
        except:
            try:driver.find_element(By.CLASS_NAME, 'jsNxtPage'.replace(' ', '.')).click()
            except:pass

    driver.quit()
    return data


In [15]:
data = data_collect_products_from_cdiscount(product="Iphon 13", np_page=2)

  driver = webdriver.Chrome('./data/chromedriver')
  self.table = self.engine.table_names()


Table : 'Iphon 13' are created succesfully


In [17]:
data

{'APP0194252707289': {'name': 'iPhone 13 128Go Midnight',
  'star': 'Score global : 4,5 étoiles sur 5',
  'image': 'https://www.cdiscount.com/pdt2/2/8/9/1/300x300/app0194252707289/rw/iphone-13-128go-midnight.jpg',
  'price': '909,00€\nPrix de comparaison\n699€00'},
 'APP0194252708361': {'name': 'iPhone 13 128Go Blue',
  'star': 'Score global : 4,5 étoiles sur 5',
  'image': 'https://www.cdiscount.com/pdt2/3/6/1/1/300x300/app0194252708361/rw/iphone-13-128go-blue.jpg',
  'price': '909,00€\nPrix de comparaison\n699€00'},
 'APP0194252707821': {'name': 'iPhone 13 128Go Pink',
  'star': 'Score global : 4,5 étoiles sur 5',
  'image': 'https://www.cdiscount.com/pdt2/8/2/1/1/300x300/app0194252707821/rw/iphone-13-128go-pink.jpg',
  'price': '909,00€\nPrix de comparaison\n699€00'},
 'IP13128GREEN': {'name': 'iPhone 13 128Go Vert',
  'star': 'Score global : 4,5 étoiles sur 5',
  'image': 'https://www.cdiscount.com/pdt2/e/e/n/1/300x300/ip13128green/rw/iphone-13-128go-vert.jpg',
  'price': '909,00€\

In [18]:
pd.DataFrame(data).T

Unnamed: 0,name,star,image,price
APP0194252707289,iPhone 13 128Go Midnight,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/2/8/9/1/300x300...,"909,00€\nPrix de comparaison\n699€00"
APP0194252708361,iPhone 13 128Go Blue,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/3/6/1/1/300x300...,"909,00€\nPrix de comparaison\n699€00"
APP0194252707821,iPhone 13 128Go Pink,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/8/2/1/1/300x300...,"909,00€\nPrix de comparaison\n699€00"
IP13128GREEN,iPhone 13 128Go Vert,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/e/e/n/1/300x300...,"909,00€\nPrix de comparaison\n699€00"
IPHONE13512ROUGE,APPLE iPhone 13 512Go (PRODUCT) RED,Score global : 5 étoiles sur 5,https://www.cdiscount.com/pdt2/u/g/e/1/300x300...,"1259,00€\nPrix de comparaison\n1079€00"
IPHONE13512ROSE,APPLE iPhone 13 512Go Pink,Score global : 5 étoiles sur 5,https://www.cdiscount.com/pdt2/o/s/e/1/300x300...,"1259,00€\nPrix de comparaison\n1079€00"
APP0194252709177,iPhone 13 256Go Pink,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/1/7/7/1/300x300...,"1029,00€\nPrix de comparaison\n829€00"
IP13256GREEN,iPhone 13 256Go Vert,"Score global : 4,5 étoiles sur 5",https://www.cdiscount.com/pdt2/e/e/n/1/300x300...,"1029,00€\nPrix de comparaison\n829€00"
APP0194252708095,iPhone 13 128Go Red,Score global : 5 étoiles sur 5,https://www.cdiscount.com/pdt2/0/9/5/1/300x300...,"909,00€\nPrix de comparaison\n699€00"
IP13512GREEN,iPhone 13 512Go Vert,Score global : 5 étoiles sur 5,https://www.cdiscount.com/pdt2/e/e/n/1/300x300...,"1259,00€\nPrix de comparaison\n1079€00"


In [19]:
database = DataBase('data/data_cdiscount')
database.table

  self.table = self.engine.table_names()


['Iphon 13', 'Samsung_TV_Oled', 'TV_4K']

In [20]:
database.select_table('Iphon 13')

[('APP0194252707289', 'iPhone 13 128Go Midnight', 'Score global : 4,5 étoiles sur 5', 'https://www.cdiscount.com/pdt2/2/8/9/1/300x300/app0194252707289/rw/iphone-13-128go-midnight.jpg', '909,00€\nPrix de comparaison\n699€00'),
 ('APP0194252708361', 'iPhone 13 128Go Blue', 'Score global : 4,5 étoiles sur 5', 'https://www.cdiscount.com/pdt2/3/6/1/1/300x300/app0194252708361/rw/iphone-13-128go-blue.jpg', '909,00€\nPrix de comparaison\n699€00'),
 ('APP0194252707821', 'iPhone 13 128Go Pink', 'Score global : 4,5 étoiles sur 5', 'https://www.cdiscount.com/pdt2/8/2/1/1/300x300/app0194252707821/rw/iphone-13-128go-pink.jpg', '909,00€\nPrix de comparaison\n699€00'),
 ('IP13128GREEN', 'iPhone 13 128Go Vert', 'Score global : 4,5 étoiles sur 5', 'https://www.cdiscount.com/pdt2/e/e/n/1/300x300/ip13128green/rw/iphone-13-128go-vert.jpg', '909,00€\nPrix de comparaison\n699€00'),
 ('IPHONE13512ROUGE', 'APPLE iPhone 13 512Go (PRODUCT) RED', 'Score global : 5 étoiles sur 5', 'https://www.cdiscount.com/pdt2/u

In [None]:
options = Options()
options.add_argument("--headless")

driver = webdriver.Chrome('./chromedriver', options=options)

driver.get('https://www.cdiscount.com/')
time.sleep(2)

# Accept cookies
#driver.find_element(By.ID, "footer_tc_privacy_button_2").click()

# Search for a product
driver.find_element(By.ID, 'search').send_keys('IPHONE 13' + Keys.ENTER)