# 3. Web Scraping - Selenium

<img src = 'https://xn--kvin-duranty-beb.fr/wp-content/uploads/2022/10/Web-Scraping-_-IPSSI-PRS-2.png' >



Dans cet exercice, nous utiliserons la bibliothèque Selenium afin de collecter les données des sites internet suivants :

- Partie 1 : [Doctolib](https://www.doctolib.fr/dentiste/paris)
Nous continuerons là où Beautifullsoup montrait ses limites en collectant de manière automatisée toutes les pages référencées par Doctolib.


- Partie 2 : [Les Echos](https://www.lesechos.fr/)
Nous collecterons les articles correspondants à la thématique `Intelligence artificielle`.



# **Partie 1 - [Doctolib](https://www.doctolib.fr/)**


<img src='https://upload.wikimedia.org/wikipedia/fr/thumb/7/7f/Logo-doctolib.svg/640px-Logo-doctolib.svg.png'>


Les informations que nous souhaitons collecter sont les suivantes :
- le nom du praticien
- la profession du praticien
- l'adresse du praticien
- la ville du praticien
- l'image de la fiche Doctolib du praticien



## 3.1 Installez la bibliothèque Selenium
Utilitisez la commande suivante dans votre terminal :  `pip install selenium`

## 3.2 Télécharger le webdriver [chrome](https://chromedriver.chromium.org/downloads)
Placez le ensuite dans le dossier Web-scraping

## 3.3 Importer l'objet `webdriver`de la bibliothèque de `selenium`
Importez également `By` depuis `selenium.webdriver.common.by`

In [61]:
from selenium import webdriver
from selenium.webdriver.common.by import By


## 3.4 Deffinissez une variable `driver = webdriver.Chrome(DRIVER_PATH)`.
Où `DRIVER_PATH` est le chemin du web driver téléchargé à la question **3.2** ==> `"./chromedriver"`.

In [62]:
driver = webdriver.Chrome()

## 3.5 Utilisez la méthode `get(BASE_URL)` de l'objet `driver` puis notez vos observations.
`BASE_URL`est le lien pointant vers le site de Doctolib `"https://www.doctolib.fr/dentiste/paris"`

In [63]:
BASE_URL = "https://www.doctolib.fr/dentiste/paris"    

In [64]:
driver.get(BASE_URL)

## 3.6 Affichez l'adresse url courante ainsi que le titre de la page.

In [65]:
driver.title

'Chirurgien-dentiste Paris 75000 : Prenez rendez-vous en ligne | Doctolib'

## 3.7 Récupérez dans une variable `selection` la liste des praticients présents sur la page.
Utilisez la méthéode `find_elements`, cette méthode prend deux arguments `By.CLASS_NAME` ainsi que le nom de la class recherchée sur la page.

In [107]:
selection = driver.find_elements(By.CLASS_NAME, "dl-search-result-title")

In [115]:
dentiste = []
for i in range(len(selection)):
    print(selection[i].find_element(By.TAG_NAME, "h3").text)
    dentiste.append(selection[i].find_element(By.TAG_NAME, "h3"))

Dr Maëlle GHAZALI-ABOUZIDAN
Dr Edouard CRISTOFARI
Dr Pierre LEGRAND
Kevin BROCHERAY
Dr Frédéric BOHIN
Dr Jean-Michel Halimi
Centre dentaire Paris 10 - Gare du Nord - Dentego
Dr Pascal POIRIER
Centre de Santé Haussmann
Dr Marie-Claude Villier
Dr Marcel AMAR
Dr Charlotte BARBA
Aveline DOURNES
Dr Muriel BARNABA
Dr Cibele NAGANO
Dr Mickael AMSALEM
Dr Livia FORSTER
Dr Ghassan FADEL
Dr Guillermo Ortega
Dr Siamak YAVARI


## 3.8 Affichez les information du premier élément de `selection` via son instance `text``.

In [100]:
selection[0].text

'Dr Maëlle GHAZALI-ABOUZIDAN\nChirurgien-dentiste'

In [116]:
for i in range(len(selection)):
    print(selection[i].find_element(By.TAG_NAME, "h3").text)

Dr Maëlle GHAZALI-ABOUZIDAN
Dr Edouard CRISTOFARI
Dr Pierre LEGRAND
Kevin BROCHERAY
Dr Frédéric BOHIN
Dr Jean-Michel Halimi
Centre dentaire Paris 10 - Gare du Nord - Dentego
Dr Pascal POIRIER
Centre de Santé Haussmann
Dr Marie-Claude Villier
Dr Marcel AMAR
Dr Charlotte BARBA
Aveline DOURNES
Dr Muriel BARNABA
Dr Cibele NAGANO
Dr Mickael AMSALEM
Dr Livia FORSTER
Dr Ghassan FADEL
Dr Guillermo Ortega
Dr Siamak YAVARI


## 3.9 Recherchez à nouveau à l'aide de la méthode `find_element` la photo du premier praticien figurant dans la liste ``selection``.

In [124]:
selection[0].find_element(By.XPATH, "../div/a/img")

<selenium.webdriver.remote.webelement.WebElement (session="86ac559584c22ebb915c8522fcb081a5", element="9BE773E5C9A236567F078384910CFF71_element_2")>

## 3.10 Récupérez à présent le lien de cette image en utilisant la méthode `get_attribute`.

In [123]:
selection[0].find_element(By.XPATH, "../div/a/img").get_attribute("src")


'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/deancdv6orgbaoosonde'

## 3.11 Créez une fonction `collect_data` qui renvoie un fichier `json` contenant les informations de tous les praticiens ainsi que leurs photos de profil.

In [133]:
import json

def collect_data():
    selection = driver.find_elements(By.CLASS_NAME, "dl-search-result-title")

    liste = []
    for i in range(len(selection)):
        personne = selection[i].find_element(By.TAG_NAME, "h3").text
        photo = selection[i].find_element(By.XPATH, "../div/a/img").get_attribute("src")

    
        liste.append({"nom": personne, "photo": photo})
    
    with open("dentiste.json", "w") as f:
        json.dump(liste, f)
        
    return liste



In [141]:
collect_data()

[{'nom': 'Dr Jean-Eric Lachaux',
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/t1dge2h9er34iu3h43sj'},
 {'nom': 'Dr Sabina NICOLAE',
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/bl23ifho5oqdxi7d54fh'},
 {'nom': 'Dr Danielle IZRAELEWICZ',
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/hhd7k6zijavsvlfhlbid'},
 {'nom': "Centre dentaire Chaussée d'Antin-Trinité",
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/v5hwubzbebyhvkavbdek'},
 {'nom': 'Anis Brougui',
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/fmwwd2jfqccca9xcsc6m'},
 {'nom': 'Centre dentaire Dentimad - Saint Lazare',
  'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/qjkksnjpb8t63gfn1dtq'},
 {'nom': 'Dr Leonard MAILLE

## 3.9 Automatisez la collecte sur les pages 5 premières pages de résultats.

In [146]:
from selenium.webdriver.support.ui import WebDriverWait
import time

def fivePageData():
    for i in range(5):
        driver.get(BASE_URL + "?page=" + str(i+1))
        WebDriverWait(driver, 1000)
        time.sleep(5)
        print(collect_data())

fivePageData()
    

[{'nom': 'Dr Maëlle GHAZALI-ABOUZIDAN', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/deancdv6orgbaoosonde'}, {'nom': 'Dr Edouard CRISTOFARI', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/gcfdrs6ezcvbir028k68'}, {'nom': 'Dr Pierre LEGRAND', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/l1whlfjdgdbccp72i9rz'}, {'nom': 'Kevin BROCHERAY', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/default_doctor_avatar_m'}, {'nom': 'Dr Frédéric BOHIN', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/ido7ducw8mrvbql2eawo'}, {'nom': 'Dr Jean-Michel Halimi', 'photo': 'https://media.doctolib.com/image/upload/q_auto:eco,f_auto,dpr_2/w_62,h_62,c_fill,g_face/pvognyu9tjtayl5ufymt'}, {'nom': 'Centre dentaire Paris 10 - Gare du Nord - Dentego', 'photo': 'htt

# **Partie 2 - Collectes automatisée | [Les Echos](https://www.lesechos.fr/)**



<br>

<br>


<img src = 'https://upload.wikimedia.org/wikipedia/fr/thumb/b/bb/Les_echos_%28logo%29.svg/1200px-Les_echos_%28logo%29.svg.png'>

<br><br>

Les informations que nous souhaitons collecter sont les suivantes :

- l’auteur,
- la date de publication,
- le titre,
- le contenu de la page,


In [93]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time


In [94]:
driver = webdriver.Chrome()

In [95]:
driver.get('https://www.lesechos.fr/')

In [97]:
driver.find_element(By.CLASS_NAME, "sc-14kwckt-16.sc-16o6ckw-0.WiTvs.bvLlpL.sc-ctlfsq-0.lnDWGz").click()

In [98]:
driver.find_element(By.CLASS_NAME, "sc-14kwckt-28.sc-ywv8p0-0.sc-166k8it-1.wwuyu.jCZKki.cQRcWN").send_keys("ia")
driver.find_element(By.CLASS_NAME, "sc-14kwckt-28.sc-ywv8p0-0.sc-166k8it-1.wwuyu.jCZKki.cQRcWN").send_keys(Keys.ENTER)


In [77]:
article = driver.find_elements(By.TAG_NAME, "article")

In [78]:
article[0].find_element(By.TAG_NAME, "h3").click()

In [57]:
driver.find_element(By.TAG_NAME, "h1").text

'Nominations chez Blablacar, JLL, Artefact et Unimev'

In [52]:
driver.find_element(By.CLASS_NAME, "sc-17ifq26-0.eJxzlO").text

'Publié le 12 déc. 2023 à 11:00'

In [46]:
driver.find_element(By.CLASS_NAME, "sc-kla0ai-0.hEKJIU").text

'Par Les Echos'

In [54]:
driver.find_element(By.CLASS_NAME, "sc-3bvrtu-0.esWdfj.post-paywall").text

"Retour aux fondamentaux : c'est sa séquence sur l'économie ouverte mi-novembre qu'Emmanuel Macron a poursuivi ce lundi - loin du rejet du texte sur l'immigration à l'Assemblée qui le rattrape oh combien. Après un plan pour l'export des PME, la décarbonation de l'industrie puis l'annonce d'un investissement pharmaceutique à Chartres (Novo Nordisk), il est venu à Toulouse célébrer France 2030, le plan de soutien à l'innovation.\nSon bilan est loin d'être négligeable en termes sonnants et trébuchants. La moitié de l'enveloppe initiale des 54 milliards d'euros a été engagée et quelques milliards d'euros ont été concrètement décaissés. Usines de batteries, hydrogène, capture de carbone, cartographie des métaux critiques, spatial et maintenant en plus une filière de microcomposants pour l'IA … : sept défis sont identifiés et 3.000 projets sont financés."

In [45]:
driver.current_url

'https://www.lesechos.fr/idees-debats/leadership-management/nominations-chez-blablacar-jll-artefact-et-unimev-2040863'

In [75]:
driver.back()

In [100]:
driver.get('https://www.lesechos.fr/tech-medias/intelligence-artificielle/')


def scrap_article():

    json_list = []
    article = driver.find_elements(By.TAG_NAME, "article")
    for i in range(len(article)):
        time.sleep(3)
        article[i].click()
        time.sleep(5)
        titre = driver.find_element(By.TAG_NAME, "h1").text
        auteur = driver.find_element(By.CLASS_NAME, "sc-17ifq26-0.eJxzlO").text
        date = driver.find_element(By.CLASS_NAME, "sc-kla0ai-0.hEKJIU").text
        texte = driver.find_element(By.CLASS_NAME, ".post-paywall").text
        
        driver.back()
        json_list.append({"titre": titre, "auteur": auteur, "date": date, "texte": texte})

    return json_list

scrap_article()
    

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":".sc-3bvrtu-0.esWdfj.post-paywall"}
  (Session info: chrome=120.0.6099.71); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
	GetHandleVerifier [0x00007FF6CCC34D02+56194]
	(No symbol) [0x00007FF6CCBA04B2]
	(No symbol) [0x00007FF6CCA476AA]
	(No symbol) [0x00007FF6CCA916D0]
	(No symbol) [0x00007FF6CCA917EC]
	(No symbol) [0x00007FF6CCAD4D77]
	(No symbol) [0x00007FF6CCAB5EBF]
	(No symbol) [0x00007FF6CCAD2786]
	(No symbol) [0x00007FF6CCAB5C23]
	(No symbol) [0x00007FF6CCA84A45]
	(No symbol) [0x00007FF6CCA85AD4]
	GetHandleVerifier [0x00007FF6CCFAD5BB+3695675]
	GetHandleVerifier [0x00007FF6CD006197+4059159]
	GetHandleVerifier [0x00007FF6CCFFDF63+4025827]
	GetHandleVerifier [0x00007FF6CCCCF029+687785]
	(No symbol) [0x00007FF6CCBAB508]
	(No symbol) [0x00007FF6CCBA7564]
	(No symbol) [0x00007FF6CCBA76E9]
	(No symbol) [0x00007FF6CCB98094]
	BaseThreadInitThunk [0x00007FFFFCF17974+20]
	RtlUserThreadStart [0x00007FFFFFBFA371+33]


---
# **Partie 3 : Programation Orientée Objet et Gestion d'une base de données**



### **1. Définition d'une Classe**
**Definition**

La programmation orientée objet (POO) est un paradigme de programmation qui repose sur le concept d'objets. Dans ce paradigme, le code est organisé autour d'entités appelées "objets", qui représentent des instances concrètes ou abstraites de concepts du monde réel. Chaque objet peut avoir des propriétés (appelées attributs) et des comportements (appelés méthodes).

Voici quelques concepts clés de la programmation orientée objet :

- **Objets** : Les objets sont des instances spécifiques d'une classe, qui est un modèle ou un plan pour créer des objets. Par exemple, si une classe est définie pour représenter des voitures, un objet spécifique pourrait être une voiture particulière.

- **Classes** : Les classes sont des structures qui définissent la manière dont les objets sont créés. Elles définissent les attributs (caractéristiques) et les méthodes (comportements) que les objets de la classe auront. Une classe est une sorte de modèle à partir duquel des objets peuvent être créés.

- **Encapsulation** : L'encapsulation est le principe de regrouper les données (attributs) et les méthodes qui les manipulent au sein d'une même entité, c'est-à-dire une classe. Cela permet de cacher les détails d'implémentation et d'isoler le fonctionnement interne de l'objet.

- **Héritage** : L'héritage est un mécanisme qui permet à une classe d'hériter des propriétés et des méthodes d'une autre classe. Cela favorise la réutilisation du code et la création de hiérarchies de classes.

- **Polymorphisme** : Le polymorphisme permet à un même nom de méthode d'avoir des comportements différents en fonction du contexte. Il existe deux types de polymorphisme : le polymorphisme statique (surcharge) et le polymorphisme dynamique (redéfinition).

- **Abstraction** : L'abstraction consiste à simplifier un concept complexe en modélisant uniquement les aspects pertinents tout en masquant les détails complexes.

      # Déclaration d'une classe, paramètre 1 et 2 seront

      class NomDeLaClasse:
        # Définition des attributs au moment de l'instanciation
        def __init__(self, parametre1, parametre2):
          self.parametre1 = parametre1
          self.parametre2 = parametre2

        def __repr__(self):
          return "Exemple de retour"

        # Définition d'une méthode
        def nom_de_la_methode(self, p1, p2):
          self.value = p1 * p2 # Création d'un nouvel attribut

      # Instance de classe
      objet = NomDeLaClasse('parametre1', 'parametre2')

      # Héritage :
      class ClasseFille(NomDeLaClasseMère):
        def __init__(self, parametre1, parametre2, parametre3):
          NomDeLaClasseMère.__init__(self, parametre1, parametre2)
          self.parametre3 = parametre3
        
        # Méthode utilisable uniquement dans la classe :
        def __methode_encapsulee(self):
          print("Test")


- __init__: permet de définir les attributs nécessaires à l'objet lors de son instanciation.
- __repr__: permet de définir le type d'objet retourné par défaut.
- __str__ : permet de définir ce qui est affiché par défaut lorsque l'on print un objet.
- __add__ : permet de définir ce ci se produit lorsque l'on additionne des objets entre eux.





In [103]:
# Définir une classe

class Voiture:
    def __init__(self, brand:str, model:str, color:str, km:int=10):
        self.brand = brand
        self.model = model
        self.color = color
        self.km = km

    def travel(self, destination:str, position:str, distance:int)->str:
        """
        destination: str
        position: str
        distance: int

        return: str
        
        """

        self.destination = destination
        self.position = position
        self.distance += distance

        return f'Position actuelle: {self.position}'
    

    def show_data(self, *args):
            print(args)

    def show_multi(self, **kwargs):
        print(kwargs)

In [104]:
voiture = Voiture('Peugeot', '306', 'rouge', 10)

In [105]:
voiture.travel('Paris', 'Lyon', 100)

AttributeError: 'Voiture' object has no attribute 'distance'

In [106]:
voiture.show_data(1,2,3)

(1, 2, 3)


In [112]:
voiture.show_data('Edison', 23, 'Paris')

('Edison', 23, 'Paris')


### **2. Gestion d'une base de données avec la bibliothèque [SQLalchemy](https://docs.sqlalchemy.org/en/14/)**

<img src='https://miro.medium.com/v2/resize:fit:1400/0*msfsws06ImMSJYop.jpg'>

SQLAlchemy est une bibliothèque Python très populaire qui facilite l'interaction avec des bases de données relationnelles en utilisant un langage Python. Elle fournit un ensemble d'outils puissants pour travailler avec des bases de données SQL tout en offrant une abstraction flexible qui permet de travailler avec différents types de bases de données.

Voici quelques caractéristiques clés de SQLAlchemy :

**ORM (Object-Relational Mapping)** : SQLAlchemy propose un ORM qui permet de représenter des tables de base de données sous forme d'objets Python. Ces objets peuvent être manipulés comme n'importe quel autre objet Python, offrant ainsi une abstraction plus élevée des opérations sur la base de données.

**Prise en Charge de Diverses Bases de Données** : SQLAlchemy prend en charge plusieurs types de bases de données, y compris MySQL, PostgreSQL, SQLite, Oracle, et d'autres.

**Flexibilité** : Vous pouvez utiliser SQLAlchemy de manière transparente avec un ORM complet, un langage SQL pur, ou une combinaison des deux, en fonction des besoins de votre application.

**Communauté Active** : SQLAlchemy est largement utilisé dans la communauté Python et dispose d'une documentation complète et d'une base d'utilisateurs active.

---


1. Installation de la bibliothèque : `pip install SQLAlchemy`

2. Installez [SQLite Viewer](https://marketplace.visualstudio.com/items?itemName=qwtel.sqlite-viewer) pour visualiser votre base données.

<img src='https://qwtel.gallerycdn.vsassets.io/extensions/qwtel/sqlite-viewer/0.3.13/1691231169503/Microsoft.VisualStudio.Services.Icons.Default'>

In [2]:
# Gestion d'une base de données
import sqlalchemy as db

class DataBase():
    def __init__(self, name_database='database'):
        self.name = name_database
        self.url = f"sqlite:///{name_database}.db"
        self.engine = db.create_engine(self.url)
        self.connection = self.engine.connect()
        self.metadata = db.MetaData()
        self.table = self.engine.table_names()


    def create_table(self, name_table, **kwargs):
        colums = [db.Column(k, v, primary_key = True) if 'id_' in k else db.Column(k, v) for k,v in kwargs.items()]
        db.Table(name_table, self.metadata, *colums)
        self.metadata.create_all(self.engine)
        print(f"Table : '{name_table}' are created succesfully")

    def read_table(self, name_table, return_keys=False):
        table = db.Table(name_table, self.metadata, autoload=True, autoload_with=self.engine)
        if return_keys:table.columns.keys()
        else : return table


    def add_row(self, name_table, **kwarrgs):
        name_table = self.read_table(name_table)

        stmt = (
            db.insert(name_table).
            values(kwarrgs)
        )
        self.connection.execute(stmt)
        print(f'Row id added')


    def delete_row_by_id(self, table, id_):
        name_table = self.read_table(name_table)

        stmt = (
            db.delete(name_table).
            where(students.c.id_ == id_)
            )
        self.connection.execute(stmt)
        print(f'Row id {id_} deleted')

    def select_table(self, name_table):
        name_table = self.read_table(name_table)
        stm = db.select([name_table])
        return self.connection.execute(stm).fetchall()

In [117]:
db.__version__

'1.4.36'

In [4]:
# Création d'une base de données
database = DataBase('data')

  self.table = self.engine.table_names()


In [119]:
# Création d'un Tableau1
database.create_table('Tableau1', id_user=db.Integer, colonne1=db.String, colonne2=db.Integer)

Table : 'Tableau1' are created succesfully


In [5]:
# Création d'un Tableau2
database.create_table('Tableau2', id_shop=db.Integer, id_colonne1=db.String, colonne2=db.Integer)

Table : 'Tableau2' are created succesfully


In [6]:
# Ajouter une ligne à la base de données
database.add_row('Tableau2', id_shop=3086, id_colonne1='Iphone')

Row id added


In [7]:
# Ajouter plusieurs lignes à la base de données
for i in range(10):
    database.add_row('Tableau2',id_shop=i, id_colonne1='Iphone'+(i+1), colonne2=99*i)

database.select_table('Tableau2')

Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added
Row id added


[(3086, 'Iphone', None),
 (0, 'Iphone', 0),
 (1, 'IphoneIphone', 99),
 (2, 'IphoneIphoneIphone', 198),
 (3, 'IphoneIphoneIphoneIphone', 297),
 (4, 'IphoneIphoneIphoneIphoneIphone', 396),
 (5, 'IphoneIphoneIphoneIphoneIphoneIphone', 495),
 (6, 'IphoneIphoneIphoneIphoneIphoneIphoneIphone', 594),
 (7, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 693),
 (8, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 792),
 (9, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 891)]

In [8]:
# Afficher le Tableau1
database.select_table('Tableau2')

[(3086, 'Iphone', None),
 (0, 'Iphone', 0),
 (1, 'IphoneIphone', 99),
 (2, 'IphoneIphoneIphone', 198),
 (3, 'IphoneIphoneIphoneIphone', 297),
 (4, 'IphoneIphoneIphoneIphoneIphone', 396),
 (5, 'IphoneIphoneIphoneIphoneIphoneIphone', 495),
 (6, 'IphoneIphoneIphoneIphoneIphoneIphoneIphone', 594),
 (7, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 693),
 (8, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 792),
 (9, 'IphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphoneIphone', 891)]

# Exercice Collecte d’articles sur le site [Cdiscount](https://www.cdiscount.com/)

<img src='https://marketplace.cdiscount.com/wp-content/uploads/2020/06/french-days-cdiscount.jpg'>

Dans cet exercice nous allons collecter les informations des articles présents sur le site Cdiscount.
Parmis une liste de produit, collectez dans une base de données les informations suivantes :
- le nom de l’article,
- le lien de l’image,
- le lien de l’article
- le prix de l’article
- la note de l’article

Nous créerons un script qui automatisera la collecte des données en prenant en compte les exceptions et qui retournera un fichier csv contenant l'ensemble de nos données. Voici la liste des produits à collecter (choisir un article) :
- Iphone 13
- Samsung Galaxy S21
- Xiaomi Redmi Note 10

1. Créez une fonction `collecte_Cdiscount` qui prends en entrée une chaine de caractère (produit à collecter) et qui retourne un fichier csv contenant les produits scrappé avec la bibliothèque Selenium.
2. Placez vcette fonction dans un fichier `functions.py`.
3. Créez une page dans votre application streamlit qui demande à l'utilisateur de saisir le nom d'un produit à collecter puis fait appel à la fonction `collecte_Cdiscount` pour collecter ces produits. La collecte ne doit pas ouvrir de navigateur.
4. Ajoutez les données dans une base de données MySQL ou SQL Lite.

In [77]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait
import time
import pandas as pd


In [91]:
# options = Options()
# options.add_argument("--headless=new")
# driver = webdriver.Chrome(options=options)

driver = webdriver.Chrome()

In [92]:
driver.get('https://www.cdiscount.com/')

In [93]:
def scrap_cdiscount(search):

    # wait = WebDriverWait(driver, 20)
    
    # wait.until(EC.element_to_be_clickable((By.ID, "search")))

    driver.find_element(By.ID, "search").clear()
    driver.find_element(By.ID, "search").send_keys(search)
    driver.find_element(By.ID, "search").send_keys(Keys.ENTER)

    time.sleep(2)
    json_list = []
    
    produit = driver.find_elements(By.CLASS_NAME, "jsPrdBlocContainer")
    for i in range(len(produit)):
        time.sleep(1)
        titre = produit[i].find_element(By.CLASS_NAME, "prdtBILTit").text
        try:
            note = produit[i].find_element(By.CLASS_NAME, "u-visually-hidden").text
        except:
            note = ''
        photo = produit[i].find_element(By.CLASS_NAME, "prdtBImg").get_attribute("src")
        lien = produit[i].find_element(By.TAG_NAME, "a").get_attribute("href")
        prix = produit[i].find_element(By.CLASS_NAME, "price").text
        
        json_list.append({"titre": titre, "note": note, "photo": photo, "lien": lien, "prix": prix})
    
    df = pd.DataFrame(json_list)

    df.to_csv(f"{search}.csv", index=False)

    return df
    
    # return json_list


In [None]:
scrap_cdiscount('iphone13')