In [20]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException

import sqlite3
from datetime import datetime
from tqdm import tqdm
import locale

def scrap_amf():
    url_base = "https://www.amf-france.org/fr/actualites-publications/la-une/toutes-les-actualites-et-publications"
    options = webdriver.ChromeOptions()
    options.add_argument('--headless')
    options.add_argument('--no-sandbox')
    options.add_argument('--disable-dev-shm-usage')
    driver = webdriver.Chrome(options=options)

    driver.get(url_base)
    # Réglage de la locale pour interpréter correctement les noms de mois en français
    locale.setlocale(locale.LC_TIME, 'fr_FR')
    conn = sqlite3.connect('new_amf.db')
    cursor = conn.cursor()

    cursor.execute('''
            CREATE TABLE IF NOT EXISTS amf_articles (
                id INTEGER PRIMARY KEY,
                title TEXT NOT NULL,
                date DATE,
                link TEXT NOT NULL,
                source TEXT NOT NULL,
                content TEXT
            )
        ''')
    conn.commit()
    # Attendre que la table soit visible
    full_xpath = "/html/body/div[2]/div[1]/main/div[3]/div/div[2]/div/div[2]/div/div[2]/div/div[2]/table"
    WebDriverWait(driver, 30).until(EC.visibility_of_element_located((By.XPATH, full_xpath)))

    try:
        # Boucle pour naviguer à travers les pages
        while True:
            # Récupérer le numéro de la page courante
            current_page = driver.find_element(By.CLASS_NAME, 'paginate_button.current').text
            print(f"Page actuelle : {current_page}")

            # Insérer ici votre logique pour extraire les données de la page actuelle
            try:
                rows = driver.find_elements(By.XPATH, f"{full_xpath}/tbody/tr")
                urls = [row.find_element(By.XPATH, ".//td[3]/a").get_attribute('href') for row in rows]

                # Traiter chaque URL
                for url in tqdm(urls, desc="Traitement des articles"):
                    # Ouvrir un nouvel onglet pour chaque URL
                    driver.execute_script("window.open();")
                    driver.switch_to.window(driver.window_handles[1])  # Passer à l'onglet nouvellement ouvert
                    driver.get(url)
                    #print(f"Traitement de l'URL : {url}")
                    
                    article = {'URL': url}

                    try:
                        article['Titre'] = driver.find_element(By.CSS_SELECTOR, '.like-h1').text
                    except:
                        article['Titre'] = ""

                    try:
                        article['Date'] = driver.find_element(By.CSS_SELECTOR, '.date').text
                        raw_date = datetime.strptime(article['Date'], "%d %B %Y")
                        # Vérifier si la date est antérieure à 2023
                        if raw_date.year < 2023:
                            print("Date antérieure à 2023. Arrêt du scraping.")
                            return
                        article['Date'] = raw_date.strftime("%Y-%m-%d")  # Format ISO pour stockage
                    except ValueError:
                        print(f"Format de date non reconnu : {raw_date}")
                        continue
                    
                    try:
                        content_divs = driver.find_elements(By.CSS_SELECTOR, 
                                                                "div.paragraph.paragraph--type--wysiwyg.paragraph--view-mode--default, div.intro")
                        article['Contenu'] = ' '.join([div.text for div in content_divs])
                    except:
                        article['Contenu'] = ""

                    # Insertion dans la base de données
                    if all(field != "" for field in article.values()):
                        try:
                            cursor.execute('SELECT COUNT(*) FROM amf_articles WHERE link = ?', (article['URL'],))
                            if cursor.fetchone()[0] == 0:
                                cursor.execute('INSERT INTO amf_articles (title, date, content, source, link) VALUES (?, ?, ?, ?, ?)', 
                                            (article['Titre'], article['Date'], article['Contenu'],"AMF", article['URL']))
                                conn.commit()
                                print(f"Titre: {article['Titre']}\nLien: {article['URL']}\nDate de publication: {article['Date']}\nContenu: {article['Contenu']}\n")
                            else :
                                print(f"Article déjà existant dans la base de données : {article['URL']}")
                                
                        except sqlite3.IntegrityError:
                            print(f"Erreur d'insertion dans la BDD : {article['URL']}")
                    # Fermer l'onglet actuel et retourner à l'onglet principal
                    driver.close()
                    driver.switch_to.window(driver.window_handles[0])

            except NoSuchElementException:
                print("Impossible de trouver les lignes ou URLs sur la page principale.")
            
            try :    
                # Passer à la page suivante en utilisant JavaScript pour cliquer
                next_button = driver.find_element(By.ID, 'DataTables_Table_0_next')
                if 'disabled' not in next_button.get_attribute('class'):
                    driver.execute_script("arguments[0].click();", next_button)
                else:
                    print("next page impossible")
                    break  # Sortir de la boucle si le bouton Suivant est désactivé (dernière page)
            except :
                print("erreur bouton next page")

            # Attente pour assurer le chargement de la page suivante
            WebDriverWait(driver, 30).until(
                EC.staleness_of(next_button)
            )

    except : 
        print("Erreur lors du scraping.")
    finally:
        driver.quit()
        conn.close()

In [21]:
scrap_amf()

Page actuelle : 1


Traitement des articles:  10%|█         | 1/10 [00:00<00:03,  2.47it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/cybersecurite-et-risques-informatiques-lamf-appelle-les-acteurs-se-preparer-lentree-en-application


Traitement des articles:  20%|██        | 2/10 [00:00<00:03,  2.67it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/lamf-rappelle-les-regles-didentification-des-investisseurs-particuliers-dans-le-reporting-des


Traitement des articles:  30%|███       | 3/10 [00:01<00:02,  2.82it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/le-mediateur/journal-de-bord-du-mediateur/dossiers-du-mois/scpi-une-demande-de-retrait-meme-reguliere-peut-etre-executee-dans-un-delai-indetermine


Traitement des articles:  40%|████      | 4/10 [00:01<00:01,  3.07it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-la-commission-des-sanctions/la-commission-des-sanctions-de-lamf-met-hors-de-cause-douze-personnes-physiques-auxquelles-il-etait


Traitement des articles:  50%|█████     | 5/10 [00:01<00:01,  3.06it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/guides/guides-professionnels/guide-relatif-aux-droits-et-contributions-dus-lamf


Traitement des articles:  60%|██████    | 6/10 [00:02<00:01,  3.07it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-met-en-garde-le-public-lencontre-de-publicites-frauduleuses-publiees-dans-la-presse-proposant


Traitement des articles:  70%|███████   | 7/10 [00:02<00:01,  2.70it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/conseillers-en-investissements-participatifs-cip-chiffres-cles-2022


Traitement des articles:  80%|████████  | 8/10 [00:02<00:00,  2.85it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-etudes-et-analyses/chiffres-cles-2022-des-conseillers-en-investissements-participatifs-cip


Traitement des articles:  90%|█████████ | 9/10 [00:03<00:00,  2.95it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/conseillers-en-investissements-financiers-cif-chiffres-cles-2022


Traitement des articles: 100%|██████████| 10/10 [00:03<00:00,  2.92it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-etudes-et-analyses/chiffres-cles-2022-des-conseillers-en-investissements-financiers-cif
Page actuelle : 2



Traitement des articles:  10%|█         | 1/10 [00:00<00:04,  1.87it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/astrid-milsan-exerce-les-fonctions-de-secretaire-generale-de-lamf-jusquau-15-avril-2024


Traitement des articles:  20%|██        | 2/10 [00:00<00:03,  2.54it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-la-commission-des-sanctions/la-commission-des-sanctions-de-lamf-sanctionne-sept-personnes-dont-quatre-pour-manipulation-de-cours


Traitement des articles:  30%|███       | 3/10 [00:01<00:03,  2.07it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/prises-de-parole/discours-de-marie-anne-barbat-layani-presidente-de-lamf-voeux-2024-la-place-financiere-jeudi-18


Traitement des articles:  40%|████      | 4/10 [00:01<00:02,  2.15it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/lamf-rappelle-les-bonnes-pratiques-en-matiere-de-diffusion-de-linformation-privilegiee


Traitement des articles:  50%|█████     | 5/10 [00:02<00:02,  1.97it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-publie-son-plan-daction-et-ses-priorites-de-supervision-pour-lannee-2024


Traitement des articles:  60%|██████    | 6/10 [00:03<00:02,  1.65it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-annuels-et-documents-institutionnels/priorites-de-supervision-de-lamf-pour-2024


Traitement des articles:  70%|███████   | 7/10 [00:03<00:01,  1.65it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-annuels-et-documents-institutionnels/plan-daction-et-priorites-de-supervision-de-lamf-pour-2024


Traitement des articles:  90%|█████████ | 9/10 [00:04<00:00,  2.04it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/le-mediateur/journal-de-bord-du-mediateur/dossiers-du-mois/bonne-annee-2024


Traitement des articles: 100%|██████████| 10/10 [00:05<00:00,  1.97it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lautorite-des-marches-financiers-met-en-garde-les-professionnels-contre-une-vague-dutilisation
Page actuelle : 3



Traitement des articles:  10%|█         | 1/10 [00:00<00:03,  2.32it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-etudes-et-analyses/chiffres-cles-2022-de-la-gestion-dactifs


Traitement des articles:  20%|██        | 2/10 [00:00<00:03,  2.32it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-la-commission-des-sanctions/la-commission-des-sanctions-de-lamf-sanctionne-un-conseiller-en-investissements-financiers-et-son-12


Traitement des articles:  30%|███       | 3/10 [00:01<00:02,  2.39it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/entree-en-application-de-la-revision-du-reglement-sur-les-fonds-europeens-dinvestissement-long-terme


Traitement des articles:  40%|████      | 4/10 [00:01<00:03,  1.90it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-et-lacpr-mettent-en-garde-le-public-contre-les-activites-de-plusieurs-acteurs-qui-proposent-en-6


Traitement des articles:  50%|█████     | 5/10 [00:02<00:02,  2.07it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/une-manipulation-de-marche-identifiee-et-signalee-par-lamf-sanctionnee-par-le-tribunal-correctionnel


Traitement des articles:  60%|██████    | 6/10 [00:02<00:01,  2.14it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-met-en-garde-le-public-contre-plusieurs-acteurs-qui-proposent-dinvestir-dans-des-biens-divers-2


Traitement des articles:  70%|███████   | 7/10 [00:03<00:01,  2.24it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/sanctions-transactions/communiques-de-la-commission-des-sanctions/la-commission-des-sanctions-de-lamf-sanctionne-un-ancien-dirigeant-dune-societe-cotee-pour-un


Traitement des articles:  80%|████████  | 8/10 [00:03<00:00,  2.37it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/reunion-du-conseil-scientifique-de-lamf-16-novembre-2023


Traitement des articles:  90%|█████████ | 9/10 [00:04<00:00,  2.31it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/investissement-en-actions-les-intentions-de-nouveau-en-hausse-portees-par-les-jeunes


Traitement des articles: 100%|██████████| 10/10 [00:04<00:00,  2.08it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/observatoire-de-lepargne/lettres-de-lobservatoire-de-lepargne/lettre-de-lobservatoire-de-lepargne-de-lamf-ndeg55-decembre-2023
Page actuelle : 4



Traitement des articles:  10%|█         | 1/10 [00:00<00:03,  2.53it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-etudes-et-analyses/barometre-amf-de-lepargne-et-de-linvestissement-2023


Traitement des articles:  20%|██        | 2/10 [00:01<00:04,  1.92it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-publie-la-synthese-dune-troisieme-campagne-de-controles-thematiques-sur-les-dispositifs-de


Traitement des articles:  30%|███       | 3/10 [00:01<00:03,  1.95it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-la-commission-des-sanctions/la-commission-des-sanctions-de-lamf-sanctionne-un-conseiller-en-investissements-financiers-et-son-11


Traitement des articles:  40%|████      | 4/10 [00:02<00:03,  1.87it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/les-trois-autorites-europeennes-de-supervision-esma-eba-et-eiopa-proposent-une-extension-de


Traitement des articles:  50%|█████     | 5/10 [00:02<00:02,  1.94it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/syntheses-des-controles-spot/synthese-des-controles-spot-relative-au-dispositif-de-cybersecurite-des-societes-de-gestion-de


Traitement des articles:  60%|██████    | 6/10 [00:03<00:01,  2.02it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/evolution-des-procedures-dagrement-et-de-declaration-des-opc


Traitement des articles:  70%|███████   | 7/10 [00:03<00:01,  1.91it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/lamf-met-jour-sa-doctrine-concernant-les-informations-fournir-par-les-placements-collectifs-0


Traitement des articles:  80%|████████  | 8/10 [00:04<00:01,  1.75it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/actualites/exigences-applicables-aux-comites-dinvestissement-et-au-rattachement-des-gerants-financiers-des


Traitement des articles:  90%|█████████ | 9/10 [00:04<00:00,  1.87it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/evenements-de-lamf/colloques-et-conferences-de-lamf/les-20-ans-de-lamf-conference-anniversaire-2003-2023-videos-et-discours


Traitement des articles: 100%|██████████| 10/10 [00:05<00:00,  1.82it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/communiques/communiques-de-lamf/lamf-fait-des-propositions-pour-renforcer-linformation-des-investisseurs-sur-levaluation-des
Page actuelle : 5



Traitement des articles:  10%|█         | 1/10 [00:00<00:04,  2.15it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/publications/rapports-etudes-et-analyses/rapport-2023-sur-le-gouvernement-dentreprise-et-remuneration-des-dirigeants-des-societes-cotees


Traitement des articles:  20%|██        | 2/10 [00:00<00:03,  2.40it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/evenements-de-lamf/colloques-et-conferences-de-lamf/webinaire-rapport-amf-sur-le-reporting-taxonomie-des-societes-cotees-non-financieres-video


Traitement des articles:  30%|███       | 3/10 [00:02<00:05,  1.23it/s]

Article déjà existant dans la base de données : https://www.amf-france.org/fr/actualites-publications/evenements-de-lamf/colloques-et-conferences-de-lamf/le-conseil-en-investissement-et-les-exigences-en-matiere-dadequation-atelier-amf


Traitement des articles:  30%|███       | 3/10 [00:02<00:05,  1.27it/s]


Erreur lors du scraping.
