In [1]:
import requests
import time
from bs4 import BeautifulSoup

In [None]:
%reset   # ON vide le cache contenant éventuellement des résidus de stockage dans les listes lors des éxecutions précédentes du script

In [None]:
# on vérifie si le site, avec nos filtres de recherche appliqués, est "scrappable"

In [None]:
# règles de scraping: https://gallica.bnf.fr/robots.txt

In [None]:
# documentation : 
# search API doc: https://europeana.atlassian.net/wiki/spaces/EF/pages/2385739812/Search+API+Documentation#Getting-Started
# https://europeana.atlassian.net/wiki/spaces/EF/pages/2462351393/Accessing+the+APIs
# https://www.europeana.eu/en/apis
# https://pro.europeana.eu/page/apis

# scrapping via des API

In [3]:
import xml.etree.ElementTree as ET

def extract_urls_from_xml(xml_data):
    """Cette fonction extrait les URLs des notices détaillées de la réponse XML de Gallica et les stocke dans la liste URL"""
    urls = []
    root = ET.fromstring(xml_data)
    
    # L'élément <record> contient l'URL de la notice détaillée
    for record in root.findall(".//{http://www.loc.gov/zing/srw/}record"):
        url_elem = record.find(".//{http://purl.org/dc/elements/1.1/}identifier")
        if url_elem is not None and "gallica.bnf.fr" in url_elem.text:
            urls.append(url_elem.text)

    return urls


In [None]:
import requests
import time

BASE_URL = "https://gallica.bnf.fr/SRU"
QUERY = '(dc.type all "fascicule") and (ocr.quality all "Texte disponible")'  
MAX_RECORDS = 50      # Limite imposée par l'API
TOTAL_RESULTS = 5000  # Nombre d'URL que je souhaite extraire
start_record = 0
results = []

while len(results) < TOTAL_RESULTS:
    params = {
        "operation": "searchRetrieve",
        "version": "1.2",
        "startRecord": start_record,
        "maximumRecords": MAX_RECORDS,
        "collapsing": "true",
        "exactSearch": "false",
        "query": QUERY
    }


    response = requests.get(BASE_URL, params=params)
    if response.status_code == 200:
        data = response.text  # Réponse en XML
        # Extraction des URLs des notices détaillées à partir du XML
        urls = [url for url in extract_urls_from_xml(data)]  # Fonction à définir
        results.extend(urls)
        start_record += MAX_RECORDS
        time.sleep(0.5)  # Pause pour éviter le blocage par l'API
    else:
        print(f"Erreur {response.status_code}")
        break

print(f"Nombre total de résultats récupérés : {len(results)}")

In [None]:
# import json

# with open("urls_gallica.json", "w", encoding="utf-8") as f:
#     json.dump(results, f, indent=4)

# print("Les URLs ont été enregistrées dans urls_gallica.json")


In [None]:
# web scraping ()

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC



# Configuration de Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Mode sans interface graphique
# service = Service('')                    # A remplacer par le chemin


# Remplacer par le chemin de le ChromeDriver si nécessaire
driver = webdriver.Chrome( options=chrome_options)



def get_metadata_from_notice(url):     #Récupèration des métadonnées d'une page après avoir cliqué sur le dropdown
    driver.get(url)
    #time.sleep(1)  # Laisser le temps au contenu de charger
    
    # Essayer de cliquer sur le dropdown avant de récupérer les métadonnées
    try:
        # Attendre que la page soit bien chargée (évite `time.sleep`)
        WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))

        # Cliquer sur le dropdown "Informations détaillées"
        dropdown = WebDriverWait(driver, 2).until(
            EC.element_to_be_clickable((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
        )
        dropdown.click()
        print(f"⚠️ Erreur sur {url} : {e}")

    # Extraction des informations après l'ouverture du dropdown
    try:
        metadata = driver.find_element(By.XPATH, "//div[@class='/html/body/div[3]/div[2]/div/div[1]/div/div/div/div[3]/div/div[2]/div/dl']")  # Remplace 'metadata_class'
        return metadata.text
    except:
        print(f"⚠️ Impossible de récupérer les métadonnées pour {url}")
        return None


# Récupération des métadonnées pour les 5000 résultats
metadata_list = [get_metadata_from_notice(url) for url in results]


driver.quit()
print("Scraping terminé.")
print(metadata_list)


In [None]:
# import requests
# from bs4 import BeautifulSoup


# def get_metadata_bs4(url):
#     response = requests.get(url)
#     soup = BeautifulSoup(response.text, "html.parser")

#     title = soup.find("h1").text.strip()
#     author = soup.select_one("dl dd:nth-of-type(1)").text.strip()

#     return {"url": url, "title": title, "author": author}

# print(get_metadata_bs4("https://gallica.bnf.fr/ark:/12148/cb326873554/date"))

# # Récupération des métadonnées pour les 5000 résultats
# metadata_list = [get_metadata_bs4(url) for url in results]


# print("Scraping terminé.")
# print(metadata_list)

In [None]:
# from selenium import webdriver
# from selenium.webdriver.chrome.service import Service
# from selenium.webdriver.common.by import By
# from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC



# # Configuration de Selenium
# chrome_options = Options()
# chrome_options.add_argument("--headless")  # Mode sans interface graphique
# # service = Service('')                    # A remplacer par le chemin


# # Remplacer par le chemin de le ChromeDriver si nécessaire
# driver = webdriver.Chrome( options=chrome_options)

In [None]:
# def get_metadata_from_notice(url):     #Récupèration des métadonnées d'une page après avoir cliqué sur le dropdown
#     driver.get(url)
#     #time.sleep(1)  # Laisser le temps au contenu de charger
    
#     # Essayer de cliquer sur le dropdown avant de récupérer les métadonnées
#     try:
#         # Attendre que la page soit bien chargée (évite `time.sleep`)
#         WebDriverWait(driver, 3).until(EC.presence_of_element_located((By.TAG_NAME, "body")))

#         # Cliquer sur le dropdown "Informations détaillées"
#         dropdown = WebDriverWait(driver, 2).until(
#             EC.element_to_be_clickable((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
#         )
#         dropdown.click()
#         print(f"⚠️ Erreur sur {url} : {e}")

#     # Extraction des informations après l'ouverture du dropdown
#     try:
#         metadata = driver.find_element(By.XPATH, "//div[@class='/html/body/div[3]/div[2]/div/div[1]/div/div/div/div[3]/div/div[2]/div/dl']")  # Remplace 'metadata_class'
#         return metadata.text
#     except:
#         print(f"⚠️ Impossible de récupérer les métadonnées pour {url}")
#         return None


# # Récupération des métadonnées pour les 5000 résultats
# metadata_list = [get_metadata_from_notice(url) for url in results]


# driver.quit()
# print("Scraping terminé.")
# print(metadata_list)

In [None]:
# import requests
# from bs4 import BeautifulSoup

# def get_metadata_bs4(url):
#     response = requests.get(url)
#     soup = BeautifulSoup(response.text, "html.parser")

#     try:
#         # Titre du document
#         title = soup.find("h1").text.strip() if soup.find("h1") else "Titre inconnu"

#         # Auteur (exemple : premier <dd> sous un <dl>)
#         author = soup.select_one("dl dd:nth-of-type(1)").text.strip() if soup.select_one("dl dd:nth-of-type(1)") else "Auteur inconnu"

#         # Date (exemple)
#         date = soup.select_one("dl dd:nth-of-type(2)").text.strip() if soup.select_one("dl dd:nth-of-type(2)") else "Date inconnue"

#         return {"title": title, "author": author, "date": date}
    
#     except Exception as e:
#         print(f"Erreur pour {url}: {e}")
#         return None

# # Tester avec un seul lien
# url_test = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
# print(get_metadata_bs4(url_test))


In [None]:
# from selenium import webdriver
# from selenium.webdriver.chrome.service import Service
# from selenium.webdriver.common.by import By
# from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC
# import time

# # Configuration Selenium
# chrome_options = Options()
# chrome_options.add_argument("--headless")  # Mode sans interface graphique
# driver = webdriver.Chrome(options=chrome_options)

# def get_metadata_from_notice(url):
#     driver.get(url)
#     time.sleep(2)  # Laisser le temps de charger
    
#     try:
#         # Cliquer sur le dropdown "Informations détaillées"
#         dropdown = WebDriverWait(driver, 5).until(
#             EC.element_to_be_clickable((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
#         )
#         dropdown.click()
#         time.sleep(2)  # Attendre le chargement après le clic
#     except Exception as e:
#         print(f"⚠️ Erreur lors du clic sur {url} : {e}")
#         return None

#     try:
#         # Extraction des métadonnées après ouverture du dropdown
#         metadata_section = driver.find_element(By.XPATH, "//div[@class='metadata-class']")  # À remplacer par la bonne classe
#         metadata_text = metadata_section.text
#         return {"url": url, "metadata": metadata_text}
#     except Exception as e:
#         print(f"⚠️ Impossible de récupérer les métadonnées pour {url} : {e}")
#         return None

# # Test sur une URL
# test_url = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
# print(get_metadata_from_notice(test_url))

# # Fermer Selenium
# driver.quit()


In [None]:
# from selenium import webdriver
# from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.common.by import By
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC

# # Configuration de Selenium
# chrome_options = Options()
# chrome_options.add_argument("--headless")  # Mode sans interface graphique
# driver = webdriver.Chrome(options=chrome_options)

# def get_metadata_from_notice(url):
#     driver.get(url)
    
#     try:
#         # Attendre que le bouton "Informations détaillées" soit cliquable et le cliquer
#         dropdown = WebDriverWait(driver, 3).until(
#             EC.element_to_be_clickable((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
#         )
#         dropdown.click()

#         # Attendre que le contenu des métadonnées soit chargé
#         WebDriverWait(driver, 3).until(
#             EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'notice-details')]"))
#         )

#         # Extraire les métadonnées
#         metadata_section = driver.find_element(By.XPATH, "//div[contains(@class, 'notice-details')]").text
#         return metadata_section

#     except Exception as e:
#         print(f"⚠️ Erreur sur {url} : {e}")
#         return None

# # Tester avec une URL d'exemple
# test_url = "https://gallica.bnf.fr/ark:/12148/cb326873554/date"
# print(get_metadata_from_notice(test_url))

# # Fermer le driver
# driver.quit()


In [None]:
# try:
#     dropdown = WebDriverWait(driver, 5).until(
#         EC.presence_of_element_located((By.XPATH, "//div[contains(text(), 'Informations détaillées')]"))
#     )
#     print("✅ Bouton détecté")
# except Exception as e:
#     print("❌ Bouton non détecté :", e)


In [None]:
# try:
#     buttons = driver.find_elements(By.XPATH, "//div[contains(text(), 'Informations détaillées')]")
#     print(f"✅ Nombre de boutons détectés : {len(buttons)}")
# except Exception as e:
#     print(f"❌ Erreur lors de la détection du bouton : {e}")


In [None]:
# !curl https://gallica.bnf.fr/services/ajax/notice/ark:/12148/cb42768809f/date
#     https://gallica.bnf.fr/ark:/12148/cb326873554/date

In [None]:
# appliquer la fonction suivante

In [None]:
# from selenium import webdriver
# from selenium.webdriver.chrome.service import Service
# from selenium.webdriver.common.by import By
# from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC
# import time
# import pandas as pd

# # Configuration Selenium
# chrome_options = Options()
# chrome_options.add_argument("--headless")  # Mode sans interface graphique
# driver = webdriver.Chrome(options=chrome_options)
# wait = WebDriverWait(driver, 10)

# def get_metadata_from_notice(url):
#     driver.get(url)

#     details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
#     details.click()
#     metadata_section = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))
#     # metadata_text = metadata_section.text
#     # return {"url": url, "metadata": metadata_text}

#     titles = metadata_section.find_elements(By.XPATH,"./dt")
#     data =[]
#     for title in titles:
#         content = title.find_element(By.XPATH,"./following-sibling::dd[1]").text
#         data.append({"Title":title.text, "Content":content})
#     return data


# # Test sur une URL
# test_url = "https://gallica.bnf.fr/ark:/12148/cb42768809f/date"
# df = pd.DataFrame(get_metadata_from_notice(test_url))
# print(df)

# # Fermer Selenium
# driver.quit()

A fonctionné!!! 

In [None]:
# import json
# import time
# import csv
# import pandas as pd
# from selenium import webdriver
# from selenium.webdriver.chrome.options import Options
# from selenium.webdriver.common.by import By
# from selenium.webdriver.support.ui import WebDriverWait
# from selenium.webdriver.support import expected_conditions as EC

# # Configuration Selenium
# chrome_options = Options()
# chrome_options.add_argument("--headless")  # Mode sans interface graphique
# driver = webdriver.Chrome(options=chrome_options)
# wait = WebDriverWait(driver, 10)

# def get_metadata_from_notice(url):
#     """Récupèration des métadonnées d'une revue Gallica après avoir cliqué sur le dropdown."""
#     try:
#         driver.set_page_load_timeout(15)  # Timeout à 15 secondes au lieu de 120
#         driver.get(url)
#     except Exception as e:
#         print(f"⏳ Timeout dépassé pour {url}, passage à l'URL suivante...")
#         return None  # Ne bloque pas, passe à l'URL suivante


#     start_time = time.time()  # Démarrage du chrono

#     try:
#         print("🕵️‍♂️ Vérification du bouton 'Informations détaillées'...")
#         details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
#         details.click()
#         print("✅ Dropdown cliqué !")

#         print("⏳ Attente du chargement des métadonnées...")
#         metadata_section = wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))

#         titles = metadata_section.find_elements(By.XPATH, "./dt")
#         data = {"url": url}

#         for title in titles:
#             content = title.find_element(By.XPATH, "./following-sibling::dd[1]").text
#             data[title.text.strip()] = content.strip()

#         elapsed_time = time.time() - start_time  # Temps écoulé
#         print(f"✅ Données récupérées en {elapsed_time:.2f} secondes")

#         return data
#     except Exception as e:
#         print(f"⏳ Timeout dépassé pour {url}, passage à l'URL suivante...")
#         time.sleep(5)  # Pause de 5 secondes avant de continuer
#         return None

# # Charger les 5000 URL extraites précédemment
# with open("urls_gallica.json", "r") as f:
#     urls = json.load(f)  # Le fichier doit contenir une liste JSON des 5000 URL


# # Vérifier combien d'URLs ont déjà été traitées
# try:
#     with open("metadata_gallica_temp.json", "r", encoding="utf-8") as f:
#         metadata_list = json.load(f)
# except FileNotFoundError:
#     metadata_list = []

# # Déterminer l'index où reprendre
# start_index = len(metadata_list)
# print(f"🚀 Reprise à partir de l'URL {start_index+1}/{len(urls)}")

# # Supprimer les URLs déjà traitées
# urls = urls[start_index:]


# # Scraper toutes les URL et stocker les résultats
# metadata_list = []
# error_log = []

# for i, url in enumerate(urls, start=1):
#     print(f"🔹 {i}/{len(urls)} - Scraping {url}")
#     metadata = get_metadata_from_notice(url)
    
#     if metadata:
#         metadata_list.append(metadata)
#     else:
#         error_log.append(url)  # Stocker les erreurs

#     time.sleep(0.5)  # Petite pause pour éviter le blocage

#     # Sauvegarde partielle toutes les 100 URLs
#     if i % 100 == 0:
#         with open("metadata_gallica_temp.json", "w", encoding="utf-8") as f:
#             json.dump(metadata_list, f, indent=4, ensure_ascii=False)
#         print(f"📂 Sauvegarde partielle : {i} résultats enregistrés")

# # Sauvegarde en JSON
# with open("metadata_gallica.json", "w", encoding="utf-8") as f:
#     json.dump(metadata_list, f, indent=4, ensure_ascii=False)

# # Sauvegarde en CSV
# df = pd.DataFrame(metadata_list)
# df.to_csv("metadata_gallica.csv", index=False, encoding="utf-8")

# # Sauvegarde des erreurs
# with open("erreurs_urls.txt", "w") as f:
#     for url in error_log:
#         f.write(url + "\n")

# # Fermer Selenium
# driver.quit()

# print(f"✅ Scraping terminé ! {len(metadata_list)} résultats enregistrés.")
# print(f"⚠️ {len(error_log)} erreurs enregistrées dans erreurs_urls.txt")

# # notes (à insérer dans le "journal de bord"):

# # 4. 

# # Fermer Selenium
# driver.quit()

# print("Scraping terminé. Résultats sauvegardés en JSON et CSV.")

In [46]:
import json
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC



# Configuration Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  # Mode sans interface graphique
driver = webdriver.Chrome(options=chrome_options)
wait = WebDriverWait(driver, 10)



def get_metadata_from_notice(url):
    """Cette fonction permet de récupérer des métadonnées d'une revue Gallica après avoir cliqué sur le dropdown."""
    try:
        driver.set_page_load_timeout(15)  # Timeout à 15 secondes
        driver.get(url)
    except Exception as e:
        print(f" Timeout dépassé pour {url}, passage à l'URL suivante...")
        return None

    start_time = time.time()  # Démarrage du chrono

    try:
        print(f" {url} - Vérification du bouton 'Informations détaillées'...")
        details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
        details.click()
        print(" Dropdown cliqué !")

        print(" Attente du chargement des métadonnées...")
        metadata_section = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))
        time.sleep(1)  # Pause supplémentaire

        
        # Vérifie si on récupère bien toutes les clés <dt>
        titles = metadata_section.find_elements(By.XPATH, "./dt")
        print(f" {len(titles)} métadonnées trouvées sur {url}")

        data = {"url": url}

        for title in titles:
            key = title.text.strip().replace("\n", " ")  # Nettoyage clé

            if key:  # Filtre des clés vides
                try:
                    content_elements = title.find_elements(By.XPATH, "./following-sibling::dd")
                    print(f" Clé détectée : {key} - {len(content_elements)} éléments dd trouvés")

                    content = "; ".join([c.text.strip() for c in content_elements if c.text.strip()])
                    data[key] = content if content else "Valeur vide"
                except Exception:
                    print(f" Métadonnée sans valeur pour {key}")
                    data[key] = "Valeur manquante"
            else:
                print(f" Clé vide ignorée pour {url}")  # Nouvelle alerte

        elapsed_time = time.time() - start_time
        print(f" Données récupérées en {elapsed_time:.2f} secondes pour {url}")

        return data

    except Exception as e:
        print(f"ATTENTION! Erreur sur {url} : {e}")
        time.sleep(5)
        return None



# Chargement de 50 URLs de test
with open("urls_gallica.json", "r") as f:
    urls = json.load(f)

urls = urls[:50]  # Sélection de 50 URLs pour le test



# Scrapping de toutes les URL et stokage des résultats
metadata_list = []
error_log = []

for i, url in enumerate(urls, start=1):
    print(f"🔹 {i}/{len(urls)} - Scraping {url}")
    metadata = get_metadata_from_notice(url)

    if metadata:
        metadata_list.append(metadata)
    else:
        error_log.append(url)

    time.sleep(0.5)  # Pause pour éviter le blocage

# Sauvegarde en JSON
with open("metadata_gallica_test.json", "w", encoding="utf-8") as f:
    json.dump(metadata_list, f, indent=4, ensure_ascii=False)

# Sauvegarde en CSV
df = pd.DataFrame(metadata_list)
df.to_csv("metadata_gallica_test.csv", index=False, encoding="utf-8")

# Sauvegarde des erreurs
with open("erreurs_urls_test.txt", "w") as f:
    for url in error_log:
        f.write(url + "\n")

# Fermer Selenium
driver.quit()

print(f" Test terminé ! {len(metadata_list)} résultats enregistrés.")
print(f"ATTENTION! {len(error_log)} erreurs enregistrées dans erreurs_urls_test.txt")


🔹 1/50 - Scraping https://gallica.bnf.fr/ark:/12148/cb42768809f/date
🕵️‍♂️ https://gallica.bnf.fr/ark:/12148/cb42768809f/date - Vérification du bouton 'Informations détaillées'...
✅ Dropdown cliqué !
⏳ Attente du chargement des métadonnées...
🔎 12 métadonnées trouvées sur https://gallica.bnf.fr/ark:/12148/cb42768809f/date
📌 Clé détectée : Titre : - 12 éléments dd trouvés
📌 Clé détectée : Titre : - 11 éléments dd trouvés
📌 Clé détectée : Éditeur : - 10 éléments dd trouvés
📌 Clé détectée : Date d'édition : - 9 éléments dd trouvés
📌 Clé détectée : Sujet : - 8 éléments dd trouvés
📌 Clé détectée : Notice du catalogue : - 7 éléments dd trouvés
📌 Clé détectée : Langue : - 6 éléments dd trouvés
📌 Clé détectée : Langue : - 5 éléments dd trouvés
⚠️ Clé vide ignorée pour https://gallica.bnf.fr/ark:/12148/cb42768809f/date
⚠️ Clé vide ignorée pour https://gallica.bnf.fr/ark:/12148/cb42768809f/date
⚠️ Clé vide ignorée pour https://gallica.bnf.fr/ark:/12148/cb42768809f/date
⚠️ Clé vide ignorée pour h

KeyboardInterrupt: 

<!-- ## récupération des métadonnées

import json
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

# Configuration Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")  
driver = webdriver.Chrome(options=chrome_options)
wait = WebDriverWait(driver, 10)

def get_metadata_from_notice(url):
    """Récupération des métadonnées d'une revue Gallica après avoir cliqué sur le dropdown."""
    try:
        driver.set_page_load_timeout(15)
        driver.get(url)
    except Exception:
        print(f"⏳ Timeout dépassé pour {url}, passage à l'URL suivante...")
        return None

    start_time = time.time()

    try:
        print(f"🕵️‍♂️ {url} - Vérification du bouton 'Informations détaillées'...")
        details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
        details.click()
        time.sleep(1)  # Ajout d’une pause après ouverture du dropdown

        print("✅ Dropdown cliqué !")
        metadata_section = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))

        # Vérification des métadonnées trouvées
        titles = metadata_section.find_elements(By.XPATH, "./dt")
        print(f"🔎 {len(titles)} métadonnées trouvées sur {url}")

        data = {"url": url}

        # Vérification du HTML brut de la section metadata
        html_metadata = metadata_section.get_attribute("innerHTML")
        print(f"🧐 Contenu brut de la section metadata pour {url} :\n{html_metadata}\n")

        for title in titles:
            key = title.text.strip()

            try:
                # Récupération des <dd> associés à ce <dt>
                content_elements = title.find_elements(By.XPATH, "./following-sibling::dd")
                values = []

                for elem in content_elements:
                    # 1️⃣ Extraction du texte brut
                    raw_text = elem.text.strip()
        
                    # 2️⃣ Extraction des liens <a> si présents
                    links = [a.get_attribute("href") for a in elem.find_elements(By.TAG_NAME, "a")]
                    if links:
                        raw_text += " | Liens: " + " | ".join(links)
        
                    # 3️⃣ Extraction des valeurs encapsulées dans <span>
                    spans = [span.text.strip() for span in elem.find_elements(By.XPATH, ".//span[contains(@id, 'descriptionCollapseChild')]")]
                    if spans:
                        raw_text += " | Extra: " + " | ".join(spans)
        
                    # 4️⃣ Si on a trouvé une valeur utile, on l'ajoute
                    if raw_text:
                        values.append(raw_text)

                # Stocker la donnée
                data[key] = "; ".join(values) if values else "Valeur vide"

            except Exception as e:
                print(f"⚠️ Erreur lors de l'extraction pour {key} sur {url} : {e}")
                data[key] = "Valeur manquante"

        # Fin de la boucle `for title in titles`
        elapsed_time = time.time() - start_time
        print(f"✅ Données récupérées en {elapsed_time:.2f} secondes pour {url}")

        return data  

    except Exception as e:
        print(f"⚠️ Erreur générale sur {url} : {e}")
        time.sleep(5)
        return None


# Charger les URL de test (pour toutes)
with open("urls_gallica.json", "r") as f:
    urls = json.load(f)

# Scraper et stocker les résultats
metadata_list = []
error_log = []

for i, url in enumerate(urls, start=1):
    print(f"🔹 {i}/{len(urls)} - Scraping {url}")
    metadata = get_metadata_from_notice(url)
    
    if metadata:
        metadata_list.append(metadata)
    else:
        error_log.append(url)

    time.sleep(0.5)

# Sauvegarde en JSON
with open("metadata_gallica_test.json", "w", encoding="utf-8") as f:
    json.dump(metadata_list, f, indent=4, ensure_ascii=False)

# Sauvegarde en CSV
df = pd.DataFrame(metadata_list)
df.to_csv("metadata_gallica_test.csv", index=False, encoding="utf-8")

# Sauvegarde des erreurs
with open("erreurs_urls_test.txt", "w") as f:
    for url in error_log:
        f.write(url + "\n")

# Fermer Selenium
driver.quit()

print(f"✅ Scraping terminé ! {len(metadata_list)} résultats enregistrés.")
print(f"⚠️ {len(error_log)} erreurs enregistrées dans erreurs_urls_test.txt")


## construction du dataframe

import json
import pandas as pd

# Charger le fichier JSON contenant les données brutes extraites
with open("metadata_gallica_test.json", "r", encoding="utf-8") as f:
    raw_data = json.load(f)

# Vérifier un échantillon des données
print(f"📊 Nombre d'entrées : {len(raw_data)}")
print("🧐 Exemple de données brutes :", raw_data[0])

# 1️⃣ **Créer un ensemble de toutes les clés possibles**
all_keys = set()
for entry in raw_data:
    all_keys.update(entry.keys())

# Convertir en une liste triée (meilleure lisibilité)
all_keys = sorted(all_keys)

# 2️⃣ **Transformer en DataFrame**
df = pd.DataFrame(columns=all_keys)

# 3️⃣ **Remplir le DataFrame avec les données**
cleaned_data = []
for entry in raw_data:
    row = {key: entry.get(key, "") for key in all_keys}  # Remplace les valeurs manquantes par ""
    cleaned_data.append(row)

df = pd.DataFrame(cleaned_data)

# 4️⃣ **Exporter en JSON et CSV propres**
#df.to_json("metadata_gallica_clean.json", orient="records", indent=4, force_ascii=False)
#df.to_csv("metadata_gallica_clean.csv", index=False, encoding="utf-8")

print(f"✅ Export terminé ! {df.shape[0]} lignes et {df.shape[1]} colonnes générées.")
 -->

## I Script d'extraction des données avec reprise d'un document partiel (non-inclus dans le fichier .py)

In [1]:
import json
import time
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import os  # 🔥 Pour vérifier l'existence des fichiers

#metadata_gallica_clean.csv"

# Configuration de Selenium
chrome_options = Options()
chrome_options.add_argument("--headless")
driver = webdriver.Chrome(options=chrome_options)
wait = WebDriverWait(driver, 10)

def get_metadata_from_notice(url):
    """Récupération des métadonnées d'une revue Gallica après avoir cliqué sur le dropdown."""
    try:
        driver.set_page_load_timeout(15)
        driver.get(url)
    except Exception:
        print(f"⏳ Timeout dépassé pour {url}, passage à l'URL suivante...")
        return None

    start_time = time.time()

    try:
        print(f"🕵️‍♂️ {url} - Vérification du bouton 'Informations détaillées'...")
        details = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "div#moreInfosRegion")))
        details.click()
        time.sleep(1)  # Pause après ouverture du dropdown

        print("✅ Dropdown cliqué !")
        metadata_section = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "dl.noticeDetailsArea")))

        # Vérification des métadonnées trouvées
        titles = metadata_section.find_elements(By.XPATH, "./dt")
        print(f"🔎 {len(titles)} métadonnées trouvées sur {url}")

        data = {"url": url}

        for title in titles:
            key = title.text.strip()

            try:
                # Récupération des <dd> associés à ce <dt>
                content_elements = title.find_elements(By.XPATH, "./following-sibling::dd")
                values = []

                for elem in content_elements:
                    raw_text = elem.text.strip()
                    
                    # Extraction des liens <a>
                    links = [a.get_attribute("href") for a in elem.find_elements(By.TAG_NAME, "a")]
                    if links:
                        raw_text += " | Liens: " + " | ".join(links)

                    # Extraction des valeurs encapsulées dans <span>
                    spans = [span.text.strip() for span in elem.find_elements(By.XPATH, ".//span[contains(@id, 'descriptionCollapseChild')]")]
                    if spans:
                        raw_text += " | Extra: " + " | ".join(spans)

                    if raw_text:
                        values.append(raw_text)

                data[key] = "; ".join(values) if values else "Valeur vide"

            except Exception as e:
                print(f"⚠️ Erreur lors de l'extraction pour {key} sur {url} : {e}")
                data[key] = "Valeur manquante"

        elapsed_time = time.time() - start_time
        print(f"✅ Données récupérées en {elapsed_time:.2f} secondes pour {url}")

        return data  

    except Exception as e:
        print(f"⚠️ Erreur générale sur {url} : {e}")
        time.sleep(5)
        return None


# 🔥 **Reprise automatique : Charger les URLs déjà traitées**
if os.path.exists("metadata_gallica_partial.json"):
    with open("metadata_gallica_partial.json", "r", encoding="utf-8") as f:
        metadata_list = json.load(f)
    treated_urls = {entry["url"] for entry in metadata_list}  # URLs déjà extraites
    print(f"🔄 Reprise : {len(metadata_list)} entrées déjà récupérées.")
else:
    metadata_list = []
    treated_urls = set()

# Charger toutes les URLs
with open("urls_gallica.json", "r") as f:
    urls = json.load(f)

# 🔥 Exclure les URLs déjà traitées
urls_to_scrape = [url for url in urls if url not in treated_urls]
print(f"📌 {len(urls_to_scrape)} URLs restantes à scraper.")

# Initialiser le log des erreurs
error_log = []

for i, url in enumerate(urls_to_scrape, start=len(metadata_list) + 1):  # 🔥 Continuer l'indexation
    print(f"🔹 {i}/{len(urls)} - Scraping {url}")
    metadata = get_metadata_from_notice(url)
    
    if metadata:
        metadata_list.append(metadata)
    else:
        error_log.append(url)

    time.sleep(0.5)

    # 🔥 Sauvegarde partielle toutes les 100 URL traitées
    if i % 100 == 0:
        try:
            with open("metadata_gallica_partial.json", "w", encoding="utf-8") as f:
                json.dump(metadata_list, f, indent=4, ensure_ascii=False)
            pd.DataFrame(metadata_list).to_csv("metadata_gallica_partial.csv", index=False, encoding="utf-8")
            print(f" Sauvegarde partielle après {i} URL.")
        except Exception as e:
            print(f"Erreur lors de la sauvegarde partielle : {e}")

# 🔥 Sauvegarde finale
with open("metadata_gallica.json", "w", encoding="utf-8") as f:
    json.dump(metadata_list, f, indent=4, ensure_ascii=False)
df = pd.DataFrame(metadata_list)
df.to_csv("metadata_gallica.csv", index=False, encoding="utf-8")

# Sauvegarde des erreurs
with open("erreurs_urls.txt", "w") as f:
    for url in error_log:
        f.write(url + "\n")

# Fermer Selenium
driver.quit()

print(f"✅ Scraping terminé ! {len(metadata_list)} résultats enregistrés.")
print(f"⚠️ {len(error_log)} erreurs enregistrées dans erreurs_urls.txt")


📌 5000 URLs restantes à scraper.
🔹 1/5000 - Scraping https://gallica.bnf.fr/ark:/12148/cb42768809f/date
🕵️‍♂️ https://gallica.bnf.fr/ark:/12148/cb42768809f/date - Vérification du bouton 'Informations détaillées'...
✅ Dropdown cliqué !
🔎 12 métadonnées trouvées sur https://gallica.bnf.fr/ark:/12148/cb42768809f/date
✅ Données récupérées en 8.67 secondes pour https://gallica.bnf.fr/ark:/12148/cb42768809f/date
🔹 2/5000 - Scraping https://gallica.bnf.fr/ark:/12148/cb452698066/date
🕵️‍♂️ https://gallica.bnf.fr/ark:/12148/cb452698066/date - Vérification du bouton 'Informations détaillées'...
✅ Dropdown cliqué !
🔎 12 métadonnées trouvées sur https://gallica.bnf.fr/ark:/12148/cb452698066/date
✅ Données récupérées en 10.28 secondes pour https://gallica.bnf.fr/ark:/12148/cb452698066/date
🔹 3/5000 - Scraping https://gallica.bnf.fr/ark:/12148/cb45265625z/date
🕵️‍♂️ https://gallica.bnf.fr/ark:/12148/cb45265625z/date - Vérification du bouton 'Informations détaillées'...
✅ Dropdown cliqué !
🔎 10 métad

KeyboardInterrupt: 

In [309]:
import json
import pandas as pd

# **Construction du DataFrame**
with open("metadata_gallica.json", "r", encoding="utf-8") as f:
    raw_data = json.load(f)

print(f"📊 Nombre d'entrées : {len(raw_data)}")

all_keys = sorted(set().union(*(entry.keys() for entry in raw_data)))
df = pd.DataFrame([{key: entry.get(key, "") for key in all_keys} for entry in raw_data])

df.to_json("metadata_gallica_clean.json", orient="records", indent=4, force_ascii=False)
df.to_csv("metadata_gallica_clean.csv", index=False, encoding="utf-8")

print(f"✅ Export terminé ! {df.shape[0]} lignes et {df.shape[1]} colonnes générées.")


📊 Nombre d'entrées : 4999
✅ Export terminé ! 4999 lignes et 18 colonnes générées.


In [310]:
df.head()

Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :
0,Valeur vide,,,,1907; Guerre mondiale (1914-1918) -- Aspect re...,,,Français; | Liens: https://gallica.bnf.fr/ark...,,,http://catalogue.bnf.fr/ark:/12148/cb42768809f...,,,,Guerre mondiale (1914-1918) -- Aspect religieu...,Bulletin paroissial mensuel de la cathédrale d...,https://gallica.bnf.fr/ark:/12148/cb42768809f/...,F. Rouet (); 1907; Guerre mondiale (1914-1918)...
1,Valeur vide,Association internationale des résidents de la...,,,1985-1986; http://catalogue.bnf.fr/ark:/12148/...,,,,,,http://catalogue.bnf.fr/ark:/12148/cb452698066...,,,,,Aircup / Association internationale des réside...,https://gallica.bnf.fr/ark:/12148/cb452698066/...,Association internationale des résidents de la...
2,Valeur vide,,Bibliothèque nationale de France,,1934-1936; http://catalogue.bnf.fr/ark:/12148/...,,ark:/12148/cb45265625z/date | Liens: https://g...,Anglais; ark:/12148/cb45265625z/date | Liens: ...,,,http://catalogue.bnf.fr/ark:/12148/cb45265625z...,,,"Cité Internationale Universitaire de Paris, 20...",,European herald; [s.n.] (London); 1934-1936; h...,https://gallica.bnf.fr/ark:/12148/cb45265625z/...,[s.n.] (London); 1934-1936; http://catalogue.b...
3,Valeur vide,France. Assemblée nationale constituante (1789...,,"Baudouin, François-Jean (1759-1835). Directeur...","1790-1791; Boicervoise, André-Alexandre. Direc...",,,,,,,,,,,Collection générale des décrets rendus par l'A...,https://gallica.bnf.fr/ark:/12148/cb471788931/...,"A Paris, chez Baudouin, imprimeur de l'Assembl..."
4,Valeur vide,,,,1908; Guerre mondiale (1914-1918) -- Aspect re...,,,Français; | Liens: https://gallica.bnf.fr/ark...,,,http://catalogue.bnf.fr/ark:/12148/cb42768804q...,,,,Guerre mondiale (1914-1918) -- Aspect religieu...,Bulletin paroissial mensuel : Notre-Dame de Va...,https://gallica.bnf.fr/ark:/12148/cb42768804q/...,F. Rouet (); 1908; Guerre mondiale (1914-1918)...


In [311]:
## II Nettoyage et agrégation

In [312]:
# vérification des doublons
duplicates = df[df.duplicated()]
 
print("Duplicate Rows :")
 
# Print the resultant Dataframe
duplicates

Duplicate Rows :


Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :
49,Valeur vide,,,,1844-1844; http://catalogue.bnf.fr/ark:/12148/...,,,Français; | Liens: https://gallica.bnf.fr/ark...,,,http://catalogue.bnf.fr/ark:/12148/cb328042623...,,,,,"Le Kremlin : journal artistique, littéraire et...",https://gallica.bnf.fr/ark:/12148/cb328042623/...,F. Bellizart et Cie (Saint-Pétersbourg); 1844-...


In [313]:
#suppression des doublons
df.drop_duplicates(inplace=True)


# Print the resultant Dataframe
print("Duplicate Rows :")
duplicates
 

Duplicate Rows :


Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :
49,Valeur vide,,,,1844-1844; http://catalogue.bnf.fr/ark:/12148/...,,,Français; | Liens: https://gallica.bnf.fr/ark...,,,http://catalogue.bnf.fr/ark:/12148/cb328042623...,,,,,"Le Kremlin : journal artistique, littéraire et...",https://gallica.bnf.fr/ark:/12148/cb328042623/...,F. Bellizart et Cie (Saint-Pétersbourg); 1844-...


In [314]:
# Print the resultant Dataframe
df[df.duplicated()]

Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :


In [315]:
print(df[""].value_counts())


Valeur vide    4982
                 16
Name: count, dtype: int64


In [316]:
# df.drop[""]
print(df["Conservation numérique :"].value_counts())

Conservation numérique :
                                                4890
Bibliothèque nationale de France                  92
Bibliothèque nationale de France; 22/09/2014       2
Bibliothèque nationale de France; 06/03/2017       2
Bibliothèque nationale de France; 16/02/2020       1
Bibliothèque nationale de France; 29/06/2020       1
Bibliothèque nationale de France; 09/08/2020       1
Bibliothèque nationale de France; 27/09/2020       1
Bibliothèque nationale de France; 30/05/2018       1
Bibliothèque nationale de France; 23/06/2019       1
Bibliothèque nationale de France; 07/02/2021       1
Bibliothèque nationale de France; 25/03/2019       1
Bibliothèque nationale de France; 30/05/2016       1
Bibliothèque nationale de France; 09/02/2020       1
Bibliothèque nationale de France; 18/04/2021       1
Bibliothèque nationale de France; 08/04/2021       1
Name: count, dtype: int64


In [317]:
filtered_row = df.loc[df["Conservation numérique :"] == "Bibliothèque nationale de France; 25/03/2019"]
print(filtered_row)

       Auteur :                      Conservation numérique : Contributeur :  \
3638             Bibliothèque nationale de France; 25/03/2019                  

                                       Date d'édition :  \
3638  1944-1946; http://catalogue.bnf.fr/ark:/12148/...   

     Date de mise en ligne :  \
3638              25/03/2019   

                                          Identifiant :  \
3638  ark:/12148/cb328760703/date | Liens: https://g...   

                                               Langue : Notice d'ensemble :  \
3638  français; ark:/12148/cb328760703/date | Liens:...                       

     Notice du catalogue  :  \
3638                          

                                  Notice du catalogue : Relation  :  \
3638  http://catalogue.bnf.fr/ark:/12148/cb328760703...               

     Relation :                                           Source : Sujet :  \
3638             Bibliothèque nationale de France, département ...           

              

In [318]:
df["Conservation numérique :"] = df["Conservation numérique :"].apply(
    lambda x: "Bibliothèque nationale de France" if x != "" and x != "Bibliothèque nationale de France" else x
)


In [319]:
print(df["Conservation numérique :"].value_counts())

Conservation numérique :
                                    4890
Bibliothèque nationale de France     108
Name: count, dtype: int64


In [320]:
print(df["Auteur :"].value_counts())

Auteur :
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               

In [321]:
df["Auteur :"] = df["Auteur :"].str.split(". Auteur du texte").str[0]
# str.split(". Auteur du texte") : Cette méthode divise chaque chaîne de la colonne "Auteur :" en deux parties, en utilisant ". Auteur du texte" comme séparateur.
# .str[0] : Après la division, nous sélectionnons la première partie (celle à gauche du séparateur).
print(df["Auteur :"].head())

0                                                     
1    Association internationale des résidents de la...
2                                                     
3    France. Assemblée nationale constituante (1789...
4                                                     
Name: Auteur :, dtype: object


In [322]:
print(df["Auteur :"].value_counts())

Auteur :
                                                                             3063
Parti communiste français                                                      29
Front national de lutte pour la libération et l'indépendance de la France      18
Office français des techniques modernes d'éducation                            12
Bibliothèque nationale (France)                                                11
                                                                             ... 
Association générale des étudiants de Montpellier                               1
Alliance démocratique (France)                                                  1
Fédération régionale des groupes d'études                                       1
France. Conseil général des mines                                               1
École française d'Athènes                                                       1
Name: count, Length: 1529, dtype: int64


In [323]:
# Appliquer value_counts() à la colonne "Auteur :"
value_counts = df["Auteur :"].value_counts()

# Filtre pour obtenir les auteurs qui apparaissent entre 1 et 10 fois
filtered_value_counts = value_counts[(value_counts >= 3) & (value_counts <= 4)]

# Afficher le résultat
print(filtered_value_counts)

Auteur :
Banque de France                                                                                             4
Amis de l'Union soviétique (France)                                                                          4
Guadeloupe                                                                                                   4
Académie des sciences, inscriptions et belles-lettres (Toulouse)                                             4
Université de Grenoble                                                                                       4
Forces françaises de l'intérieur                                                                             4
Exposition internationale (1900 ; Paris)                                                                     4
Association catholique de la jeunesse française                                                              4
Front patriotique de la jeunesse (France)                                                              

In [324]:
print(df["Contributeur :"].value_counts())

Contributeur :
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   4085
Cosnat, Albert. Directeur de publication; http://catalogue.bnf.fr/ark:/12148/cb32831943n | Liens: http://catalogue.bnf.fr/ark:/12148/cb32831943n; A pour reproduction : Le Papillon bleu (Montpellier. Reproduction numérique) = ISSN 2390-8092 (https://gallica.bnf.fr/ark:/12148/cb32831943n/date); Première de couverture : 199655;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32831943n/date                                                                                                   1
Harding, 

In [325]:
df["Contributeur :"] = df["Contributeur :"].str.extract(r'^([^.(]+(?:\s*\([^)]*\))?)')
# Utilisation d'une regex pour extraire le texte avant le premier point de chaque ligne, en ignorant d'éventuels points dans les parenthèses (années de naissance et mort)
print(df["Contributeur :"].value_counts())

Contributeur :
Vatar, René-Charles-François (1761-1835)    6
Houssaye, Henri (1853-1919)                 6
Mendel, Charles (1858-1917)                 4
Bastide, Jean-François de (1724-1798)       4
Indochine française                         3
                                           ..
Meulemans, Auguste (1831-1902)              1
Nicot, J                                    1
Ignon, Jean-Joseph-Marie (1772-1857)        1
Wolf, Pierre-René (1899-1972)               1
Dilhan, Alphonse                            1
Name: count, Length: 847, dtype: int64


In [326]:
print(df["Date d'édition :"].value_counts())

Date d'édition :
                                                                                                                                                                                                                                                                                                                                                                                                                                   74
1869-1869; La Châtre, Maurice (1814-1900). Directeur de publication; http://catalogue.bnf.fr/ark:/12148/cb32694337p | Liens: http://catalogue.bnf.fr/ark:/12148/cb32694337p; français; Français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32694337p/date                                                                                                                                                                       1
1906-1906; http://catalogue.bnf.fr/ark:/12148/cb327445528 | Liens: http://catalogue.bnf.fr/ark:/12148/cb327445528; A pour reproduction : Le

In [327]:
import pandas as pd

# Extraction du texte à gauche du premier tiret "-"
df["Date d'édition :"] = df["Date d'édition :"].str.split("-").str[0]

# Transformation du texte en valeur numérique
df["Date d'édition :"] = pd.to_numeric(df["Date d'édition :"], errors="coerce")


In [328]:
# transformation en entiers --> Les NaNs sont remplacés par la valeur "2040"
df["Date d'édition :"] = df["Date d'édition :"].fillna(2040).astype(int)


# Affichage des premières lignes pour vérifier le résultat
print(df["Date d'édition :"].value_counts())

Date d'édition :
2040    635
1944    135
194     114
1943     74
1907     68
       ... 
1988      1
2001      1
1777      1
1717      1
1702      1
Name: count, Length: 270, dtype: int64


In [329]:
df[df["Date d'édition :"]==194]
#df[df["Date d'édition :"]==0]

Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :
7,Valeur vide,,Bibliothèque nationale de France,,194,,ark:/12148/cb43839458g/date | Liens: https://g...,Français; ark:/12148/cb43839458g/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb43839458g...,,,Musée de la Résistance nationale / Champigny-s...,,"Le Réveil : organe du Parti communiste, sectio...",https://gallica.bnf.fr/ark:/12148/cb43839458g/...,[s.n.][s.n.]; 194.-194.; http://catalogue.bnf....
551,Valeur vide,,,,194,,ark:/12148/cb32849059p/date | Liens: https://g...,Espagnol; ark:/12148/cb32849059p/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb32849059p...,,,,,Reconquista de España : organo de Unión nacion...,https://gallica.bnf.fr/ark:/12148/cb32849059p/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...
552,Valeur vide,,,,194,,ark:/12148/cb32849060w/date | Liens: https://g...,Espagnol; ark:/12148/cb32849060w/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb32849060w...,,,"Bibliothèque nationale de France, département ...",,Reconquista de España : suplemento de la regio...,https://gallica.bnf.fr/ark:/12148/cb32849060w/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...
627,Valeur vide,,,,194,,ark:/12148/cb327787992/date | Liens: https://g...,allemand; ark:/12148/cb327787992/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb327787992...,,,"Bibliothèque nationale de France, département ...",,Der Friedensbote : organ der unpolitischen Fri...,https://gallica.bnf.fr/ark:/12148/cb327787992/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...
685,Valeur vide,,,Front national de lutte pour la libération et ...,194,,ark:/12148/cb328473816/date | Liens: https://g...,Français; ark:/12148/cb328473816/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb328473816...,,,,,Radio France; [s.n.]; 194.-194.; Front nationa...,https://gallica.bnf.fr/ark:/12148/cb328473816/...,[s.n.]; 194.-194.; Front national de lutte pou...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3597,Valeur vide,,,,194,,,français; | Liens: https://gallica.bnf.fr/ark...,,,http://catalogue.bnf.fr/ark:/12148/cb328915533...,,,,,La Voix du mineur : organe des syndicats des m...,https://gallica.bnf.fr/ark:/12148/cb328915533/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...
4489,Valeur vide,,,,194,,ark:/12148/cb43790676v/date | Liens: https://g...,français; ark:/12148/cb43790676v/date | Liens:...,,,http://catalogue.bnf.fr/ark:/12148/cb43790676v...,,,,,La Voix des emprisonnés : organe de la prison ...,https://gallica.bnf.fr/ark:/12148/cb43790676v/...,[s.n.] (Montpellier ?); 194.-194.; http://cata...
4502,Valeur vide,Front national de lutte pour la libération et ...,,,194,,,,,,http://catalogue.bnf.fr/ark:/12148/cb437860811...,,,,,Notre action : bulletin d'information du Front...,https://gallica.bnf.fr/ark:/12148/cb437860811/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...
4541,Valeur vide,Parti communiste français. Fédération (Hérault),,,194,,,,,,http://catalogue.bnf.fr/ark:/12148/cb437894439...,,,,,La Terre du Midi : organe mensuel de défense p...,https://gallica.bnf.fr/ark:/12148/cb437894439/...,[s.n.]; 194.-194.; http://catalogue.bnf.fr/ark...


In [330]:
print(df["Date de mise en ligne :"].value_counts())

Date de mise en ligne :
              4982
22/09/2014       2
06/03/2017       2
16/02/2020       1
29/06/2020       1
09/08/2020       1
27/09/2020       1
30/05/2018       1
23/06/2019       1
07/02/2021       1
25/03/2019       1
30/05/2016       1
09/02/2020       1
18/04/2021       1
08/04/2021       1
Name: count, dtype: int64


In [331]:
from datetime import datetime

# Conversion de la colonne "Date de mise en ligne :" au format YYYY-MM-DD
df["Date de mise en ligne :"] = pd.to_datetime(
    df["Date de mise en ligne :"], format="%d/%m/%Y"
).dt.strftime("%Y-%m-%d")

In [332]:
print(df["Langue :"].value_counts())

Langue :
                                                                                                                                                                                                            2097
Français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb42768804q/date                                                                                                                                         1
Français; ark:/12148/cb43667224d/date | Liens: https://gallica.bnf.fr/ark:/12148/cb43667224d/date; Bibliothèque de la Cour de cassation, 2015-163603                                                           1
Français; ark:/12148/cb43839458g/date | Liens: https://gallica.bnf.fr/ark:/12148/cb43839458g/date; Musée de la Résistance nationale / Champigny-sur-Marne, 2014-129150; Bibliothèque nationale de France       1
français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb345202222/date                                                                                     

In [333]:
# Extraction du texte à gauche du point-virgule ";" et suppression des majuscules
df["Langue :"] = df["Langue :"].str.split(";").str[0].str.lower()
print(df["Langue :"].value_counts())

Langue :
français             2793
                     2097
allemand               29
italien                24
anglais                13
espagnol                9
russe                   6
occitan                 5
polonais                5
suisse alémanique       4
multilingue             3
danois                  2
dialecte français       1
arménien                1
tahitien                1
tchèque                 1
portugais               1
roumain                 1
grec moderne            1
néerlandais             1
Name: count, dtype: int64


In [334]:
print(df["Notice d'ensemble :"].value_counts())

Notice d'ensemble :
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  4965
http://catalogue.bnf.fr/ark:/12148/cb343830882 | Liens: http://catalogue.bnf.fr/ark:/12148/cb343830882; français; Français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb343830882/date                                                                                                                                                                                                                                                                                             1
http://catalogue.bnf.fr/ark:/12148/cb3

In [335]:
print(df["Notice du catalogue :"].value_counts())

Notice du catalogue :
                                                                                                                                                                                                                                                                                                                                                              237
http://catalogue.bnf.fr/ark:/12148/cb32827164n | Liens: http://catalogue.bnf.fr/ark:/12148/cb32827164n; français; Français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32827164n/date                                                                                                                                                                        1
http://catalogue.bnf.fr/ark:/12148/cb34428663h | Liens: http://catalogue.bnf.fr/ark:/12148/cb34428663h; A pour reproduction : Mémoires de l'Académie de médecine (Paris. Reproduction numérique) = ISSN 3039-2462 (https://gallica.bnf.fr/ark:/12148/cb34428663h/date);  | Lie

In [336]:
print(df["Relation :"].value_counts())
filtre_première = df.loc[df["Relation :"] == "Première de couverture : 387901;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32826708k/date"]
print(filtre_première)

Relation :
                                                                                                           4404
Première de couverture : 387901;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32826708k/date                 1
Première de couverture : 211982; français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32706792q/date       1
Première de couverture : 212031;  | Liens: https://gallica.bnf.fr/ark:/12148/cb327521746/date                 1
Première de couverture : 212044; français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32759227n/date       1
                                                                                                           ... 
Première de couverture : 212011;  | Liens: https://gallica.bnf.fr/ark:/12148/cb327391703/date                 1
Première de couverture : 199655;  | Liens: https://gallica.bnf.fr/ark:/12148/cb32831943n/date                 1
Première de couverture : 255261;  | Liens: https://gallica.bnf.fr/ark:/12148/cb327741894/date

In [337]:
# Exemple : application de la transformation à la colonne "Relation :"
df["Relation :"] = df["Relation :"].str.extract(r"Première de couverture : (\d+);").astype(float).astype("Int64")


In [338]:
df.sort_values(by=['Relation :'], ascending=False)


Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Sujet :,Titre :,url,Éditeur :
3009,Valeur vide,,,,1855,,,,,A pour reproduction : Le Nouvelliste du Dauphi...,http://catalogue.bnf.fr/ark:/12148/cb328271054...,,984753,,,Le Nouvelliste du Dauphiné et du Vivarais : jo...,https://gallica.bnf.fr/ark:/12148/cb328271054/...,[s.n.] (Valence); 1855-1855; http://catalogue....
4113,Valeur vide,,,,1927,,,,,A pour reproduction : Journal des mutilés et a...,http://catalogue.bnf.fr/ark:/12148/cb32800113n...,,984727,,,Journal des mutilés et anciens combattants : r...,https://gallica.bnf.fr/ark:/12148/cb32800113n/...,[s.n.] (Montélimar); 1927-1930; http://catalog...
4145,Valeur vide,,,,1884,,,français,,A pour reproduction : Le Vendu (Reproduction n...,http://catalogue.bnf.fr/ark:/12148/cb32887278v...,,959944,,,Le Vendu : journal monarchiste illustré; [s.n....,https://gallica.bnf.fr/ark:/12148/cb32887278v/...,[s.n.] (Havre); 1884-1884; http://catalogue.bn...
620,Valeur vide,,,,1848,,,,,A pour reproduction : La Tribune du peuple (Ro...,http://catalogue.bnf.fr/ark:/12148/cb32881287c...,,959942,,,La Tribune du peuple : journal démocratique du...,https://gallica.bnf.fr/ark:/12148/cb32881287c/...,Impr. d'A. Péron (Rouen); 1848-1848; http://ca...
4949,Valeur vide,,,,1924,,,français,,A pour reproduction : Rouen gazette (Reproduct...,http://catalogue.bnf.fr/ark:/12148/cb32862901k...,,959932,,,Rouen gazette; [s.n.] (Rouen); 1924-1944; http...,https://gallica.bnf.fr/ark:/12148/cb32862901k/...,[s.n.] (Rouen); 1924-1944; http://catalogue.bn...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4990,Valeur vide,"Société des lettres, sciences et arts (Lozère)",,"Ignon, Jean-Joseph-Marie (1772-1857)",1827,,,,,A pour reproduction : Mémoires et analyse des ...,http://catalogue.bnf.fr/ark:/12148/cb32813447q...,,,,,Mémoires et analyse des travaux de la Société ...,https://gallica.bnf.fr/ark:/12148/cb32813447q/...,Imprimerie de J.J.M. Ignon (Mende); 1827-1849;...
4991,Valeur vide,,,"Vincent, Charles (1828-1888)",1861,,,français,,,http://catalogue.bnf.fr/ark:/12148/cb32788442g...,,,,,L'Illustrateur des dames et des demoiselles : ...,https://gallica.bnf.fr/ark:/12148/cb32788442g/...,"[s.n.] (Paris); 1861-1870; Vincent, Charles (1..."
4992,Valeur vide,,,"Wolf, Pierre-René (1899-1972)",1946,,,,,,,,,,,Seine : revue littéraire paraissant à Rouen / ...,https://gallica.bnf.fr/ark:/12148/cb32866487q/...,"[s.n.] (Rouen); 1946-1946; Meynard, Jacques (1..."
4994,Valeur vide,Comité d'études de l'économie impériale de Gra...,,,2040,,,,,,,,,,,Revue économique française / publiée par la So...,https://gallica.bnf.fr/ark:/12148/cb328594606/...,Société de géographie commercialeSociété de gé...


In [339]:
print(df["Source :"].value_counts())


Source :
                                                                                                                         4519
Bibliothèque nationale de France                                                                                            5
Bibliothèque nationale de France; Bibliothèque nationale de France                                                          4
Bibliothèque nationale de France, département Philosophie, histoire, sciences de l'homme, FOL-LC3-225                       2
Bibliothèque nationale de France, département Littérature et art, FOL-Y2-296                                                1
                                                                                                                         ... 
Bibliothèque nationale de France, département Philosophie, histoire, sciences de l'homme, 4-LC3-199                         1
Bibliothèque nationale de France, département Droit, économie, politique, 4-JO-4523; Bibliothèque nationale d

In [340]:
import pandas as pd
import re

# Fonction pour extraire ce qui est APRÈS la première ponctuation
def extract_after_punctuation(text):
    """Cette fonction permet d'extraire le texte après le premier caractère de ponctuation rencontré"""
    if pd.isna(text):  # Gérer les NaN
        return ""
    
    match = re.search(r"[,:;.-]\s*(.*)", text)  # Capture après la ponctuation
    return match.group(1) if match else ""  


# Fonction pour extraire ce qui est AVANT la première ponctuation
def extract_before_punctuation(text):
     """Cette fonction permet d'extraire le texte avant le premier caractère de ponctuation rencontré"""
    if pd.isna(text):  # Gérer les NaN
        return ""
    
    match = re.search(r"^(.*?)[,:;.-]", text)  # Capture avant la ponctuation
    return match.group(1).strip() if match else text  # Si pas de ponctuation, garder tout


# Application de la fonction sur la colonne "Source :"
df["Source (détail)"] = df["Source :"].apply(extract_after_punctuation)  # Partie après la ponctuation
df["Source :"] = df["Source :"].apply(extract_before_punctuation)  # Partie avant la ponctuation

# Localisation de la position de la colonne "Source :"
source_col_index = df.columns.get_loc("Source :")

# Insértion de la colonne "Source (détail)" juste après "Source :"
df.insert(source_col_index + 1, "Source (détail)", df.pop("Source (détail)"))

In [341]:
print(df["Source :"].value_counts())

Source :
                                                            4519
Bibliothèque nationale de France                             399
Musée de la Résistance nationale / Champigny                  35
Cité Internationale Universitaire de Paris                    13
Bibliothèque nationale et universitaire de Strasbourg          8
Musée Air France                                               6
Croix Rouge Française                                          2
Bibliothèque interuniversitaire Cujas                          1
Bibliothèque de la Cour de cassation                           1
Espace Air Passion                                             1
Bibliothèque de l'Académie nationale de médecine               1
AgroParisTech / Centre de Nancy                                1
Bibliothèque municipale d'Abbeville                            1
Réseau Canopé                                                  1
Fédération Française de BasketBall/Musée du Basket             1
Archives départe

In [342]:
print(df["Source (détail)"].value_counts())

Source (détail)
                                                                                                          4525
Bibliothèque nationale de France                                                                             4
2019-199757; Bibliothèque nationale de France                                                                2
département Philosophie, histoire, sciences de l'homme, FOL-LC3-225                                          2
département Philosophie, histoire, sciences de l'homme, FOL-LK19-707; Bibliothèque nationale de France       1
                                                                                                          ... 
GPPA, 2017-219638; Bibliothèque nationale de France                                                          1
2016-141789                                                                                                  1
département Droit, économie, politique, JO-82386                                                

In [343]:
# Filtrage des lignes contenant le mot "département"  --> Exploitable par tri?
filtered_df = df[df["Source (détail)"].str.contains("département", na=False)]
print(filtered_df["Source (détail)"].info())
print(filtered_df["Source (détail)"].value_counts())

<class 'pandas.core.series.Series'>
Index: 388 entries, 36 to 4898
Series name: Source (détail)
Non-Null Count  Dtype 
--------------  ----- 
388 non-null    object
dtypes: object(1)
memory usage: 6.1+ KB
None
Source (détail)
département Philosophie, histoire, sciences de l'homme, FOL-LC3-225                                       2
département Droit, économie, politique, JO-10052                                                          1
département Sciences et techniques, 8-V-8598                                                              1
département Philosophie, histoire, sciences de l'homme, FOL-LK19-707; Bibliothèque nationale de France    1
département Littérature et art, 8-Z-28468; Bibliothèque nationale de France; 09/02/2020                   1
                                                                                                         ..
département Droit, économie, politique, F-19037                                                           1
département Philos

In [344]:
df.head()

Unnamed: 0,Unnamed: 1,Auteur :,Conservation numérique :,Contributeur :,Date d'édition :,Date de mise en ligne :,Identifiant :,Langue :,Notice d'ensemble :,Notice du catalogue :,Notice du catalogue :.1,Relation :,Relation :.1,Source :,Source (détail),Sujet :,Titre :,url,Éditeur :
0,Valeur vide,,,,2040,,,français,,,http://catalogue.bnf.fr/ark:/12148/cb42768809f...,,,,,Guerre mondiale (1914-1918) -- Aspect religieu...,Bulletin paroissial mensuel de la cathédrale d...,https://gallica.bnf.fr/ark:/12148/cb42768809f/...,F. Rouet (); 1907; Guerre mondiale (1914-1918)...
1,Valeur vide,Association internationale des résidents de la...,,,1985,,,,,,http://catalogue.bnf.fr/ark:/12148/cb452698066...,,,,,,Aircup / Association internationale des réside...,https://gallica.bnf.fr/ark:/12148/cb452698066/...,Association internationale des résidents de la...
2,Valeur vide,,Bibliothèque nationale de France,,1934,,ark:/12148/cb45265625z/date | Liens: https://g...,anglais,,,http://catalogue.bnf.fr/ark:/12148/cb45265625z...,,,Cité Internationale Universitaire de Paris,2017-118680; Bibliothèque nationale de France,,European herald; [s.n.] (London); 1934-1936; h...,https://gallica.bnf.fr/ark:/12148/cb45265625z/...,[s.n.] (London); 1934-1936; http://catalogue.b...
3,Valeur vide,France. Assemblée nationale constituante (1789...,,"Baudouin, François-Jean (1759-1835)",1790,,,,,,,,,,,,Collection générale des décrets rendus par l'A...,https://gallica.bnf.fr/ark:/12148/cb471788931/...,"A Paris, chez Baudouin, imprimeur de l'Assembl..."
4,Valeur vide,,,,2040,,,français,,,http://catalogue.bnf.fr/ark:/12148/cb42768804q...,,,,,Guerre mondiale (1914-1918) -- Aspect religieu...,Bulletin paroissial mensuel : Notre-Dame de Va...,https://gallica.bnf.fr/ark:/12148/cb42768804q/...,F. Rouet (); 1908; Guerre mondiale (1914-1918)...


In [345]:
print(df["Sujet :"].value_counts())

Sujet :
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 4457
Médecine -- Associations Relancer la recherche sur ce sujet dans Gallica | Liens: https://gallica.bnf.fr/services/engine/search/sru?operation=searchRetrieve&version=1.2&query=dc.subject%20adj%20%22m%C3%A9decine%20%20%20%20associations%22; http://catalogue.bnf.fr/ark:/12148/cb34428663h | Liens: http://catalogue.bnf.fr/ark:/12148/cb34428663h; A p

In [346]:
import pandas as pd

# Fonction pour extraire le texte selon les conditions
def extraction_sujet(text):
     """Cette fonction permet d'extraire le sujet en fonction du pattern que j'ai défini selon 3 règles"""
    if pd.isna(text):  # Gestion des NaN
        return text
    
    # Condition 1 : Extraction à gauche de " Relancer" (espace inclus)
    if " Relancer" in text:
        return text.split(" Relancer")[0].strip()
    
    # Condition 2 : Extraction à gauche de " --" (espace inclus)
    if " --" in text:
        return text.split(" --")[0].strip()
    
    # Condition 3 : Si aucune des conditions n'est remplie, retourner le texte original
    return text

# Application de la fonction à la colonne "Sujet :"
df["Sujet :"] = df["Sujet :"].apply(extraction_sujet)

# Affichage des résultats
print(df["Sujet :"].value_counts())

Sujet :
                                                    4457
Guerre mondiale (1914-1918) -- Aspect religieux      231
Sciences de la santé                                  19
Médecine -- Associations                              14
France -- Colonies -- Administration -- Histoire      13
                                                    ... 
Exposition internationale (1900 ; Paris)               1
Proust, Marcel (1871-1922)                             1
Chemins de fer                                         1
Administration -- Tarn (France) -- 1900-1945           1
Impôt                                                  1
Name: count, Length: 187, dtype: int64


In [347]:
print(df["Titre :"].value_counts()) 

Titre :
La Voix du peuple du Midi : organe républicain socialiste des travailleurs; [s.n.] (Toulon); 1891-1900; http://catalogue.bnf.fr/ark:/12148/cb41120617k | Liens: http://catalogue.bnf.fr/ark:/12148/cb41120617k; A pour reproduction : La Voix du peuple du Midi (Reproduction numérique) = ISSN 2698-1319 (https://gallica.bnf.fr/ark:/12148/cb41120617k/date); Première de couverture : 403419; français;  | Liens: https://gallica.bnf.fr/ark:/12148/cb41120617k/date                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         

In [348]:
print(df["Éditeur :"].value_counts())

Éditeur :
                                                                                                                                                                                                                                                                                                                                                                                      38
Amis de la tradition juive (Colmar); 19..-19..; http://catalogue.bnf.fr/ark:/12148/cb327170509 | Liens: http://catalogue.bnf.fr/ark:/12148/cb327170509; français; allemand;  | Liens: https://gallica.bnf.fr/ark:/12148/cb327170509/date                                                                                                                                               1
A Rouen, chez Veuve Trenchard-Behourt, imprimeur-libraire, rue du Petit-Puits, n°. 23. 1814.; 1814-1814; http://catalogue.bnf.fr/ark:/12148/cb327866149 | Liens: http://catalogue.bnf.fr/ark:/12148/cb327866149; français; Français;  | Lien

In [349]:
import pandas as pd
import re

def extract_lieu(text):
    """ Extrait le lieu d'édition s'il est entre parenthèses ou après 'A' et avant la première virgule """
    if pd.isna(text) or text.strip() == "":
        return ""

    # Cas 1 : Lieu dans des parenthèses "(Lieu)"
    match = re.search(r"\(([^)]+)\)", text)
    if match:
        return match.group(1).strip()

    # Cas 2 : Lieu après "A " et avant la première virgule
    match = re.search(r"A ([^,]+),", text)
    if match:
        return match.group(1).strip()

    return ""

def extract_editeur(text):
    """ Extrait le nom de l'éditeur en fonction de la structure du texte """
    if pd.isna(text) or text.strip() == "":
        return ""

    # Cas 1 : Éditeur avant la première parenthèse "(Lieu)"
    match = re.search(r"^(.+?)\s*\(", text)
    if match:
        return match.group(1).strip()

    # Cas 2 : Éditeur entre la première et la deuxième virgule après "A"
    match = re.search(r"A [^,]+, ([^,]+),", text)
    if match:
        return match.group(1).strip()

    return text.split(";")[0].strip()  # Par défaut, prendre avant le premier ';'

def extract_details(text):
    """ Extrait les détails en supprimant les infos déjà extraites et les liens """
    if pd.isna(text) or text.strip() == "":
        return ""

    # Supprimer les liens
    cleaned_text = re.sub(r"\| Liens?: .*", "", text)

    # Supprimer le lieu et l'éditeur si extraits
    lieu = extract_lieu(text)
    editeur = extract_editeur(text)

    if lieu:
        cleaned_text = cleaned_text.replace(f"({lieu})", "").strip()
    if editeur:
        cleaned_text = cleaned_text.replace(editeur, "").strip()

    return cleaned_text

# Application des fonctions
df["Lieu"] = df["Éditeur :"].apply(extract_lieu)
df["Éditeur"] = df["Éditeur :"].apply(extract_editeur)
df["Éditeur (détails)"] = df["Éditeur :"].apply(extract_details)

# Vérification
print(df[["Éditeur :", "Lieu", "Éditeur", "Éditeur (détails)"]].head(10))


                                           Éditeur :       Lieu  \
0  F. Rouet (); 1907; Guerre mondiale (1914-1918)...  1914-1918   
1  Association internationale des résidents de la...      Paris   
2  [s.n.] (London); 1934-1936; http://catalogue.b...     London   
3  A Paris, chez Baudouin, imprimeur de l'Assembl...  1759-1835   
4  F. Rouet (); 1908; Guerre mondiale (1914-1918)...  1914-1918   
5  A Paris, chez l'auteur, rue de la Sourdiere, n...      Paris   
6  impr. de Rey, Curial et Cie (Saïgon); 1895-190...     Saïgon   
7  [s.n.][s.n.]; 194.-194.; http://catalogue.bnf....              
8  Fischbacher (Paris); 1890-1910; http://catalog...      Paris   
9  Cologne chez la veuve Couraprez. [1723] - A Cl...  16..-17..   

                                             Éditeur  \
0                                           F. Rouet   
1  Association internationale des résidents de la...   
2                                             [s.n.]   
3  A Paris, chez Baudouin, imprimeur d

In [350]:
# Affichage des premières lignes pour vérifier le résultat
print(df[["Éditeur :", "Lieu", "Éditeur (détails)"]].head())


                                           Éditeur :       Lieu  \
0  F. Rouet (); 1907; Guerre mondiale (1914-1918)...  1914-1918   
1  Association internationale des résidents de la...      Paris   
2  [s.n.] (London); 1934-1936; http://catalogue.b...     London   
3  A Paris, chez Baudouin, imprimeur de l'Assembl...  1759-1835   
4  F. Rouet (); 1908; Guerre mondiale (1914-1918)...  1914-1918   

                                   Éditeur (détails)  
0  (); 1907; Guerre mondiale  -- Aspect religieux...  
1  ; 1985-1986; http://catalogue.bnf.fr/ark:/1214...  
2  ; 1934-1936; http://catalogue.bnf.fr/ark:/1214...  
3                        . Directeur de publication;  
4  (); 1908; Guerre mondiale  -- Aspect religieux...  


In [351]:
print(df[["Éditeur"]].value_counts())

Éditeur                                           
[s.n.]                                                1593
(Paris)                                                894
[s.n.][s.n.]                                            96
(S. l.)                                                 59
[s.n.?]                                                 51
                                                      ... 
impr. de V. Leleux                                       1
(A Paris); 1792-1792; Prault, Laurent-François           1
(A Paris); 1791-1791; Delacroix-Frainville, Joseph       1
(A Paris); 1786-1787; Coupé, Jean-Marie-Louis            1
(A Metz)                                                 1
Name: count, Length: 1756, dtype: int64


In [352]:
df.to_json("metadata_gallica_cleanV2.json", orient="records", indent=4, force_ascii=False)
df.to_csv("metadata_gallica_cleanV2.csv", index=False, encoding="utf-8")

In [356]:
# III  Création et remplissage des bases de données

In [357]:
# IMPORTANT POUR LA DOC: se connecter à mysql via MySQL shell: https://efkumah.hashnode.dev/how-to-fix-mysql-syntax-error-unexpected-identifier

In [23]:
# 2. base de données MongoDB

import pymongo
import pandas as pd
import mysql.connector  # Permet d'utiliser mysql-connector-python pour MySQL
from dotenv import load_dotenv  # Permet de charger les variables d'environnement
import os 

load_dotenv() # chargement des variables d'environnement 

# Connexion à MySQL
mysql_conn = mysql.connector.connect(
    host="localhost",
    user=os.getenv("DB_USER"),
    password=os.getenv("DB_PASSWORD"),
    database="Revues_numerisees"
)

mysql_cursor = mysql_conn.cursor()


# Connexion MongoDB via les variables d'environnement
mongo_client = pymongo.MongoClient(os.getenv("MONGO_URI"))  
mongo_db = mongo_client[os.getenv("MONGO_DB")]
notices_collection = mongo_db[os.getenv("MONGO_COLLECTION")]


# Chargement du dataframe
df = pd.read_csv("metadata_gallica_cleanV2.csv")


# Remplacement des NaN par des None dans le DataFrame  --> En effet, MySQL ne sait pas gérer les Nans mais "None" est géré par les deux: équivaut à "Null" en SQL et "Nan" en Python
df = df.where(pd.notna(df), None)


# Troncature des colonnes VARCHAR avec un slicing à 254 caractères   --> Permet de limiter la data insérée en nombre de charactères et de rester en dessous de la limite de Varchar (255) 
varchar_columns = ["Titre :", "Contributeur :", "Langue :", "Identifiant :", "Source :", 
                   "Conservation numérique :", "Date d'édition :", "url"]

for col in varchar_columns:
    if col in df.columns:
        df[col] = df[col].apply(lambda x: x[:254] if isinstance(x, str) else x)



# Insertion des données SQL
for _, row in df.iterrows():
    # Insertion dans la table Revue
    sql_insert_revue = """
    INSERT INTO Revue (Titre, Contributeur, Langue, Identifiant, Source, Date_de_mise_en_ligne, 
                       Conservation_numerique, Date_d_edition, URL) 
    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s)
    """
    mysql_cursor.execute(sql_insert_revue, (
        row["Titre :"], row["Contributeur :"], row["Langue :"], row["Identifiant :"], 
        row["Source :"], row["Date de mise en ligne :"], row["Conservation numérique :"], 
        row["Date d'édition :"], row["url"]
    ))

    mysql_conn.commit()

    # Récupérer l'ID de la revue insérée
    mysql_cursor.execute("SELECT LAST_INSERT_ID()")
    id_titre = mysql_cursor.fetchone()[0]

    # Insertion des Auteurs
    sql_insert_auteur = "INSERT INTO Auteur (Auteur) VALUES (%s)"
    if pd.notna(row["Auteur :"]):  # Vérifier si la colonne n'est pas vide
        mysql_cursor.execute(sql_insert_auteur, (row["Auteur :"],))
        mysql_conn.commit()

    # Insertion des sujets
    sql_insert_sujet = "INSERT INTO Sujet (Sujet) VALUES (%s)"
    if pd.notna(row["Sujet :"]):  # Vérifier si la colonne n'est pas vide
        mysql_cursor.execute(sql_insert_sujet, (row["Sujet :"],))
        mysql_conn.commit()

    # Insérer les notices correspondantes dans MongoDB
    notices_collection.insert_one({
        "id_Titre": id_titre,
        "Notice_ensemble": row["Notice d'ensemble :"],
        "Notice_catalogue": row["Notice du catalogue :"]
    })

# Fermer les connexions
mysql_cursor.close()
mysql_conn.close()
mongo_client.close()

print("OK! Données insérées avec succès dans MySQL et MongoDB !")

OK! Données insérées avec succès dans MySQL et MongoDB !


In [20]:
# requêtes sql via Python

In [21]:
# 1. Requête SQL pour les revues de 2 sources universitaires
sql_query_1 = """
SELECT * FROM Revue 
WHERE Source IN ('Cité Internationale Universitaire de Paris', 'Bibliothèque nationale et universitaire de Strasbourg') 
ORDER BY Titre ASC;
"""
mysql_cursor.execute(sql_query_1)
result_1 = mysql_cursor.fetchall()
print(" Revues des sources universitaires :", result_1)

📌 Revues des sources universitaires : [(3945, 'Union des yachts français; (Paris); 189?-1901; http://catalogue.bnf.fr/ark:/12148/cb328839199 | Liens: http://catalogue.bnf.fr/ark:/12148/cb328839199; français; Français; ark:/12148/cb328839199/date | Liens: https://gallica.bnf.fr/ark:/12148/cb328839199/', None, 'français', 'ark:/12148/cb328839199/date | Liens: https://gallica.bnf.fr/ark:/12148/cb328839199/date; Bibliothèque du Musée national de la Marine, 2013-167695; Bibliothèque nationale de France', 'Bibliothèque du Musée national de la Marine', None, None, 'Bibliothèque nationale de France', 2040, 'https://gallica.bnf.fr/ark:/12148/cb328839199/date'), (8943, 'Union des yachts français; (Paris); 189?-1901; http://catalogue.bnf.fr/ark:/12148/cb328839199 | Liens: http://catalogue.bnf.fr/ark:/12148/cb328839199; français; Français; ark:/12148/cb328839199/date | Liens: https://gallica.bnf.fr/ark:/12148/cb328839199/', None, 'français', 'ark:/12148/cb328839199/date | Liens: https://gallica.bn

In [36]:
mysql_cursor.close()
mysql_conn.close()

# Réouvrir la connexion MySQL
mysql_conn = mysql.connector.connect(
    host="localhost",
    user=os.getenv("DB_USER"),
    password=os.getenv("DB_PASSWORD"),
    database="Revues_numerisees"
)
mysql_cursor = mysql_conn.cursor()


In [None]:
# 3 Requête SQL pour les revues entre 1939-1945 sans sujet spécifique
sql_query_2 = """
SELECT * FROM Revue 
WHERE Date_d_edition BETWEEN 1939 AND 1960
AND sujet = 'Guerre mondiale (1914-1918) -- Aspect religieux';
;
"""
mysql_cursor.execute(sql_query_2)
result_2 = mysql_cursor.fetchall()
print("📌 Revues entre 1939 et 1960 sans le sujet 'Guerre mondiale (1914-1918) -- Aspect religieux' :", result_2)

mysql_cursor.close()
mysql_conn.close()

In [None]:
# 3. Requête pour trouver les revues contenant "ISSN" dans "Notice du catalogue"

# Connexion à MongoDB (logiciel)
mongo_client = pymongo.MongoClient("mongodb://localhost:27017/")
mongo_db = mongo_client["revues_mongo"]
notices_collection = mongo_db["Notices"]

doc = notices_collection.find_one()
print(doc)


query = { "Notice_catalogue": { "$regex": "ISSN"} }
result = notices_collection.find(query)

# Affichage des résultats
for doc in result:
    print(doc)

mongo_client.close()
