2. Synchronisation de la copie de HAL
    * API en sortie xml-tei pour rechercher les notices nouvelles et les notices modifiées
        * C'est le critère "dateLastIndexed_tdate" qui est préféré à "dateModified_tdate" et à "dateReleased_tdate" pour couvrir les notices créées, les notices modifiées et celles qui sont réindexées pour d'autres raisons.
        * critère : q=dateLastIndexed_tdate:[NOW-1DAY%20TO%20NOW/HOUR]. Explication : [maintenant début de l'heure courante - 1 JOUR (=24h)] JUSQU'A [maintenant début de l'heure courante])
        * pour info : Pour tester avec dates exactes : api.archives-ouvertes.fr/search/INRIA2?q=dateLastIndexed_tdate:["2024-07-03T15:00:00.224Z"%20TO%20"2024-07-04T16:00:00.224Z"]&rows=1&wt=php&fl=docid,uri_s,dateLastIndexed_tdate&sort=docid%20asc&cursorMark=*
        * autres critères : rows=1 et cursorMark pour itérer sur chaque notice du résultat
        * notices
            * enregistrer chaque notice xml-tei (métadonnés de hal) correspondant à chaque docid (il y a un docid par version, donc cela permet d'enregistrer toutes les versions.
            * format du nom du fichier : halID_version.xml (exemple : hal-01044648_v1.xml)
            * dossier de stockage : /data/année/date_du_jour/Notices_Xml-tei_de_Hal
        * fichiers
            * Enregistrer uniquement le fichier PDF associé à la notice (l'objectif étant d'en extraire le full text dans un deuxième temps) dans un dossier correspondant à l'année et un sous-dossier correspondant au jour.
            * Critère d'identification des fichiers dans la notice : existence de balises \<ref\> dans \<edition\>, qui contiennent les liens vers tous les fichiers déposés dans la notice et aussi les liens externalLink
            * format du nom du fichier : " HALID_version_nom_du_fichier.extension du fichier" . exemple : inria-00441254_v2_NEL-splitting.pdf
            * exclusion : tout ce qui n'est pas un fichier PDF (page html ou juste "document" (ex: hal-01000423), tout ce qui est ExternalLink (car on ne connaît pas la licence) et tout ce qui est sous embargo.
            * Embargo : un fichier est créé qui liste les fichiers sous embargo avec la date.
            * dossier de stockage : ../pdf_de_hal/année/date_du_jour
        

In [None]:
###################################################
###################################################
## Ajout quotidien de notices nouvelles / modifiées,  et de leurs fichiers
#/!\ Retirer le filtre INRIA dans base_url pour la mise en prod!
#/!\ retirer la limite à 300 du compteur à la fin pour la mise en prod!
###################################################
###################################################

import requests
from lxml import etree
import time
import logging
import re
import os
import pandas as pd
from datetime import datetime, date
import shutil
import urllib.parse
import openpyxl

# Dates actuelles
current_datetime = datetime.now()
date_extraction_current = current_datetime.strftime("%Y_%m_%d")
annee_current = current_datetime.strftime("%Y")
current_date = current_datetime.date()

# Répertoire de log
log_directory = '/data/log/'
os.makedirs(log_directory, exist_ok=True)
log_file = os.path.join(log_directory, f"{date_extraction_current}_log_synchro_part2_hal.txt")
logging.basicConfig(filename=log_file, level=logging.INFO, format='%(asctime)s - %(message)s', filemode='w')

# API HAL
base_url = "https://api.archives-ouvertes.fr/search/"
query = "dateLastIndexed_tdate:[NOW-1DAY TO NOW/HOUR]"
params = {"wt": "xml-tei", "rows": 1, "sort": "docid asc"}

# Variables
embargos = set()
compteur = affichage = compte_embargo = compte_externalLink = compteur_notices_enregistrees = compteur_telechargements = 0

# Dossiers
docid_folder_xml = f"/data/Notices_Xml-tei_de_Hal/{annee_current}/{date_extraction_current}"
docid_folder_pdf = f"/data/pdf_de_hal/{annee_current}/{date_extraction_current}/"
os.makedirs(docid_folder_xml, exist_ok=True)
os.makedirs(docid_folder_pdf, exist_ok=True)

cursor_mark = "*"
previous_cursor_mark = None
namespaces = {"tei": "http://www.tei-c.org/ns/1.0"}

# Boucle notice par notice
while cursor_mark != previous_cursor_mark:
    compteur += 1
    params["cursorMark"] = cursor_mark
    full_url = f"{base_url}?q={query}&wt={params['wt']}&rows={params['rows']}&sort={params['sort']}&cursorMark={params['cursorMark']}"
    response = requests.get(full_url)
    if response.status_code != 200:
        logging.error(f"Erreur: {response.status_code}")
        break

    try:
        data = etree.fromstring(response.content)
    except etree.XMLSyntaxError as e:
        logging.error(f"Erreur de parsing: {e}")
        break

    # Affichage du nombre de notices trouvées par l'API
    total_results = data.xpath('.//tei:measure[@commodity="totalSearchResults"]', namespaces=namespaces)
    if total_results and affichage == 0:
        #print(f"Nbre de notices indexées ces dernières 24h: {total_results[0].get('quantity')}")
        logging.info(f"Nbre de notices indexées ces dernières 24h: {total_results[0].get('quantity')}")
        affichage += 1
    
    # Récupération du "cursor_mark" pour la notice suivante
    next_cursor_mark = data.get("next")
    if not next_cursor_mark:
        break

    # Récpération du HalID, de la version (n_value)
    halID_element = data.xpath('.//tei:idno[@type="halId"]', namespaces=namespaces)
    if not halID_element:
        logging.error("HAL ID not found")
        break
    halID_value = halID_element[0].text
    #print(f"hal ID: {halID_value}")

    edition_current = data.xpath('.//tei:edition[@type="current"]', namespaces=namespaces)
    n_value = edition_current[0].get('n') if edition_current else ''

    #Définition du nom de fichier
    nom_fichier = os.path.join(docid_folder_xml, f'{halID_value}_{n_value}.xml')
    logging.info(f"notice: {halID_value}_{n_value}.xml")
    compteur_notices_enregistrees += 1

    # Enregistrement de la notice xml-tei
    with open(nom_fichier, "wb") as f:
        f.write(response.content)


    # Fonctions de nettoyage des noms de fichier
    # suppression d'un éventuel "?" et de ce qui suit dans le titre du fichier
    def clean_filename(filename):
        return filename.split('?')[0]

    # validation des caractères composant le nom de fichier
    def is_valid_filename(filename):
        return bool(re.match(r'.*\.[a-zA-Z]{3}$', filename))


    # Repérage des PDF et enregistrement
    refs = data.xpath('.//tei:edition[@type="current"]/tei:ref', namespaces=namespaces)

    # on spéciefie les types de fichiers qu'on va télécharger
    include_file_extension = ("pdf", "PDF")

    # Passage en revue de tous les liens vers un fichier
    for ref in refs:
        ref_type = ref.get('type')
        subtype = ref.get('subtype')
        n = ref.get('n')
        target = ref.get('target')
        date_tag = ref.find('tei:date', namespaces)

        # si le fichier ne termine pas par PDF et n'est pas de type "file", on passe à la suivante ref.
        if not target or not target.endswith(include_file_extension) or ref_type != 'file':
            continue

        # Identification d'un éventuel embargo
        embargo = 'False'
        embargomainfile = False

        if date_tag is not None:
            not_before_date = date_tag.get('notBefore')
            if not_before_date:
                ref_date = datetime.strptime(not_before_date, '%Y-%m-%d').date()
                # Si la date d'embargo est postérieure à la date du jour
                if ref_date > current_date:
                    embargo = 'True'
                    embargomainfile = ref_type == 'file'
                    embargos.add((ref_date, halID_value, embargomainfile, target))
                    logging.info(f"embargo à {ref_date} pour {halID_value}")
                    #print(f"embargo à {ref_date} pour {halID_value}")
                    continue

        
        file_name = clean_filename(os.path.basename(target))
        name, ext = os.path.splitext(file_name)

        # Limitation de la longueur du nom de fichier
        if len(file_name) > 100:
            file_name = f"{name[:97]}{ext}"

        pdf_filename = os.path.join(docid_folder_pdf, f"{halID_value}_{n_value}_main_{file_name}")


        if is_valid_filename(pdf_filename):
            try:
                r = requests.get(target)
                r.raise_for_status()
                with open(pdf_filename, 'wb') as pdf_file:
                    pdf_file.write(r.content)
                    compteur_telechargements += 1
                    logging.info(f"fichier: {halID_value}_{n_value}_{file_name}")
                    #print(f'Téléchargé: {pdf_filename}')
            except Exception as e:
                logging.error(f"Erreur pour {halID_value}{n_value} - {ref_type} - {target}: {e}")

    # Définition du prochain cursor mark (pour la boucle)
    previous_cursor_mark = cursor_mark
    cursor_mark = next_cursor_mark

#Enregistrement des références de fichier sous embargo
#print(f"Liste des embargos : {embargos}")
compte_embargo = len(embargos)

embargo_file_path = "/data/log/Embargos.xlsx"
if os.path.exists(embargo_file_path):
    df_existing = pd.read_excel(embargo_file_path)
    df_new = pd.DataFrame(embargos, columns=['ref_date', 'halID_value','embargomainfile', 'target'])
    df_combined = pd.concat([df_existing, df_new], ignore_index=True)
else:
    df_combined = pd.DataFrame(embargos, columns=['ref_date', 'halID_value','embargomainfile', 'target'])

df_combined.to_excel(embargo_file_path, index=False)



logging.info(f"notices sous embargo : {compte_embargo}")
logging.info(f"nbre notices xml enregistrées : {compteur_notices_enregistrees}")
logging.info(f"nbre de fichiers enregistrés : {compteur_telechargements}")

print(f"notices sous embargo : {compte_embargo}")
print(f"nbre notices xml enregistrées : {compteur_notices_enregistrees}")
print(f"nbre de fichiers enregistrés : {compteur_telechargements}")

logging.info("Synchro 2e partie terminée.")
print("Synchro 2e partie terminée.")


Nbre de notices indexées ces dernières 24h: 27781
hal ID: tel-01003171


KeyboardInterrupt: 

In [2]:
print(f"notices sous embargo : {compte_embargo}")
print(f"nb fichiers non enregistrés car externalLink : {compte_externalLink}")
print(f"nbre notices xml enregistrées : {compteur_notices_enregistrees}")
print(f"nbre de fichiers enregistrés : {compteur_telechargements}")

notices sous embargo : 0
nb fichiers non enregistrés car externalLink : 0
nbre notices xml enregistrées : 253
nbre de fichiers enregistrés : 164
