In [1]:
import requests
from requests.exceptions import HTTPError
import csv
import json
import pandas as pd
import os
import glob
import datetime

# Récupérer des données de Hal

On propose à travers ce notebook de récuperer les métadonnées (doi, pmid, hal-id, auteurs, etc.) des dépôts associés à une collection Hal en utilisant l'api de Hal. Ici, la collection correspond aux publications dont au moins un des auteurs est affilié à un établissement d'enseignement supérieur ou de recherche comme l'Université Paris 8. On peut descendre au niveau d'un laboratoire ou monter au niveau d'une Comue ou d'un EPST.

Le nombre de métadonnées peut être allongée ou raccourcie en fonction des besoins. Cela se fait en modifiant la variable `"fl"`. 

En sortie, on récupère des fichiers csv par année de publication, sachant que la requête se fait sur les publication parues entre 2016 et l'année en cours. Chaque fichier est stocké dans `"./Data/raw/[annee]/"`, suivant en ce sens la procédure de l'université de Lorraine. Le nom de fichier suit la norme suivante : `hal_<nom-etablissemen>_annee.csv` (exemple : `hal_univ_paris8_annee.csv`).

Pour rappel, les url de l'api hal et de sa documentation sont : https://api.archives-ouvertes.fr/search et  https://api.archives-ouvertes.fr/docs/search

In [2]:
nom_universite = "univ_paris8" #sert pour le nommage des fichiers
struct_hal_Id = 11141 #id de l'université Paris 8

url_api_search = "https://api.archives-ouvertes.fr/search"

params = {
    "q":f"structId_i:{struct_hal_Id}", #la clé de recherche. On peut envisager de faire une recherche sur d'autre champs
    "wt":"json", #Le format de sortie, ici json
    "fl" : "halId_s,authFullName_s,authFirstName_s,authLastName_s,authIdHal_s,authIdHal_i,orcidId_s,orcidId_i,doiId_s,pubmedId_s,publicationDateY_i,publicationDate_tdate,openAccess_bool,labStructName_s", #La liste des champs obtenues
    "sort" : "publicationDateY_i asc", #le champ de tri, ici tri croissant sur l'année
    "rows" : 10} # le nombre de ligne. Par défaut, l'api affiche les 30 première ligne et le maximum fixé est de 10000.

La cellule ci-dessous permet de définir les paramètres de la requête. On utilise ensuite le module `requests` pour interroger l'api.

Les paramètres que nous avons ici définies correspondent à l'url suivante :

<a href="https://api.archives-ouvertes.fr/search/?q=structId_i:11141&wt=json&fl=label_s,authFullName_s,authIdHal_s,authIdHal_i,orcidId_s,orcidId_i,doiId_s,pubmendId_s&rows=10&sort=publicationDateY_i asc">https://api.archives-ouvertes.fr/search/?q=structId_i:11141&wt=json&fl=label_s,authFullName_s,authIdHal_s,authIdHal_i,orcidId_s,orcidId_i,doiId_s,pubmendId_s&rows=10&sort=publicationDateY_i asc</a>

En cliquant sur lien ou ne le collant dans la barre de recherche de votre navigateur vous verrez les résultats s'afficher. vous pouvez ainsi vérifier au préalable que votre requête fonctionne. Idem, la cellucle ci-dessous permet de vérifier que la fonction `requests.get()` ne retourne pas d'erreur.

In [3]:


try:
    response = requests.get(url_api_search, params)
        
except HTTPError as http_err:
    print(f"HTTP error occurred: {http_err}")
except Exception as err:
    print(f"Other error occurred: {err}.")
else:
    print(response.json())



{'response': {'numFound': 67588, 'start': 0, 'numFoundExact': True, 'docs': [{'openAccess_bool': True, 'authLastName_s': ['Torres-Yepez', 'Gonzalez'], 'authFirstName_s': ['Luis', 'Hugo'], 'authFullName_s': ['Luis Torres-Yepez', 'Hugo Gonzalez'], 'authIdHal_i': [1346255], 'authIdHal_s': ['luis-torres-yepez'], 'labStructName_s': ['Laboratoire Paragraphe'], 'halId_s': 'hal-04713125', 'publicationDate_tdate': '0006-01-01T00:00:00Z', 'publicationDateY_i': 6}, {'openAccess_bool': False, 'authLastName_s': ['Klein'], 'authFirstName_s': ['Claude'], 'authFullName_s': ['Claude Klein'], 'halId_s': 'insu-02284870', 'publicationDate_tdate': '1956-01-01T00:00:00Z', 'publicationDateY_i': 1956}, {'openAccess_bool': False, 'authLastName_s': ['Klein'], 'authFirstName_s': ['Claude'], 'authFullName_s': ['Claude Klein'], 'halId_s': 'insu-02284871', 'publicationDate_tdate': '1957-01-01T00:00:00Z', 'publicationDateY_i': 1957}, {'openAccess_bool': True, 'authLastName_s': ['Klein'], 'authFirstName_s': ['Claude'

In [4]:
def process_json_to_csv(response, params, year):
    if os.path.exists(f"./Data/raw/{year}"):
        files = glob.glob(f"./Data/raw/{year}/hal_*.csv")
        for f in files:
            os.remove(f)
    # Si le dossier n'existent pas, il est créé
    else:
        os.makedirs(f"./Data/raw/{year}")
        
    header_csv = params["fl"].split(",")
    name_file = f"./Data/raw/{year}/hal_{nom_universite}_{year}.csv"
    
    with open(name_file, 'w', newline='') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=header_csv)
        writer.writeheader()

    
    for x in response['response']['docs']:
        row = {}
        for column in header_csv:
            if column in x.keys():
                #print(type(x[column]))
                if type(x[column]) is list:
                    row[column] = "|".join([str(y) for y in x[column]])
                else:
                    row[column] = x[column]
            else:
                row[column] = None
        with open(name_file, 'a', newline='') as csvfile:
            writer = csv.DictWriter(csvfile, fieldnames=header_csv)
            writer.writerow(row)
        

    
    

In [5]:
for x in range(2016,datetime.date.today().year):
    params["fq"]= f"publicationDateY_i:{x}"
    reponse = requests.get(url_api_search, params).json()
    print(x, reponse['response']['numFound'])
    if reponse['response']['numFound'] <= 10:
        params["rows"] = reponse['response']['numFound']
        reponse = requests.get(url_api_search, params).json()
        list_row = process_json_to_csv(reponse, params, x)
 
        
    else:
        pages = (int(reponse['response']['numFound']/10000)+1)
        for n in range(pages):
            params["rows"] = 10000*(n+1)
            params["start"] = 10000*n
            reponse = requests.get(url_api_search, params).json()
            list_row = process_json_to_csv(reponse, params, x)
        
        
        


2016 3632
2017 4131
2018 4381
2019 4399
2020 4051
2021 4838
2022 5124
2023 4434
2024 2769


In [6]:
i = -1
for x in glob.glob(f"./Data/raw/*/hal_*.csv"):
    i+=1
    hal_df = pd.read_csv(x, sep=",", encoding='utf-8')
    
    if i== 0:
        full_hal = hal_df.copy()
    else:
        full_hal = pd.concat([full_hal,hal_df])
        
    

In [8]:
full_hal.to_csv("./Data/outputs/202500610_hal_univ_paris8.csv", sep =",", index=False)