In [1]:
import pandas as pd, json, numpy as np
from scanr_utils import *
from casuhal_utils import *
# auto reload modules
%load_ext autoreload
%autoreload 2

## 1. Récupérer les DOI

In [13]:
## option A : utiliser un fichier local 

utiliser_fichier_local = True

if utiliser_fichier_local : 
    ## un fichier local placé dans le dossier *data*
    ## doit être un fichier .csv avec encodage utf8 et ',' comme séparateur
    ## avec au moins une colonne *doi* 
    ## precier le nom de cette colonne (DOI, doiId_s etc. )
    doi_col_name = "DOI"
    
    df_mydois = pd.read_csv("data/2023-04-halathon-scopus-sante.csv", usecols=[doi_col_name])
    
    # dans la suite du code la colonne doit être nommée doi
    df_mydois.rename(columns = {doi_col_name : "doi"}, inplace = True)
    
    ## limiter le nombre de ligne/publication
    df_mydois = df_mydois[:1000]
    print(f"nb de DOI importés depuis fichier \t{len(df_mydois)}")
else : 
    df_mydois = pd.DataFrame()

nb de DOI importés depuis fichier 	1000


In [14]:
## option B : utiliser ScanR
# les deux options peuvent être valides, un dédoublonnage sera alors effectué

utiliser_scanR = False # True pour oui False pour non 

if utiliser_scanR : 
    
    id_etab = "180089047" # identifiant UAI de votre établissement
    # UP 0755976N, Nantes 194409843, INRIA 180089047
    min_year = 2020 # l'année à partir de laquelle commencer la récupération. 
    # scanR inclut les publications jusqu'a 2020.
    # 2020 donne les publications de 2020. 2019 donne les publications de 2019 et 2020 etc.

    df_scanr = get_publications_with_doi(id_etab, min_year)
    df_scanr.drop(columns = ["title", "year"], inplace = True)
    print(f"nb de DOI récupérés de ScanR \t{len(df_scanr)}")
    #df_scanr.to_csv("data\doi_scanr.csv", columns= ["doi"], index = False)
    
    # concatener et dédoublonner
    df = pd.concat([df_mydois, df_scanr])
    df["doi"] = df["doi"].str.lower() # doi en minuscule
    df = df[ (~df['doi'].duplicated()) & (df["doi"].notna())].copy()
    df.reset_index(drop=True, inplace=True)
    
else : 
    df = df_mydois

In [15]:
# retrait des publications sans DOI
df.dropna(subset=["doi"], inplace = True)
# feedback nb de DOI  et tps de traitement
print(f" nb de DOI a traiter \t{len(df)}")
print(f" /!\ temps estimé ~{round(len(df) * 40/1200)} minutes")

 nb de DOI a traiter 	1000
 /!\ temps estimé ~33 minutes


## 2. Enrichir

In [16]:
# 2.1. pour chaque publications déduire la présence dans HAL
df_hal = enrich_w_hal(df) # renseigner df[:50].copy() pour tester uniquement sur les 50 premiers DOI
#retirer ce qui est déjà déposé avec fichier
df_no_file = df_hal[ df_hal["submitType"] != "file" ].copy()
print(f"nb de DOI après retrait de ceux en TI dans HAL {len(df_no_file)}")

nb DOI a verifier dans HAL 1000
hal 10% 
hal 20% 
hal 30% 
hal 40% 
hal 50% 
hal 60% 
hal 70% 
hal 80% 
hal 90% 
hal 100%
nb de DOI après retrait de ceux en TI dans HAL 911


In [17]:
# 2.2. pour chaque publications ajouter les informations d'accès ouvert via Unpaywall
df_upw = enrich_w_upw(df_no_file)

nb DOI a verifier dans upw 	911
upw 10% 
upw 20% 
upw 30% 
upw 40% 
upw 50% 
upw 60% 
upw 70% 
upw 80% 
upw 90% 
upw 100% 
upw 100%


In [18]:
# remplacer nan/None par des champs vides
df_upw["oa_repo_link"].replace(np.nan, "", inplace = True)
df_upw["oa_repo_link"].replace("None", "", inplace = True)
df_upw["oa_publisher_license"].replace(np.nan, "", inplace = True)

In [19]:
# 2.3. ajouter les possibilités de dépôt via l'API Permissions
df_upw["deposit_condition"] = df_upw.apply(lambda row : add_permissions(row), axis = 1)

10.1016/j.omtn.2023.03.012 publishedVersion can be shared 🎉
10.1084/jem.20221292 publishedVersion can be shared 🎉
10.1016/j.eurox.2023.100190 publishedVersion can be shared 🎉
10.1016/j.resplu.2023.100381 publishedVersion can be shared 🎉
10.1016/j.resmer.2023.100999 acceptedVersion , no embargo
10.1016/j.scr.2023.103074 publishedVersion can be shared 🎉
10.1016/j.jgar.2023.02.005 publishedVersion can be shared 🎉
10.1016/j.resmer.2022.100981 acceptedVersion , no embargo
10.1530/ERC-22-0405 acceptedVersion , no embargo
doi problem w permissions 10.1016/j.kint.2023.02.013
doi problem w permissions 10.1016/j.jaccas.2023.101767
10.1182/blood.2022017019 publishedVersion can be shared 🎉
doi problem w permissions 10.1148/radiol.221835
doi problem w permissions 10.1016/j.jaccao.2023.03.002
10.1530/REP-22-0416 acceptedVersion , no embargo
10.1016/j.banm.2023.01.024 acceptedVersion , no embargo
10.1200/JCO.22.00437 publishedVersion can be shared 🎉
10.1136/jmg-2022-108435 acceptedVersion , no embarg

In [20]:
## export des données brutes
df_upw.to_csv("data/raw__dois_hal_upw_perm.csv", index = False)

## 3. Trier et Formater

In [21]:
df_final = df_upw
df_final.fillna("", inplace = True)# sinon nan sera compris comme une string non vide

## retirer ce qui est dans HAL qui a un lien extérieur et qui est signalé en repository dans upw
index2remove = df_final[ (df_final["linkExtId"] != "") & (df_final["oa_repo_link"] != "") ].index
df_final.drop(index2remove, inplace = True)
print(f"nb DOI retiré car marqué 'open' dans HAL et repository dans upw {len(index2remove)}" )

nb DOI retiré car marqué 'open' dans HAL et repository dans upw 6


In [22]:
# deduire la colonne todo
df_final["todo"] = df_final.apply(lambda row : deduce_todo(row), axis = 1)
df_final.to_csv("data\dois_a_traiter.csv", index = False)
#imprimer des statistiques brutes
print(f"\nStatistiques\n\nnb de DOI a traiter\t\t\t{len(df_final)}\n{df_final['todo'].value_counts()}")


Statistiques

nb de DOI a traiter			905
ecrire a l auteur pour appliquer la LRN                      428
selon la licence ajouter le PDF editeur                      308
creer ou retrouver la notice                                 135
recuperer le PDF editeur et ecrire a l auteur pour accord     24
verifier les identifiants de la notice                         5
Name: todo, dtype: int64


In [23]:
df_final.columns

Index(['doi', 'halId', 'submitType', 'linkExtId', 'upw_state',
       'published_date', 'oa_publisher_license', 'oa_publisher_link',
       'oa_repo_link', 'has_issn', 'deposit_condition', 'todo'],
      dtype='object')

In [24]:
# retrait des colonnes inutiles 
df_final.drop(columns= ["submitType", "has_issn"], inplace = True)

In [25]:
# rendre la lecture dans libreOffice plus élégante avec l'ajout d'hyperlien
df_final["doi"] = df_final.apply(lambda row : addCaclLinkFormula("https://doi.org/", row["doi"], row["doi"]), axis = 1)  
df_final["halId"] = df_final.apply(lambda row : addCaclLinkFormula("https://hal.archives-ouvertes.fr/", row["halId"], row["halId"]), axis = 1)  
df_final["oa_publisher_link"] = df_final.apply(lambda row : addCaclLinkFormula("", row["oa_publisher_link"], row["oa_publisher_link"]), axis = 1)	
df_final["oa_repo_link"] = df_final.apply(lambda row : addCaclLinkFormula("", row["oa_repo_link"], row["oa_repo_link"]), axis = 1)	

In [26]:
## exporter le jeux de données final
df_final.to_csv("data\dois_a_traiter_formules.csv", index = False)