# 1. FILTRAGE DU FICHIER BASTRI

In [1]:
def filtrer_par_sigles_avec_input(df):
    """
    Filtre un DataFrame en fonction d'une liste de sigles fournie par l'utilisateur
    et affiche les sigles absents.

    Args:
        df (pd.DataFrame): Le DataFrame à analyser.

    Returns:
        pd.DataFrame: Un DataFrame contenant uniquement les lignes correspondant aux sigles.
    """
    # Demander à l'utilisateur le nom de la colonne
    colonne = input("Entrez le nom de la colonne contenant les sigles (par ex. 'Sigle_bastri') : ").strip()

    # Vérifier que la colonne existe
    if colonne not in df.columns:
        print(f"La colonne '{colonne}' n'existe pas dans le DataFrame.")
        return None

    # Liste par défaut des sigles
    sigles_par_defaut = ['TOPAL', 'CARMEN', 'FLOWERS', 'MNEMOSYNE', 'POTIOC', 'GAMMA', 'PARIETAL']
    print(f"Sigles par défaut : {', '.join(sigles_par_defaut)}")
    
    # Demander à l'utilisateur d'utiliser les sigles par défaut ou d'en fournir d'autres
    sigles_input = input("Entrez les sigles à filtrer, séparés par des virgules (laisser vide pour utiliser les sigles par défaut) : ").strip()
    
    # Si aucun sigle n'est saisi, utiliser la liste par défaut
    if not sigles_input:
        sigles = sigles_par_defaut
    else:
        sigles = [s.strip() for s in sigles_input.split(',')]

    # Filtrage des données
    resultat = df[df[colonne].isin(sigles)]

    # Vérification des sigles absents
    sigles_absents = set(sigles) - set(df[colonne].unique())
    if sigles_absents:
        print(f"Les sigles suivants ne sont pas présents dans les données : {', '.join(sigles_absents)}")
    else:
        print("Tous les sigles sont présents dans les données.")
    
    return resultat


In [3]:
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

# Charger le fichier CSV
bastri = pd.read_csv('Bastri_Export_04102024.csv', encoding='latin1', sep=';')

# Convertir 'Date d'arrêt' en format datetime
bastri['Date d\'arrêt'] = pd.to_datetime(bastri['Date d\'arrêt'], format='%d/%m/%Y', errors='coerce', dayfirst=True)

# Définir les dates de début et de fin de l'intervalle
start_date = pd.to_datetime('01/01/2019', format='%d/%m/%Y')
end_date = pd.to_datetime('31/12/2030', format='%d/%m/%Y')

# Filtrer le DataFrame pour inclure seulement les dates entre 2019 et 2030
bastri_filtered = bastri[(bastri['Date d\'arrêt'] >= start_date) & (bastri['Date d\'arrêt'] <= end_date)].copy()

# Convertir le format de la date en 'jour/mois/année' et en string
bastri_filtered['Date d\'arrêt'] = bastri_filtered['Date d\'arrêt'].dt.strftime('%d/%m/%Y').astype(str)

# Enregistrer le DataFrame filtré en CSV
bastri_filtered.to_csv('Bastri_Filtered_Export.csv', index=False, sep=';', encoding='latin1')

bastri_filtered = bastri_filtered.add_suffix('_bastri')

# Afficher les résultats filtrés
bastri_filtered


Unnamed: 0,Siid_bastri,Sigle_bastri,Type_bastri,Principale_bastri,Nom du responsable_bastri,Prénom du responsable_bastri,Date début fonction_bastri,Date fin fonction_bastri,Type fonction_bastri,CRI_bastri,...,Date de création_bastri,Date d'arrêt_bastri,Dates d'évaluations_bastri,Num. national_bastri,idHAL_bastri,Décisions INRIA_bastri,Code structure_bastri,Mots clés (français)_bastri,Mots clés (anglais)_bastri,Unnamed: 34_bastri
2,SR0184DR,ABS,EP,principal,Cazals,Frederic,01-08-2021,,Principal,Centre Inria d'Université Côte d'Azur,...,01/07/2008,31/12/2027,"08/10/2009, 17/10/2013, 11/10/2017, 15/05/2022",200818987H,,"6387-C, 7386-P, 8407-P, 8896-P, 10210-P, 13243...",041101-1,"Bioinformatique structurale, biophysique, mouv...","Computational structural biology, biophysics, ...",
5,SR0906XR,ACENTAURI,EP,principal,Malis,Ezio,01-05-2021,,Principal,Centre Inria d'Université Côte d'Azur,...,01/05/2021,31/12/2025,,202124072D,,14813-C,041167-0,"Robotique autonome, Modélisation, Perception, ...","Autonomous robotics, Modelling, Perception, De...",
8,SR0748ER,ACUMES,EP,principal,Goatin,Paola,01-01-2023,,Principal,Centre Inria d'Université Côte d'Azur,...,01/07/2016,31/12/2026,"15/03/2017, 12/01/2022",201521161R,,"11694-C, 12548-P, 15187-P, 15855-P, 16224-P",041148-1,"EDP instationnaires, contrôle optimal, quantif...","evolutionary PDEs, optimal control, uncertaint...",
15,SR0836XR,AGORA,EP,principal,Rivano,Herve,01-04-2018,,Principal,Centre Inria de Lyon,...,01/04/2018,31/12/2025,17/03/2020,201722227R,,"12790-C, 14583-P, 15179-P",121011-0,"réseau sans fil, réseau de capteurs, réseaux h...","wireless networks, sensors networks, hybrid ne...",
18,SR0919VR,AIO,EP,principal,Watteyne,Thomas,01-03-2022,,Principal,Centre Inria de Paris,...,01/03/2022,28/02/2026,,202224247P,,15322-C,021159-0,"Smart Dust, Low-Power Wireless Networking, Sec...","Smart Dust, Low-Power Wireless Networking, Sec...",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
916,SR0840XR,WIDE,EP,principal,Taiani,Francois,01-06-2018,,Principal,Centre Inria de l'Université de Rennes,...,01/06/2018,30/06/2026,07/10/2021,201822640K,,"12884-C, 14890-P, 15700-P",031128-1,"algorithmique répartie, systèmes informatiques...","distributed algorithms, large-scale distribute...",
917,SR0066IR,WILLOW,EP,principal,Carpentier,Justin,01-08-2023,,Principal,Centre Inria de Paris,...,01/06/2007,30/06/2028,"20/10/2010, 16/10/2014, 03/10/2018",200718311C,,"5621-C, 8096-P, 11314-P, 13731-P, 14058-P, 143...",021076-1,"Vision artificielle ; modèles géométriques, ph...","Computer vision; geometric, physical, and stat...",
919,SR0588SR,WIMMICS,EP,principal,Gandon,Fabien,01-07-2013,,Principal,Centre Inria d'Université Côte d'Azur,...,01/07/2013,31/12/2024,"07/10/2015, 03/10/2019",201221031M,,"9518-C, 11684-P, 14331-P, 16994-P",041138-1,représentation et raisonnement sur des connais...,"knowledge representation and reasoning, artifi...",
920,SR0795QR,XPOP,EP,principal,Lavielle,Marc,01-07-2017,,Principal,Centre Inria de Saclay,...,01/07/2017,31/12/2023,15/05/2022,201622140A,,"12282-C, 13241-P, 15196-P",111073-1,,,


In [11]:
bastri_filtered.describe(include='all')

Unnamed: 0,Siid_bastri,Sigle_bastri,Type_bastri,Principale_bastri,Nom du responsable_bastri,Prénom du responsable_bastri,Date début fonction_bastri,Date fin fonction_bastri,Type fonction_bastri,CRI_bastri,...,Date de création_bastri,Date d'arrêt_bastri,Dates d'évaluations_bastri,Num. national_bastri,idHAL_bastri,Décisions INRIA_bastri,Code structure_bastri,Mots clés (français)_bastri,Mots clés (anglais)_bastri,Unnamed: 34_bastri
count,341,341,325,323,334,334,332,39,334,341,...,341,341,232,339,0.0,341,336,245,264,0.0
unique,323,311,2,1,276,169,109,18,3,10,...,94,69,73,309,,323,321,223,240,
top,SR0929KR,QINFO,EP,principal,Bliman,Olivier,01-01-2019,31-12-2018,Principal,Centre Inria de Paris,...,01/01/2018,31/12/2024,12/01/2022,202224323X,,15575-C,121033-0,"information quantique, calcul quantique, codes...","quantum information, quantum computing, error ...",
freq,3,3,303,323,3,14,12,7,305,53,...,14,56,20,3,,3,2,3,3,
mean,,,,,,,,,,,...,,,,,,,,,,
std,,,,,,,,,,,...,,,,,,,,,,
min,,,,,,,,,,,...,,,,,,,,,,
25%,,,,,,,,,,,...,,,,,,,,,,
50%,,,,,,,,,,,...,,,,,,,,,,
75%,,,,,,,,,,,...,,,,,,,,,,


In [13]:
bastri_filtered.columns.tolist()

['Siid_bastri',
 'Sigle_bastri',
 'Type_bastri',
 'Principale_bastri',
 'Nom du responsable_bastri',
 'Prénom du responsable_bastri',
 'Date début fonction_bastri',
 'Date fin fonction_bastri',
 'Type fonction_bastri',
 'CRI_bastri',
 'Site_bastri',
 'Statut actuel_bastri',
 'Date début statut actuel_bastri',
 'Date fin statut actuel_bastri',
 'Libellé français_bastri',
 'Libellé anglais_bastri',
 'Domaine français_bastri',
 'Domaine anglais_bastri',
 'Thème français_bastri',
 'Thème anglais_bastri',
 'Partenaires (sigles)_bastri',
 'Partenaires (libellés)_bastri',
 'Institut(s) CNRS impliqué(s)_bastri',
 'Laboratoires (sigles)_bastri',
 'Laboratoires (libellés)_bastri',
 'Date de création_bastri',
 "Date d'arrêt_bastri",
 "Dates d'évaluations_bastri",
 'Num. national_bastri',
 'idHAL_bastri',
 'Décisions INRIA_bastri',
 'Code structure_bastri',
 'Mots clés (français)_bastri',
 'Mots clés (anglais)_bastri',
 'Unnamed: 34_bastri']

In [15]:
import pandas as pd

#  "Date d'arrêt" en format datetime si ce n'est pas déjà fait
bastri_filtered['Date d\'arrêt_bastri'] = pd.to_datetime(bastri_filtered['Date d\'arrêt_bastri'], errors='coerce')

# # Affichez toutes les lignes du DataFrame bastri_filtered
# pd.set_option('display.max_rows', None)  # Afficher toutes les lignes

# Remplace 'Colonne1', 'Colonne2' par les noms de colonnes que vous souhaitez conserver
df_complet = bastri_filtered[['Siid_bastri','Sigle_bastri', 'Principale_bastri','Partenaires (sigles)_bastri','Prénom du responsable_bastri' ,'Nom du responsable_bastri','Date de création_bastri', "Date d'arrêt_bastri"]]

# Affichez le nouveau DataFrame
df_complet


  bastri_filtered['Date d\'arrêt_bastri'] = pd.to_datetime(bastri_filtered['Date d\'arrêt_bastri'], errors='coerce')


Unnamed: 0,Siid_bastri,Sigle_bastri,Principale_bastri,Partenaires (sigles)_bastri,Prénom du responsable_bastri,Nom du responsable_bastri,Date de création_bastri,Date d'arrêt_bastri
2,SR0184DR,ABS,principal,,Frederic,Cazals,01/07/2008,2027-12-31
5,SR0906XR,ACENTAURI,principal,,Ezio,Malis,01/05/2021,2025-12-31
8,SR0748ER,ACUMES,principal,UCA,Paola,Goatin,01/07/2016,2026-12-31
15,SR0836XR,AGORA,principal,INSA LYON,Herve,Rivano,01/04/2018,2025-12-31
18,SR0919VR,AIO,principal,,Thomas,Watteyne,01/03/2022,2026-02-28
...,...,...,...,...,...,...,...,...
916,SR0840XR,WIDE,principal,U. RENNES,Francois,Taiani,01/06/2018,2026-06-30
917,SR0066IR,WILLOW,principal,"ENS PSL, CNRS",Justin,Carpentier,01/06/2007,2028-06-30
919,SR0588SR,WIMMICS,principal,"CNRS, UCA",Fabien,Gandon,01/07/2013,2024-12-31
920,SR0795QR,XPOP,principal,IP-PARIS,Marc,Lavielle,01/07/2017,2023-12-31


In [23]:
rap = pd.read_excel('tab1.xlsx')
rap

Unnamed: 0,sigle,NonPertinentDansHal,siidEquipeGroupe,idStructureHal,siidRNSR
0,A3,,GS0192U,2314,200921177J
1,A4RES,,GS0478D,75069,200821380J
2,ABS,,GS0184O,51872,200818987H
3,ABSTRACTION,,GS0091J,54508,200818329T
4,ACACIA,,GS0194R,2447,199221383G
...,...,...,...,...,...
642,WIDE,,GS0815S,525247,201822640K
643,WILLOW,,GS0066R,98463;454692,200718311C
644,WIMMICS,,GS0500L,178918,201221031M
645,XPOP,,GS0737L,454595,201622140A


In [25]:
rap['idStructureHal'] = rap['idStructureHal'].astype(str)

# Sépare les éléments dans la colonne en listes et utilise explode pour créer une ligne par élément
rap['idStructureHal'] = rap['idStructureHal'].str.split(';')
rap = rap.explode('idStructureHal').reset_index(drop=True)
rap

Unnamed: 0,sigle,NonPertinentDansHal,siidEquipeGroupe,idStructureHal,siidRNSR
0,A3,,GS0192U,2314,200921177J
1,A4RES,,GS0478D,75069,200821380J
2,ABS,,GS0184O,51872,200818987H
3,ABSTRACTION,,GS0091J,54508,200818329T
4,ACACIA,,GS0194R,2447,199221383G
...,...,...,...,...,...
890,WILLOW,,GS0066R,454692,200718311C
891,WIMMICS,,GS0500L,178918,201221031M
892,XPOP,,GS0737L,454595,201622140A
893,ZENITH,,GS0441M,141072,201121208J


In [27]:
rap.describe(include='all')

Unnamed: 0,sigle,NonPertinentDansHal,siidEquipeGroupe,idStructureHal,siidRNSR
count,895,13,895,895.0,893
unique,645,1,647,880.0,642
top,REO,x,GS0544I,,201221061V
freq,4,13,4,13.0,4


In [31]:
verif= filtrer_par_sigles_avec_input(rap)

Entrez le nom de la colonne contenant les sigles (par ex. 'Sigle_bastri') :  sigle


Sigles par défaut : TOPAL, CARMEN, FLOWERS, MNEMOSYNE, POTIOC, GAMMA, PARIETAL


Entrez les sigles à filtrer, séparés par des virgules (laisser vide pour utiliser les sigles par défaut) :  


Les sigles suivants ne sont pas présents dans les données : TOPAL


In [33]:
df_valeurs_uniques = df_complet.drop_duplicates(subset=['Siid_bastri', 'Sigle_bastri'], keep='first')

In [35]:
df_valeurs_uniques.describe(include='all')

Unnamed: 0,Siid_bastri,Sigle_bastri,Principale_bastri,Partenaires (sigles)_bastri,Prénom du responsable_bastri,Nom du responsable_bastri,Date de création_bastri,Date d'arrêt_bastri
count,323,323,323,243,323,323,323,323
unique,323,311,1,131,168,274,94,
top,SR0184DR,CAMIN,principal,"U. DE LORRAINE, CNRS",Frederic,Bonnet-ben dhia,01/01/2018,
freq,1,2,323,11,12,2,14,
mean,,,,,,,,2025-04-21 18:52:23.034055680
min,,,,,,,,2019-01-01 00:00:00
25%,,,,,,,,2024-03-15 12:00:00
50%,,,,,,,,2025-12-31 00:00:00
75%,,,,,,,,2027-02-28 00:00:00
max,,,,,,,,2028-09-30 00:00:00


### DOUBLONS BASTRI 

In [39]:
# verification de doublons

doublons_bastri = df_valeurs_uniques[df_valeurs_uniques.duplicated(subset='Sigle_bastri', keep=False)]
doublons_bastri_sorted = doublons_bastri.sort_values(by='Sigle_bastri')
doublons_bastri_sorted

Unnamed: 0,Siid_bastri,Sigle_bastri,Principale_bastri,Partenaires (sigles)_bastri,Prénom du responsable_bastri,Nom du responsable_bastri,Date de création_bastri,Date d'arrêt_bastri
129,SR0788IR,BONUS,principal,,Nouredine,Melab,01/07/2017,2019-05-31
130,SR0878GR,BONUS,principal,UNIVERSITE DE LILLE,Bilel,Derbel,01/06/2019,2027-12-31
148,SR0721KR,CAMIN,principal,,Christine,Azevedo coste,01/01/2016,2019-02-28
149,SR0869PR,CAMIN,principal,,Christine,Azevedo coste,01/03/2019,2027-12-31
150,SR0411YR,CAMUS,principal,,Philippe,Clauss,01/07/2009,2019-02-28
151,SR0870KR,CAMUS,principal,U. STRASBOURG,Philippe,Clauss,01/10/2023,2027-09-30
169,SR0838ER,CASH,principal,,Matthieu,Moy,01/04/2018,2019-05-31
170,SR0874DR,CASH,principal,"U. LYON 1 (UCBL), ENS LYON, CNRS",Matthieu,Moy,01/06/2019,2025-12-31
262,SR0818MR,DELYS,principal,,Pierre,Sens,01/01/2018,2019-02-01
263,SR0865UR,DELYS,principal,SORBONNE UNIVERSITE,Pierre,Sens,01/01/2019,2022-12-31


In [41]:
# Function to format dates in '%d/%m/%Y' format
def format_dates(series):
    return '; '.join(
        pd.to_datetime(str(date).strip(), dayfirst=True).strftime('%d/%m/%Y')
        for date in series.dropna()
    )

# Group and aggregate
df_valeurs_uniques = df_valeurs_uniques.groupby('Sigle_bastri').agg({
    'Siid_bastri': lambda x: '; '.join(map(str, x.dropna())),  # Join Siid_bastri values as string
    'Date de création_bastri': format_dates,  # Format 'Date de création_bastri' dates
    'Date d\'arrêt_bastri': format_dates      # Format 'Date d\'arrêt_bastri' dates
}).reset_index()

df_valeurs_uniques


  pd.to_datetime(str(date).strip(), dayfirst=True).strftime('%d/%m/%Y')


Unnamed: 0,Sigle_bastri,Siid_bastri,Date de création_bastri,Date d'arrêt_bastri
0,ABS,SR0184DR,01/07/2008,31/12/2027
1,ACENTAURI,SR0906XR,01/05/2021,31/12/2025
2,ACUMES,SR0748ER,01/07/2016,31/12/2026
3,AGORA,SR0836XR,01/04/2018,31/12/2025
4,AIO,SR0919VR,01/03/2022,28/02/2026
...,...,...,...,...
306,WIDE,SR0840XR,01/06/2018,30/06/2026
307,WILLOW,SR0066IR,01/06/2007,30/06/2028
308,WIMMICS,SR0588SR,01/07/2013,31/12/2024
309,XPOP,SR0795QR,01/07/2017,31/12/2023


In [43]:
df_valeurs_uniques.describe(include='all')

Unnamed: 0,Sigle_bastri,Siid_bastri,Date de création_bastri,Date d'arrêt_bastri
count,311,311,311,311
unique,311,311,102,77
top,ABS,SR0184DR,01/01/2019,31/12/2024
freq,1,1,13,51


# Script pour l'identification des équipes Inria dans Aurehal

In [56]:
# Script pour l'identification des équipes Inria dans Aurehal
# Importation des bibliothèques (=bibliothèques de fonctions que l'on pourra utiliser dans le script et qui sont disponibles en python)

from xml import etree
import pandas as pd
import requests
import json
import re
import os

   ######
   # Récupération des acronymes des équipes de l'API HAL
   # https://api.archives-ouvertes.fr/ref/structure/type_s:researchteam AND (parentDocid_i:419153 OR parentDocid_i:104751 OR parentDocid_i:34586 OR parentDocid_i:2497 OR parentDocid_i:1096051 OR parentDocid_i:129671 OR parentDocid_i:104752 OR parentDocid_i:118511 OR parentDocid_i:454310)
url = "https://api.archives-ouvertes.fr/ref/structure/"
params = {
"q": "type_s:researchteam AND (parentDocid_i:419153 OR parentDocid_i:104751 OR parentDocid_i:34586 OR parentDocid_i:2497 OR parentDocid_i:1096051 OR parentDocid_i:129671 OR parentDocid_i:104752 OR parentDocid_i:118511 OR parentDocid_i:454310)",
"fl": "parentName_s,parentDocid_i,acronym_s,docid",
"rows": 1000,
"wt": "json",
   }
response = requests.get(url, params=params)
docid_acronyme_dict = {}
docid_parentname_dict = {}
if response.status_code == 200:
    results_json = response.json()
    docs = results_json['response']['docs']
    for doc in docs:
           docid = doc['docid']
           acronyme = doc.get('acronym_s', 'N/A')
           parent_docids = doc.get('parentDocid_i', [])
           parent_names = []  # Liste pour stocker les valeurs de parent_name
           for parent_docid in parent_docids:
               # Affecter une valeur différente en fonction du parent_docid
               if parent_docid == '419153':
                   parent_name = 'Rennes'
                   parent_names.append(parent_name)
               elif parent_docid == '104751':
                   parent_name = 'Bordeaux'
                   parent_names.append(parent_name)
               elif parent_docid == '34586':
                   parent_name = 'Sophia'
                   parent_names.append(parent_name)
               elif parent_docid == '2497':
                   parent_name = 'Grenoble'
                   parent_names.append(parent_name)
               elif parent_docid == '1096051':
                   parent_name = 'Lyon'
                   parent_names.append(parent_name)
               elif parent_docid == '129671':
                   parent_name = 'Nancy'
                   parent_names.append(parent_name)
               elif parent_docid == '104752':
                   parent_name = 'Lille'
                   parent_names.append(parent_name)
               elif parent_docid == '118511':
                   parent_name = 'Saclay'
                   parent_names.append(parent_name)
               elif parent_docid == '454310':
                   parent_name = 'Paris'
                   parent_names.append(parent_name)
           #Condition générale pour les cas non spécifiés
           if parent_names:
           # Concaténer les valeurs de parent_name si la liste n'est pas vide
               parent_name = ', '.join(parent_names)
           else:
               parent_name = docid
           docid_acronyme_dict[docid] = acronyme
           docid_parentname_dict[docid] = parent_name

   # Afficher les correspondances entre acronymes et noms de parent
   # print("Correspondances entre acronymes et noms de parent :")
for docid, acronyme in docid_acronyme_dict.items():
    parent_name = docid_parentname_dict.get(docid, 'N/A')
# print(f"{docid} :{acronyme}: {parent_name}")

# Création du DataFrame à partir des dictionnaires
data = {
    "docid": list(docid_acronyme_dict.keys()),
    "acronymes": list(docid_acronyme_dict.values()),
    "Centres": [docid_parentname_dict[docid] for docid in docid_acronyme_dict.keys()]
}
df['acronymes'] = df['acronymes'].str.upper()
df = pd.DataFrame(data)

df


Unnamed: 0,docid,acronymes,Centres
0,186016,SHACRA,"Lille, Nancy"
1,1124929,QINFO,"Grenoble, Lyon"
2,1096071,CHROMA,"Grenoble, Lyon"
3,206120,PRIVATICS,"Grenoble, Lyon"
4,56036,ALIEN,"Lille, Saclay"
...,...,...,...
746,2539,TRISKELL,Rennes
747,2542,VISTA,Rennes
748,27423,BUNRAKU,Rennes
749,88253,VISTAS,Rennes


In [27]:
doublonsdf = df[df.duplicated(subset='acronymes', keep=False)]
doublons_df_sorted = doublonsdf.sort_values(by='acronymes')
doublons_df_sorted

Unnamed: 0,docid,acronymes,Centres
523,477132,AGORA,Grenoble
27,1096065,AGORA,Lyon
518,411700,AIRSEA,Grenoble
574,1043093,AIRSEA,Grenoble
570,1042505,AIRSEA,Grenoble
...,...,...,...
405,1149341,Whisper,Paris
406,454689,Whisper,Paris
429,541725,Whisper,Paris
393,1100621,ZENITH,Sophia


In [28]:
doublons_acronymes_df = doublons_df_sorted['acronymes'].value_counts()
doublons_acronymes_df

acronymes
FLUMINANCE    5
DANTE         4
PERCEPTION    4
MORPHEO       3
LinkMedia     3
             ..
EVASION       2
ERABLE        2
ELAN          2
E-MOTION      2
ZENITH        2
Name: count, Length: 131, dtype: int64

In [29]:
df['Centres'].value_counts()

Centres
Grenoble            149
Sophia              127
Rennes              123
Saclay              103
Paris                77
Lille                49
Nancy                49
Bordeaux             45
Lyon                 18
Grenoble, Lyon        3
Sophia, Saclay        2
Sophia, Rennes        2
Lille, Nancy          1
Lille, Saclay         1
Sophia, Paris         1
Grenoble, Sophia      1
Name: count, dtype: int64

# 2. EXTRACTION AUREHAL: STRUCTURES 

In [31]:
# Import des librairies
import requests
import pandas as pd
from openpyxl import Workbook
from openpyxl.utils.dataframe import dataframe_to_rows

# 1. PARAMETRES DE LA REQUETE
query = '*'
fields = 'docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s'
rows = 10000  # Nombre de résultats à récupérer par requête
start = 0  # Index de départ des résultats

# URL de base de l'API HAL
base_url = 'https://api.archives-ouvertes.fr/ref/structure/'

# Initialisation d'une liste pour stocker les résultats
results = []

# Exécute des requêtes jusqu'à ce qu'il n'y ait plus de résultats
while True:
    # Construction de l'URL de la requête
    url = f'{base_url}?q={query}&fl={fields}&rows={rows}&start={start}'
    print(url)
    
    # Exécution de la requête
    response = requests.get(url)
    data = response.json()
    
    # Vérification des résultats
    docs = data.get('response', {}).get('docs', [])
    if not docs:
        break
    
    # Ajout des résultats à la liste
    results.extend(docs)
    
    # Passe à la page suivante
    start += rows

# 2. CREATION D'UN DATAFRAME A PARTIR DES RESULTATS 
aurehal = pd.DataFrame(results)

# Création d'une liste pour récupérer uniquement les docid uniques
docid_list = df['docid'].unique()  # Obtenir les docid uniques de df

# 4. FILTRAGE ET NETTOYAGE

# Supprimer les lignes où acronym_s est nul
aurehal = aurehal[aurehal['acronym_s'].notnull()]

# Filtrer les équipes Inria avec valid_s égale à 'VALID' ou 'OLD'
inria_teams = aurehal[aurehal['valid_s'].isin(['VALID', 'OLD'])]
inria_teams = inria_teams[inria_teams['type_s'].isin(['researchteam'])]

# Filtrer en fonction des docid présents dans df
inria_teams = inria_teams[inria_teams['docid'].isin(docid_list)]

# Modification du nom des colonnes
inria_teams = inria_teams.rename(columns={
    'docid': 'identifiant de la structure',
    'parentName_s': 'Structure parente',
    'acronym_s': 'acronymes',
    'address_s': 'adresse',
    'valid_s': 'statut',
    'startDate_s': 'date_de_debut',
    'endDate_s': 'date_de_fin',
    'type_s': 'Type de structure'
})

# Ajout de la colonne url_aurehal avec lien cliquable
inria_teams = inria_teams.add_suffix('_aurehal')
inria_teams['url'] = 'https://aurehal.archives-ouvertes.fr/structure/read/id/' + inria_teams['identifiant de la structure_aurehal'].astype(str)
inria_teams['acronymes_aurehal']= inria_teams['acronymes_aurehal'].str.upper()
# Affichage du résultat
inria_teams

https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=0
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=10000
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=20000
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=30000
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=40000
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acronym_s,address_s,startDate_s,endDate_s,valid_s,type_s&rows=10000&start=50000
https://api.archives-ouvertes.fr/ref/structure/?q=*&fl=docid,parentName_s,acrony

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url
42,382,OBASCO,"Ecole des Mines de Nantes4 Rue Alfred Kastler,...",researchteam,OLD,"[Mines Nantes, Inria Rennes – Bretagne Atlanti...",[2003-11-01],[2008-12-31],https://aurehal.archives-ouvertes.fr/structure...
345,2314,A3,,researchteam,OLD,"[Université Paris-Sud - Paris 11, Inria Saclay...",,,https://aurehal.archives-ouvertes.fr/structure...
1435,25978,OPERA,,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Centre National...",,,https://aurehal.archives-ouvertes.fr/structure...
1514,25733,ASAP,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,"[Inria Rennes – Bretagne Atlantique, SYSTÈMES ...",,,https://aurehal.archives-ouvertes.fr/structure...
1932,29797,CARTE,,researchteam,OLD,"[Inria Nancy - Grand Est, Department of Formal...",,,https://aurehal.archives-ouvertes.fr/structure...
...,...,...,...,...,...,...,...,...,...
371783,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,[2019-11-01],,https://aurehal.archives-ouvertes.fr/structure...
371784,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,[2017-01-01],[2022-12-31],https://aurehal.archives-ouvertes.fr/structure...
371785,569698,COMMANDS,Centre de Mathématiques Appliquées Ecole Polyt...,researchteam,OLD,[Centre de Mathématiques Appliquées de l'Ecole...,[2009-01-01],[2021-06-30],https://aurehal.archives-ouvertes.fr/structure...
372312,1217228,SEAMLESS,Centre Inria de l'Université de RennesCampus d...,researchteam,VALID,"[Inria Rennes – Bretagne Atlantique, RÉALITÉ V...",[2024-12-01],[2028-11-30],https://aurehal.archives-ouvertes.fr/structure...


In [None]:
verif_sigles = filtrer_par_sigles_avec_input(inria_teams)

In [32]:
# Convertir les dates du format ['2022-06-01'] en '2022/06/01'
def format_date(date):
    if isinstance(date, list) and len(date) > 0:
        return date[0].replace('-', '/')  # Extraire la première date de la liste et remplacer les tirets par des barres obliques
    elif isinstance(date, str):
        return date.replace('-', '/')
    return date  # Retourner la valeur si ce n'est pas une liste ou une chaîne

# Appliquer la fonction de formatage aux colonnes de dates
inria_teams['date_de_debut_aurehal'] = inria_teams['date_de_debut_aurehal'].apply(format_date)
inria_teams['date_de_fin_aurehal'] = inria_teams['date_de_fin_aurehal'].apply(format_date)

# Afficher le DataFrame pour vérifier les modifications
inria_teams


Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url
42,382,OBASCO,"Ecole des Mines de Nantes4 Rue Alfred Kastler,...",researchteam,OLD,"[Mines Nantes, Inria Rennes – Bretagne Atlanti...",2003/11/01,2008/12/31,https://aurehal.archives-ouvertes.fr/structure...
345,2314,A3,,researchteam,OLD,"[Université Paris-Sud - Paris 11, Inria Saclay...",,,https://aurehal.archives-ouvertes.fr/structure...
1435,25978,OPERA,,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Centre National...",,,https://aurehal.archives-ouvertes.fr/structure...
1514,25733,ASAP,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,"[Inria Rennes – Bretagne Atlantique, SYSTÈMES ...",,,https://aurehal.archives-ouvertes.fr/structure...
1932,29797,CARTE,,researchteam,OLD,"[Inria Nancy - Grand Est, Department of Formal...",,,https://aurehal.archives-ouvertes.fr/structure...
...,...,...,...,...,...,...,...,...,...
371783,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2019/11/01,,https://aurehal.archives-ouvertes.fr/structure...
371784,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2017/01/01,2022/12/31,https://aurehal.archives-ouvertes.fr/structure...
371785,569698,COMMANDS,Centre de Mathématiques Appliquées Ecole Polyt...,researchteam,OLD,[Centre de Mathématiques Appliquées de l'Ecole...,2009/01/01,2021/06/30,https://aurehal.archives-ouvertes.fr/structure...
372312,1217228,SEAMLESS,Centre Inria de l'Université de RennesCampus d...,researchteam,VALID,"[Inria Rennes – Bretagne Atlantique, RÉALITÉ V...",2024/12/01,2028/11/30,https://aurehal.archives-ouvertes.fr/structure...


In [33]:
inria_teams.describe(include='all')

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url
count,709,709,521,709,709,709,554,545,709
unique,633,512,220,1,2,225,148,118,633
top,233382,CORSE,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,[Inria Sophia Antipolis - Méditerranée],2016/01/01,2024/12/31,https://aurehal.archives-ouvertes.fr/structure...
freq,2,4,26,709,456,71,55,46,2


In [34]:
inria_teams_filtered= inria_teams.drop_duplicates(subset=['identifiant de la structure_aurehal', 'acronymes_aurehal'], keep='first')
inria_teams_filtered

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url
42,382,OBASCO,"Ecole des Mines de Nantes4 Rue Alfred Kastler,...",researchteam,OLD,"[Mines Nantes, Inria Rennes – Bretagne Atlanti...",2003/11/01,2008/12/31,https://aurehal.archives-ouvertes.fr/structure...
345,2314,A3,,researchteam,OLD,"[Université Paris-Sud - Paris 11, Inria Saclay...",,,https://aurehal.archives-ouvertes.fr/structure...
1435,25978,OPERA,,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Centre National...",,,https://aurehal.archives-ouvertes.fr/structure...
1514,25733,ASAP,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,"[Inria Rennes – Bretagne Atlantique, SYSTÈMES ...",,,https://aurehal.archives-ouvertes.fr/structure...
1932,29797,CARTE,,researchteam,OLD,"[Inria Nancy - Grand Est, Department of Formal...",,,https://aurehal.archives-ouvertes.fr/structure...
...,...,...,...,...,...,...,...,...,...
371783,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2019/11/01,,https://aurehal.archives-ouvertes.fr/structure...
371784,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2017/01/01,2022/12/31,https://aurehal.archives-ouvertes.fr/structure...
371785,569698,COMMANDS,Centre de Mathématiques Appliquées Ecole Polyt...,researchteam,OLD,[Centre de Mathématiques Appliquées de l'Ecole...,2009/01/01,2021/06/30,https://aurehal.archives-ouvertes.fr/structure...
372312,1217228,SEAMLESS,Centre Inria de l'Université de RennesCampus d...,researchteam,VALID,"[Inria Rennes – Bretagne Atlantique, RÉALITÉ V...",2024/12/01,2028/11/30,https://aurehal.archives-ouvertes.fr/structure...


In [35]:
# verification de doublons

doublons = inria_teams_filtered[inria_teams_filtered.duplicated(subset='identifiant de la structure_aurehal', keep=False)]
doublons_sorted = doublons.sort_values(by='identifiant de la structure_aurehal')
doublons_sorted

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url


In [36]:
# Fusion Inner (conserve uniquement les lignes communes)
inner_merge = pd.merge(inria_teams_filtered, df, left_on='identifiant de la structure_aurehal', right_on='docid', how='inner')

# Fusion Left (conserve toutes les lignes de inria_teams, en ajoutant les valeurs de df correspondantes)
left_merge = pd.merge(inria_teams_filtered, df, left_on='identifiant de la structure_aurehal', right_on='docid', how='left')

# Fusion Right (conserve toutes les lignes de df, en ajoutant les valeurs de inria_teams correspondantes)
right_merge = pd.merge(inria_teams_filtered, df, left_on='identifiant de la structure_aurehal', right_on='docid', how='right')


In [37]:
inner_merge

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres
0,382,OBASCO,"Ecole des Mines de Nantes4 Rue Alfred Kastler,...",researchteam,OLD,"[Mines Nantes, Inria Rennes – Bretagne Atlanti...",2003/11/01,2008/12/31,https://aurehal.archives-ouvertes.fr/structure...,382,OBASCO,Rennes
1,2314,A3,,researchteam,OLD,"[Université Paris-Sud - Paris 11, Inria Saclay...",,,https://aurehal.archives-ouvertes.fr/structure...,2314,A3,Saclay
2,25978,OPERA,,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Centre National...",,,https://aurehal.archives-ouvertes.fr/structure...,25978,OPERA,Grenoble
3,25733,ASAP,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,"[Inria Rennes – Bretagne Atlantique, SYSTÈMES ...",,,https://aurehal.archives-ouvertes.fr/structure...,25733,ASAP,Rennes
4,29797,CARTE,,researchteam,OLD,"[Inria Nancy - Grand Est, Department of Formal...",,,https://aurehal.archives-ouvertes.fr/structure...,29797,CARTE,Nancy
...,...,...,...,...,...,...,...,...,...,...,...,...
628,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2019/11/01,,https://aurehal.archives-ouvertes.fr/structure...,573895,ASCII,Saclay
629,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2017/01/01,2022/12/31,https://aurehal.archives-ouvertes.fr/structure...,478609,RANDOPT,Saclay
630,569698,COMMANDS,Centre de Mathématiques Appliquées Ecole Polyt...,researchteam,OLD,[Centre de Mathématiques Appliquées de l'Ecole...,2009/01/01,2021/06/30,https://aurehal.archives-ouvertes.fr/structure...,569698,COMMANDS,Saclay
631,1217228,SEAMLESS,Centre Inria de l'Université de RennesCampus d...,researchteam,VALID,"[Inria Rennes – Bretagne Atlantique, RÉALITÉ V...",2024/12/01,2028/11/30,https://aurehal.archives-ouvertes.fr/structure...,1217228,SEAMLESS,Rennes


In [38]:
left_merge

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres
0,382,OBASCO,"Ecole des Mines de Nantes4 Rue Alfred Kastler,...",researchteam,OLD,"[Mines Nantes, Inria Rennes – Bretagne Atlanti...",2003/11/01,2008/12/31,https://aurehal.archives-ouvertes.fr/structure...,382,OBASCO,Rennes
1,2314,A3,,researchteam,OLD,"[Université Paris-Sud - Paris 11, Inria Saclay...",,,https://aurehal.archives-ouvertes.fr/structure...,2314,A3,Saclay
2,25978,OPERA,,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Centre National...",,,https://aurehal.archives-ouvertes.fr/structure...,25978,OPERA,Grenoble
3,25733,ASAP,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,"[Inria Rennes – Bretagne Atlantique, SYSTÈMES ...",,,https://aurehal.archives-ouvertes.fr/structure...,25733,ASAP,Rennes
4,29797,CARTE,,researchteam,OLD,"[Inria Nancy - Grand Est, Department of Formal...",,,https://aurehal.archives-ouvertes.fr/structure...,29797,CARTE,Nancy
...,...,...,...,...,...,...,...,...,...,...,...,...
628,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2019/11/01,,https://aurehal.archives-ouvertes.fr/structure...,573895,ASCII,Saclay
629,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2017/01/01,2022/12/31,https://aurehal.archives-ouvertes.fr/structure...,478609,RANDOPT,Saclay
630,569698,COMMANDS,Centre de Mathématiques Appliquées Ecole Polyt...,researchteam,OLD,[Centre de Mathématiques Appliquées de l'Ecole...,2009/01/01,2021/06/30,https://aurehal.archives-ouvertes.fr/structure...,569698,COMMANDS,Saclay
631,1217228,SEAMLESS,Centre Inria de l'Université de RennesCampus d...,researchteam,VALID,"[Inria Rennes – Bretagne Atlantique, RÉALITÉ V...",2024/12/01,2028/11/30,https://aurehal.archives-ouvertes.fr/structure...,1217228,SEAMLESS,Rennes


In [39]:
left_merge.describe(include='all')

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres
count,633,633,462,633,633,633,484,483,633,633,633,633
unique,633,512,220,1,2,225,148,118,633,633,512,16
top,382,PERCEPTION,Campus de Beaulieu 35042 Rennes cedex,researchteam,OLD,[Inria Sophia Antipolis - Méditerranée],2016/01/01,2015/12/31,https://aurehal.archives-ouvertes.fr/structure...,382,PERCEPTION,Grenoble
freq,1,4,26,633,430,60,51,37,1,1,4,125


### DOUBLONS ACRONYMES AUREHAL 

In [41]:
chroma_left_merge=inner_merge[inner_merge['acronymes_aurehal']== 'TOPAL']
chroma_left_merge

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres
540,1124391,TOPAL,Centre Inria de l'université de Bordeaux,researchteam,VALID,[Laboratoire Bordelais de Recherche en Informa...,2023/03/01,2027/02/28,https://aurehal.archives-ouvertes.fr/structure...,1124391,TOPAL,Bordeaux


In [42]:
doublons_left_merge = left_merge[left_merge.duplicated(subset='acronymes_aurehal', keep=False)]
doublons_left_merge_sorted = doublons_left_merge.sort_values(by='acronymes_aurehal')
doublons_left_merge_sorted

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres
169,477132,AGORA,"655, avenue de l'Europe 38334 Saint Ismier Cedex",researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, CITI Centre of ...",2017/01/01,2021/12/31,https://aurehal.archives-ouvertes.fr/structure...,477132,AGORA,Grenoble
429,1096065,AGORA,"Bâtiment CEI-2, Campus La Doua Villeurbanne -...",researchteam,VALID,[CITI Centre of Innovation in Telecommunicatio...,2022/01/01,2025/12/31,https://aurehal.archives-ouvertes.fr/structure...,1096065,AGORA,Lyon
333,1043093,AIRSEA,"Centre de Recherche Inria 655, avenue de l'Eur...",researchteam,VALID,"[Inria Grenoble - Rhône-Alpes, Université Gren...",2020/01/01,2027/12/31,https://aurehal.archives-ouvertes.fr/structure...,1043093,AIRSEA,Grenoble
325,1042505,AIRSEA,"Centre de Recherche Inria 655, avenue de l'Eur...",researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Laboratoire Jea...",2016/01/01,2019/12/31,https://aurehal.archives-ouvertes.fr/structure...,1042505,AIRSEA,Grenoble
151,411700,AIRSEA,"Centre de Recherche Inria 655, avenue de l'Eur...",researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Laboratoire Jea...",2015/01/01,2015/12/31,https://aurehal.archives-ouvertes.fr/structure...,411700,AIRSEA,Grenoble
...,...,...,...,...,...,...,...,...,...,...,...,...
467,541725,Whisper,,researchteam,OLD,"[Inria de Paris, LIP6]",2018/01/01,2020/12/31,https://aurehal.archives-ouvertes.fr/structure...,541725,Whisper,Paris
443,454689,Whisper,,researchteam,OLD,"[Laboratoire d'Informatique de Paris 6, Inria ...",2016/01/01,2017/12/31,https://aurehal.archives-ouvertes.fr/structure...,454689,Whisper,Paris
442,1149341,Whisper,"48 Rue Barrault, 75013 Paris",researchteam,VALID,[Inria de Paris],2021/01/01,,https://aurehal.archives-ouvertes.fr/structure...,1149341,Whisper,Paris
428,1100621,ZENITH,"LIRMM, 161 rue Ada, 34000 Montpellier",researchteam,VALID,"[Inria Sophia Antipolis - Méditerranée, Labora...",2022/01/01,,https://aurehal.archives-ouvertes.fr/structure...,1100621,ZENITH,Sophia


In [43]:
liste_doublons_aurehal = doublons_left_merge_sorted['acronymes_aurehal'].unique().tolist()
liste_doublons_aurehal

['AGORA',
 'AIRSEA',
 'ALPINES',
 'ANGE',
 'AOSTE',
 'ARAMIS',
 'ARTIS',
 'ASAP',
 'ASPI',
 'AVIZ',
 'BEAGLE',
 'BIPOP',
 'BONSAI',
 'CAGIRE',
 'CAMUS',
 'CHROMA',
 'COMMEDIA',
 'CONVECS',
 'CORIDA',
 'CORSE',
 'CTRL-A',
 'CaGE',
 'DATAMOVE',
 'DEDUCTEAM',
 'DOLPHIN',
 'DREAMPAL',
 'DiverSe',
 'Dyliss',
 'E-MOTION',
 'ELAN',
 'ERABLE',
 'EVASION',
 'EVOLUTION',
 'EX-SITU',
 'EXMO',
 'GANG',
 'GEOMETRICA',
 'GRAPHIK',
 'GenScale',
 'Hybrid',
 'IDEFIX',
 'ILDA',
 'IMAGINE',
 'InBio',
 'KerData',
 'LEAR',
 'LINKS',
 'Lagadic',
 'LinkMedia',
 'MAGNET',
 'MAMBA',
 'MARACAS',
 'MAVERICK',
 'MESCAL',
 'MEXICO',
 'MISTIS',
 'MOAIS',
 'MOEX',
 'MOISE',
 'MORPHEO',
 'MOSAIC',
 'MUSCA',
 'NANO-D',
 'NECS',
 'NECS-POST',
 'NEUROMATHCOMP',
 'NON-A',
 'OPIS',
 'PERCEPTION',
 'PERVASIVE',
 'PI.R2',
 'PLEIADE',
 'POEMS',
 'POLARIS',
 'POP ART',
 'PRIMA',
 'PolSys',
 'QUANTIC',
 'REO',
 'RMOD',
 'SARDES',
 'SEQUEL',
 'SISTM',
 'SPIRALS',
 'Sirocco',
 'TACOMA',
 'TAU',
 'TOSCA',
 'TYREX',
 'Thoth',
 'VA

In [44]:
# Vérifiez si les éléments de liste_doublons_aurehal apparaissent dans la colonne Sigle_bastri
df_valeurs_uniques['Sigle_bastri_in_liste'] = df_valeurs_uniques['Sigle_bastri'].isin(liste_doublons_aurehal)

# Affichez les résultats
df_resultat_true = df_valeurs_uniques[df_valeurs_uniques['Sigle_bastri_in_liste']]
df_resultat_true


Unnamed: 0,Sigle_bastri,Siid_bastri,Date de création_bastri,Date d'arrêt_bastri,Sigle_bastri_in_liste
3,AGORA,SR0836XR,01/04/2018,31/12/2025,True
5,AIRSEA,SR0738DR,01/04/2016,31/12/2027,True
9,ALPINES,SR0649HR,01/07/2014,30/06/2026,True
10,ANGE,SR0631GR,01/01/2014,31/12/2025,True
14,ARAMIS,SR0642TR,01/07/2014,30/06/2026,True
26,AVIZ,SR0132LR,01/01/2008,30/06/2028,True
28,BEAGLE,SR0569CR,01/01/2013,31/12/2024,True
37,CAGIRE,SR0740WR,01/05/2016,31/12/2026,True
42,CAMUS,SR0411YR; SR0870KR,01/07/2009; 01/10/2023,28/02/2019; 30/09/2027,True
57,CHROMA,SR0804WR,01/12/2017,31/12/2026,True


In [45]:
# merge
merged_df = pd.merge(left_merge, df_valeurs_uniques, left_on= 'acronymes_aurehal'	, right_on='Sigle_bastri', how='inner')
merged_df

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres,Sigle_bastri,Siid_bastri,Date de création_bastri,Date d'arrêt_bastri,Sigle_bastri_in_liste
0,55137,NANO-D,Inria GIANT DRT/LETI/DACLE Batiment 51C - Mina...,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Laboratoire Jea...",2008/01/01,2014/06/30,https://aurehal.archives-ouvertes.fr/structure...,55137,NANO-D,Grenoble,NANO-D,SR0849TR,01/10/2018,31/12/2020,True
1,44946,MISTIS,Inria Grenoble - Rhône-Alpes 655 avenue de l'E...,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Laboratoire Jea...",2007/01/01,2015/12/31,https://aurehal.archives-ouvertes.fr/structure...,44946,MISTIS,Grenoble,MISTIS,SR0010YR,01/01/2008,31/03/2020,True
2,44969,PERCEPTION,INRIA Rhône-Alpes 655 avenue de l'Europe 38330...,researchteam,OLD,"[Inria Grenoble - Rhône-Alpes, Laboratoire Jea...",2007/01/01,2015/12/31,https://aurehal.archives-ouvertes.fr/structure...,44969,PERCEPTION,Grenoble,PERCEPTION,SR0012WR,01/01/2008,30/06/2021,True
3,56046,GALEN,Laboratoire MAS Ecole Centrale de Paris Grande...,researchteam,OLD,"[Inria Saclay - Ile de France, Ecole Centrale ...",2014/01/01,2017/12/31,https://aurehal.archives-ouvertes.fr/structure...,56046,GALEN,Saclay,GALEN,SR0831GR,01/01/2018,30/04/2019,False
4,56309,IBIS,"655 avenue de l'Europe, Montbonnot, 38334 Sain...",researchteam,OLD,[Laboratoire Adaptation et pathogénie des micr...,2009/01/01,2021/10/31,https://aurehal.archives-ouvertes.fr/structure...,56309,IBIS,Grenoble,IBIS,SR0236TR,01/01/2009,31/10/2021,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
291,1058419,PLATON,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2020/12/01,,https://aurehal.archives-ouvertes.fr/structure...,1058419,PLATON,Saclay,PLATON,SR0899UR,01/12/2020,31/12/2026,False
292,1160007,MERGE,Centre de recherche Inria de Saclay,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2023/03/01,,https://aurehal.archives-ouvertes.fr/structure...,1160007,MERGE,Saclay,MERGE,SR0936YR,01/03/2023,28/02/2027,False
293,573895,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2019/11/01,,https://aurehal.archives-ouvertes.fr/structure...,573895,ASCII,Saclay,ASCII,SR0885KR,01/11/2019,31/12/2027,False
294,478609,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,researchteam,VALID,[Centre de Mathématiques Appliquées de l'Ecole...,2017/01/01,2022/12/31,https://aurehal.archives-ouvertes.fr/structure...,478609,RANDOPT,Saclay,RANDOPT,SR0855ZR,01/01/2019,31/12/2027,False


In [46]:
chroma_left_merge=merged_df[merged_df['acronymes_aurehal']== 'TOPAL']
chroma_left_merge

Unnamed: 0,identifiant de la structure_aurehal,acronymes_aurehal,adresse_aurehal,Type de structure_aurehal,statut_aurehal,Structure parente_aurehal,date_de_debut_aurehal,date_de_fin_aurehal,url,docid,acronymes,Centres,Sigle_bastri,Siid_bastri,Date de création_bastri,Date d'arrêt_bastri,Sigle_bastri_in_liste
229,1124391,TOPAL,Centre Inria de l'université de Bordeaux,researchteam,VALID,[Laboratoire Bordelais de Recherche en Informa...,2023/03/01,2027/02/28,https://aurehal.archives-ouvertes.fr/structure...,1124391,TOPAL,Bordeaux,TOPAL,SR0937ER,01/03/2023,28/02/2027,False


In [47]:
merged_df.columns.tolist()

['identifiant de la structure_aurehal',
 'acronymes_aurehal',
 'adresse_aurehal',
 'Type de structure_aurehal',
 'statut_aurehal',
 'Structure parente_aurehal',
 'date_de_debut_aurehal',
 'date_de_fin_aurehal',
 'url',
 'docid',
 'acronymes',
 'Centres',
 'Sigle_bastri',
 'Siid_bastri',
 'Date de création_bastri',
 "Date d'arrêt_bastri",
 'Sigle_bastri_in_liste']

In [48]:
colonnes_a_conserver = ['Centres','acronymes','adresse_aurehal','date_de_debut_aurehal', 'Date de création_bastri',"date_de_fin_aurehal", "Date d'arrêt_bastri",'url'
    
]

inria_teamsv2 = merged_df.loc[:, colonnes_a_conserver]
inria_teamsv2 

Unnamed: 0,Centres,acronymes,adresse_aurehal,date_de_debut_aurehal,Date de création_bastri,date_de_fin_aurehal,Date d'arrêt_bastri,url
0,Grenoble,NANO-D,Inria GIANT DRT/LETI/DACLE Batiment 51C - Mina...,2008/01/01,01/10/2018,2014/06/30,31/12/2020,https://aurehal.archives-ouvertes.fr/structure...
1,Grenoble,MISTIS,Inria Grenoble - Rhône-Alpes 655 avenue de l'E...,2007/01/01,01/01/2008,2015/12/31,31/03/2020,https://aurehal.archives-ouvertes.fr/structure...
2,Grenoble,PERCEPTION,INRIA Rhône-Alpes 655 avenue de l'Europe 38330...,2007/01/01,01/01/2008,2015/12/31,30/06/2021,https://aurehal.archives-ouvertes.fr/structure...
3,Saclay,GALEN,Laboratoire MAS Ecole Centrale de Paris Grande...,2014/01/01,01/01/2018,2017/12/31,30/04/2019,https://aurehal.archives-ouvertes.fr/structure...
4,Grenoble,IBIS,"655 avenue de l'Europe, Montbonnot, 38334 Sain...",2009/01/01,01/01/2009,2021/10/31,31/10/2021,https://aurehal.archives-ouvertes.fr/structure...
...,...,...,...,...,...,...,...,...
291,Saclay,PLATON,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,2020/12/01,01/12/2020,,31/12/2026,https://aurehal.archives-ouvertes.fr/structure...
292,Saclay,MERGE,Centre de recherche Inria de Saclay,2023/03/01,01/03/2023,,28/02/2027,https://aurehal.archives-ouvertes.fr/structure...
293,Saclay,ASCII,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,2019/11/01,01/11/2019,,31/12/2027,https://aurehal.archives-ouvertes.fr/structure...
294,Saclay,RANDOPT,1 rue Honoré d'Estienne d'OrvesBâtiment Alan T...,2017/01/01,01/01/2019,2022/12/31,31/12/2027,https://aurehal.archives-ouvertes.fr/structure...


In [49]:
inria_teamsv2.describe(include='all')

Unnamed: 0,Centres,acronymes,adresse_aurehal,date_de_debut_aurehal,Date de création_bastri,date_de_fin_aurehal,Date d'arrêt_bastri,url
count,296,296,268,288,296,264,296,296
unique,11,224,141,87,92,73,68,296
top,Grenoble,PERCEPTION,"48 Rue Barrault, 75013 Paris",2016/01/01,01/01/2019,2024/12/31,31/12/2024,https://aurehal.archives-ouvertes.fr/structure...
freq,62,4,17,38,14,31,48,1


In [50]:
carmen_inria_teamsv2=inria_teamsv2[inria_teamsv2['acronymes']== 'CARMEN']
carmen_inria_teamsv2

Unnamed: 0,Centres,acronymes,adresse_aurehal,date_de_debut_aurehal,Date de création_bastri,date_de_fin_aurehal,Date d'arrêt_bastri,url
239,Bordeaux,CARMEN,"200, avenue de la Vieille Tour 33405 Talence c...",2011/10/01,01/06/2016,2027/12/31,31/12/2027,https://aurehal.archives-ouvertes.fr/structure...


In [51]:
# df_filtered = inria_teamsv2 [inria_teamsv2[['adresse_aurehal', 'date_de_debut_aurehal', 'date_de_fin_aurehal']].isna().any(axis=1)]

In [52]:
inria_teamsv2.to_excel('equipes_corrections2018_2024.xlsx', index=False)

In [53]:
from openpyxl import load_workbook
from openpyxl.styles import PatternFill, Font, Alignment, Border, Side

# Charger le fichier Excel existant
wb = load_workbook('equipes_corrections2018_2024.xlsx')
ws = wb.active

# Geler la première ligne et la première colonne
ws.freeze_panes = 'B2'

# Appliquer des styles aux en-têtes
header_font = Font(bold=True, color='FFFFFF')  # Police en gras et blanche
fill = PatternFill(fill_type="solid", fgColor="4F81BD")
thin_border = Border(left=Side(style='thin'), right=Side(style='thin'), top=Side(style='thin'), bottom=Side(style='thin'))

for cell in ws[1]:
    cell.font = header_font
    cell.fill = fill
    cell.alignment = Alignment(horizontal="center", vertical="center")  # Centrer le texte
    cell.border = thin_border

# Colorer la première colonne en bleu ciel à partir de la deuxième ligne
sky_blue_fill = PatternFill(fill_type="solid", fgColor="87CEEB")  # Code couleur pour le bleu ciel

for row in range(2, ws.max_row + 1):  # Commencer à la deuxième ligne
    ws.cell(row=row, column=1).fill = sky_blue_fill  # Colorer la première colonne

# Ajuster la largeur des colonnes, maximum à 60
for column_cells in ws.columns:
    max_length = max(len(str(cell.value)) for cell in column_cells)
    column_letter = column_cells[0].column_letter
    adjusted_width = min(max_length + 2, 60)  # Limiter la largeur à 60
    ws.column_dimensions[column_letter].width = adjusted_width

    # Appliquer le retour à la ligne automatique, alignement au centre et mettre en gras
    for cell in column_cells:
        cell.alignment = Alignment(horizontal="center", vertical="center", wrap_text=True)  # Centrer et retour à la ligne
        cell.font = Font(bold=True)  # Mettre en gras

# Ajouter des hyperliens dans la colonne 'urel_hal'
urel_hal_col_idx = None
for idx, cell in enumerate(ws[1], start=1):
    if cell.value == 'url':  # Vérifiez si c'est la colonne 'urel_hal'
        urel_hal_col_idx = idx
        break

if urel_hal_col_idx:
    for row in range(2, ws.max_row + 1):  # Commencez à la deuxième ligne
        cell = ws.cell(row=row, column=urel_hal_col_idx)
        if cell.value:  # Assurez-vous qu'il y a une valeur dans la cellule
            cell.hyperlink = cell.value  # Ajoutez le lien hypertexte
            cell.style = 'Hyperlink'  # Appliquez le style d'hyperlien
            cell.font = Font(underline='single', color='0000FF')  # Couleur et soulignement des hyperliens

# Ajouter des filtres à la première ligne
ws.auto_filter.ref = ws.dimensions

# Enregistrer le fichier Excel modifié
wb.save('equipes_sans_addresses_et_dates.xlsx')


# INFOS: SCRIPT POUR RECCUPERER TOUT AUREHAL

In [55]:
# #ALL AUREHAL !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
# # Import des librairies
# import requests
# import pandas as pd
# from openpyxl import Workbook
# from openpyxl.utils.dataframe import dataframe_to_rows  # Importer dataframe_to_rows

# # 1. PARAMTRES DE LA REQUETE

# query = '*'
# fields = 'acronym_s,address_s,code_s,startDate_s,endDate_s,url_s,valid_s'
# rows = 10000  # Nombre de résultats à récupérer par requête
# start = 0  # Index de départ des résultats

# # URL de base de l'API HAL
# base_url = 'https://api.archives-ouvertes.fr/ref/structure/'

# # Initialisation d'une liste pour stocker les résultats
# results = []

# # Execute des requêtes jusqu'à ce qu'il n'y ait plus de résultats
# while True:
#     # Construction de l'URL de la requête
#     url = f'{base_url}?q={query}&fl={fields}&rows={rows}&start={start}'
#     print(url)
    
#     # Exécution de la requête
#     response = requests.get(url)
#     data = response.json()
    
#     # Vérification des résultats
#     docs = data.get('response', {}).get('docs', [])
#     if not docs:
#         break
    
#     # Ajout des résultats à la liste
#     results.extend(docs)
    
#     # Passe à la page suivante
#     start += rows

# # 2. CREATION DUN DATAFRAME A PARTIR DES RESULTATS 
# aurehal_v1 = pd.DataFrame(results)
# aurehal_v1