In [1]:
import pandas as pd
import numpy as np
from fuzzywuzzy import process
from tqdm import tqdm



# 1. Load datasets and Similarity matrices

In [2]:
# load databases
df_eic = pd.read_parquet('/export/data_ml4ds/AI4U/Datasets/work_programmes/EIC_work_programmes.parquet')
df_horizon = pd.read_parquet('/export/data_ml4ds/AI4U/Datasets/work_programmes/horizon_work_programmes.parquet')

df_publications = pd.read_parquet('/export/data_ml4ds/AI4U/Datasets/ResearchPortal/20240321/parquet/publications.parquet')
df_publications_researchers = pd.read_parquet('/export/data_ml4ds/AI4U/Datasets/ResearchPortal/20240321/parquet/researchers_publications.parquet')
df_researchers = pd.read_parquet('/export/data_ml4ds/AI4U/Datasets/ResearchPortal/20240321/parquet/researchers.parquet')

# join together al the calls (igual que cuando creamos las matrices de similitud)
df_eic['Call'] = df_eic['id']
df_calls = pd.concat([df_horizon[['Call', 'Work Programme']], df_eic[['Call', 'Work Programme']]], axis=0).reset_index(drop=True)

# load the validation set
df_val = pd.read_excel('/export/usuarios_ml4ds/mafuello/Github/recommendation_system_validation/validation_set.xlsx')

  warn(msg)


# 2. Obtain Recommendations

In [3]:
def get_similarity_publication(sim_matrix, df_publications):
    '''
    Function for getting a dataset with the id of each of the publications and the similarity with each of the calls
    
    sim_matrix -> similarity matrix 
    df_publication -> df containing the publications 
    '''
    df = sim_matrix.reset_index()

    df['similarity'] = df.apply(lambda row: row.values[1:], axis=1)

    # Seleccionar solo las columnas 'index' e 'similarity'
    df = df[['index', 'similarity']]

    # Renombrar las columnas
    df.columns = ['actID', 'similarity']
    
    return df

def match(similarities, researcher, df_calls, n=667):
    '''
    Function for obtaining the ranking of researchers given a call 
    
    similarities -> df with all the smmilarities between researchers and calls
    researcher -> Researcher of interest
    n -> Number of recommendations we are interested in 
    df_calls -> Dataframe with the information about the calls
    '''
    
    ranking = similarities.transpose()[researcher].sort_values(ascending=False).fillna(0)
    ranking = pd.DataFrame(ranking).reset_index()
    id_calls = ranking['index'].to_list()
    similarities = ranking[researcher].to_list()
    id_calls = pd.DataFrame({'Call': id_calls, 'similarity': similarities})
    df_ranking_calls = pd.merge(id_calls, df_calls, on='Call', how='inner')

    return df_ranking_calls.head(n)

def recommendation_system(method, agg_method, researcher, calls, n=1129,
                         path='/export/usuarios_ml4ds/mbalairon/github/recommendation_system/similarity_matrices_researchers/similarity_{}_{}.parquet'):
    '''
    function for obtaining the recommendations
    
    path -> Path to the file containing the similarity matrix
    method -> Method selected to calculate the similarities 
    agg_method -> Agregation method selected for calculating the similarties between calls and researchers
    '''
    
    similarities = pd.read_parquet(path.format(method, agg_method))
    ranking = match(similarities, researcher, calls, n)
    return ranking[['Call', 'Work Programme', 'similarity']]

In [5]:
def get_validation_results(df_val, df_researchers, df_calls, method, agg_method):
    '''
    Función para calcular las métricas de similitud además de preparar el dataset para el SI
    
    df_val -> DataFrame con las propuestas de validación del SI (lo que han solicitado de verdad los investigadores)
    df_researchers -> DataSet con todos los datos relativos a los investigadores
    df_calls -> DataSet con todos los datos relativos a las convocatorias
    method -> Method selected to calculate the similarities 
    agg_method -> Agregation method selected for calculating the similarties between calls and researchers
    
    '''
    
    new_rows  = []
    for i in range(df_val.shape[0]):
        invID = df_val['invID'][i]
        call_validation = df_val['Línea prioritia/panel/topic'][i]

        # obtener metadatos de interés para el SI
        acronimo = df_val['Acrónimo'][i]
        department = df_researchers[df_researchers['invID']==invID].reset_index()['Department'][0]

        # obtener el ranking para el investigador dado y quedarnos solo con las filas por encima de la call de validación
        try:
            ranking = recommendation_system(method=method, agg_method=agg_method, researcher=invID, calls=df_calls)
            total_calls = ranking.shape[0]
            max_similarity = ranking['similarity'][0]
            indice_valor_exacto = ranking.loc[ranking['Call'] == call_validation].index[0]
            ranking = ranking.iloc[:indice_valor_exacto + 1]

            # calcular el score basado en la posicón
            posicion = ranking.shape[0]

            # sacar las cinco primeras calls de cada investigador
            if posicion>5:
                primeras_calls = ranking['Call'].head(5).tolist()

            else:
                primeras_calls = ranking['Call'].tolist()      
            
            primeras_calls = ' '.join(primeras_calls)

            # calcular el score basado en la métrica de similitud
            similarity = ranking['similarity'][posicion-1]
            score_similarity = 1 - ((max_similarity - similarity)/max_similarity)

            if similarity == 0:
                score_posicion = 0
            else:
                score_posicion = 1 - (posicion / total_calls)

            # calcular el score basado en el cluster
            cluster_correcto = ranking['Work Programme'][posicion-1]
            count_cluster_correctos = 0
            for i in range(ranking.shape[0]):
                if ranking['Work Programme'][i] == cluster_correcto:
                    count_cluster_correctos += 1

            score_cluster = count_cluster_correctos/ranking.shape[0]
            score = (score_posicion + score_similarity + score_cluster) / 3
            
            
        # provisional (meter los codigos de los proyectos)   
        except:
            print('Investigador: ', invID,  ' no tiene publicaciones')
            posicion = None
            similitud = None
            primeras_calls = None
            score_posicion = None
            score_similitarity = None
            score_cluster = None
            score = None
            

        # añadir la fila a la lista de diccionarios
        new_rows.append({'invID': invID,
                         'call': call_validation,
                         'acronimo': acronimo,
                         'department': department,
                         'posicion': posicion,
                         'similitud': similarity,
                         'metodo': method + '_' + agg_method,
                         '5 primeros':  primeras_calls,
                         'score_posicion': score_posicion,
                         'score_similarity': score_similarity,
                         'score_cluster': score_cluster,
                         'score': score})

    # crear un nuevo DataFrame con las filas añadidas
    df_validation_results = pd.DataFrame(new_rows).sort_values(by='score', ascending=False).fillna(0)
    
    return df_validation_results


In [7]:
methods = ['BERT', 'tfidf', 'bhattacharyya', 'embeddings']
agg_methods = ['sum', 'mean', 'mean_imp'] 
val_results = {}

# Calcular el total de iteraciones
total_iterations = len(methods) * len(agg_methods)

# Crear una barra de progreso
progress_bar = tqdm(total=total_iterations, desc="Procesando")

for i in methods:
    for j in agg_methods:
        val_results[f"{i}_{j}_val_results"] = get_validation_results(df_val=df_val, df_researchers=df_researchers, df_calls=df_calls, method=i, agg_method=j)
        # Actualizar la barra de progreso después de cada iteración
        progress_bar.update(1)

# Marcar la barra de progreso como completa
progress_bar.close()

Procesando:   0%|          | 0/12 [00:00<?, ?it/s]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:   8%|▊         | 1/12 [00:05<01:01,  5.61s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  17%|█▋        | 2/12 [00:11<00:56,  5.65s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  25%|██▌       | 3/12 [00:16<00:50,  5.63s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  33%|███▎      | 4/12 [00:22<00:44,  5.61s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  42%|████▏     | 5/12 [00:28<00:39,  5.64s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  50%|█████     | 6/12 [00:33<00:33,  5.65s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  58%|█████▊    | 7/12 [00:39<00:28,  5.64s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  67%|██████▋   | 8/12 [00:45<00:22,  5.64s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  75%|███████▌  | 9/12 [00:50<00:17,  5.68s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  83%|████████▎ | 10/12 [00:56<00:11,  5.67s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando:  92%|█████████▏| 11/12 [01:02<00:05,  5.64s/it]

Investigador:  inv49042  no tiene publicaciones
Investigador:  inv48049  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones
Investigador:  inv35687  no tiene publicaciones
Investigador:  inv44095  no tiene publicaciones
Investigador:  inv50422  no tiene publicaciones
Investigador:  inv42059  no tiene publicaciones


Procesando: 100%|██████████| 12/12 [01:07<00:00,  5.65s/it]


In [8]:
# Unificar todos los dataframes
dfs = []

for key, df in val_results.items():
    # Agregar el DataFrame a la lista
    dfs.append(df)

df_val_total = pd.concat(dfs, ignore_index=True).sort_values(by = 'score', ascending = False).fillna(0)
df_val_total

Unnamed: 0,invID,call,acronimo,department,posicion,similitud,metodo,5 primeros,score_posicion,score_similarity,score_cluster,score
0,inv44624,HORIZON-CL5-2023-D5-01-09,MISSION,Aerospace Engineering,1.0,9.224060,BERT_sum,HORIZON-CL5-2023-D5-01-09,0.998483,1.000000,1.0,0.999494
207,inv21183,HORIZON-CL4-2023-DIGITAL-EMERGING-01-01,Multonomy,Systems Engineering and Automation,1.0,0.095047,tfidf_mean,HORIZON-CL4-2023-DIGITAL-EMERGING-01-01,0.998483,1.000000,1.0,0.999494
102,inv44624,HORIZON-CL5-2023-D5-01-09,MISSION,Aerospace Engineering,1.0,0.614937,BERT_mean_imp,HORIZON-CL5-2023-D5-01-09,0.998483,1.000000,1.0,0.999494
103,inv21183,HORIZON-CL4-2023-DIGITAL-EMERGING-01-01,Multonomy,Systems Engineering and Automation,1.0,0.654342,BERT_mean_imp,HORIZON-CL4-2023-DIGITAL-EMERGING-01-01,0.998483,1.000000,1.0,0.999494
153,inv44624,HORIZON-CL5-2023-D5-01-09,MISSION,Aerospace Engineering,1.0,0.490651,tfidf_sum,HORIZON-CL5-2023-D5-01-09,0.998483,1.000000,1.0,0.999494
...,...,...,...,...,...,...,...,...,...,...,...,...
405,inv44095,HORIZON-EIC-2023-PATHFINDERCHALLENGES-01-05,E.T.COMPACT,Aerospace Engineering,0.0,0.065983,bhattacharyya_mean,0,0.000000,0.125114,0.0,0.000000
146,inv49042,HORIZON-CL4-2023-HUMAN-01-05,CiTrusVerse,Telematic Engineering,0.0,0.442069,BERT_mean_imp,0,0.000000,0.774586,0.0,0.000000
147,inv48049,HORIZON-CL2-2023-DEMOCRACY-01-06,Express2,Social Sciences,0.0,0.436295,BERT_mean_imp,0,0.000000,0.853265,0.0,0.000000
148,inv42059,HORIZON-CL6-2023-FARM2FORK-01-07,LASERPEST,Systems Engineering and Automation,0.0,0.369133,BERT_mean_imp,0,0.000000,0.746733,0.0,0.000000
