# Use of ANNIF library

Ce notebook contient toutes les étapes de l'utilisation de la librairie annif (doc d'installation de toutes les librairies à prévoir).
- Formatage des données pour utilisation dans ANNIF
- Entrainement d'un modèle 
- Utilisation de pipelines pour tester plusieurs modèles
- Recherche des meilleurs paramètres  

## Setup 

### Packages

In [1]:
# Import librairies
import os
import csv
import pandas as pd

In [2]:
import os 
os.getcwd()

'/home/aurelie/ABES/labo-indexation-ai'

### Graphical parameters

### Paths

In [3]:
# Create folders
! mkdir ANNIF
! mkdir ANNIF/data ANNIF/reports ANNIF/vocabs
! mkdir ANNIF/data/train  ANNIF/data/test

/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
mkdir: cannot create directory ‘ANNIF’: File exists


/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
mkdir: cannot create directory ‘ANNIF/data’: File exists
mkdir: cannot create directory ‘ANNIF/reports’: File exists
mkdir: cannot create directory ‘ANNIF/vocabs’: File exists
/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
mkdir: cannot create directory ‘ANNIF/data/train’: File exists
mkdir: cannot create directory ‘ANNIF/data/test’: File exists


In [4]:
# Set paths
project_path = "/home/aurelie/ABES/labo-indexation-ai"
data_path = project_path + "/data"
annif_path = project_path + "/ANNIF"
annif_data_path = annif_path + "/data"
annif_report_path = annif_path + "/reports"

### Files

In [5]:
# Select data to use
data = "working_data_sans_dewey.pkl"
rameau_file = "rameau_Tf_Td.csv"

## Create datasets

### Import data

In [6]:
# Import working data
df = pd.read_pickle(os.path.join(data_path, data))
print(df.shape)

(154447, 10)


In [7]:
df.head(5)

Unnamed: 0,PPN,TITRE,RESUME,RAMEAU,DEWEY,DESCR,RAMEAU_CHECKED,presence_chaine_indexation,rameau_chaines_index,rameau_concepts
0,000002364,La culture pour vivre,Mort de la culture populaire en France. Mutati...,Culture populaire;Diffusion de la culture;Poli...,840.0,La culture pour vivre Mort de la culture popul...,Culture populaire;Diffusion de la culture;Poli...,False,"[Culture populaire, Diffusion de la culture, P...","[Culture populaire, Diffusion de la culture, P..."
1,000014877,"La nuit, le jour : essai psychanalytique sur l...","Discontinuité, latence, rétablissement d’une c...",Complexe de castration;Psychanalyse;Rêves,154.63,"La nuit, le jour : essai psychanalytique sur l...",Complexe de castration;Psychanalyse;Rêves,False,"[Complexe de castration, Psychanalyse, Rêves]","[Complexe de castration, Psychanalyse, Rêves]"
2,000021857,"Ruptures, cultures","Il faut imaginer Robinson sur son île, au mome...",Culture,840.0,"Ruptures, cultures Il faut imaginer Robinson s...",Culture,False,[Culture],[Culture]
3,00002564X,La révolution structurale,"Mutations ou crises, les brusques accès de fiè...",Structuralisme,100.0,"La révolution structurale Mutations ou crises,...",Structuralisme,False,[Structuralisme],[Structuralisme]
4,000026352,La Destruction du temple,"Oswald tire sur Kennedy. Jusque-là, c'est bon,...",Science-fiction américaine -- Traductions fran...,830.0,La Destruction du temple Oswald tire sur Kenne...,Science-fiction américaine -- Traductions fran...,True,[Science-fiction américaine -- Traductions fra...,"[Science-fiction américaine, Traductions franç..."


In [8]:
# Import file of RAMEAU concepts
rameau = pd.read_csv(os.path.join(data_path, rameau_file), index_col=0)
print(rameau.shape)
rameau.head(20)

(103628, 3)


Unnamed: 0,PPN,NOM,URI
0,157992527,Kirp?n,https://www.idref.fr/157992527
1,110140494,Militaires artistes,https://www.idref.fr/110140494
2,028492161,Militaires romains,https://www.idref.fr/028492161
3,028521757,Militaires prussiens,https://www.idref.fr/028521757
4,029895561,Sa-skya-pa,https://www.idref.fr/029895561
5,031875459,Militaires réunionnais,https://www.idref.fr/031875459
6,032370083,Construction à l'épreuve de la sécheresse,https://www.idref.fr/032370083
7,032878117,Missionnaires suisses,https://www.idref.fr/032878117
8,034423982,Militaires ivoiriens,https://www.idref.fr/034423982
9,034686940,Outils à métaux,https://www.idref.fr/034686940


### Create vocabulary files

In [9]:
# Create dictionnary of URI
label2uri = {k:v for k,v in zip(rameau["NOM"], rameau["URI"].astype(str))}

In [10]:
label2uri["Le Petit Chaperon rouge (conte)"]

'https://www.idref.fr/136992536'

#### Concepts vocabulary file

In [11]:
# Create vocabulary file from concepts
vocab_filename = os.path.join(annif_data_path,'subjects.csv')
vocab = pd.DataFrame(rameau[["NOM", "URI"]])
vocab.columns = ["label_fr", "uri"]
vocab.to_csv(vocab_filename, encoding='utf-8', index=None)
vocab.head(10)

Unnamed: 0,label_fr,uri
0,Kirp?n,https://www.idref.fr/157992527
1,Militaires artistes,https://www.idref.fr/110140494
2,Militaires romains,https://www.idref.fr/028492161
3,Militaires prussiens,https://www.idref.fr/028521757
4,Sa-skya-pa,https://www.idref.fr/029895561
5,Militaires réunionnais,https://www.idref.fr/031875459
6,Construction à l'épreuve de la sécheresse,https://www.idref.fr/032370083
7,Missionnaires suisses,https://www.idref.fr/032878117
8,Militaires ivoiriens,https://www.idref.fr/034423982
9,Outils à métaux,https://www.idref.fr/034686940


In [12]:
# Check import with bash:
! head {vocab_filename}

/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
label_fr,uri
Kirp?n,https://www.idref.fr/157992527
Militaires artistes,https://www.idref.fr/110140494
Militaires romains,https://www.idref.fr/028492161
Militaires prussiens,https://www.idref.fr/028521757
Sa-skya-pa,https://www.idref.fr/029895561
Militaires réunionnais,https://www.idref.fr/031875459
Construction à l'épreuve de la sécheresse,https://www.idref.fr/032370083
Missionnaires suisses,https://www.idref.fr/032878117
Militaires ivoiriens,https://www.idref.fr/034423982


In [13]:
# Check number of concepts in the vocabulary file:
! wc -l < {vocab_filename}

/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
103629


#### Chains vocabulary file

In [14]:
# Create URIS
def create_vocabulary_from_chains(chains, label2uri):
    chain_df = pd.DataFrame()
    for label in chains:
        i = 0
        if ' -- ' in label:
            chain_df.loc[i, "label_fr"] = label
            items = label.split(" -- ")
            chained_uri = []
            for item in items:
                chained_uri.append(label2uri[item])
            chain_df.loc[i, "uri"] = "#--".join(chained_uri)
            i += 1 
            
    return chain_df

In [15]:
# Append vocabulary with indexation chains in training set (quite long to run ~ 5min)
vocab_chain = vocab.copy()
df_train = pd.read_csv(os.path.join(data_path, "train_dataset.csv"))
print("dimension of train set: ", df_train.shape)
for indexation in df_train["rameau_chaines_index"]:
    new_uri_chain = create_vocabulary_from_chains(eval(indexation), label2uri)
    vocab_chain = pd.concat([vocab_chain, new_uri_chain])

dimension of train set:  (125220, 10)


In [16]:
# Check
print("Vocabulary with indexation chains :", vocab_chain.shape)
vocab_chain.tail()

Vocabulary with indexation chains : (151048, 2)


Unnamed: 0,label_fr,uri
0,Population -- Statistiques -- Vingtième siècle,https://www.idref.fr/027546071#--http://www.id...
0,Esclavage -- Dans l'art,https://www.idref.fr/027224295#--https://www.i...
0,Physique -- Dans l'art,https://www.idref.fr/027247015#--https://www.i...
0,Violences sexuelles -- Prévention,https://www.idref.fr/027343758#--https://www.i...
0,Transition écologique -- Finances,https://www.idref.fr/189110813#--https://www.i...


In [18]:
# Save vocabulary file including indexaton chains
vocab_filename_chain = os.path.join(annif_data_path,'chain-subjects.csv')
vocab_chain.to_csv(vocab_filename_chain, encoding='utf-8', index=None)
vocab_chain.head()

Unnamed: 0,label_fr,uri
0,Kirp?n,https://www.idref.fr/157992527
1,Militaires artistes,https://www.idref.fr/110140494
2,Militaires romains,https://www.idref.fr/028492161
3,Militaires prussiens,https://www.idref.fr/028521757
4,Sa-skya-pa,https://www.idref.fr/029895561


In [19]:
vocab_chain.tail()

Unnamed: 0,label_fr,uri
0,Population -- Statistiques -- Vingtième siècle,https://www.idref.fr/027546071#--http://www.id...
0,Esclavage -- Dans l'art,https://www.idref.fr/027224295#--https://www.i...
0,Physique -- Dans l'art,https://www.idref.fr/027247015#--https://www.i...
0,Violences sexuelles -- Prévention,https://www.idref.fr/027343758#--https://www.i...
0,Transition écologique -- Finances,https://www.idref.fr/189110813#--https://www.i...


In [20]:
# Create dictionnary of URI
chains2uri = {k:v for k,v in zip(vocab_chain["label_fr"], vocab_chain["uri"])}

In [21]:
chains2uri['Transition écologique -- Finances']

'https://www.idref.fr/189110813#--https://www.idref.fr/027606511'

### Datasets for training and evaluation

#### Import train and test sets (using split performed by Jean Luc Prieto)

In [None]:
df_train = pd.read_pickle(os.path.join(data_path, "train_dataset.pkl"))
print("dimension of train set: ", df_train.shape)
df_test = pd.read_pickle(os.path.join(data_path, "test_dataset.pkl"))
print("dimension of test set: ", df_test.shape)
df_valid100 = pd.read_pickle(os.path.join(data_path, "valid100_dataset.pkl"))
print("dimension of test set: ", df_valid100.shape)

dimension of train set:  (125220, 10)
dimension of test set:  (29227, 10)
dimension of test set:  (100, 10)


#### Create TSV files (short-text-document)
see: https://github.com/NatLibFi/Annif/wiki/Document-corpus-formats#short-text-document-corpus-tsv-file

#### For Concepts

In [27]:
# Format URIS for ANNIF
def format_for_annif(labels):
    uris = []
    for label in labels:
        if label in label2uri.keys():
            uris.append(label2uri[label])
    uris_formated = " ".join(uris)
    return uris_formated

In [32]:
# Apply on train data
df_train["rameau_concept_formatted_for_annif"] = df_train["rameau_concepts"].apply(lambda x: format_for_annif(x))
df_train["DESCR_cleaned"] = df_train["DESCR"].apply(lambda x: " ".join(x.split()))
df_train[["DESCR_cleaned", "rameau_concept_formatted_for_annif"]].head()

Unnamed: 0,DESCR_cleaned,rameau_concept_formatted_for_annif
0,La culture pour vivre Mort de la culture popul...,https://www.idref.fr/027348237 https://www.idr...
1,"La nuit, le jour : essai psychanalytique sur l...",https://www.idref.fr/027823393 https://www.idr...
2,"Ruptures, cultures Il faut imaginer Robinson s...",https://www.idref.fr/027231429
3,La Destruction du temple Oswald tire sur Kenne...,http://www.idref.fr/028242955 https://www.idre...
4,"Mon père Jové, pèlerin de l'image Naturalisé f...",http://www.idref.fr/028224248


In [33]:
# Save TSV file for ANNIF
with open(os.path.join(annif_data_path, "rameau-train.tsv"), 'w', encoding='utf-8') as output_train_file:
        for index, row in df_train.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_concept_formatted_for_annif'], file=output_train_file)


In [34]:
# Check import with bash: 
! head -n 2 /home/aurelie/ABES/Annif-tutorial/data-sets/rameau/rameau-train.tsv

/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
Une politique pour La Réunion Michel Debré a été élu député de la Réunion en avril 1963, en 1967, en 1968 et en 1973. Ce dernier a pris une part considérable dans une étape essentielle de l'évolution réunionnaise qui est celle de la réalisation effective de la départementalisation entraînant un développement et un progrès considérable dans tous les domaines. Cet ouvrage a pour objectif de déterminer les grandes orientations économiques et sociales de l'île.	https://www.idref.fr/027274292 https://www.idref.fr/027479358
L'Aparole électorale La 4ème de couv. indique : " Sommes-nous la moitié du ciel ou voulons-nous la moitié du gâteau ?… Les élections étaient finies depuis peu en Italie. Elles laissaient derrière elles une déception sensible […], un déchaînement de polémiques acerbes et amères… une fois encore, les femmes étaient mises en accusation… Il ne s’agit pas d’un livre d

In [35]:
# Apply on test dataset
df_test["rameau_concept_formatted_for_annif"] = df_test["rameau_concepts"].apply(lambda x: format_for_annif(x))
df_test["DESCR_cleaned"] = df_test["DESCR"].apply(lambda x: " ".join(x.split()))
df_test[["DESCR_cleaned", "rameau_concept_formatted_for_annif"]].head()

Unnamed: 0,DESCR_cleaned,rameau_concept_formatted_for_annif
0,"La révolution structurale Mutations ou crises,...",https://www.idref.fr/027249581
1,La théorie des jeux et ses applications à l'éc...,https://www.idref.fr/02733743X https://www.idr...
2,Pétrole : le vrai dossier Que dissimulent les ...,https://www.idref.fr/027428958
3,Magie : aspects de la tradition occidentale La...,https://www.idref.fr/027238210
4,Mathématiques de base pour les linguistes La f...,https://www.idref.fr/027236005 https://www.idr...


In [49]:
# Save TSV file for ANNIF
with open(os.path.join(annif_data_path, "rameau-test.tsv"), 'w', encoding='utf-8') as output_test_file:
        for index, row in df_test.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_concept_formatted_for_annif'], file=output_test_file)

In [36]:
# Apply on validation dataset
df_valid100["rameau_concept_formatted_for_annif"] = df_valid100["rameau_concepts"].apply(lambda x: format_for_annif(x))
df_valid100["DESCR_cleaned"] = df_valid100["DESCR"].apply(lambda x: " ".join(x.split()))
df_valid100[["DESCR_cleaned", "rameau_concept_formatted_for_annif"]].head()

with open(os.path.join(annif_data_path, "rameau-valid.tsv"), 'w', encoding='utf-8') as output_test_file:
        for index, row in df_valid100.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_concept_formatted_for_annif'], file=output_test_file)

#### For chains

In [37]:
# Create URIS
def format_chains_for_annif(labels):
    uris = []
    for label in labels:
        if label in chains2uri.keys():
            uris.append(chains2uri[label])
    uris_formated = " ".join(uris)
    return uris_formated

In [38]:
# Create indexation chains
df_train["rameau_chains_formatted_for_annif"] = df_train["rameau_chaines_index"].apply(lambda x: format_chains_for_annif(x))
df_train[["DESCR_cleaned", "rameau_chains_formatted_for_annif"]].head()

Unnamed: 0,DESCR_cleaned,rameau_chains_formatted_for_annif
0,La culture pour vivre Mort de la culture popul...,https://www.idref.fr/027348237 https://www.idr...
1,"La nuit, le jour : essai psychanalytique sur l...",https://www.idref.fr/027823393 https://www.idr...
2,"Ruptures, cultures Il faut imaginer Robinson s...",https://www.idref.fr/027231429
3,La Destruction du temple Oswald tire sur Kenne...,http://www.idref.fr/028242955#--https://www.id...
4,"Mon père Jové, pèlerin de l'image Naturalisé f...",http://www.idref.fr/028224248


In [39]:
df_test["rameau_chains_formatted_for_annif"] = df_test["rameau_chaines_index"].apply(lambda x: format_chains_for_annif(x))
df_test[["DESCR_cleaned", "rameau_chains_formatted_for_annif"]].head()

Unnamed: 0,DESCR_cleaned,rameau_chains_formatted_for_annif
0,"La révolution structurale Mutations ou crises,...",https://www.idref.fr/027249581
1,La théorie des jeux et ses applications à l'éc...,https://www.idref.fr/02733743X https://www.idr...
2,Pétrole : le vrai dossier Que dissimulent les ...,https://www.idref.fr/027428958
3,Magie : aspects de la tradition occidentale La...,https://www.idref.fr/027238210
4,Mathématiques de base pour les linguistes La f...,https://www.idref.fr/027236641 https://www.idr...


In [40]:
df_valid100["rameau_chains_formatted_for_annif"] = df_valid100["rameau_chaines_index"].apply(lambda x: format_chains_for_annif(x))
df_valid100[["DESCR_cleaned", "rameau_chains_formatted_for_annif"]].head()

Unnamed: 0,DESCR_cleaned,rameau_chains_formatted_for_annif
0,Les sommets de l'État : essai sur l'élite du p...,https://www.idref.fr/027229629 https://www.idr...
1,Le dollar La quatrième de couverture indique :...,https://www.idref.fr/027882691 https://www.idr...
2,Les intellectuels sous la Ve République : 1958...,https://www.idref.fr/027235149 https://www.idr...
3,"Bouddha, bouddhisme La 4e de couv. indique : ""...",https://www.idref.fr/027321835
4,Apprendre à aimer les mathématiques : conditio...,https://www.idref.fr/02723875X#--https://www.i...


In [41]:
# save dataframes
with open(os.path.join(annif_data_path, "rameau-chains-train.tsv"), 'w', encoding='utf-8') as output_test_file:
        for index, row in df_train.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_chains_formatted_for_annif'], file=output_test_file)

with open(os.path.join(annif_data_path, "rameau-chains-test.tsv"), 'w', encoding='utf-8') as output_test_file:
        for index, row in df_test.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_chains_formatted_for_annif'], file=output_test_file)

with open(os.path.join(annif_data_path, "rameau-chains-valid.tsv"), 'w', encoding='utf-8') as output_test_file:
        for index, row in df_valid100.iterrows():
                print(row['DESCR_cleaned'] + '\t' + row['rameau_chains_formatted_for_annif'], file=output_test_file)


In [47]:
# Check import with bash: 
! head -n 2 /home/aurelie/ABES/labo-indexation-ai/ANNIF/data/rameau-chains-train.tsv

/bin/bash: /home/aurelie/anaconda3/lib/libtinfo.so.6: no version information available (required by /bin/bash)
La culture pour vivre Mort de la culture populaire en France. Mutation des institutions culturelles grâce à une technique de mise en relation des oeuvres et d'un public, et qui tend à créer un comportement culturel adapté aux caractéristiques de l'époque	https://www.idref.fr/027348237 https://www.idref.fr/027224929 https://www.idref.fr/027416593
La nuit, le jour : essai psychanalytique sur le fonctionnement mental Discontinuité, latence, rétablissement d’une continuité organisent la vie psychique. Réparatrice est dite la nuit... Les auteurs ont voulu montrer la complexité sous-jacente à cette qualité dès lors que Freud met au jour dans l’étude du rêve, au-delà d’une certaine réalisation de désir inconscient lié à l’histoire individuelle d’un sujet donné, l’existence de « veinures » qui résultent de la préhistoire de tous les humains et qui, imprimant la matière où s’inscrit le

### Datasets to get predictions

ANNIF ne sait pas faire la prédiction de chaque notice d'un fichier short-text document (TSV) d'un coup. Il fait une prédiction pour tout le texte du TSV, ce qui n'a pas de sens.

Il faut donc créer un fichier .txt pour chaque notice et lancer la prédiction pour tous les .txt d'un dossier en utilisant annif index

In [51]:
# Train dataset

for index, row in df_train.iterrows():
    folder_path = os.path.join(annif_data_path, "train/")
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    filename = os.path.join(folder_path, str(row['PPN'] + '.txt'))
    with open(filename, 'a') as f:
        f.write(row['DESCR_cleaned'])

In [52]:
# Test dataset
for index, row in df_test.iterrows():
    folder_path = os.path.join(annif_data_path, "test/")
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    filename = os.path.join(folder_path, str(row['PPN'] + '.txt'))
    with open(filename, 'a') as f:
        f.write(row['DESCR_cleaned'])

In [53]:
# Validation dataset
for index, row in df_valid100.iterrows():
    folder_path = os.path.join(annif_data_path, "valid/")
    if not os.path.exists(folder_path):
        os.makedirs(folder_path)
    filename = os.path.join(folder_path, str(row['PPN'] + '.txt'))
    with open(filename, 'a') as f:
        f.write(row['DESCR_cleaned'])