### Import Libraries

In [28]:
import os
from gensim.models import Word2Vec
from gensim.models import FastText
import pandas as pd
from IPython.display import display, HTML

In [29]:
table_folder="tables"
if not os.path.exists(table_folder):
    os.makedirs(table_folder)

In [30]:
model_folder="models"
if not os.path.exists(model_folder):
    os.makedirs(model_folder)

In [31]:
folder = "TP_ISD2020"
domains = ["QUAERO_FrenchMed/QUAERO_FrenchMed_traindev.ospl", "QUAERO_FrenchPress/QUAERO_FrenchPress_traindev.ospl"]

### Convert each file to a list of lists

In [32]:
data = dict()

for d in domains:
    path = os.path.join(folder, d)
    data_ = []
    print(" [.] Path to data:", path)
    with open(path, "r", encoding='utf-8') as f:
        for line in f:
            stripped_line = line.strip()
            line_list = stripped_line.split()
            data_.append(line_list)
            
    data[d] = data_

 [.] Path to data: TP_ISD2020/QUAERO_FrenchMed/QUAERO_FrenchMed_traindev.ospl
 [.] Path to data: TP_ISD2020/QUAERO_FrenchPress/QUAERO_FrenchPress_traindev.ospl


# Create and Save models

## Word2Vec Skip-Gram

In [33]:
for d in domains:
    model = Word2Vec(data[d], min_count=1, sg=1, size=100, window=15)
    model.train(data[d], total_examples=model.corpus_count, epochs=model.epochs)
    description = "FrenchMed" if "FrenchMed" in d else "FrenchPress"
    model.save(os.path.join(model_folder, "sg_w2v_" + description + ".model"))

## Word2Vec Cbow

In [34]:
for d in domains:
    model = Word2Vec(data[d], min_count=1, sg=0, size=100, window=15)
    model.train(data[d], total_examples=model.corpus_count, epochs=model.epochs)
    description = "FrenchMed" if "FrenchMed" in d else "FrenchPress"
    model.save(os.path.join(model_folder, "cbow_w2v_" + description + ".model"))

## FastText Cbow

In [35]:
for d in domains:
    model = FastText(size=100, window=15, min_count=1)
    model.build_vocab(sentences=data[d])
    model.train(sentences=data[d], total_examples=len(data[d]), epochs=10)
    description = "FrenchMed" if "FrenchMed" in d else "FrenchPress"
    model.save(os.path.join(model_folder, "fasttext_" + description + ".model"))

# Evaluation

In [43]:
def evaluate_same_corpus(description, models, words=["patient", "traitement", "maladie", "solution", "jaune"]):
    similarities = dict()
    for word in words:
        similarities[word] = pd.DataFrame()
        #similarities[word].columns.name = '_'.join([word, description])
        for model, model_name in models:
            similars = model.wv.most_similar(word)
            similar_string = [s[0] for s in similars]
            #similar_score = [s[1] for s in similars]
            similarities[word][model_name] = similar_string
            #similarities[word][model_name + "_score"] = similar_score
            
    return similarities

In [44]:
def evaluate_same_approach(model_name, domains, words=["patient", "traitement", "maladie", "solution", "jaune"]):
    similarities = dict()
    for d in domains:
        description = "FrenchMed" if "FrenchMed" in d else "FrenchPress"
        tag = ''.join([model_name, description])
        similarities[tag] = pd.DataFrame()
        #similarities[tag].columns.name = tag
        
        if "fasttext" in model_name:
            model = FastText.load(os.path.join(model_folder, model_name + description + ".model"))
        else:
            model = Word2Vec.load(os.path.join(model_folder, model_name + description + ".model"))

        for word in words:
            similars = model.wv.most_similar(word)
            similar_string = [s[0] for s in similars]
            #similar_score = [s[1] for s in similars]
            similarities[tag][word] = similar_string
            #similarities[tag][word + "_score"] = similar_score
            
    return similarities

## Same corpus

In [45]:
for d in domains:
    description = "FrenchMed" if "FrenchMed" in d else "FrenchPress"
    word2vec_sg = Word2Vec.load(os.path.join(model_folder, "sg_w2v_" + description + ".model"))
    word2vec_cbow = Word2Vec.load(os.path.join(model_folder, "cbow_w2v_" + description + ".model"))
    fasttext = FastText.load(os.path.join(model_folder, "fasttext_" + description + ".model"))
    
    similarities = evaluate_same_corpus(description, [(word2vec_sg, "w2vc_skipg"), (word2vec_cbow, "w2v_cbow"), (fasttext, "fasttext")])
    for word in similarities.keys():
        display(HTML(similarities[word].to_html()))
        with open(os.path.join(table_folder, "corpus_" + description + "_" + word + ".tex"), "w") as table:
            table.write(similarities[word].to_latex(index=False))

Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,bien,risque,pansements
1,atteinte,devra,segments
2,avoir,aucun,Mouvements
3,interrompre,risques,Documents
4,ceux,grossesse,hurlements
5,carte,tous,changements
6,informer,bien,éléments
7,prévenir,carte,ciments
8,arrêter,sera,ligaments
9,prenez,contrôle,saignements


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,expérimenté,utilisation,Traitement
1,test,autres,traitements
2,surveillé,recommandé,Taaitement
3,arrêté,informés,Traitements
4,confirmé,fait,Allaitement
5,début,pas,évitement
6,expérience,existe,allaitement
7,Parkinson,pourra,événement
8,instauré,être,avortement
9,effectué,que,hautement


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,avancé,infection,provoque
1,liée,le,Existence
2,type,association,existence
3,stade,comportement,référence
4,manifestations,survenue,accidentelle
5,Parkinson,modification,dengue
6,cérébrale,enfant,inattendue
7,immunitaire,foie,acceptabilité
8,Patients,un,longue
9,inflammatoire,médicaments,streptocoque


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,contient,20,perfusion
1,poudre,Chaque,Dissolution
2,diluer,buvable,Perfusion
3,fournie,contient,solutions
4,blanche,microgrammes,diffusion
5,goutte,jour,Solution
6,buvable,300,confusion
7,fourni,kg,perfusions
8,lépirudine,150,evolution
9,extérieur,h,Evolution


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,pâle,–,pose
1,Acide,C,programme
2,sucre,forme,programmé
3,chlorhydrique,33,polypose
4,15ml,Polysorbate,boîte
5,orange,fer,thermostable
6,PELLICULES,44,diméthylaminoazobenzène
7,propyle,24,Athlone
8,80,heures,diluée
9,dibasique,80,corporel


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,contaminants,motivation,impatient
1,imputé,cotisée,patientent
2,compréhensible,Girerd,abstient
3,irréaliste,Jacques-Rémy,détient
4,évitable,innombrables,réconcilient
5,protégée,band,impatientent
6,arnaque,défaut,initient
7,chantait,percuté,soutient
8,Maréchaux,rédiger,ratifient
9,pacsé,poings,contient


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,élémentaire,mariage,concrètement
1,reproductive,système,promptement
2,problématiques,logement,doctement
3,multilatéral,moteur,recrutement
4,allégés,additionnel,strictement
5,enracinement,TP400,subitement
6,frottis,collectif,étroitement
7,encouragent,regard,abruptement
8,conditionner,statut,dévouement
9,approfondissement,coût,retraitement


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,SRAS,vente,malnutrie
1,pneumopathie,perte,malade
2,virus,population,archéologie
3,causé,conquête,trilogie
4,aiguë,transmission,asphyxie
5,séropositif,faim,fantaisie
6,Alzheimer,douleur,bactériologie
7,dus,catastrophe,magie
8,épidémie,pauvreté,épidémiologie
9,coronavirus,commande,médecine


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,pacifique,proposition,résolution
1,acceptera,stratégie,révolution
2,garantissant,pacifique,dissolution
3,consensuelle,puissance,évolution
4,renoncera,garantie,dilution
5,constructif,atteinte,pollution
6,compliquer,crédibilité,caution
7,remédier,Charte,résorption
8,sincère,Zone,persécution
9,constructifs,mission,potion


Unnamed: 0,w2vc_skipg_string,w2v_cbow_string,fasttext_string
0,maillot,maillot,Neptune
1,emparé,endossé,brune
2,grimpeur,cavalier,lune
3,Morzine,sprint,Jeune
4,pois,Saâdoune,Saâdoune
5,Pena,Ouariour,Saadoune
6,Cooke,Peter,lagune
7,Baden,Lleytton,dune
8,Charleville-Mézières,Biélorusse,l'une
9,Lachhab,dix-septième,Pampelune


## Same approach

In [46]:
model_names = ["sg_w2v_", "cbow_w2v_", "fasttext_"]
for model_name in model_names:
    similarities = evaluate_same_approach(model_name, domains)
    for word in similarities.keys():
        display(HTML(similarities[word].to_html()))
        with open(os.path.join(table_folder, "approach_" + word + ".tex"), "w") as table:
            table.write(similarities[word].to_latex(index=False))

Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,bien,expérimenté,avancé,contient,pâle
1,atteinte,test,liée,poudre,Acide
2,avoir,surveillé,type,diluer,sucre
3,interrompre,arrêté,stade,fournie,chlorhydrique
4,ceux,confirmé,manifestations,blanche,15ml
5,carte,début,Parkinson,goutte,orange
6,informer,expérience,cérébrale,buvable,PELLICULES
7,prévenir,Parkinson,immunitaire,fourni,propyle
8,arrêter,instauré,Patients,lépirudine,80
9,prenez,effectué,inflammatoire,extérieur,dibasique


Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,contaminants,élémentaire,SRAS,pacifique,maillot
1,imputé,reproductive,pneumopathie,acceptera,emparé
2,compréhensible,problématiques,virus,garantissant,grimpeur
3,irréaliste,multilatéral,causé,consensuelle,Morzine
4,évitable,allégés,aiguë,renoncera,pois
5,protégée,enracinement,séropositif,constructif,Pena
6,arnaque,frottis,Alzheimer,compliquer,Cooke
7,chantait,encouragent,dus,remédier,Baden
8,Maréchaux,conditionner,épidémie,sincère,Charleville-Mézières
9,pacsé,approfondissement,coronavirus,constructifs,Lachhab


Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,risque,utilisation,infection,20,–
1,devra,autres,le,Chaque,C
2,aucun,recommandé,association,buvable,forme
3,risques,informés,comportement,contient,33
4,grossesse,fait,survenue,microgrammes,Polysorbate
5,tous,pas,modification,jour,fer
6,bien,existe,enfant,300,44
7,carte,pourra,foie,kg,24
8,sera,être,un,150,heures
9,contrôle,que,médicaments,h,80


Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,motivation,mariage,vente,proposition,maillot
1,cotisée,système,perte,stratégie,endossé
2,Girerd,logement,population,pacifique,cavalier
3,Jacques-Rémy,moteur,conquête,puissance,sprint
4,innombrables,additionnel,transmission,garantie,Saâdoune
5,band,TP400,faim,atteinte,Ouariour
6,défaut,collectif,douleur,crédibilité,Peter
7,percuté,regard,catastrophe,Charte,Lleytton
8,rédiger,statut,pauvreté,Zone,Biélorusse
9,poings,coût,commande,mission,dix-septième


Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,pansements,Traitement,provoque,perfusion,pose
1,segments,traitements,Existence,Dissolution,programme
2,Mouvements,Taaitement,existence,Perfusion,programmé
3,Documents,Traitements,référence,solutions,polypose
4,hurlements,Allaitement,accidentelle,diffusion,boîte
5,changements,évitement,dengue,Solution,thermostable
6,éléments,allaitement,inattendue,confusion,diméthylaminoazobenzène
7,ciments,événement,acceptabilité,perfusions,Athlone
8,ligaments,avortement,longue,evolution,diluée
9,saignements,hautement,streptocoque,Evolution,corporel


Unnamed: 0,patient_string,traitement_string,maladie_string,solution_string,jaune_string
0,impatient,concrètement,malnutrie,résolution,Neptune
1,patientent,promptement,malade,révolution,brune
2,abstient,doctement,archéologie,dissolution,lune
3,détient,recrutement,trilogie,évolution,Jeune
4,réconcilient,strictement,asphyxie,dilution,Saâdoune
5,impatientent,subitement,fantaisie,pollution,Saadoune
6,initient,étroitement,bactériologie,caution,lagune
7,soutient,abruptement,magie,résorption,dune
8,ratifient,dévouement,épidémiologie,persécution,l'une
9,contient,retraitement,médecine,potion,Pampelune
