## **2. Prétraitement**
- Segmentation (phrases)
- Tokenization (mots)
- Étiquetage morphosyntaxique (POS Tagging) 
- Lemmatisation
- Filtrage (stopwords)
- Extraction de termes complexes (MWE / n-grammes / segments répétés)
- Chunking / Filtrage par patrons syntaxiques (basés sur les patrons fréquents dans les MeSH)
- Extraction de concordances (KWIC) pour un ensemble de mots-clés d'intérêt
- Extraction de termes MeSH et SNOMED présents dans les données

### **Lire le corpus** 

In [1]:
import shutil, re, pandas
from os import listdir, chdir, path
from pathlib import Path

acteur = 'msss'
sous_corpus = False 
tag = ''

# Change the directory
if sous_corpus:
    base_path = '../03-corpus/2-sous-corpus/'
    file_path = path.join(base_path, acteur, tag)

else: 
    base_path = '../03-corpus/2-data/1-fr/'
    file_path = path.join(base_path, acteur) + '.csv'

In [2]:
from pandas import *
with open(file_path, "r", encoding = "UTF-8") as f:
        data = read_csv(file_path)
        text = data['text'].tolist()
        corpus = " ".join([(re.sub('\d', '', t.strip('\n').lower().replace('’', '\''))) for t in text])

In [3]:
nb_docs = len(text)

print("On a un corpus de {} documents.".format(nb_docs))

On a un corpus de 1817 documents.


**NLTK**\
https://www.nltk.org/ 

In [4]:
import nltk
#nltk.download(['popular'])

In [5]:
punct = '!#$%&()*+,-/:;<=>?@[\]^_{|}~©'

for t in punct:
    corpus = corpus.replace(t, ' ').replace("  ", " ")

### **Filtrage (MWE - stopwords formés de plusieurs tokens)**
Surtout pour filtrer les expressions relatives à l'architecture d'information / navigation Web

In [6]:
file_path = '../04-filtrage/mwe_stopwords.txt'

with open (file_path, 'r', encoding='utf-8') as f:
    mwe_sw = [t.lower().strip('\n') for t in f.readlines()]

In [7]:
for mwe in mwe_sw:
    corpus = corpus.replace(mwe, '')

### **Tokenisation / POS tagging** (TreeTagger)  
https://github.com/miotto/treetagger-python/blob/master/README.rst  
https://treetaggerwrapper.readthedocs.io/en/latest/

In [8]:
from nltk.tokenize import RegexpTokenizer

# Seulement les caractères alphabétiques
tokenizer_re = RegexpTokenizer(r"\w\'|\w+")

tokens = tokenizer_re.tokenize(corpus)
len_corpus = len(tokens)

print("Avec le RegExpTokenizer, notre corpus contient {} tokens.".format(len_corpus))

Avec le RegExpTokenizer, notre corpus contient 3131977 tokens.


In [9]:
tokens[:100]

['inesss',
 'médicaments',
 'évaluation',
 'aux',
 'fins',
 "d'",
 'inscription',
 'emplois',
 'english',
 'inesss',
 'express',
 'algorithmes',
 'en',
 'cancérologie',
 'consulter',
 'une',
 'publication',
 'évaluation',
 'des',
 'médicaments',
 'aux',
 'fins',
 "d'",
 'inscription',
 'guides',
 "d'",
 'usage',
 'optimal',
 'outils',
 'cliniques',
 'protocoles',
 'médicaux',
 'nationaux',
 'et',
 'ordonnances',
 'associées',
 'covid',
 'risques',
 "d'",
 'hospitalisation',
 'et',
 'projections',
 'des',
 'besoins',
 'hospitaliers',
 'traitements',
 'spécifiques',
 'à',
 'la',
 'covid',
 'affections',
 'post',
 'covid',
 'covid',
 'longue',
 'alternatives',
 'de',
 'traitements',
 'en',
 'contexte',
 'de',
 'pandémie',
 'autres',
 'traitements',
 'cancérologie',
 'études',
 'cliniques',
 'en',
 'cours',
 'prophylaxie',
 'et',
 'traitement',
 'ordonnances',
 'collectives',
 'regard',
 'sur',
 'la',
 'pandémie',
 'covid',
 'au',
 'québec',
 'présentations',
 'cliniques',
 'investigation'

In [10]:
corpus = " ".join(tokens).replace("' ", "'")

In [11]:
import treetaggerwrapper
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')

  punct2find_re = re.compile("([^ ])([[" + ALONEMARKS + "])",
  DnsHostMatch_re = re.compile("(" + DnsHost_expression + ")",
  UrlMatch_re = re.compile(UrlMatch_expression, re.VERBOSE | re.IGNORECASE)
  EmailMatch_re = re.compile(EmailMatch_expression, re.VERBOSE | re.IGNORECASE)


### **Mapping POS Tags** (FRMG)

Pour utiliser adéquatement notre lemmatiseur par la suite (FrenchLefffLemmatizer), on va mapper les étiquettes morphosyntaxiques du TreeTagger à celles que prend le lemmatiseur (celles issues de FRMG)

http://alpage.inria.fr/frmgwiki/content/tagset-frmg

In [12]:
file_path = '../04-filtrage/mapping_treeTagger_lefff.csv'

with open(file_path) as f:
    csv = read_csv(f)

treeTag = [term for term in csv['TreeTagger'].tolist()] 
lefff = [term for term in csv['Lefff'].tolist()]

mapping = {term : lefff[treeTag.index(term)] for term in treeTag}

In [13]:
tagged = [[t.split('\t')[0], mapping[t.split('\t')[1]]] for t in tagger.tag_text(corpus)]

#if len(t.split('\t')) >1

In [14]:
tagged

[['inesss', 'adj'],
 ['médicaments', 'nc'],
 ['évaluation', 'nc'],
 ['aux', 'prep'],
 ['fins', 'nc'],
 ["d'", 'prep'],
 ['inscription', 'nc'],
 ['emplois', 'nc'],
 ['english', 'nc'],
 ['inesss', 'adj'],
 ['express', 'adj'],
 ['algorithmes', 'nc'],
 ['en', 'prep'],
 ['cancérologie', 'nc'],
 ['consulter', 'v'],
 ['une', 'det'],
 ['publication', 'nc'],
 ['évaluation', 'nc'],
 ['des', 'prep'],
 ['médicaments', 'nc'],
 ['aux', 'prep'],
 ['fins', 'nc'],
 ["d'", 'prep'],
 ['inscription', 'nc'],
 ['guides', 'nc'],
 ["d'", 'prep'],
 ['usage', 'nc'],
 ['optimal', 'adj'],
 ['outils', 'nc'],
 ['cliniques', 'adj'],
 ['protocoles', 'nc'],
 ['médicaux', 'adj'],
 ['nationaux', 'adj'],
 ['et', 'csu'],
 ['ordonnances', 'nc'],
 ['associées', 'v'],
 ['covid', 'adj'],
 ['risques', 'nc'],
 ["d'", 'prep'],
 ['hospitalisation', 'nc'],
 ['et', 'csu'],
 ['projections', 'nc'],
 ['des', 'prep'],
 ['besoins', 'nc'],
 ['hospitaliers', 'adj'],
 ['traitements', 'nc'],
 ['spécifiques', 'adj'],
 ['à', 'prep'],
 ['la', 

### **Lemmatisation** (FrenchLefffLemmatizer)

https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer

In [15]:
from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer

In [16]:
lemmatizer = FrenchLefffLemmatizer()

In [17]:
lemmas = []
for term in tagged:
    term_l = []
    if lemmatizer.lemmatize(term[0], term[1]) == []:
        term_l = [lemmatizer.lemmatize(term[0]), term[1]]
    
    elif type(lemmatizer.lemmatize(term[0], term[1])) == str:
        term_l  = [lemmatizer.lemmatize(term[0], term[1]), term[1]]

    else:
        term_l = list(lemmatizer.lemmatize(term[0], term[1])[0])
    
    lemmas.append(term_l)

### **Filtrage** (antidictionnaire)  

In [18]:
# Importer l'antidictionnaire pour filtrer les données

# Stopwords lemmatisés
file_path = '../04-filtrage/stopwords_lemmatized.txt'
with open(file_path, 'r', encoding="utf-8") as f:
    stopwords_lemmatized = [w.strip('\n').lower() for w in f.readlines()]

# Stopwords fréquents en français (non lemmatisés)
file_path = "../04-filtrage/stopwords.txt"
with open(file_path, 'r', encoding="utf-8") as f:
    stopwords = [t.lower().strip('\n') for t in f.readlines()]


# Stopwords fréquents en anglais (non lemmatisés)
file_path = '../04-filtrage/stop_words_english.txt'
with open(file_path, 'r', encoding="utf-8") as f:
    stopwords += [t.lower().strip('\n') for t in f.readlines()]

### **Phrases / N-Grammes (MWE)**
https://www.kaggle.com/code/alvations/n-gram-language-model-with-nltk/notebook

In [19]:
from nltk.util import ngrams
from nltk.util import bigrams
from nltk.util import everygrams
from nltk.probability import FreqDist

In [20]:
ngrammes = list(everygrams(tagged, min_len=2, max_len=5))
ngrammes_lemmatized = list(everygrams(lemmas, min_len=2, max_len=5))

In [21]:
ngrammes[:20]

[(['inesss', 'adj'], ['médicaments', 'nc']),
 (['médicaments', 'nc'], ['évaluation', 'nc']),
 (['évaluation', 'nc'], ['aux', 'prep']),
 (['aux', 'prep'], ['fins', 'nc']),
 (['fins', 'nc'], ["d'", 'prep']),
 (["d'", 'prep'], ['inscription', 'nc']),
 (['inscription', 'nc'], ['emplois', 'nc']),
 (['emplois', 'nc'], ['english', 'nc']),
 (['english', 'nc'], ['inesss', 'adj']),
 (['inesss', 'adj'], ['express', 'adj']),
 (['express', 'adj'], ['algorithmes', 'nc']),
 (['algorithmes', 'nc'], ['en', 'prep']),
 (['en', 'prep'], ['cancérologie', 'nc']),
 (['cancérologie', 'nc'], ['consulter', 'v']),
 (['consulter', 'v'], ['une', 'det']),
 (['une', 'det'], ['publication', 'nc']),
 (['publication', 'nc'], ['évaluation', 'nc']),
 (['évaluation', 'nc'], ['des', 'prep']),
 (['des', 'prep'], ['médicaments', 'nc']),
 (['médicaments', 'nc'], ['aux', 'prep'])]

In [22]:
print("Avant filtrage, on a {} bigrammes.".format(len(ngrammes)))

Avant filtrage, on a 3131973 bigrammes.


### **Filtrage (N-grammes)**

On retire les n-grammes qui apparaissent moins de 30 fois dans tout le corpus ou qui débutent ou terminent par :
- un stopword
- un mot de 1 lettre ou moins

Pour le reste du traitement, on arrête de considérer les frontières entre les phrases et entre les documents (nos ngrammes les respectent donc on n'en a plus besoin)

In [23]:
def extract_patterns(ngrammes):
    patterns = []

    for ng in ngrammes:
        phrase = []
        pattern = []
        for t in ng:
            phrase.append(t[0]) # token
            pattern.append(t[1]) # POS tag

        patterns.append([phrase, pattern])
        
    return patterns

phrases = extract_patterns(ngrammes)
phrases_lemmatized = extract_patterns(ngrammes_lemmatized)

In [24]:
phrases[:20]

[[['inesss', 'médicaments'], ['adj', 'nc']],
 [['médicaments', 'évaluation'], ['nc', 'nc']],
 [['évaluation', 'aux'], ['nc', 'prep']],
 [['aux', 'fins'], ['prep', 'nc']],
 [['fins', "d'"], ['nc', 'prep']],
 [["d'", 'inscription'], ['prep', 'nc']],
 [['inscription', 'emplois'], ['nc', 'nc']],
 [['emplois', 'english'], ['nc', 'nc']],
 [['english', 'inesss'], ['nc', 'adj']],
 [['inesss', 'express'], ['adj', 'adj']],
 [['express', 'algorithmes'], ['adj', 'nc']],
 [['algorithmes', 'en'], ['nc', 'prep']],
 [['en', 'cancérologie'], ['prep', 'nc']],
 [['cancérologie', 'consulter'], ['nc', 'v']],
 [['consulter', 'une'], ['v', 'det']],
 [['une', 'publication'], ['det', 'nc']],
 [['publication', 'évaluation'], ['nc', 'nc']],
 [['évaluation', 'des'], ['nc', 'prep']],
 [['des', 'médicaments'], ['prep', 'nc']],
 [['médicaments', 'aux'], ['nc', 'prep']]]

In [25]:
freq = FreqDist([" ".join(t[0]).replace("' ", "'") for t in phrases])
freq_lemmatized = FreqDist([" ".join(t[0]).replace("' ", "'") for t in phrases_lemmatized])

In [26]:
freq

FreqDist({"d'évaluation": 48954, 'en attente': 35656, "attente d'": 35653, 'première demande': 29120, 'de la': 28714, 'en cours': 28355, 'demande en': 26802, "de l'": 24787, "cours d'": 22196, 'traitement de': 19893, ...})

In [27]:
def filtrer_phrases(phrases, freq):
        output = []
        for term in phrases:
                exp = " ".join(term[0]).replace("' ", "'")
                f = freq[exp]
                
                # f > 10 and - sans filtrer par fréquence 
                if  f > 30 and not term[0][0] in stopwords and len(term[0][0]) > 2 \
                and not term[0][-1] in stopwords and len(term[0][-1]) > 2 : 
                        pattern = " ".join(term[1])            
                        output.append([exp, pattern, f])  
                         
        return output

phrases = filtrer_phrases(phrases, freq)
phrases_lemmatized = filtrer_phrases(phrases_lemmatized, freq_lemmatized)

In [28]:
print("Après filtrage, on a {} occurrences de bigrammes.".format(len(phrases))) 

Après filtrage, on a 981757 occurrences de bigrammes.


In [29]:
def tabCSV(phrases, titre):
    base_path = '../04-filtrage/output/'
    tab = DataFrame(phrases, columns= ["Expression", "Structure syntaxique", "Fréquence"]).drop_duplicates()
    tab.sort_values(["Fréquence"], 
                        axis=0,
                        ascending=[False], 
                        inplace=True)


    file_path = path.join(base_path, acteur, acteur)
    if sous_corpus:
       file_path = path.join(base_path, acteur, tag, tag)
    

    Path(file_path).mkdir(parents=True, exist_ok=True)

    tab.to_csv(file_path + titre)

    return tab.values.tolist()

In [30]:
phrases = tabCSV(phrases,'_n-grams.csv')
phrases_lemmatized = tabCSV(phrases_lemmatized, '_n-grams-lemmatized.csv')

In [31]:
print("Après filtrage, on a {} bigrammes uniques.".format(len(phrases)))

Après filtrage, on a 2013 bigrammes uniques.


### **Filtrage (Patrons syntaxiques)**  
Lossio-Ventura, J. A., Jonquet, C., Roche, M., & Teisseire, M. (2014). Biomedical Terminology Extraction : A new combination of Statistical and Web Mining Approaches. 421. https://hal-lirmm.ccsd.cnrs.fr/lirmm-01056598

On veut aller extraire les structures syntaxiques les plus courantes dans les MeSH pour filtrer notre corpus selon celles-ci (inspiré de la méthodologie de l'article ci-dessus ; voir le Notebook *Mesh_extract.ipynb*). Pour ce faire, nous allons donc ne sélectionner que les ngrammes qui y correspondent. 

In [32]:
file_path = '../04-filtrage/mesh_patterns-fr.csv'

with open (file_path, 'r') as f:
    patterns = read_csv(f)
    patterns = patterns['Structure'].tolist()[:100] # Pour prendre seulement les 50 structures syntaxiques les plus fréquentes dans les MeSH

In [33]:
terms = [t for t in phrases if t[1] in patterns]
terms_lemmatized = [t for t in phrases_lemmatized if t[1] in patterns]

In [34]:
print("Le filtrage syntaxique élimine environ {} % des termes".format(round((len(phrases) - len(terms)) / len(phrases) * 100)))
print("On avait {} bigrammes, ".format(len(phrases)) + "on en a maintenant {}.".format(len(terms)))

Le filtrage syntaxique élimine environ 17 % des termes
On avait 2013 bigrammes, on en a maintenant 1678.


In [35]:
import pandas as pd

def extract_terms(liste_terms, titre):
    file_path = '../04-filtrage/output/'
    tab = pd.DataFrame(terms, columns= ["Expression", "Structure syntaxique", "Fréquence"]).drop_duplicates()
    tab.sort_values(["Fréquence"], 
                        axis=0,
                        ascending=[False], 
                        inplace=True)

    if sous_corpus:
        file_path = path.join(file_path, acteur, tag, tag)

    else :
        file_path = path.join(file_path, acteur, acteur)

                    
    tab.to_csv(file_path + titre)

extract_terms(terms, '_terms.csv')
extract_terms(terms_lemmatized, '_terms-lemmatized.csv')

### **Filtrage (Collocations statistiquement significatives)**

[Notebook - Collocation extraction methodologies compared](https://notebooks.githubusercontent.com/view/ipynb?azure_maps_enabled=false&browser=chrome&color_mode=auto&commit=33868e847376764d7733cd958986c88dedfaec97&device=unknown&enc_url=68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f746f64642d636f6f6b2f4d4c2d596f752d43616e2d5573652f333338363865383437333736373634643737333363643935383938366338386465646661656339372f70726f626162696c69737469635f6c616e67756167655f6d6f64656c696e672f636f6c6c6f636174696f6e5f65787472616374696f6e732e6970796e62&enterprise_enabled=false&logged_in=false&nwo=todd-cook%2FML-You-Can-Use&path=probabilistic_language_modeling%2Fcollocation_extractions.ipynb&platform=android&repository_id=167140788&repository_type=Repository&version=102)

On applique un test d'hypothèse statistique aux n-grammes sur lesquels une probabilité a été mesurée (Log-likelihood ratio) - seuls les n-grammes dont le test est significatif seront conservés.
On considère que l'apparition de ces collocations dans notre corpus n'est pas dûe au hasard.

On ne conservera probablement pas cette métrique en fin de compte puisque:  
1  - Elle filtre trop de bigrammes (env. 70%)  
2  - Elle est beaucoup plus complexe à implémenter sur des N-grammes où N est variable (la question a fait l'objet d'un [mémoire de maîtrise](https://www.d.umn.edu/~tpederse/Pubs/bridget-thesis.pdf))

In [36]:
# len_prior = len(terms)
# print("Au départ, on a {} bigrammes.".format(len_prior))

Au départ, on a 1678 bigrammes.


In [37]:
# from collections import Counter
# from random import sample

# import numpy as np
# import matplotlib.pyplot as plt
# from tqdm import tqdm
# from scipy.stats import binom, chi2

# def loglikelihood_ratio(c1, c2, c12, N):
#     """
#     Compute the ratio of two hypotheses of likelihood and return the ratio.
    
#     Under the Independence hypothesis (H0) we assume that there is 
#     no association between w1 and w2, i.e. they are independent: 
#     let P(w1) and P(w2) be probabilities that 
#     a random token in a text is w1 and w2 respectfully and 
#     P(w1,w2) is the probability that (w1,w2) occur together in the text 
#     (i.e. one follows another) so under H0, P(w1,w2) = P(w1)P(w2)
#     we can compute the observed probability of P(w1,w2) 
#     and compare it with the probability under H0
#     if these probabilities are significantly different from each other,
#     then (w1,w2) is a collocation.
    
#     The formula here and test verification values are taken from 
#     Manning & Schūtze _Foundations of Statistical Natural Language Processing_ p.172-175
    
#     Parameters:
#     c1: count of word 1
#     c2: count of word 2
#     c12: count of bigram (w1, w2)
#     N: the number of words in the corpus
#     """
    
#     p = c2 / N
#     p1 = c12 / c1
#     p2 = (c2 - c12) / (N - c1)   
#     # We proactively trap a runtimeWarning: divide by zero encountered in log,
#     # which may occur with extreme collocations
#     import warnings
#     with warnings.catch_warnings(): # this will reset our filterwarnings setting
#         warnings.filterwarnings('error')
#         try:
#             return (np.log(binom.pmf(c12, c1, p)) 
#                     + np.log(binom.pmf(c2 - c12, N - c1, p)) 
#                     - np.log(binom.pmf(c12, c1, p1) )
#                     - np.log(binom.pmf(c2 - c12, N - c1, p2)))             
#         except Warning:
#             return np.inf 

In [62]:
# terms_bg = [b[0] for b in terms]

In [63]:
# N = len(tokens)
# output = []
# for b in terms_bg:
#     try:
#         c1 = tokens.count(b.split()[0])
#         c2 = tokens.count(b.split()[1])
#         c12 = terms.count(b)

#         res = -2 * loglikelihood_ratio(c1, c2, c12, N)
#         p = chi2.sf(res, 1) # 1 degrees of freedom

#         if p < 0.05 or (res == float('-inf') and p == 1):
#             output.append([b, res, p])


#         df = pd.DataFrame(output, columns=['Bigramme', 'Log-Likelihood Ratio', 'p-value']).drop_duplicates()
#         output_path = '../04-filtrage/output/'

#         if sous_corpus:
#             output_path = path.join(output_path, acteur, tag, tag)

#         else :
#             output_path = path.join(output_path, acteur, acteur)

#         df.sort_values(['Log-Likelihood Ratio'], 
#                     axis=0,
#                     ascending=[False], 
#                     inplace=True)

#         df.to_csv(output_path + "_LLR.csv")

#         len_after = len(output)

#     except Exception as e:
#         print(str(b) + " - " + str(e))

# print("On a maintenant {} bigrammes dont la collocation des termes est significative.".format(len_after))
# print("Ça veut dire que l'extraction de collocations significatives nous permet de filter environ {} % des termes.".format((len_prior - len_after) / len_prior * 100))

On a maintenant 504 bigrammes dont la collocation des termes est significative.
Ça veut dire que l'extraction de collocations significatives nous permet de filter environ 69.9642431466031 % des termes.


### **KWIC (Keyword in Context)**
Termes d'intérêt : 
- « Programme »
- « Plan »
- « Service(s) de » 
- « Intervenant(e) en »
- « Professionnel de »
- « Institut (du/de) »
- « Groupe de recherche en »
- « Personne »
- « Infirmière (en) »

In [64]:
# Dans notre cas on veut que ça débute par le mot-clé donc le contexte est un peu plus simple
# penser à généraliser avec des expressions régulières
kw = ['programme', 'plan ', 'service', 'intervenant', 'infirmière en', 'institut', 'groupe de recherche', 'personne', 'maladie']

ngrammes_kwic = [" ".join([t[0].replace("' ", "'") for t in ng]) for ng in ngrammes]

In [65]:
extrant = pd.DataFrame(columns=['Mot-clé','Concordance', 'Fréquence'])
kwic = {w : [] for w in kw} 

In [66]:
for t in ngrammes_kwic: # on pourrait aussi chercher dans les terms, mais on perd certains termes d'intérêt avec le filtrage syntaxique
    for w in kw:
        if t.startswith(w):
            kwic[w].append(t)

In [67]:
kwic = {term: FreqDist(kwic[term]) for term in kwic}

In [68]:
for term in kw:
    df = pd.DataFrame(kwic[term].items(), columns=['Concordance', "Fréquence"])
    df.sort_values(["Fréquence"], 
        axis=0,
        ascending=[False], 
        inplace=True)

    df.insert(0, 'Mot-clé', term)
    extrant = pd.concat([extrant, df])


extrant = extrant[extrant['Fréquence'] > 30] 

file_path = '../04-filtrage/output/'
if sous_corpus:
    file_path = path.join(file_path, acteur, tag, tag)

else :
    file_path = path.join(file_path, acteur, acteur)


extrant.to_csv(file_path + '_KWIC' +'.csv')

### **Extraction de termes MeSH**

In [69]:
from nltk.tokenize import MWETokenizer
file_path = '../04-filtrage/mesh-fr.txt'

with open (file_path, 'r', encoding='utf-8') as f:
    mesh = [tuple(tokenizer_re.tokenize(w)) for w in f.readlines()]
    tokenizer_mesh = MWETokenizer(mesh, separator= ' ')
    mesh = [tokenizer_mesh.tokenize(w)[0].lower() for w in mesh]
    mesh = [w for w in mesh if len(w.split()) > 1] # On ne retient que les termes complexes
    #mesh = [tuple(t.strip('.').lower().split()) for t in f.readlines()]

In [70]:
extr_mesh = tokenizer_mesh.tokenize([t[0] for t in terms])

In [71]:
termes_mesh = []

for t in extr_mesh:
    if t in mesh:
        termes_mesh.append(t)

In [72]:
file_path = '../04-filtrage/output/'
if sous_corpus:
    file_path = path.join(file_path, acteur, tag, tag)

else :
    file_path = path.join(file_path, acteur, acteur)

df = DataFrame(termes_mesh)
df.to_csv(file_path + '_MeSH.csv')

### **Extraction de termes SNOMED**

In [73]:
from nltk.tokenize import MWETokenizer
file_path = '../04-filtrage/SNOMED_fr.csv'

with open(file_path, 'r', encoding='utf-8') as f:
    sm = read_csv(f, sep=';')
    sm = list(dict.fromkeys([str(t).strip().lower() for t in sm['term'].tolist()]))

    sm = [tuple(tokenizer_re.tokenize(w)) for w in sm if len(w.split()) > 1]
    tokenizer_sm = MWETokenizer(sm, separator = ' ')

    sm = [tokenizer_sm.tokenize(w)[0].lower() for w in sm]

In [74]:
extr_sm = tokenizer_sm.tokenize([t[0] for t in terms])

In [75]:
termes_sm = []

for t in extr_sm:
    if t in sm:
        termes_sm.append(t)

In [76]:
file_path = '../04-filtrage/output' 
if sous_corpus:
    file_path = path.join(file_path, acteur, tag, tag) 

else :
    file_path = path.join(file_path, acteur, acteur)


df = DataFrame(termes_sm)

df.to_csv(file_path + '_SNOMED.csv')