## **2. Prétraitement**
- Segmentation (phrases)
- Tokenization (mots)
- Étiquetage morphosyntaxique (POS Tagging) 
- (Lemmatisation)
- Filtrage (stopwords)
- Extraction de termes complexes (MWE / n-grammes / segments répétés)
- Chunking / Filtrage par patrons syntaxiques (basés sur les patrons fréquents dans les MeSH)
- Extraction de collocations significatives (en fonction du Log-likelihood ratio)
- (Extraction de concordances (KWIC) pour un ensemble de mots-clés d'intérêt)
- (Extraction de termes MeSH et SNOMED présents dans les données)

### **Lire le corpus** 

In [1]:
lng = 'fr'
acteur = 'inesss'
tag = ''
if tag:
    file = acteur + '/' + acteur + '_' + tag + '.csv'

else:
    if lng == 'fr':
        file = acteur +'.csv'
    if lng == 'en':
        file = acteur + '_en.csv'

In [2]:
import shutil, re, random
from os import listdir, chdir, path
from pathlib import Path
from pandas import *

import nltk
#nltk.download(['popular'])
from nltk.tokenize import RegexpTokenizer
tokenizer_re = RegexpTokenizer(r"\w\'|\w+")
from nltk import bigrams, trigrams, ngrams, everygrams
from nltk.probability import FreqDist


import treetaggerwrapper
tagger = treetaggerwrapper.TreeTagger(TAGLANG=lng)


from collections import Counter
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from scipy.stats import binom, chi2

  punct2find_re = re.compile("([^ ])([[" + ALONEMARKS + "])",
  DnsHostMatch_re = re.compile("(" + DnsHost_expression + ")",
  UrlMatch_re = re.compile(UrlMatch_expression, re.VERBOSE | re.IGNORECASE)
  EmailMatch_re = re.compile(EmailMatch_expression, re.VERBOSE | re.IGNORECASE)


In [3]:
def lire_corpus(csv_file, langue=lng):
    base_path = '../03-corpus/2-data/'
    file_path = path.join(base_path, '1-' + langue, csv_file)

    #encoding='ISO 8859-1'
    with open(file_path, "r", encoding='utf-8') as f:
        data = read_csv(file_path, encoding='utf-8', sep=',')
        data = data[~data["url"].str.contains('pdf')] #  Problèmes 
        data = data['text']
    return data

In [4]:
data = lire_corpus(file) 
nb_docs = len(data)
print("On a un corpus de {} documents.".format(nb_docs))

On a un corpus de 1226 documents.


### **Nettoyage**

In [5]:
punct = '[!#$%&\(\)•►*+,-\/:;<=>?@[\]^_{|}~©«»—“”–—]'
spaces = '\s+'
postals = '([a-zA-Z]+\d+|\d+[a-zA-Z]+)+'
phones = '\d{3}\s\d{3}-\d{4}' #très simple (trop)

text = [str(t).strip('\n').lower().replace('’', '\'') for t in data]
text = [re.sub(spaces, ' ', t) for t in text]
text = [re.sub(phones, ' ', t) for t in text]
text = [re.sub(postals, ' ', t) for t in text]
text = [re.sub(punct, ' ', t) for t in text]
text = [t.replace("  ", " " ) for t in text]

In [6]:
nb_docs = len(text)
print("On a un corpus de {} documents.".format(nb_docs))

On a un corpus de 1226 documents.


### **Extraire un échantillon aléatoire**

Sinon, on n'arrive pas à traiter la totalité du corpus pour des raisons de performance

In [7]:
def sample_corpus(corpus, ratio):
    n = round(ratio * len(corpus))
    corpus = random.sample(text, n)
    print("On va travailler sur un échantillon correspondant à environ " + str(ratio * 100) + " % des documents du corpus, soit {} documents". format(len(corpus)))
    return " ".join(corpus)
    
corpus = sample_corpus(text, 1)

On va travailler sur un échantillon correspondant à environ 100 % des documents du corpus, soit 1226 documents


### **Filtrage (MWE - stopwords formés de plusieurs tokens)**
Surtout pour filtrer les expressions relatives à l'architecture d'information / navigation Web

In [8]:
def filter_mwesw(corpus):
    file_mwesw = '../04-filtrage/mwe_stopwords.txt'
    with open (file_mwesw, 'r', encoding='utf-8') as f:
        mwe_sw = [t.lower().strip('\n') for t in f.readlines()]
    for mwe in mwe_sw:
        corpus = corpus.replace(mwe, ' MWE_STOP ').replace('  ', " ")
    return corpus

In [9]:
corpus = filter_mwesw(corpus)

### **Tokenisation / POS tagging** (TreeTagger)  
https://github.com/miotto/treetagger-python/blob/master/README.rst  
https://treetaggerwrapper.readthedocs.io/en/latest/

In [10]:
# Ici, on tokenise une première fois avec le Regex Tokenizer de NLTK pour "forcer" le Tree Tagger à tokeniser comme on veut
def tok(corpus):
    # Seulement les caractères alphabétiques
    tokens = tokenizer_re.tokenize(corpus)
    print("Avec le RegExpTokenizer, notre corpus contient {} tokens.".format(len(tokens)))
    temps = round(len(tokens) / 15000 / 60)
    print('Le POS tagging devrait prendre environ {} minutes.'.format(temps))
    return tokens

tokens = tok(corpus)
corpus = " ".join(tokens).replace("' ", "'")

Avec le RegExpTokenizer, notre corpus contient 636568 tokens.
Le POS tagging devrait prendre environ 1 minutes.


In [11]:
def tagging(corpus):
    output = []
    for t in tagger.tag_text(corpus):
        try: 
            output.append((t.split('\t')[0], t.split('\t')[1]))
        except Exception as e:
            output.append(('MWE_STOP', 'NAM'))

    return output


In [12]:
tagged = tagging(corpus)
tokens = [t[0] for t in tagged]
tagged[:25]

[('zyban', 'ADJ'),
 ('dénomination', 'NOM'),
 ('commune', 'ADJ'),
 ('sujet', 'ADJ'),
 ('bupropion', 'NOM'),
 ('chlorhydrate', 'NOM'),
 ('de', 'PRP'),
 ('nom', 'NOM'),
 ('du', 'PRP:det'),
 ('fabricant', 'NOM'),
 ('g', 'ADJ'),
 ('w', 'NOM'),
 ('forme', 'VER:pres'),
 ('comprimé', 'VER:pper'),
 ('longue', 'ADJ'),
 ('action', 'NOM'),
 ('teneur', 'NOM'),
 ('150', 'NUM'),
 ('mg', 'NOM'),
 ('indication', 'NOM'),
 ('aide', 'NOM'),
 ('à', 'PRP'),
 ('la', 'DET:ART'),
 ('cessation', 'NOM'),
 ('du', 'PRP:det')]

In [13]:
# Si on veut lemmatiser
### **Mapping POS Tags** (FRMG)

#Pour utiliser adéquatement notre lemmatiseur par la suite (FrenchLefffLemmatizer), on va mapper les étiquettes morphosyntaxiques du TreeTagger à celles que prend le lemmatiseur (celles issues de FRMG)

#http://alpage.inria.fr/frmgwiki/content/tagset-frmg

#file_path = '../04-filtrage/mapping_treeTagger_lefff.csv'

#with open(file_path) as f:
#    csv = read_csv(f)

#treeTag = [term for term in csv['TreeTagger'].tolist()] 
#lefff = [term for term in csv['Lefff'].tolist()]

#mapping = {term : lefff[treeTag.index(term)] for term in treeTag}

In [14]:
# tagged = [[t.split('\t')[0], mapping[t.split('\t')[1]]] for t in tagger.tag_text(corpus)]

In [15]:
# Si on veut lemmatiser
### **Lemmatisation** (FrenchLefffLemmatizer)
#https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer

#from french_lefff_lemmatizer.french_lefff_lemmatizer import FrenchLefffLemmatizer
#lemmatizer = FrenchLefffLemmatizer()

#lemmas = []
#for term in tagged:
#    term_l = []
#    if lemmatizer.lemmatize(term[0], term[1]) == []:
#        term_l = (lemmatizer.lemmatize(term[0]), term[1])
    
    # elif type(lemmatizer.lemmatize(term[0], term[1])) == str:
    #     term_l  = (lemmatizer.lemmatize(term[0], term[1]), term[1])

    # else:
    #     term_l = tuple(lemmatizer.lemmatize(term[0], term[1])[0])
    
    # lemmas.append(term_l)

### **Collocations / Phrases / N-Grammes (MWE)**
https://www.kaggle.com/code/alvations/n-gram-language-model-with-nltk/notebook  

In [16]:
def extr_ngrams(tagged):
    ngrammes= list(everygrams(tagged, min_len=1, max_len=12))
    print("Avant filtrage, on a {} ngrammes.".format(len(ngrammes)))
    return ngrammes

In [17]:
ngrammes = extr_ngrams(tagged)

Avant filtrage, on a 7638678 ngrammes.


In [18]:
ngrammes[:15]

[(('zyban', 'ADJ'),),
 (('zyban', 'ADJ'), ('dénomination', 'NOM')),
 (('zyban', 'ADJ'), ('dénomination', 'NOM'), ('commune', 'ADJ')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ'),
  ('bupropion', 'NOM')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ'),
  ('bupropion', 'NOM'),
  ('chlorhydrate', 'NOM')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ'),
  ('bupropion', 'NOM'),
  ('chlorhydrate', 'NOM'),
  ('de', 'PRP')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ'),
  ('bupropion', 'NOM'),
  ('chlorhydrate', 'NOM'),
  ('de', 'PRP'),
  ('nom', 'NOM')),
 (('zyban', 'ADJ'),
  ('dénomination', 'NOM'),
  ('commune', 'ADJ'),
  ('sujet', 'ADJ'),
  ('bupropion', 'NOM'),
  ('chlorhydrate', 'NOM'),
  ('de', 'PRP'),
  ('nom', 'NOM'),
  ('du', 'PR

### **Extraction des patrons syntaxiques**

*LONG*

In [19]:
def extract_patterns(ngrammes):
    patterns = []
    for ng in ngrammes:
        phrase = [t[0] for t in ng]
        pattern = [t[1] for t in ng]
        patterns.append([phrase, pattern])
    return patterns

In [20]:
phrases = extract_patterns(ngrammes)
# phrases_lemmatized = extract_patterns(ngrammes_lemmatized)

In [21]:
def freq(phrases):
    return FreqDist([" ".join(t[0]).replace("' ", "'") for t in phrases])

In [22]:
phrases[:15]

[[['zyban'], ['ADJ']],
 [['zyban', 'dénomination'], ['ADJ', 'NOM']],
 [['zyban', 'dénomination', 'commune'], ['ADJ', 'NOM', 'ADJ']],
 [['zyban', 'dénomination', 'commune', 'sujet'], ['ADJ', 'NOM', 'ADJ', 'ADJ']],
 [['zyban', 'dénomination', 'commune', 'sujet', 'bupropion'],
  ['ADJ', 'NOM', 'ADJ', 'ADJ', 'NOM']],
 [['zyban', 'dénomination', 'commune', 'sujet', 'bupropion', 'chlorhydrate'],
  ['ADJ', 'NOM', 'ADJ', 'ADJ', 'NOM', 'NOM']],
 [['zyban',
   'dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de'],
  ['ADJ', 'NOM', 'ADJ', 'ADJ', 'NOM', 'NOM', 'PRP']],
 [['zyban',
   'dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de',
   'nom'],
  ['ADJ', 'NOM', 'ADJ', 'ADJ', 'NOM', 'NOM', 'PRP', 'NOM']],
 [['zyban',
   'dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de',
   'nom',
   'du'],
  ['ADJ', 'NOM', 'ADJ', 'ADJ', 'NOM', 'NOM', 'PRP', 'NOM', 'PRP:det']],
 [['zyban',
   'dénomination',
   'com

In [23]:
frequencies = freq(phrases)

In [24]:
frequencies

FreqDist({'de': 34265, "d'": 15136, 'la': 13897, "l'": 13686, 'des': 13356, 'et': 13304, 'en': 11518, 'du': 8867, 'les': 8656, 'le': 8543, ...})

### **Filtrage** 
On retire les n-grammes qui débutent ou se terminent par un stopword (antidictionnaire)

In [25]:
# Importer l'antidictionnaire pour filtrer les données

# # Stopwords lemmatisés
# file_path = '../04-filtrage/stopwords_lemmatized.txt'
# with open(file_path, 'r', encoding="utf-8") as f:
#     stopwords_lemmatized = [w.strip('\n').lower() for w in f.readlines()]

# Stopwords fréquents en français (non lemmatisés)
file_path = "../04-filtrage/stopwords.txt"
with open(file_path, 'r', encoding="utf-8") as f:
    stopwords = [t.lower().strip('\n') for t in f.readlines()]


# Stopwords fréquents en anglais (non lemmatisés)
file_path = '../04-filtrage/stop_words_english.txt'
with open(file_path, 'r', encoding="utf-8") as f:
    stopwords += [t.lower().strip('\n') for t in f.readlines()]

*LONG*

In [26]:
def filtrer_stopwords(x): # On s'assure aussi que le premier terme du ngramme est un NOM pour avoir des syntagmes nominaux
    if lng == 'en':
        nom = 'NN'
    if lng == 'fr':
        nom = 'NOM'
    return [term for term in x if not 'MWE_STOP' in term[0] and not term[0][0] in stopwords and not term[0][-1] in stopwords and not 'NUM' in term[1] and term[1][0] == nom]

In [27]:
phrases = filtrer_stopwords(phrases)

In [28]:
phrases

[[['dénomination'], ['NOM']],
 [['dénomination', 'commune'], ['NOM', 'ADJ']],
 [['dénomination', 'commune', 'sujet', 'bupropion'],
  ['NOM', 'ADJ', 'ADJ', 'NOM']],
 [['dénomination', 'commune', 'sujet', 'bupropion', 'chlorhydrate'],
  ['NOM', 'ADJ', 'ADJ', 'NOM', 'NOM']],
 [['dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de',
   'nom'],
  ['NOM', 'ADJ', 'ADJ', 'NOM', 'NOM', 'PRP', 'NOM']],
 [['dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de',
   'nom',
   'du',
   'fabricant'],
  ['NOM', 'ADJ', 'ADJ', 'NOM', 'NOM', 'PRP', 'NOM', 'PRP:det', 'NOM']],
 [['dénomination',
   'commune',
   'sujet',
   'bupropion',
   'chlorhydrate',
   'de',
   'nom',
   'du',
   'fabricant',
   'g',
   'w',
   'forme'],
  ['NOM',
   'ADJ',
   'ADJ',
   'NOM',
   'NOM',
   'PRP',
   'NOM',
   'PRP:det',
   'NOM',
   'ADJ',
   'NOM',
   'VER:pres']],
 [['bupropion'], ['NOM']],
 [['bupropion', 'chlorhydrate'], ['NOM', 'NOM']],
 [['bupropion',

On retire les n-grammes qui débutent ou se terminent par token dont la longueur est inférieure à 2 caractères ou supérieure à 18 caractères

In [29]:
def filter_len(x):
    return [term for term in x if \
        len(term[0][0]) > 2 and len(term[0][0]) < 18 and \
        len(term[0][-1]) > 2 and len(term[0][-1]) < 18]

In [30]:
phrases = filter_len(phrases)

On retire les n-grammes qui apparaissent moins de 5 fois dans le corpus

In [31]:
def filter_freq(x):
    return [term for term in x if frequencies[" ".join(term[0]).replace("' ", "'")] > 5]

In [32]:
phrases = filter_freq(phrases)

In [33]:
phrases = [[" ".join(term[0]).replace("' ", "'"), " ".join(term[1])] for term in phrases]
# phrases_lemmatized = filtrer_phrases(phrases_lemmatized, freq_lemmatized)

In [34]:
for phrase in phrases:
    phrase.append(frequencies[phrase[0]])

In [35]:
print("Après filtrage, on a {} occurrences de ngrammes.".format(len(phrases))) 

Après filtrage, on a 695562 occurrences de ngrammes.


In [36]:
phrases[:15]

[['dénomination', 'NOM', 564],
 ['dénomination commune', 'NOM ADJ', 564],
 ['bupropion', 'NOM', 15],
 ['chlorhydrate', 'NOM', 701],
 ['chlorhydrate de nom', 'NOM PRP NOM', 30],
 ['chlorhydrate de nom du fabricant', 'NOM PRP NOM PRP:det NOM', 30],
 ['chlorhydrate de nom du fabricant g w forme',
  'NOM PRP NOM PRP:det NOM ADJ NOM VER:pres',
  8],
 ['chlorhydrate de nom du fabricant g w forme comprimé',
  'NOM PRP NOM PRP:det NOM ADJ NOM VER:pres VER:pper',
  8],
 ['nom', 'NOM', 779],
 ['nom du fabricant', 'NOM PRP:det NOM', 524],
 ['nom du fabricant g w forme', 'NOM PRP:det NOM ADJ NOM VER:pres', 18],
 ['nom du fabricant g w forme comprimé',
  'NOM PRP:det NOM ADJ NOM VER:pres VER:pper',
  11],
 ['fabricant', 'NOM', 688],
 ['fabricant g w forme', 'NOM ADJ NOM VER:pres', 18],
 ['fabricant g w forme comprimé', 'NOM ADJ NOM VER:pres VER:pper', 11]]

In [37]:
DataFrame(phrases, columns=["Expression", "Patron syntaxique", "Fréquence"])

Unnamed: 0,Expression,Patron syntaxique,Fréquence
0,dénomination,NOM,564
1,dénomination commune,NOM ADJ,564
2,bupropion,NOM,15
3,chlorhydrate,NOM,701
4,chlorhydrate de nom,NOM PRP NOM,30
...,...,...,...
695557,quality,NOM,103
695558,improve,NOM,25
695559,free,NOM,7
695560,conditions,NOM,414


In [38]:
def tabCSV(phrases):
    base_path = '../04-filtrage/output/'
    tab = DataFrame(phrases, columns=["Expression", "Patron syntaxique", "Fréquence"]).drop_duplicates()
    tab.sort_values(["Fréquence"], 
                        axis=0,
                        ascending=[False], 
                        inplace=True)


    # file_path = path.join(base_path, tag, tag)    
    # Path(file_path).mkdir(parents=True, exist_ok=True)

    #tab.to_csv(file_path + '_ngrams.csv') - On va seulement garder les collocations significatives comme output

    return tab.values.tolist()

In [39]:
phrases = tabCSV(phrases)
# phrases_lemmatized = tabCSV(phrases_lemmatized, '_n-grams-lemmatized.csv')

In [40]:
print("Après filtrage, on a {} ngrammes uniques.".format(len(phrases)))

Après filtrage, on a 21597 ngrammes uniques.


### **Filtrage (Patrons syntaxiques)**  
Lossio-Ventura, J. A., Jonquet, C., Roche, M., & Teisseire, M. (2014). Biomedical Terminology Extraction : A new combination of Statistical and Web Mining Approaches. 421. https://hal-lirmm.ccsd.cnrs.fr/lirmm-01056598

On veut aller extraire les structures syntaxiques les plus courantes dans les MeSH pour filtrer notre corpus selon celles-ci (inspiré de la méthodologie de l'article ci-dessus ; voir le Notebook *Mesh_extract.ipynb*). Pour ce faire, nous allons donc ne sélectionner que les ngrammes qui y correspondent. 

In [41]:
file_patterns = '../04-filtrage/MeSH/mesh_patterns-fr.csv'

with open (file_patterns, 'r') as f:
    patterns = read_csv(f)
    patterns = patterns['Structure'].tolist() #[:200] # On prend les 200 structures syntaxiques les plus fréquentes dans les MeSH

In [42]:
def filter_patterns(phrases):
    return [t for t in phrases if t[1] in patterns and not 'NOM NOM' in t[1] and not 'NUM' in t[1]] # 
# terms_lemmatized = [t for t in phrases_lemmatized if t[1] in patterns]

In [43]:
terms = filter_patterns(phrases)
# terms[:50]

#terms = phrases

In [44]:
print("Le filtrage syntaxique élimine environ {} % des termes".format(round((len(phrases) - len(terms)) / len(phrases) * 100)))
print("On avait {} ngrammes, ".format(len(phrases)) + "on en a maintenant {}.".format(len(terms)))

Le filtrage syntaxique élimine environ 53 % des termes
On avait 21597 ngrammes, on en a maintenant 10173.


In [45]:
# import pandas as pd

# def extract_terms(liste_terms):
#     file_path = '../04-filtrage/output/'
#     tab = pd.DataFrame(terms, columns= ["Expression", "Structure syntaxique", "Fréquence"]).drop_duplicates(subset='Expression', keep="last")
#     tab.sort_values(["Fréquence"], 
#                         axis=0,
#                         ascending=[False], 
#                         inplace=True)

#     return 

#     # file_path = path.join(file_path, tag, tag)                    
#     # tab.to_csv(file_path + '_terms.csv')

# extract_terms(terms)
# #extract_terms(terms_lemmatized)

In [46]:
# terms = phrases

terms_patterns = DataFrame(terms, columns = ["Expression", "Structure syntaxique", "Fréquence"])
terms_patterns = terms_patterns.to_dict('records')
dict_patterns = {}
for term in terms_patterns:
     exp = term['Expression']
     pattern = term['Structure syntaxique']
     dict_patterns[exp] = pattern

### **Filtrage (Collocations statistiquement significatives)** Log-Likelihood Ratio

[Notebook - Collocation extraction methodologies compared](https://notebooks.githubusercontent.com/view/ipynb?azure_maps_enabled=false&browser=chrome&color_mode=auto&commit=33868e847376764d7733cd958986c88dedfaec97&device=unknown&enc_url=68747470733a2f2f7261772e67697468756275736572636f6e74656e742e636f6d2f746f64642d636f6f6b2f4d4c2d596f752d43616e2d5573652f333338363865383437333736373634643737333363643935383938366338386465646661656339372f70726f626162696c69737469635f6c616e67756167655f6d6f64656c696e672f636f6c6c6f636174696f6e5f65787472616374696f6e732e6970796e62&enterprise_enabled=false&logged_in=false&nwo=todd-cook%2FML-You-Can-Use&path=probabilistic_language_modeling%2Fcollocation_extractions.ipynb&platform=android&repository_id=167140788&repository_type=Repository&version=102)

On applique un test d'hypothèse statistique aux n-grammes sur lesquels une probabilité a été mesurée (Log-likelihood ratio) - seuls les n-grammes dont le test est significatif seront conservés.
On considère que l'apparition de ces collocations dans notre corpus n'est pas dûe au hasard.

In [47]:
def loglikelihood_ratio(c_prior, c_n, c_ngram, N):
    """
    Compute the ratio of two hypotheses of likelihood and return the ratio.
    The formula here and test verification values are taken from 
    Manning & Schūtze _Foundations of Statistical Natural Language Processing_ p.172-175
    Parameters:
    c_prior: count of word 1 if bigrams or count of [w1w2 .. w(n-1)] if ngram
    c_n : count of word 2 if bigrams or count of wn if ngram
    c12: count of bigram (w1, w2) if bigram or count of ngram if ngram
    N: the number of words in the corpus
    """

    p = c_n / N
    p1 = c_ngram / c_prior
    p2 = (c_n - c_ngram) / (N - c_prior)   
    # We proactively trap a runtimeWarning: divide by zero encountered in log,
    # which may occur with extreme collocations
    import warnings
    with warnings.catch_warnings(): # this will reset our filterwarnings setting
        warnings.filterwarnings('error')
        try:
            return (np.log(binom.pmf(c_ngram, c_prior, p)) 
                    + np.log(binom.pmf(c_n - c_ngram, N - c_prior, p)) 
                    - np.log(binom.pmf(c_ngram, c_prior, p1) )
                    - np.log(binom.pmf(c_n - c_ngram, N - c_prior, p2)))             
        except Warning:
            return np.inf 

In [48]:
len_prior = len(terms)
print("Au départ, on a {} ngrammes.".format(len_prior))

Au départ, on a 10173 ngrammes.


In [49]:
# Pour le calcul des probabilités, on a besoin de traiter séparément les ngrammes selon la valeur de n
N = len(tokens)
fd_tokens = nltk.FreqDist(tokens)

In [50]:
fd_tokens

FreqDist({'de': 34265, "d'": 15136, 'la': 13897, "l'": 13686, 'des': 13356, 'et': 13304, 'en': 11518, 'du': 8867, 'les': 8656, 'le': 8543, ...})

In [51]:
def llr_ngrammes(n):
    llr = []

    for i in range(2, n+1):
        ngrammes = set([tuple(tokenizer_re.tokenize(term[0])) for term in terms if len(tokenizer_re.tokenize(term[0])) == i])
        fd = nltk.FreqDist(ngrams(tokens, n=i))
        fd_prior = nltk.FreqDist(ngrams(tokens, n=i-1))
        
        for t in ngrammes:
            c_prior = fd_prior[t[:i-1]] # Antécédent = P(w1w2..w_n-1) (si on considère que P(w1w2...wn) = P(wn) | P(w1w2...w_n-1)
            c_n = fd_tokens[t[i-1]]     # Dernier mot du ngramme  P(wn)
            c_ngram = fd[t]             # Le ngramme lui-même P(w1w2w3..wn)

            try:
                res = -2 * loglikelihood_ratio(c_prior, c_n, c_ngram, N)
                p_value = chi2.sf(res, 1) # 1 degrees of freedom
                #if res == float('-inf') :
                #    res = 50000

                if p_value < 0.1 or (res == float('-inf')):
                    llr.append({'Collocation' : " ".join(t).replace("' ", "'"), 'Structure syntaxique': dict_patterns[" ".join(t).replace("' ", "'")], 'Fréquence' : c_ngram, 'LLR': res, 'p-value': p_value})
            
            except Exception as e:
                print(t, str(e))
            

    return llr


In [52]:
terms = llr_ngrammes(12)

In [53]:
terms
#terms = [{'Collocation' : t[0], 'Structure syntaxique': t[1], 'Fréquence' : t[2]} for t in terms]

[{'Collocation': 'comptes rendus',
  'Structure syntaxique': 'NOM VER:pper',
  'Fréquence': 16,
  'LLR': 338.34551866639026,
  'p-value': 1.4628161498904658e-75},
 {'Collocation': 'augmentation significative',
  'Structure syntaxique': 'NOM ADJ',
  'Fréquence': 7,
  'LLR': 80.51084678769983,
  'p-value': 2.891135448233173e-19},
 {'Collocation': 'itss approche',
  'Structure syntaxique': 'NOM VER:pres',
  'Fréquence': 31,
  'LLR': 337.1747993023973,
  'p-value': 2.6312159586989606e-75},
 {'Collocation': 'toxicités sévères',
  'Structure syntaxique': 'NOM ADJ',
  'Fréquence': 7,
  'LLR': 120.53044504326517,
  'p-value': 4.841798844160286e-28},
 {'Collocation': 'asciminib novartis',
  'Structure syntaxique': 'NOM VER:simp',
  'Fréquence': 23,
  'LLR': 403.23125021711564,
  'p-value': 1.0902826012706893e-89},
 {'Collocation': 'cancer gastrique',
  'Structure syntaxique': 'NOM ADJ',
  'Fréquence': 23,
  'LLR': 265.8599892446345,
  'p-value': 9.062164964206729e-60},
 {'Collocation': 'épileps

In [54]:
print('Après avoir calculé le log-likelihood ratio, on a retiré {} collocations qui n\'étaient pas statistiquement significatives.'.format(len_prior - len(terms)))
print('Ça représente environ {} % de nos n-grammes.'.format(round((len_prior - len(terms)) / len_prior *100 )))

Après avoir calculé le log-likelihood ratio, on a retiré 3503 collocations qui n'étaient pas statistiquement significatives.
Ça représente environ 34 % de nos n-grammes.


In [55]:
DataFrame(terms).sort_values(by = "Fréquence", ascending=False)

Unnamed: 0,Collocation,Structure syntaxique,Fréquence,LLR,p-value
1405,réponses rapides,NOM ADJ,1319,-inf,1.000000e+00
2465,cours d'évaluation,NOM PRP NOM,1288,-inf,1.000000e+00
2610,réponses rapides disponibles,NOM ADJ ADJ,1179,-inf,1.000000e+00
632,usage optimal,NOM ADJ,1138,-inf,1.000000e+00
1637,bicarbonate de sodium,NOM PRP NOM,980,-inf,1.000000e+00
...,...,...,...,...,...
1897,année de vie,NOM PRP NOM,6,73.130993,1.213243e-17
1900,entrée en vigueur,NOM PRP NOM,6,110.982712,5.968896e-26
1901,fumarate de nom,NOM PRP NOM,6,14.776228,1.210520e-04
5939,utilisation et résultats cliniques en contexte...,NOM KON NOM ADJ PRP NOM ADJ,6,101.280632,7.983257e-24


### **Filtrage - Fréquence documentaire**
** Il y aurait quelque chose à modifier ici ; en tokenisant, on supprimer les frontières entre les mots qui sont des tirets ou autres caractères qu'un espace ou un apostrophe ; ça fait en sorte qu'on a une fréquence documentaire de 0 pour les ngrammes qui n'ont plus la forme exacte qu'ils avaient dans le corpus orginal. **

*LONG*  
Est-ce qu'il y a moyen de rendre ça plus efficace ?

In [56]:
dfs = {term['Collocation']: len([doc for doc in text if term['Collocation'] in doc]) for term in terms}

In [57]:
max_df = round(0.95 * nb_docs)        # Pour rejeter les termes qui se retrouvent dans plus de 95% des documents 
max_df

1165

In [58]:
test = dfs[max(dfs, key=dfs.get)] # Voir quelle est la fréquence documentaire maximale qu'on retrouve

In [59]:
zeros = {term for term in dfs if dfs[term] == 0}
dfs_100 = {term for term in dfs if dfs[term] >= max_df}

In [60]:
dfs_100

set()

In [61]:
terms = [t for t in terms if dfs[t['Collocation']] < max_df ]

In [62]:
#colloc = [term['Collocation'] for term in terms]
#len(colloc)

In [63]:
#for term in terms:
 #   term['DF'] = dfs[term['Collocation']] 
DataFrame(terms).sort_values(by="Fréquence", ascending=False)

Unnamed: 0,Collocation,Structure syntaxique,Fréquence,LLR,p-value
1405,réponses rapides,NOM ADJ,1319,-inf,1.000000e+00
2465,cours d'évaluation,NOM PRP NOM,1288,-inf,1.000000e+00
2610,réponses rapides disponibles,NOM ADJ ADJ,1179,-inf,1.000000e+00
632,usage optimal,NOM ADJ,1138,-inf,1.000000e+00
1637,bicarbonate de sodium,NOM PRP NOM,980,-inf,1.000000e+00
...,...,...,...,...,...
1897,année de vie,NOM PRP NOM,6,73.130993,1.213243e-17
1900,entrée en vigueur,NOM PRP NOM,6,110.982712,5.968896e-26
1901,fumarate de nom,NOM PRP NOM,6,14.776228,1.210520e-04
5939,utilisation et résultats cliniques en contexte...,NOM KON NOM ADJ PRP NOM ADJ,6,101.280632,7.983257e-24


In [64]:
df = DataFrame(terms)
df.sort_values(['Fréquence'], 
            axis=0,
            ascending=[False], 
            inplace=True)
if lng == 'en':
    acteur = acteur + '_' + lng
if tag:
    output_path = path.join('../04-filtrage/output/', acteur + '_' + tag + '_significant-collocations.csv') 
else:
    output_path = path.join('../04-filtrage/output/', acteur + '_significant-collocations.csv') 
df.to_csv(output_path)

In [65]:
list_terms = [term['Collocation'] for term in terms]

In [66]:
terms = DataFrame(terms)

### **KWIC (Keyword in Context)**
Termes d'intérêt : 
- « Programme »
- « Plan »
- « Service(s) de » 
- « Intervenant(e) en »
- « Professionnel de »
- « Institut (du/de) »
- « Groupe de recherche en »
- « Personne »
- « Infirmière (en) »

In [67]:
# Dans notre cas on veut que ça débute par le mot-clé donc le contexte est un peu plus simple
# penser à généraliser avec des expressions régulières
kw = ['programme', 'plan ', 'service', 'intervenant', 'infirmière en', 'institut', 'groupe de recherche', 'personne', 'maladie']

ngrammes_kwic = [" ".join([t[0] for t in ng]).replace("' ", "'") for ng in ngrammes]

In [68]:
extrant = DataFrame(columns=['Mot-clé','Concordance', 'Fréquence'])
kwic = {w : [] for w in kw} 

In [69]:
for t in ngrammes_kwic: # on pourrait aussi chercher dans les terms, mais on perd certains termes d'intérêt avec le filtrage syntaxique
    for w in kw:
        if t.startswith(w):
            kwic[w].append(t)

In [70]:
kwic = {term: FreqDist(kwic[term]) for term in kwic}

In [71]:
for term in kw:
    df = DataFrame(kwic[term].items(), columns=['Concordance', "Fréquence"])
    df.sort_values(["Fréquence"], 
        axis=0,
        ascending=[False], 
        inplace=True)

    df.insert(0, 'Mot-clé', term)
    extrant = concat([extrant, df])


extrant = extrant[extrant['Fréquence'] > 30] 

file_path = '../04-filtrage/output/'
file_path = path.join(file_path, tag, tag)


#extrant.to_csv(file_path + '_KWIC' +'.csv')

extrant

Unnamed: 0,Mot-clé,Concordance,Fréquence
0,programme,programme,95
12,programme,programmes,41
22,plan,plan de,66
23,plan,plan de travail,49
28,plan,plan de travail MWE_STOP formulaire de liaison...,45
...,...,...,...
219,maladie,maladie de lyme ppe mucosite oropharyngée nalo...,45
221,maladie,maladie de lyme ppe mucosite oropharyngée nalo...,45
222,maladie,maladie de lyme ppe mucosite oropharyngée nalo...,45
205,maladie,maladie d'alzheimer et,43


### **Extraction de termes MeSH**

In [72]:
from nltk.tokenize import MWETokenizer
file_path = '../04-filtrage/MeSH/mesh-fr.txt'

with open (file_path, 'r', encoding='utf-8') as f:
    mesh = [tuple(tokenizer_re.tokenize(w)) for w in f.readlines()]
    tokenizer_mesh = MWETokenizer(mesh, separator= ' ')
    mesh = [tokenizer_mesh.tokenize(w)[0].lower() for w in mesh]
    mesh = [w for w in mesh if len(w.split()) > 1] # On ne retient que les termes complexes
    #mesh = [tuple(t.strip('.').lower().split()) for t in f.readlines()]

In [73]:
# extr_mesh = tokenizer_mesh.tokenize([t['Collocation'] for t in terms])

# **MODIF**

In [74]:
# MODIFICATION À APPORTER : dans l'extrant où on voit les termes mesh, ajouter la fréquence

In [75]:
termes_mesh = []

for t in extr_mesh:
    if t in mesh:
        termes_mesh.append(t)

NameError: name 'extr_mesh' is not defined

In [None]:
file_path = '../04-filtrage/output/'
if sous_corpus:
    file_path = path.join(file_path, acteur, tag, tag)

else :
    file_path = path.join(file_path, acteur, acteur)

df = DataFrame(termes_mesh)
df.to_csv(file_path + '_MeSH.csv')

### **Extraction de termes SNOMED**

In [None]:
from nltk.tokenize import MWETokenizer
file_path = '../04-filtrage/SNOMED_fr.csv'

with open(file_path, 'r', encoding='utf-8') as f:
    sm = read_csv(f, sep=';')
    sm = list(dict.fromkeys([str(t).strip().lower() for t in sm['term'].tolist()]))

    sm = [tuple(tokenizer_re.tokenize(w)) for w in sm if len(w.split()) > 1]
    tokenizer_sm = MWETokenizer(sm, separator = ' ')

    sm = [tokenizer_sm.tokenize(w)[0].lower() for w in sm]

In [None]:
extr_sm = tokenizer_sm.tokenize([t[0] for t in terms])

In [None]:
termes_sm = []

for t in extr_sm:
    if t in sm:
        termes_sm.append(t)

In [None]:
file_path = '../04-filtrage/output' 
if sous_corpus:
    file_path = path.join(file_path, acteur, tag, tag) 

else :
    file_path = path.join(file_path, acteur, acteur)


df = DataFrame(termes_sm)

df.to_csv(file_path + '_SNOMED.csv')