## **2. Prétraitement**
- Segmentation (phrases)
- Tokenization (mots)
- Étiquetage morphosyntaxique (POS Tagging) 
- (Lemmatisation - *sur la glace ; ça pourrait permettre d'éviter les faux négatifs dûs à des variations singulier/pluriel quand on essaie d'extraire les termes qui existent déjà dans la taxonomie*)
- Filtrage (stopwords)
- Extraction de termes complexes (MWE / n-grammes / segments répétés)
- Chunking / Filtrage par patrons syntaxiques (basés sur les patrons fréquents dans les MeSH)
- Extraction de collocations significatives (en fonction du Log-likelihood ratio)
- Extraction de concordances (KWIC) pour un ensemble de mots-clés d'intérêt
- Extraction de termes MeSH présents dans les données

In [1]:
import shutil, re, random
from os import listdir, chdir, path
from pathlib import Path
from pandas import *
import glob

import nltk
#nltk.download(['popular'])
from nltk.tokenize import RegexpTokenizer
tokenizer_re = RegexpTokenizer(r"\w\'|\w+")
from nltk import bigrams, trigrams, ngrams, everygrams
from nltk.probability import FreqDist


import treetaggerwrapper
tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr')


from collections import Counter
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from scipy.stats import binom, chi2

  punct2find_re = re.compile("([^ ])([[" + ALONEMARKS + "])",
  DnsHostMatch_re = re.compile("(" + DnsHost_expression + ")",
  UrlMatch_re = re.compile(UrlMatch_expression, re.VERBOSE | re.IGNORECASE)
  EmailMatch_re = re.compile(EmailMatch_expression, re.VERBOSE | re.IGNORECASE)


In [2]:
import xml.etree.ElementTree as ET
import re
import pandas as pd
base_path = '../04-filtrage/MeSH/'

tree = ET.parse(base_path + 'fredesc2019.xml')
root = tree.getroot()

def flatten(l):
    return [item for sublist in l for item in sublist]

data_mesh = [{'mesh_id' : x.find('DescriptorUI').text.strip('\n'), \
         'label_fr' : x.find('DescriptorName').find('String').text.split('[')[0], \
         'label_en' : x.find('DescriptorName').find('String').text.split('[')[1].strip(']'), \
         'synonymes (en/fr)' : flatten([[term.find('String').text for term in concept.find('TermList').findall('Term')] for concept in x.find('ConceptList').findall('Concept')]) \
         } for x in root.findall('DescriptorRecord')]

In [3]:
corpus_global = []
base_path = '../03-corpus/1-crawler/'
for file in listdir(base_path):
    if file.endswith('.csv'):
        with open(base_path + file, encoding = 'utf-8',) as f:
            corpus_global.append({'acteur': file[:-4]}) 

In [5]:
for x in range(len(corpus_global)) : 
    acteur = corpus_global[x]['acteur']
    print(acteur)

    lng = 'fr'

    if lng == 'fr':
        file = acteur +'.csv'
    if lng == 'en':
        file = acteur + '_en.csv'

    def lire_corpus(acteur = acteur, langue=lng):
        base_path = '../03-corpus/2-data/'
        
        folder_path = path.join(base_path, '1-' + langue, acteur)
        all_files = glob.glob(path.join(folder_path, "*.csv"))
        tags = [f.split('_')[1][:-4] for f in listdir(folder_path)]

        df = DataFrame()
        for f, tag in zip(all_files, tags):
            csv = read_csv(f, encoding='utf-8', sep=',')
            csv = csv[~csv["Address"].str.contains('pdf')] #  Problèmes 
            #csv = csv['text']
            # Using DataFrame.insert() to add a column
            df = concat([df, csv]) [['Corpus', 'Sous-corpus', 'Address', 'Title', 'Type', 'text']]
            #df = concat([df, csv]) [['Corpus', 'Sous-corpus', 'Title', 'Type', 'text']]
        return df

    data = lire_corpus(acteur) 
    nb_docs = len(data)
    print("On a un corpus de {} documents.".format(nb_docs))
    corpus_global[x]['N_fr'] = nb_docs

    base_path = '../03-corpus/2-data/'
    folder_path = path.join(base_path, '1-' + lng, acteur)

    data.to_csv(folder_path + '.csv')
    data

    #Nettoyage
    punct = '[!#$%&•►*+,;\/\\<=>?@[\]^_{|}~©«»—“”–—]'
    spaces = '\s+'
    postals = '([a-zA-Z]+\d+|\d+[a-zA-Z]+)+'
    # phones = '\d{3}\s\d{3}-\d{4}' #très simple (trop)

    text = [str(t).strip('\n').lower().replace('’', '\'') for t in data['text'].tolist()]
    text = [re.sub(spaces, ' ', t) for t in text]
    text = [re.sub(postals, ' STOP ', t) for t in text]
    text = [re.sub(punct, ' STOP ', t) for t in text]
    text = [t.replace("  ", " " ) for t in text]

    def join_corpus(corpus):
        return " ".join(corpus)
    
    corpus = join_corpus(text)

    # Filtre d'expressions complexes
    def filter_mwesw(corpus):
        file_mwesw = '../04-filtrage/mwe_stopwords.txt'
        with open (file_mwesw, 'r', encoding='utf-8') as f:
            mwe_sw = [t.lower().strip('\n') for t in f.readlines()]
        for mwe in mwe_sw:
            corpus = corpus.replace(mwe, ' STOP ').replace('  ', " ")
        return corpus

    corpus = filter_mwesw(corpus)

    # Ici, on tokenise une première fois avec le Regex Tokenizer de NLTK pour voir combien de temps ça devrait 
    # prendre au Tree Tagger pour tokeniser et tagger notre corpus
    def tok(corpus):
        # Seulement les caractères alphabétiques
        tokens = tokenizer_re.tokenize(corpus)
        print("Avec le RegExpTokenizer, notre corpus contient {} tokens.".format(len(tokens)))
        temps = round(len(tokens) / 15000 / 60)
        print('Le POS tagging devrait prendre environ {} minutes.'.format(temps))

    tok(corpus)

    # Tokenisation / POS tagging
    def tagging(corpus):
        output = []
        for t in tagger.tag_text(corpus):
            try: 
                output.append([t.split('\t')[0], t.split('\t')[1]])
            except Exception as e:
                output.append(('STOP', 'NAM'))
        return output

    tagged = tagging(corpus)
    tokens = [t[0] for t in tagged]
    print('POS : Done')

    def extr_ngrams(tagged):
        ngrammes= list(everygrams(tagged, min_len=2, max_len=8))
        print("Avant filtrage, on a {} ngrammes.".format(len(ngrammes)))
        return ngrammes

    ngrammes = extr_ngrams(tagged)
    print('Extraction de termes complexes : Done')

    def extract_patterns(ngrammes):
        patterns = []
        for ng in ngrammes:
            phrase = tuple([t[0] for t in ng])
            pattern = [t[1] for t in ng]
            patterns.append([phrase, pattern])
        return patterns

    phrases = extract_patterns(ngrammes)
    frequencies = FreqDist(everygrams(tokens, min_len=1, max_len=10))

    frequencies

    #Filtrage - mots vides
    # Stopwords fréquents en français 
    file_path = "../04-filtrage/stopwords.txt"
    with open(file_path, 'r', encoding="utf-8") as f:
        stopwords = [t.lower().strip('\n') for t in f.readlines()]

    # Stopwords fréquents en anglais
    file_path = '../04-filtrage/stop_words_english.txt'
    with open(file_path, 'r', encoding="utf-8") as f:
        stopwords += [t.lower().strip('\n') for t in f.readlines()]

    def filtrer_stopwords(x): # On s'assure aussi que le premier terme du ngramme est un NOM pour avoir des syntagmes nominaux
        if lng == 'en':
            nom = 'NN'
        if lng == 'fr':
            nom = 'NOM'
        return [term for term in x if not 'STOP' in term[0] and not term[0][0] in stopwords and not term[0][-1] in stopwords \
            and not 'NUM' in term[1] and term[1][0] == nom and not '.' in term[0] and not '-' in term[0] and not ':' in term[0]\
            # Une parenthèse fermante peut juste se trouver comme dernier token
            # Si une parenthèse est ouverte, elle doit aussi être fermée (et vice versa)
            and not ')' in term[0][:-1] and not ('(' in term[0] and not ')' in term[0]) \
            and not (')' in term[0] and not '(' in term[0])]

    phrases = filtrer_stopwords(phrases)
    print('Filtrage des mots-vides : Done')

    # Filtrage - longueur 
    def filter_len(x):
        return [term for term in x if \
            (len(term[0][0]) > 2 or term[0][0] == '(')  and (len(term[0][-1]) > 2 or term[0][-1] == ')') and \
            len(term[0][0]) < 18 and len(term[0][-1]) < 18]

    phrases = filter_len(phrases)

    # Filtrage statistique
    def filter_freq(x):
        return [term for term in x if frequencies[tuple(term[0])] > 5]

    phrases = filter_freq(phrases)
    print('Filtrage statistique : Done')
    phrases = [[term[0], " ".join(term[1])] for term in phrases]

    for phrase in phrases:
        phrase.append(frequencies[tuple(phrase[0])])

    print("Après filtrage, on a {} occurrences de ngrammes.".format(len(phrases))) 
    print("Et {} ngrammes uniques.".format(len(DataFrame(phrases).drop_duplicates())))

    # Filtrage - patrons syntaxiques
    file_patterns = '../04-filtrage/MeSH/mesh_patterns-fr.csv'

    with open (file_patterns, 'r') as f:
        patterns = read_csv(f)
        patterns = patterns['Structure'].tolist() # Pour prendre les structures syntaxiques attestées dans les MeSH

    def filter_patterns(phrases):
        return [t for t in phrases if t[1] in patterns and not 'NUM' in t[1]] # and not 'NOM NOM' in t[1]

    terms = filter_patterns(phrases)

    print("Le filtrage syntaxique élimine environ {} % des termes".format(round((len(phrases) - len(terms)) / len(phrases) * 100)))
    print("On avait {} ngrammes, ".format(len(phrases)) + "on en a maintenant {}.".format(len(terms)))

    for phrase in terms:
        phrase[0] = tuple(phrase[0])


    terms_patterns = DataFrame(terms, columns = ["Expression", "Structure syntaxique", "Fréquence"])
    terms_patterns = terms_patterns.to_dict('records')
    dict_patterns = {}
    for term in terms_patterns:
        exp = term['Expression']
        pattern = term['Structure syntaxique']
        dict_patterns[exp] = pattern

    # Extraction de collocations significatives
    def loglikelihood_ratio(c_prior, c_n, c_ngram, N):
        """
        Compute the ratio of two hypotheses of likelihood and return the ratio.
        The formula here and test verification values are taken from 
        Manning & Schūtze _Foundations of Statistical Natural Language Processing_ p.172-175
        Parameters:
        c_prior: count of word 1 if bigrams or count of [w1w2 .. w(n-1)] if ngram
        c_n : count of word 2 if bigrams or count of wn if ngram
        c12: count of bigram (w1, w2) if bigram or count of ngram if ngram
        N: the number of words in the corpus
        """

        p = c_n / N
        p1 = c_ngram / c_prior
        p2 = (c_n - c_ngram) / (N - c_prior)   
        # We proactively trap a runtimeWarning: divide by zero encountered in log,
        # which may occur with extreme collocations
        import warnings
        with warnings.catch_warnings(): # this will reset our filterwarnings setting
            warnings.filterwarnings('error')
            try:
                return (np.log(binom.pmf(c_ngram, c_prior, p)) 
                        + np.log(binom.pmf(c_n - c_ngram, N - c_prior, p)) 
                        - np.log(binom.pmf(c_ngram, c_prior, p1) )
                        - np.log(binom.pmf(c_n - c_ngram, N - c_prior, p2)))             
            except Warning:
                return np.inf 

    # Pour le calcul des probabilités, on a besoin de traiter séparément les ngrammes selon la valeur de n
    N = len(tokens)
    fd_tokens = nltk.FreqDist(tokens)

    def llr_ngrammes(terms):
        llr = []
        ngrammes = [term[0] for term in terms]
            
        for t in ngrammes:
            if len(t) == 1:
                try:
                    llr.append({'Terme' : str(t[0]), 'Structure syntaxique': dict_patterns[t], 'Fréquence (TF)' : fd_tokens[str(t[0])], 'LLR': '-', 'p-value': '-'})
                except Exception as e:
                    print(t, str(e))
            else:
                c_prior = frequencies[t[:-1]] # Antécédent = P(w1w2..w_n-1) (si on considère que P(w1w2...wn) = P(wn) | P(w1w2...w_n-1)
                c_n = fd_tokens[t[-1]]     # Dernier mot du ngramme  P(wn)
                c_ngram = frequencies[t]             # Le ngramme lui-même P(w1w2w3..wn)

                try:
                    res = -2 * loglikelihood_ratio(c_prior, c_n, c_ngram, N)
                    p_value = chi2.sf(res, 1) # 1 degrees of freedom

                    if p_value < 0.001 or (res == float('-inf')):
                        #llr.append({'Collocation' : " ".join(t).replace("' ", "'").replace("( ", "(").replace(" )", ")"), 'Structure syntaxique': dict_patterns[" ".join(t).replace("' ", "'")], 'Fréquence' : c_ngram, 'LLR': res, 'p-value': p_value})
                        llr.append({'Terme' : t, 'Structure syntaxique': dict_patterns[t], 'Fréquence (TF)' : c_ngram, 'LLR': res, 'p-value': p_value})
                
                except Exception as e:
                    print(t, str(e))
                
        return llr

    significant_coll = llr_ngrammes(terms)

    print('Après avoir calculé le log-likelihood ratio, on a retiré {} collocations qui n\'étaient pas statistiquement significatives.'.format(len(terms) - len(significant_coll)))
    print('Ça représente environ {} % de nos n-grammes.'.format(round((len(terms) - len(significant_coll)) / len(terms) *100 )))

    df = DataFrame(significant_coll).sort_values(by = "Fréquence (TF)", ascending=False).drop_duplicates()

    # On veut faire join pour tous les termes[collocation]
    def join_term(x):
        if type(x) == tuple:
            return " ".join(x).replace("' ", "'").replace("( ", "(").replace(" )", ")")
        else:
            return x

    df['Terme'] = df['Terme'].apply(lambda x: join_term(x))

    if lng == 'en':
        acteur = acteur + '_' + lng

    output_path = path.join('../04-filtrage/output/', acteur + '_candidate-terms.csv') 

    df.to_csv(output_path)

    df = df.drop(columns=['p-value'])

    # Filtrage - fréquence documentaire
    dfs = {term: len([doc for doc in text if term in doc]) for term in df['Terme'].tolist()}

    max_df = round(0.98 * nb_docs)   # Pour rejeter les termes qui se retrouvent dans plus de 95% des documents 
    min_df = round(0.01 * nb_docs)   # Pour rejeter les termes qui se retrouvent dans moins de 1% des documents

    dfs = {term:df for term,df in dfs.items() if df < max_df and df > min_df} # Si df = 0, c'est un artefact créé par le prétraitement lui-même
    print('Filtrage par fréquence documentaire: Done')

    dfs = DataFrame(list(dfs.items()),columns = ['Terme','Fréquence documentaire (DF)']) 
    df = df.merge(dfs, on='Terme').drop_duplicates()

    df.sort_values(['Fréquence (TF)'], 
                axis=0,
                ascending=[False], 
                inplace=True)

    list_terms = df['Terme'].tolist()

    # Extraction de termes MeSH
    df['isMeSHTerm']= False # On set à False puis on va changer pour True si on trouve le terme
    df['MeSHID'] = None
    df['MesH_prefLabel_fr'] = None
    df['MesH_prefLabel_en'] = None

    from nltk.tokenize import MWETokenizer
    file_path = '../04-filtrage/MeSH/mesh-fr.txt'

    with open (file_path, 'r', encoding='utf-8') as f:
        mesh = [tuple(tokenizer_re.tokenize(w)) for w in f.readlines()]
        tokenizer_mesh = MWETokenizer(mesh, separator= ' ')
        mesh = [tokenizer_mesh.tokenize(w)[0].lower() for w in mesh]
        mesh = [w for w in mesh if len(w.split()) > 1] # On ne retient que les termes complexes
        #mesh = [tuple(t.strip('.').lower().split()) for t in f.readlines()]

    extr_mesh = tokenizer_mesh.tokenize(list_terms)

    for t in extr_mesh:
        if t in mesh:
            df.loc[df['Terme'] == t, 'isMeSHTerm'] = True

    # Termes MeSH présents dans notre corpus 
    corpus_global[x]['N_MeSH'] = len(df[df['isMeSHTerm'] == True])
    print('Extraction de termes MeSH : Done')

    # Extraction de termes existant dans la taxonomie
    df['isTaxoTerm'] = 'False' # On set à False puis on va changer pour True si on trouve le terme

    file_path = '../04-filtrage/default_taxo_labels.csv'

    with open(file_path, 'r', encoding='utf-8') as f:
        default = read_csv(f, sep=';')
        taxo_terms = list(dict.fromkeys([str(t).strip().lower() for t in default['Label'].tolist()]))

    for t in df['Terme'].tolist():
        if t in taxo_terms:
            df.loc[df['Terme'] == t, 'isTaxoTerm'] = True
    
    corpus_global[x]['N_Taxo'] = len(df[df['isTaxoTerm'] == True])
    print('Extraction de termes de la taxo : Done')

    for t in df[df['isMeSHTerm'] == True]['Terme'].tolist():
        for d in data_mesh:
            if t in [str(x).lower() for x in d['synonymes (en/fr)']]:
                df.loc[df['Terme'] == t, 'MeSHID'] = d['mesh_id']
                df.loc[df['Terme'] == t, 'MesH_prefLabel_fr'] = d['label_fr']
                df.loc[df['Terme'] == t, 'MesH_prefLabel_en'] = d['label_en']
    print('Mapping MeSH IDs : Done')

    df = df[['Terme', 'Structure syntaxique',	'Fréquence (TF)', 'Fréquence documentaire (DF)', 'LLR', 'isMeSHTerm', 'isTaxoTerm', 'MeSHID', 'MesH_prefLabel_fr', 'MesH_prefLabel_en']]

    df.insert(0, 'Corpus', acteur)

    if lng == 'en':
        acteur = acteur + '_' + lng

    output_path = path.join('../04-filtrage/output/', acteur + '_candidate-terms.csv') 
    df.to_csv(output_path)

    print('On a terminé avec cet acteur : ' + acteur)


ciusss_nordmtl
On a un corpus de 1538 documents.
Avec le RegExpTokenizer, notre corpus contient 644048 tokens.
Le POS tagging devrait prendre environ 1 minutes.
POS : Done
Avant filtrage, on a 4764921 ngrammes.
Extraction de termes complexes : Done
Filtrage des mots-vides : Done
Filtrage statistique : Done
Après filtrage, on a 127444 occurrences de ngrammes.
Et 11470 ngrammes uniques.
Le filtrage syntaxique élimine environ 29 % des termes
On avait 127444 ngrammes, on en a maintenant 90256.
Après avoir calculé le log-likelihood ratio, on a retiré 49 collocations qui n'étaient pas statistiquement significatives.
Ça représente environ 0 % de nos n-grammes.
Filtrage par fréquence documentaire: Done
Extraction de termes MeSH : Done
Extraction de termes de la taxo : Done
Mapping MeSH IDs : Done
On a terminé avec cet acteur : ciusss_nordmtl
ciusss_ouestmtl
On a un corpus de 235 documents.
Avec le RegExpTokenizer, notre corpus contient 88656 tokens.
Le POS tagging devrait prendre environ 0 min