In [24]:
from nltk.corpus import stopwords
from nltk import word_tokenize
import treetaggerwrapper
tagdir = '/home/chloe/Documents/snipfeed/prod/tagging_system/french/treetagger'
import numpy as np
import time
import re
import pickle as pkl
import unidecode
import spacy


def initialize_variables():
    idfs = pkl.load(open('idfs_dict_lemm.pkl','rb'))
    vocab = list(idfs.keys())
    len_vocab = len(vocab)
    word_to_int = dict(zip(vocab,range(len_vocab)))
    idfs_array = np.zeros(len_vocab)
    for word in vocab: idfs_array[word_to_int[word]] = idfs[word]
    stopw = stopwords.words('french')
    start = time.time()
    return vocab,len_vocab,word_to_int,idfs_array,stopw

def remove_unwanted(tags):
    remove = list()
    hour_re = '[0-2]?[0-9][h,:]([0-9]{2})?'
    days = ['lundi','mardi','mercredi','jeudi','vendredi','samedi','dimanche']
    for i,tag in enumerate(tags): 
        match = re.search(hour_re,tag)
        if match: 
            remove.append(tag)
            continue
        tags[i] = tag.replace('_','')
        #tags[i] = unidecode.unidecode(tag)
        if '|' in tag: remove.append(tag)
    for tag in remove: tags.remove(tag)
    return [tag for tag in tags if tag not in days and len(tag)>1]

def get_clean_text_raw(raw_text,stopw,complete=False):
    raw_text = raw_text.replace('-',' ')
    raw_text = raw_text.replace('’','\'')
    tagger = treetaggerwrapper.TreeTagger(TAGLANG='fr',TAGDIR=tagdir)
    tags = tagger.tag_text(raw_text)
    tags2 = treetaggerwrapper.make_tags(tags)
    if complete: postags = [(tag.word.lower(),tag.pos) for tag in tags2 if isinstance(tag,treetaggerwrapper.Tag)]
    else: postags = [(tag.lemma.lower(),tag.pos) for tag in tags2 if isinstance(tag,treetaggerwrapper.Tag) and tag.pos[:3] in ['NOM','NAM','VER','ABR','ADJ'] and tag.word.lower() not in stopw]
    words = [word for word,tag in postags]
    postags = [tag for word,tag in postags]
    return words,postags

def get_TFs_raw(raw_text,len_vocab,word_to_int,stopw):
    words,postags = get_clean_text_raw(raw_text,stopw)
    NEs = np.array(words)[np.where(np.array(postags).astype(str)=='NAM')[0]]
    NE,counts = np.unique(NEs,return_counts=True)
    average = np.mean(counts)
    NEs = NE[np.where(counts>=average)[0]]
    word_counts = dict(zip(*np.unique(words,return_counts=True)))
    n_words = sum(list(word_counts.values()))
    tfs = np.zeros(len_vocab)
    unknowns = list()
    for i,word in enumerate(words): 
        try: tfs[word_to_int[word]] = word_counts[word]/n_words
        except KeyError: unknowns.append((word,postags[i]))
    return tfs,unknowns,NEs

def get_significants(raw_text,vocab,idfs_array,len_vocab,word_to_int,stopw):
    tfs,unknowns,NEs = get_TFs_raw(raw_text,len_vocab,word_to_int,stopw)
    tfidfs = tfs*idfs_array
    order = np.flip(np.argsort(tfidfs))
    significants = np.array(vocab)[order]
    return list(significants),list(tfidfs[order]),unknowns,list(NEs)

def get_sentences(raw_text,punctuation=False):
    raw_text = raw_text.replace('-',' ')
    raw_text = raw_text.replace('’','\'')
    sentences = list()
    sentence = ''
    for character in raw_text:
        if character in ['.','!','?']:
            sentences.append(sentence)
            sentence = ''
        else: sentence+=character
    for i,sentence in enumerate(sentences):
        if punctuation: sentences[i] = [word for word in word_tokenize(sentence,language='french')]
        else: sentences[i] = [word for word in word_tokenize(sentence,language='french') if word.isalnum() and not word.isdigit()]
    return sentences

def process_unknowns(unknowns):
    keeps = [word for word,tag in unknowns if tag[:3] in ['NOM','VER','NAM','ADJ'] and len(word)>=3]
    keeps = dict(zip(*np.unique(keeps,return_counts=True)))
    average = np.mean(list(keeps.values()))
    keeps = [keep for keep,count in keeps.items() if count>=average]
    return keeps

def get_spacy_significants(raw_text,vocab,idfs_array,len_vocab,word_to_int,stopw):
    significants,tfidfs,unknowns,NEs = get_significants(raw_text,vocab,idfs_array,len_vocab,word_to_int,stopw)
    tags = list()
    for i,s in enumerate(significants): 
        if tfidfs[i]<3e-5: break
        tags.append(s)
    tags += process_unknowns(unknowns)
    tags += NEs
    tags = remove_unwanted(tags)
    return list(set(tags))

def parse_tuples(raw_text,stopw):
    words,postags = get_clean_text_raw(raw_text,stopw,complete=True)
    tuples = list()
    for i in range(len(words)-1): 
        if ' '.join(postags[i:i+2]) not in ['NAM NAM','NOM ADJ','ADJ NOM','NOM NOM']: continue
        tuples.append('.'.join(words[i:i+2]))
    tuples,counts = np.unique(tuples,return_counts=True)
    average = np.mean(counts)
    return list(tuples[np.where(counts>=average)[0]])

def get_tags(raw_text):
    vocab,len_vocab,word_to_int,idfs_array,stopw = initialize_variables()
    tuples_ = parse_tuples(raw_text,stopw)
    doubles = list()
    for tuple_ in tuples_: doubles+=tuple_.split('.')
    tags = get_spacy_significants(raw_text,vocab,idfs_array,len_vocab,word_to_int,stopw)
    remove = list()
    for tag in tags: 
        if tag in doubles: 
            remove.append(tag)
            continue
    for tag in remove: tags.remove(tag)
    return tags+tuples_

In [26]:

text = """
Le projet orchestré par l'INRIA devient l'infrastructure de machine learning de référence aux côtés des frameworks de deep learning tels que Keras ou Tensorflow.

Initié et piloté en France par l'INRIA, le projet open source Scikit-learn est devenu une référence dans le monde de l'intelligence artificielle. De Paris à San Francisco en passant par Singapour, la bibliothèque de machine learning, écrite en Python, s'impose aux start-up jusqu'aux grands groupes, Gafam compris.

Preuve de cet engouement, dans le dernier baromètre de la Python Software Foundation, Scikit-learn se hisse en cinquième position des frameworks et librairies de data science Python les plus utilisés tous domaines confondus. Il est cité par près d'un tiers des 20 000 développeurs interrogés. Et dans la catégorie des technologies d'apprentissage machine stricto sensu, elle occupe la première place du palmarès. Elle se classe même largement devant les infrastructures de deep learning Tensorflow et Keras qui, de leur côté, totalisent respectivement 25% et 15% des suffrages.

Comment expliquer ce succès fulgurant ? Scikit-learn recouvre les principaux algorithmes de machine learning généralistes : classification, régression, clustering, gradient boosting... En parallèle, le framework embarque NumPy, Matplotlib et SciPy, trois librairies star du calcul scientifique comme l'illustre encore l'indice de la Python Software Foundation (dans lequel elles trustent successivement la première, troisième et quatrième position). "Du coup, la communauté des chercheurs rompus au calcul matricielle l'a rapidement adoptée", constate Aymen Chakhari, directeur IA et data science au sein de l'ESN Devoteam.

Dataiku, Microsoft et IBM dans la boucle
Par voie de conséquence, Scikit-learn est également la bibliothèque de machine learning la plus souvent présente dans les cursus d'enseignement supérieur en data science. Résultat : un large contingent de jeunes diplômés et d'experts prêts à la déployer en entreprise sont venus alimenter le marché de l'emploi, faisant encore monter la mayonnaise.

"L'un de ses principaux points forts : une documentation claire et didactique avec des packages prêts à l'emploi"
Quant aux fournisseurs d'outils d'IA commerciaux, ils ont rapidement vu dans Scikit-learn une potentielle poule aux œufs d'or. Sa disponibilité en open source (sous licence BSD) et son mode de développement communautaire ont fait le reste. L'infrastructure est désormais implémentée par plusieurs poids lourds de la data science dont le Français Dataiku, l'Américain DataRobot et l'Allemand Knime. Elle est aussi prise en charge par un nombre croissant d'acteurs du cloud. C'est le cas de Google via son service Cloud Machine Learning Engine, d'IBM avec Watson Machine Learning ou encore de Microsoft par le biais d'Azure Machine Learning.

"L'un des principaux points forts de Scikit-learn est de proposer une documentation claire et didactique avec des exemples d'implémentations et des packages prêts à l'emploi. Tensorflow se révèle beaucoup plus difficile à paramétrer", compare Bouzid Ait Amir, responsable du pôle analytics chez Keyrus.

De l'hyperparameter tuning
Parmi ses facteurs de différentiation, Scikit-learn est plébiscitée pour sa méthode de validation croisée. "En amont, elle fournit la possibilité de générer très simplement les bases d'entrainement et de test", explique Bouzid Ait Amir. Ensuite via un mécanisme de grid search, la validation croisée permet de dénicher les paramètres du modèle se rapprochant le plus des prédictions attendues. Le processus ajuste l'échantillonnage de la base de test en la confrontant à la base d'apprentissage par itérations successives (voir schéma ci-dessous). "L'objectif est d'aboutir au bon réglage en termes de seuils, par exemple ne pas dépasser 2% en matière de détection de fraudes", détaille Bouzid Ait Amir.
"""
start = time.time()
tags = get_tags(text)
print('\n'.join(tags))
print('\ntime:',time.time()-start)

librairie
dataiku
package
keras
cloud
infrastructure
microsoft
frameworks
tensorflow
validation
scikit
calcul
inria
learn
didactique
ait.amir
bouzid.ait
deep.learning
documentation.claire
machine.learning
open.source
packages.prêts
points.forts
principaux.points
python.software
software.foundation

time: 0.47754573822021484
