# Traitement non dirigé du langage naturel

Le traitement non dirigé du langage naturel consiste à traiter le langage naturel sans spécifier aucune étiquette. C’est l’algorithme d’apprentissage-machine qui identifiera lui-même les groupes. C’est une technique très utile si vous ignorez au départ quelles sont les thématiques communes d’un ensemble de documents. Cela vous permet d’identifier des tendances que vous ne pouvez discerner par vous-même, en raison par exemple du vaste nombre de documents que vous souhaitez étudier. 

Nous verrons plus avant dans le présent carnet commet rendre des textes plus faciles à lire et à parcourir pour un ordinateur, et par la suite comment appliquer cette technique à la classification de livres en fonction de leurs résumés. 

## Les objectifs d’apprentissage

Durée moyenne d’exécution : 60 minutes

À la fin de ce tutoriel, vous devriez être en mesure :
* D’épurer vos données et d’expliquer en quoi cela est important pour l’apprentissage-machine.
* De ramener les mots à leur signification première pour créer des groupes.
* D’interpréter ces groupes en utilisant différentes façons de voir les données.  
* De décrire ce qu’est l’apprentissage non dirigé et comment nous l’utilisons. 
* De décrire ce qu’est le traitement automatique du langage et comment l’utiliser.


## Ce dont vous aurez besoin pour compléter le tutoriel

* Consultez le [document d'introduction](https://uottawa-it-research-teaching.github.io/machinelearning/) pour connaître les exigences générales et le fonctionnement des carnets Jupyter.
* Nous aurons aussi besoin de Pandas pour faciliter la gestion des données. C’est un outil Python très puissant, capable de lire les fichiers CSV et Excel. Il offre aussi d’excellentes capacités de manipulation de données, ce qui est très utile pour l’épuration des données.
* Nous utiliserons NLTK comme trousse d’apprentissage-machine. NLTK est l’acronyme de Natural Language Tool Kit ou en français, Trousse d’outils de langage naturel.
* Des fichiers de données qui sont intégrées au présent carnet dans le dossier « données ».

## Les meilleures pratiques de gestion des données de recherche (GDR)

Une bonne manipulation des données destinées à l’apprentissage-machine commence par une gestion efficace des données de recherche (GDR). La qualité de vos données de base aura une incidence sur vos éventuels résultats. Au même titre, la reproductibilité de vos résultats dépendra de vos données de base et de la façon dont vous organiserez vos données pour permettre à d’autres personnes (et aux machines !) de comprendre ces données et de pouvoir les réutiliser.

Nous devrons aussi constamment recourir aux meilleures pratiques de gestion des données de recherche, pratiques recommandées par l'[Alliance de recherche numérique du Canada](https://zenodo.org/records/4012530). Nous vous avons encouragé dans le premier tutoriel à vous conformer à ces deux meilleures pratiques de gestion des données de recherche :

ENREGISTREZ VOS DONNÉES BRUTES DANS LEUR FORMAT ORIGINAL
* N’écrasez pas vos données originales avec une version épurée.
* Protégez vos données originales en les verrouillant ou en les rendant inaltérables (lecture seule). 
* Revenez à ces données originales en cas de problème (ce qui se produit souvent).

SAUVEGARDEZ VOS DONNÉES
* Utilisez la règle du 3-2-1: sauvegardez trois copies de vos données, deux sur deux différents supports de stockage et la dernière hors site. Le stockage hors site pourra se faire sur OneDrive ou Google drive, ou tout autre site fourni par votre établissement.  
* Nous utilisons Open Data qui ne comporte pas de données identifiables ou de données devant faire l’objet de restriction ou protection particulière.  Mais si vos données comportent des renseignements confidentiels, assurez-vous de prendre les mesures nécessaires pour en limiter l’accès ou pour chiffrer vos données.

Il y a quelques autres meilleures pratiques de gestion des données de recherche qui vous aideront à gérer votre projet. Nous les mettrons en évidence au début de chaque tutoriel.

## Épuration des données aux fins de traitement du langage naturel

Il y a plusieurs choses que vous devez faire pour épurer des données destinées au traitement automatique du langage naturel. Tout dépend de la tâche que vous souhaitez accomplir : 
* Éliminer les mots vides
* Supprimer la ponctuation
* Lemmatisation
* Remplacement par des synonymes

Les mots vides sont des mots si répandus qu’on les retrouve partout. Ce sont des mots comme « un », « le », « est », « ont », etc. Ils n’ont donc aucune valeur le temps venu de catégoriser des textes. Vous voudrez plutôt vous concentrer sur des mots qui sont plus ou moins spécifiques à des catégories données. À titre d’exemple, la langue anglaise est victimes de contractions comme « you'll » qui doivent être rétablies. 

La contribution de la ponctuation est aussi plutôt mince et nous pouvons donc l’éliminer. 

La lemmatisation est une technique de réduction de la conjugaison de verbes qui permet de les ramener à leur forme de base et de supprimer les pluriels. À titre d’exemple, les formes « acheter », « achètes » et « achetés » qui proviennent tous du même verbe sont néanmoins perçues différemment par un ordinateur. En remplaçant toutes ces conjugaisons par simplement « acheter », un ordinateur peut y voir une seule et même signification. 

Les synonymes sont des mots qui ont une même signification. Idéalement, vous voudriez que les mots « aide » et « assistance » soient comptés comme un seul mot. Mais y arriver est extrêmement difficile car certains synonymes ne sont pas toujours identiques et peuvent avoir une signification quelque peu différente. Il n’est donc pas toujours souhaitable qu’ils soient comptés comme un seul mot. 

Les paquets de traitement automatique du langage naturel contiennent habituellement leur propre liste de mots vides. Mais ce ne sont pas toujours les mêmes. La définition même d’un mot vide est un peu ambiguë. Toutes associées à Python, les trousses NLTK, SpaCy, Gensim et Scikit-learn contiennent des listes différentes. Dans notre cas, nous utiliserons la trousse NLTK.

Nous avons besoin en anglais du paquet « contractions » qui n’est pas systématiquement installé par défaut. Si vous n’avez pas ce paquet, référez-vous au premier carnet pour connaitre son mode d’installation.

In [1]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import WordNetLemmatizer
import nltk
import contractions
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /home/jvanderk/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/jvanderk/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

### Les mots vides

Voici les dix premiers mots de la liste des mots vides en anglais et en français :

In [2]:
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [3]:
stopwords.words('french')[:10]

['au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle']

Vous remarquerez que tous ces mots sont en lettres minuscules. Veiller à ce que tous les mots soient en lettres minuscules est une bonne habitude car vous n’aurez pas à vous préoccuper du respect de la casse pour comparer des mots. Filtrons donc cette phrase pour en supprimer les mots vides.

In [4]:
text = "You'll notice that all of the words are lower case too. It's good practise to make all words lower case, so you don't have to worry about case sensitivity when comparing words. Let's filter this sentence."

# Make it all lower case
text = text.lower()

# Remove contactions
text = contractions.fix(text)

# Tokenize the text which splits the words and punctiation
tokens = word_tokenize(text)

# Remove the stopwords and make everything lower case
filtered_text = [token for token in tokens if token not in stopwords.words('english')]

# Show result in a readable way
" ".join(filtered_text)

'notice words lower case . good practise make words lower case , worry case sensitivity comparing words . let us filter sentence .'

### Supprimer la ponctuation

Il est assez facile de le faire en utilisant la fonction isalpha qui ne conserve que les éléments qui contiennent des lettres. Chiffres et ponctuation disparaitront.

In [5]:
tokens = [token for token in filtered_text if token.isalpha()]

# Show result in a readable way
" ".join(tokens)

'notice words lower case good practise make words lower case worry case sensitivity comparing words let us filter sentence'

### La lemmatisation
Malheureusement, la trousse NLTK n’offre la lemmatisation qu’en langue anglaise.  Il existe toutefois un outil pilote de lemmatisation en français qui peut remplacer celui de la trousse NLTK. Cet outil porte le nom de [LEFF Lematizer](https://github.com/ClaudeCoulombe/FrenchLefffLemmatizer). Utilisez-le pour analyser des textes en français. Dans le cas présent, nous analyserons des livres en anglais et utiliserons par conséquent l’outil par défaut de la trousse NLTK.

Le code ci-après génère le lemmatisateur puis analyse tous les mots pour en extraire le lemme. Nous utiliserons à nouveau la fonction `join` pour afficher les résultats.

In [6]:
lemmatizer = WordNetLemmatizer()

tokens = [lemmatizer.lemmatize(token) for token in tokens]

" ".join(tokens)

'notice word lower case good practise make word lower case worry case sensitivity comparing word let u filter sentence'

Mais il se passe quelque chose d’étrange ! Le mot « comparing » est conservé alors qu’il aurait dû devenir « compare ».  Cela découle du fait que WordNet présume que tout élément est un nom, à moins d’indication contraire.  

Voici ce que génère le lemmatiseur pour le terme « comparing » :

In [7]:
lemmatizer.lemmatize('comparing')

'comparing'

NLTK l’interprète comme s’il s’agissait de « The Comparing » et laisse le mot tel quel.  Mais nous voulons qu’il soit marqué comme verbe afin que le lemmatiseur puisse le ramener (conjuguer) à sa forme de base.

Si nous indiquons clairement que le mot dont nous souhaitons extraire le lemme est un verbe, tout ira bien. Nous pouvons le faire en spécifiant `pos='v'`.

In [8]:
# Same code but now marked as verb
lemmatizer.lemmatize('comparing', pos='v')

'compare'

Heureusement, nous n’avons pas à marquer nous-mêmes les mots en fonction de leur classe, c’est-à-dire les désigner comme verbe, nom ou autre chose. Nous pouvons utiliser la fonction « pos_tag » qui fera le travail à notre place.

In [9]:
nltk.pos_tag(tokens)

[('notice', 'NN'),
 ('word', 'NN'),
 ('lower', 'JJR'),
 ('case', 'NN'),
 ('good', 'JJ'),
 ('practise', 'NN'),
 ('make', 'VBP'),
 ('word', 'NN'),
 ('lower', 'JJR'),
 ('case', 'NN'),
 ('worry', 'NN'),
 ('case', 'NN'),
 ('sensitivity', 'NN'),
 ('comparing', 'VBG'),
 ('word', 'NN'),
 ('let', 'NN'),
 ('u', 'JJ'),
 ('filter', 'NN'),
 ('sentence', 'NN')]

Elle classe tous les mots en utilisant un modèle pré-entrainé, inclus dans la trousse NLTK. On peut spécifier la langue, en sélectionnant par exemple `lang='fra'` pour le français.

Les codes générés comme NN et VBG, signifient respectivement « Nom, singulier ou masse » et « Verbe, gérondif ou participe présent ». Cela dépend toutefois de l’ensemble de balises que vous utilisez. Celui de NLTK en anglais est [Penn Treebank tags](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) et c’est celui que nous utiliserons. 

Ces codes doivent être traduits pour faire le balisage sous WordNet. Nous pouvons créer une fonction pour cela. Pour une raison quelconque, cette fonction n’est pas intégrée à la trousse NTLK. Peut-être est-ce parce que les étiquettes varient selon les ensembles de balises. Mais nous pouvons tout simplement regarder la première lettre de l’étiquette et l’utiliser. De fait, si nous prenons les étiquettes de Penn Treebank, voici ce que nous obtenons :
* VB Verbe, forme de base
* VBD Verbe, passé
* VBG Verbe, gérondif ou participe présent
* ...
Elles commencent toutes par « V » car ce sont tous des verbes. La classification est toutefois un peu plus détaillée. Nous pouvons donc procéder de la même façon avec les autres catégories, à l’instar du V, soit « N » pour noms, « J » pour adjectifs, etc. 

La fonction permettant de traduire d’un système de balisage à un autre est donc :

In [10]:
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return nltk.corpus.wordnet.ADJ
    elif tag.startswith('V'):
        return nltk.corpus.wordnet.VERB
    elif tag.startswith('N'):
        return nltk.corpus.wordnet.NOUN
    elif tag.startswith('R'):
        return nltk.corpus.wordnet.ADV
    elif tag.startswith('S'):
        return nltk.corpus.wordnet.ADJ_SAT
    else:
        # If it's something else, then just use the default value for the lemmatizer
        return nltk.corpus.wordnet.NOUN

D’un point de vue technique, il est préférable de procéder au balisage avant de supprimer la ponctuation et d’exécuter le balisage en fonction de phrases car la ponctuation a une portée sémantique que le marqueur peut utiliser. Mais l’ordre que nous avons utilisé convenait davantage à des fins éducatives. Pour l’exemple concret un peu plus loin ci-dessous, nous suivrons le bon ordre. Mais voyons tout de même ce que nous avons obtenu avec les mots étiquetés.

In [11]:
tokens = [lemmatizer.lemmatize(token, pos=get_wordnet_pos(tag)) for token, tag in nltk.pos_tag(tokens)]

" ".join(tokens)

'notice word low case good practise make word low case worry case sensitivity compare word let u filter sentence'

Presque chaque mot a maintenant été ramené à sa forme de base, à sa racine, même si cela sonne un peu comme un pirate!

Ce n’est donc pas parfait. Vous remarquerez que nous avons maintenant « u » plutôt que « us ». C’est parce que « us » a été classifié à tort comme un adjectif (JJ). Il a peut-être été perçu comme la chose appartenant à « u » comme dans « us thing ». Mais dans tous les cas, cela demeure acceptable.

## De retour aux livres

Nous utiliserons le jeu de données sur les livres de la CMU que nous avons utilisé préalablement dans les tutoriels sur les classificateurs à noyaux et bayésiens. Mais cette fois-ci, nous utiliserons un algorithme de classification non dirigée pour voir ce qu’il parvient à identifier. « Non dirigée » signifie que nous n’utiliserons aucune des étiquettes qui viennent avec le jeu de données. Nous laisserons plutôt notre algorithme d’apprentissage-machine se débrouiller seul. Il tentera de localiser des résumés de livres susceptibles d’être regroupés pour ensuite nous expliquer sa façon de penser.

Par contre, l’apprentissage non dirigé étant incapable de comprendre la matière analysée, il vous reviendra de figurer quels sont les genres identifiés.

### Lire les données
Nous lirons les données comme nous l’avons fait dans le carnet sur les plus proches voisins. Nous utiliserons pour cela Pandas et JSON pour charger le jeu de données :

In [12]:
import pandas as pd
import json

Nous lirons ensuite les résumés de livres contenus dans nos fichiers de données.

In [13]:
books = pd.read_csv('../data/booksummaries.txt', sep="\t", header=0, names=['wikipedia', 'freebase', 'title', 'author', 'publicationdate', 'genres', 'summary'])

Nous ignorerons toutes les lignes contenant des données manquantes car nous avons suffisamment de données.

In [14]:
books = books.dropna()

Puis nous créerons une fonction pour extraire les genres.

In [15]:
def genre(row):
    g = json.loads(row.genres)
    return list(g.values())

#genresperbook = books.apply(genre, axis=1)
#books = books.assign(genres=genresperbook)

Vous remarquerez que nous avons décommenté les genres de lecture contenus dans notre fiche de données Pandas, comparativement à la fonction identique dans le carnet sur les plus proches voisins, et cela, parce que nous n’avons pas besoin de données étiquetées. En effet, nous utilisons un algorithme non dirigé.

### Préparation des données

Allons-y ! Faisons les modifications requises pour n’avoir que des lettres minuscules et supprimer les contractions avant de segmenter le texte en unités lexicales.

In [16]:
# Which book are we looking at?
books.loc[0]['title']

'A Clockwork Orange'

Allons-y ! Faisons les modifications requises pour n’avoir que des lettres minuscules et supprimer les contractions avant de segmenter le texte en unités lexicales.

In [17]:
# Make it all lower case
text = books.loc[0]['summary'].lower()

# Remove contactions
text = contractions.fix(text)

# Tokenize the text
tokens = word_tokenize(text)

Procédons maintenant au balisage des mots avant de les charger dans le lemmatiseur pour obtenir la forme de base.

In [18]:
lemmatizer = WordNetLemmatizer()
tokens = [lemmatizer.lemmatize(token, pos=get_wordnet_pos(tag)) for token, tag in nltk.pos_tag(tokens)]

Combien d’unités lexicales avons-nous maintenant ? 

In [19]:
len(tokens)

1149

Supprimons les mots vides et la ponctuation.

In [20]:
# Punctuation
tokens = [token for token in tokens if token.isalpha()]

# Stopwords
tokens = [token for token in tokens if token not in stopwords.words('english')]

Nous avons probablement éliminé beaucoup d’éléments inutiles ! Voyons combien d’unités lexicales demeurent.

In [21]:
len(tokens)

545

Nous pouvons provisoirement regrouper les unités restantes pour retrouver un texte lisible. Il s’agit juste de voir à quoi ressemble un résumé de livre filtré.

In [22]:
" ".join(tokens)

'alex teenager living england lead gang nightly orgy opportunistic random alex friend droogs novel slang nadsat dim bruiser gang muscle georgie ambitious pete mostly play along droogs indulge taste characterize sociopath harden juvenile delinquent alex also intelligent sophisticated taste music particularly fond beethoven lovely ludwig van novel begin droogs sit favorite hangout korova milkbar drink cocktail call hype night mayhem assault scholar walk home public library rob store leave owner wife bloody unconscious stomp panhandling derelict scuffle rival gang joyride countryside stolen car break isolated cottage maul young couple living beat husband rap wife metafictional touch husband writer work manuscript call clockwork orange alex contemptuously read paragraph state novel main theme shred manuscript back milk bar alex punishes dim crude behaviour strain within gang become apparent home dreary flat alex play classical music top volume fantasizing even orgiastic violence alex skips

Il semblerait que ça ait fonctionné. Voilà une belle salade de mots. Cela ressemble à un mélange de mots difficile à déchiffrer pour un humain. Mais cela est nettement plus facile pour un ordinateur car toute apparence de grammaire a disparu.

Nous pourrions aussi choisir d’ignorer les noms mais ne compliquons pas trop les choses ! Toutefois, si cela vous intéresse, recherchez sur Internet NLTK et NER (reconnaisseur d’entités nommées) à l’aide de votre moteur de recherche préféré.

Nous pouvons maintenant le faire avec tous les livres. Nous intégrerons tout ce qui précède dans une seule fonction que nous appliquerons par la suite à toutes les lignes. Cela prendra quelques minutes car il y a beaucoup de livres (9292) !

In [23]:
def prepare(text):
    # Make it all lower case and remove contactions
    text = contractions.fix(text.lower())

    # Tokenize the text
    tokens = word_tokenize(text)

    # Lemmatize
    lemmatizer = WordNetLemmatizer()
    tokens = [lemmatizer.lemmatize(token, pos=get_wordnet_pos(tag)) for token, tag in nltk.pos_tag(tokens)]

    # Punctuation
    tokens = [token for token in tokens if token.isalpha()]

    # Stopwords
    tokens = [token for token in tokens if token not in stopwords.words('english')]

    return tokens

In [24]:
# Apply the prepare function to all of the books and store it in a new column.
books['prepared'] = books['summary'].apply(prepare)

L’étape précédente est chronophage. Dans pareil cas, vous gagneriez sans doute à regrouper toutes les données dans une fichier que vous pourrez ensuite lire sans devoir exécuter à nouveau toutes les étapes préparatoires. Pour ce faire, vous pouvez utiliser les modules « _pickle » et « read_pickle ». Pickle est un module propre à Python qui est dense et rapide. Il ne se limite pas non plus aux trames de données. Toute variable de Python peut être stockée sous pickle.

In [25]:
# Save the prepared DataFrame to file
books.to_pickle('books.pkl')

In [26]:
# Read the prepared Data Frame
books = pd.read_pickle('books.pkl')

Il y a maintenant une nouvelle colonne dans notre trame de données sur les livres (`books`) qui contient le texte épuré sous forme de liste d’unités lexicales.

In [27]:
books

Unnamed: 0,wikipedia,freebase,title,author,publicationdate,genres,summary,prepared
0,843,/m/0k36,A Clockwork Orange,Anthony Burgess,1962,"{""/m/06n90"": ""Science Fiction"", ""/m/0l67h"": ""N...","Alex, a teenager living in near-future Englan...","[alex, teenager, living, england, lead, gang, ..."
1,986,/m/0ldx,The Plague,Albert Camus,1947,"{""/m/02m4t"": ""Existentialism"", ""/m/02xlf"": ""Fi...",The text of The Plague is divided into five p...,"[text, plague, divide, five, part, town, oran,..."
4,2152,/m/0x5g,All Quiet on the Western Front,Erich Maria Remarque,1929-01-29,"{""/m/098tmk"": ""War novel"", ""/m/016lj8"": ""Roman...","The book tells the story of Paul Bäumer, a Ge...","[book, tell, story, paul, bäumer, german, sold..."
5,2890,/m/011zx,A Wizard of Earthsea,Ursula K. Le Guin,1968,"{""/m/0dwly"": ""Children's literature"", ""/m/01hm...","Ged is a young boy on Gont, one of the larger...","[ged, young, boy, go, one, large, island, nort..."
7,4081,/m/01b4w,Blade Runner 3: Replicant Night,K. W. Jeter,1996-10-01,"{""/m/06n90"": ""Science Fiction"", ""/m/014dfn"": ""...","Living on Mars, Deckard is acting as a consul...","[live, mar, deckard, act, consultant, movie, c..."
...,...,...,...,...,...,...,...,...
16548,36372465,/m/02vqwsp,The Third Lynx,Timothy Zahn,2007,"{""/m/06n90"": ""Science Fiction""}",The story starts with former government agent...,"[story, start, former, government, agent, fran..."
16550,36534061,/m/072y44,Remote Control,Andy McNab,1997,"{""/m/01jfsb"": ""Thriller"", ""/m/02xlf"": ""Fiction...",The series follows the character of Nick Ston...,"[series, follow, character, nick, stone, man, ..."
16554,37054020,/m/04f1nbs,Transfer of Power,Vince Flynn,2000-06-01,"{""/m/01jfsb"": ""Thriller"", ""/m/02xlf"": ""Fiction""}",The reader first meets Rapp while he is doing...,"[reader, first, meet, rapp, covert, operation,..."
16555,37122323,/m/0n5236t,Decoded,Jay-Z,2010-11-16,"{""/m/0xdf"": ""Autobiography""}",The book follows very rough chronological ord...,"[book, follow, rough, chronological, order, sw..."


### L'algorithme

Voyons maintenant l’algorithme d’apprentissage-machine, appelé Latent Dirichlet Allocation (Allocation latente de Dirichlet ou LDA). C’est un modèle statistique capable de localiser dans un échantillon des mots qui vont souvent ensemble puis de les combiner avec tous les échantillons pour former des groupes dans lesquels certains termes sont utilisés fréquemment.

L’inconvénient de cette technique non dirigée est qu’elle ne spécifiera pas la nature des catégories identifiées. Une expertise en la matière est nécessaire pour les nommer. Par ailleurs, le modèle ignore combien il y a de sujets différents. Vous devez spécifier ce nombre au préalable. Une approche essais-erreurs est donc nécessaire puisque vous devrez, en tant que personne, déterminer si les groupements effectués par l’ordinateur font du sens. Il faudra des groupes additionnels si les groupements sont trop génériques. Inversement, il faudra moins de groupes si les recoupements sont trop nombreux.

Le modèle d’allocation latente de Dirichlet faisant partie du paquet gensim, nous devons tout d’abord le charger. 

In [28]:
import gensim

Nous devons maintenant créer un dictionnaire à partir du texte que nous avons préparé et épuré précédemment. Ce dictionnaire contiendra tous les mots uniques identifiés dans le corpus.

In [29]:
common_dictionary = gensim.corpora.Dictionary(list(books['prepared']))

Nous pouvons vérifier combien de mots uniques comporte ce dictionnaire.

In [30]:
len(common_dictionary)

76292

Nous passerons ensuite à l’étape de filtrage des mots les plus répandus et des mots qui n’apparaissent que très rarement. La suppression des mots les plus répandus ressemble à l’étape de retrait des mots vides que nous avons complétée précédemment, exception faite qu’elle s’appliquera à l’ensemble du corpus. Nous découvrirons certains autres mots qui nous ont échappés précédemment.

Les mots qui apparaissent rarement doivent aussi être supprimés car si un mot ne survient que quelques fois dans l’ensemble du corpus, son emploi a peu de valeur pour définir un groupe de mots qui vont ensemble. L’allocation latente de Dirichlet cherchera à constituer des groupes en fonction de mots que l’on retrouve souvent juxtaposés.

In [31]:
common_dictionary.filter_extremes(no_below=20, no_above=0.5)

Nous devons maintenant faire une chose un peu étrange. Nous devons porter attention au premier élément (ou en fait n’importe lequel !) du dictionnaire des mots communs `common_dictionary` tout juste filtré. Python sera ainsi contraint de mettre le dictionnaire en mémoire. Si vous omettez cette étape, la fonction `id2token` ne fonctionnera pas le moment venu d’entrainer le modèle. Cette fonction permet de traduire les identifiants des mots contenus dans le dictionnaire en mots réels ce qui facilite l’interprétation. À titre d’exemple, un ordinateur aime gérer des identifiants numériques \[1,4,3\], où 1 pourrait signifier « how », 4 « are » et 3 « you ». Comme de telles données sont difficiles à gérer pour un humain, la fonction `id2token` traduira automatiquement \[1,4,3\] en \["how","are","you"\].

In [32]:
common_dictionary[0]

'accidentally'

Nous disposons maintenant d’un dictionnaire filtré que nous pouvons utiliser pour transformer notre corpus de résumés de livres sous un format que peut comprendre l’algorithme d’allocation latente de Dirichlet. Nous devons utiliser la fonction `doc2bow` pour transformer les résumés de livres (documents) en un sac de mots. Un sac de mots est simplement une liste de mots dans lequel est spécifié le nombre de fois qu’un mot est utilisé dans le document. Mais plutôt qu’utiliser le mot, c’est l’identifiant du mot apparaissant dans le dictionnaire qui sera utilisé, une approche beaucoup plus rapide et plus efficiente en termes de mémoire.

In [33]:
common_corpus = [common_dictionary.doc2bow(text) for text in books['prepared']]

Nous voulons à ce stade activer la journalisation. Cela nous permettra de voir ce que fait le modèle d’allocation latente de Dirichlet pendant son entrainement. Nous aurions autrement affaire à une boîte noire. Nous dirons à Python de tenir un journal dans « lda_model.log » et de tout conserver, des simples messages de mise au point en allant vers le haut.  « Vers le haut » signifie ici de stocker les messages de mise au point, les messages d’avertissement et les messages d’erreurs.

Nous pourrons ouvrir ce fichier ultérieurement pour voir tout ce que le modèle a accompli et déterminer s’il a fait ou non du bon boulot, et si certains paramètres doivent être ajustés.

In [34]:
import logging
logging.basicConfig(filename='lda_model.log', format='%(asctime)s : %(levelname)s : %(message)s', filemode='w', level=logging.DEBUG)

Tout est enfin prêt pour que nous passions à l’entrainement. Nous devons cependant régler les paramètres du modèle ! Il y a beaucoup de choses que vous pouvez indiquer au modèle d’allocation latente de Dirichlet quant au mode d’entrainement. Spécifier le nombre de sujets est sans aucun doute le plus important.

Nous devons indiquer avant tout au modèle d’allocation latente de Dirichlet le nombre de groupes qu’il devra créer. Dans ce cas-ci, disons 10 groupes, un nombre ni trop élevé ni trop bas, sans aucune justification. Le nombre de groupes est fonction de vos attentes. Dix genres semblent une estimation raisonnable compte tenu des livres dont nous disposons. En fait, cela dépend du nombre de livres dans le corpus. Nous ne voudrions pas 9 292 groupes au risque de se retrouver avec un seul livre par groupe. Nous ne voulons pas non plus 2 groupes car il y a certainement plus de 2 genres de livres. Il faut toujours faire preuve de jugement, selon les attentes.

Nous fixons aussi `eval_every` à `1` pour que quelque chose soit consignée dans le journal à chaque passage. Ici un passage veut dire que le modèle examinera la distance entre les mots dans chaque bloc, tentera de réduire la distance entre les mots qui se retrouvent souvent ensemble, et écartera les autres mots plus loin pour constituer des groupes. Habituellement, il serait plus efficace sur le plan informatique de procéder à une évaluation sur un nombre donné de passages, mais nous voulons dans ce cas-ci évaluer chaque passage pour mieux juger de la qualité du modèle.  

Le nombre de passages (`passes`) indique à l’algorithme combien de fois il devra répéter l’entrainement. Le modèle deviendra à chaque passage plus apte à trouver des connexions entre les mots et donc à former des groupes. En effet, le modèle d’allocation latente de Dirichlet tente de minimiser la « distance entre les mots » au sein de groupes tout en optimisant les mots dans d’autres groupes. Il permute lentement toutes ces informations en réduisant de plus en plus les laissés pour compte. Nous pourrons observer dans le journal son niveau de rendement. Nous nous limiterons pour l’instant à 20 passages et verrons le résultat.

Il y a aussi `chunksize`, c’est-à-dire la taille des blocs, qui indique à l’algorithme le nombre de livres à traiter simultanément. Un nombre élevé lui permettra d’identifier plus rapidement davantage de corrélations, au détriment d’une plus grande puissance de calcul.

Enfin, la fonction `random_state` assure que vous obteniez la même réponse après chaque entrainement fait avec les paramètres ci-dessus. Elle fixe la valeur de départ du générateur de nombres aléatoires qui produira toujours la même séquence de nombres « aléatoires » utilisée par le modèle. Tout devient alors reproductible. Nous avons choisi le nombre `42` et pourquoi pas ! Tout ce qui importe c’est que le nombre soit fixe.

In [35]:
lda = gensim.models.ldamodel.LdaModel(
    corpus=common_corpus,
    num_topics=10,
    id2word=common_dictionary.id2token,
    eval_every=1,
    passes=20,
    chunksize=3000,
    random_state=42
)

Notre modèle est donc en cours d’entrainement. Ouvrons le fichier « lda_model.log » et cherchons les lignes où l’on trouve l’énoncé suivant : 
```
DEBUG : 1453/3000 documents converged within 50 iterations
```
Ce nombre doit être le plus élevé possible. Idéalement, nous souhaitons la convergence de tous les documents, sachant que nous n’y arriverons jamais puisque les groupes seront imparfaits car les résumés de livres traiteront de nombreux sujets et utiliseront parfois un langage commun.

Une fois le modèle entrainé, il serait préférable de le sauvegarder dans un fichier.  Ainsi, nous n’aurons pas à faire un nouvel entrainement chaque fois que nous ouvrirons une nouvelle session Jupyter. Il nous suffira de charger le modèle déjà entrainé. Vous pourrez aussi l’ouvrir dans un autre carnet axé sur l’utilisation de ce modèle ou le partager avec d’autres chercheurs.

Nous avons utilisé un peu plus tôt dans ce carnet le module pickle pour stocker efficacement notre jeu de données préparées. Mais pour partager des modèles, il est préférable d’utiliser un format de données plus normalisé puisque le format pickle dépend de la version de Python et même de l’ordinateur que vous utilisez. Utiliser des formats de données standards compte parmi les meilleures pratiques de gestion des données et accroit l’interopérabilité et la reproductibilité dans le domaine de la recherche.  

In [36]:
# Saving the model
lda.save('bookmodel')

In [37]:
# Loading the model
lda = gensim.models.ldamodel.LdaModel.load('bookmodel')

### Analyse

Le temps est venu d’analyser les résultats. Nous pouvons analyser plusieurs choses.  Nous pouvons, pour les 10 thématiques que nous avons demandées au modèle d’allocation latente de Dirichlet de trouver, imprimer les mots utilisés et voir dans quelle mesure ils appartiennent à un genre de livre spécifique.

In [38]:
for t in lda.print_topics(num_words=10):
    print(t)

(0, '0.011*"murder" + 0.009*"kill" + 0.009*"go" + 0.008*"police" + 0.008*"tell" + 0.007*"get" + 0.006*"case" + 0.005*"call" + 0.005*"day" + 0.005*"death"')
(1, '0.009*"kill" + 0.008*"king" + 0.007*"return" + 0.005*"help" + 0.005*"use" + 0.005*"attack" + 0.005*"tell" + 0.005*"world" + 0.005*"back" + 0.005*"power"')
(2, '0.011*"go" + 0.008*"get" + 0.008*"tell" + 0.007*"make" + 0.006*"leave" + 0.006*"see" + 0.006*"come" + 0.006*"island" + 0.005*"back" + 0.005*"say"')
(3, '0.017*"novel" + 0.016*"book" + 0.012*"story" + 0.008*"character" + 0.007*"life" + 0.006*"world" + 0.005*"also" + 0.005*"first" + 0.005*"chapter" + 0.005*"include"')
(4, '0.019*"john" + 0.012*"four" + 0.012*"go" + 0.011*"thomas" + 0.011*"henry" + 0.011*"sam" + 0.008*"luke" + 0.008*"tell" + 0.007*"sarah" + 0.007*"time"')
(5, '0.012*"ship" + 0.011*"human" + 0.010*"earth" + 0.009*"planet" + 0.007*"time" + 0.006*"new" + 0.006*"world" + 0.005*"use" + 0.005*"year" + 0.005*"destroy"')
(6, '0.011*"family" + 0.010*"father" + 0.010

Le premier semble très axé sur le crime avec des mots comme murder, kill, police et case, mais comme vous pouvez le constater, certains mots semblent hors contexte.  Par exemple, la thématique numéro 5 tend vers la science-fiction avec des mots comme human, earth, planet et world.

Mais dans d’autres cas, il n’est pas toujours évident de déterminer en quoi ce sont des genres différents. Par exemple, on retrouve essentiellement des noms à la thématique 4. N’oubliez pas que c’est nous qui cherchons différents genres mais ce n’est peut-être pas ce que l’algorithme d’allocation latente de Dirichlet a trouvé. Il cherchait simplement une manière quelconque de regrouper ces résumés de livres en 10 thématiques.

Il faut aussi examiner les principaux mots par thématique. Cela ressemble à la fonction `print_topics` mais nous recherchons ici la cohérence. La cohérence dans gensim est un paramètre qui note la « distance » entre les mots pour une thématique donnée. Plus le taux de cohérence est élevé, mieux c’est.

In [39]:
lda.top_topics(common_corpus)

[([(0.0110494755, 'family'),
   (0.010247785, 'father'),
   (0.009740395, 'mother'),
   (0.008020293, 'love'),
   (0.007960088, 'life'),
   (0.007780727, 'become'),
   (0.007565873, 'child'),
   (0.007225185, 'leave'),
   (0.006368225, 'friend'),
   (0.0059221974, 'year'),
   (0.005589299, 'go'),
   (0.0055839773, 'young'),
   (0.005487799, 'return'),
   (0.0051857894, 'live'),
   (0.0051689884, 'home'),
   (0.0051486026, 'new'),
   (0.004815906, 'meet'),
   (0.004654479, 'daughter'),
   (0.0044921557, 'marry'),
   (0.004474495, 'make')],
  -0.852357147559029),
 ([(0.009047911, 'kill'),
   (0.0076246485, 'king'),
   (0.006640664, 'return'),
   (0.0054942826, 'help'),
   (0.0052796644, 'use'),
   (0.005254651, 'attack'),
   (0.0051531107, 'tell'),
   (0.0051329145, 'world'),
   (0.004670613, 'back'),
   (0.004652856, 'power'),
   (0.0043452256, 'make'),
   (0.004283357, 'leave'),
   (0.004097437, 'go'),
   (0.0039577885, 'magic'),
   (0.0037244798, 'become'),
   (0.0037072925, 'give'),


Voyons à quels groupes le modèle d’allocation latente de Dirichlet juge que notre premier livre d’index 0, « A Clockwork Orange », appartient.

In [40]:
print(books.iloc[0].title)
lda[common_corpus[0]]

A Clockwork Orange


[(0, 0.44291747), (3, 0.26078534), (6, 0.21150394), (8, 0.07269716)]

Les chiffres indiquent le numéro de groupe et la probabilité que ce livre appartiennent à ce groupe. Le modèle d’allocation latente de Dirichlet estime avec 44,3 % de confiance, que « A Clockwork Orange » appartient au groupe. Ce n’est pas un niveau de confiance très élevé.

Nous pouvons aussi tourner notre attention vers les livres qui appartiennent très certainement à un groupe donné. Nous utiliserons pour cela la magie de Python. Nous créerons d’abord une fonction qui transforme le résultat de sortie ci-dessus en un élément plus facile à gérer, en ajoutant des zéros à tous les groupes exclus du résultat. Nous avons pour « A Clockwork Orange » les groupes 0, 3, 6 et 8. Nous créerons donc de nouvelles entrées pour les groupes manquants 1, 2, 4, 5, 7 et 9 en fixant ceux-ci à zéro.

In [41]:
def densify(sparse, num_topics=10):
    full = [0]*num_topics
    for s in sparse:
        full[s[0]] = s[1]
    return full

Nous utiliserons maintenant cette fonction pour convertir l’ensemble des résultats obtenus par le modèle d’allocation latente de Dirichlet pour chacun des livres en une matrice de 9292 (nombre de livres) par 10 (nombre de groupes), avant de charger le tout dans une trame de données de Pandas.

In [42]:
topicmatrix=pd.DataFrame([densify(lda[c]) for c in common_corpus])

Nous pouvons ensuite intégrer le tout à la trame de données originales `books`. Nous devons pour cela réinitialiser l’index de la trame de données `books` car nous avions écarté préalablement de nombreux livres associés à des données manquantes. Réinitialiser l’index assurera que celui-ci fonctionne de 0 à 9291, ce qui équivaut à notre trame de données `topicmatrix`.

In [43]:
joined = books.reset_index().join(topicmatrix)

Nous pouvons maintenant utiliser Pandas pour identifier les livres qui appartiennent au groupe 2, avec un niveau de confiance supérieur à 95 %.

In [44]:
joined[joined[2] > 0.95]["title"]

3695                           Punk Farm
5340     The Moomins and the Great Flood
5699    The Story of A Fierce Bad Rabbit
5943            Five Go Off In A Caravan
6013         Curious George Flies a Kite
6437                          Fox's Feud
8034                   The Missing Piece
8095                      Curious George
8359                 Battle for the Park
8737                              Bedlam
9003                     The Sly Old Cat
9035         Curious George Gets a Medal
9141                       The Gathering
9150                         Troll Blood
9210                      Little Red Cap
9211                When the Moon Forgot
Name: title, dtype: object

Encore une fois, il nous revient de réfléchir à ce que ces livres peuvent avoir en commun. Si l’on se fie aux titres, la plupart des livres seraient des livres de jeunesse !

Qu’obtient-on pour le groupe 1 ?

In [45]:
joined[joined[1] > 0.95]["title"]

855                             The Dragon Reborn
1123                     The Wishsong of Shannara
1546                         To Green Angel Tower
2029                          The Source of Magic
3496                                 Resurrection
3751                          Dawn of the Dragons
3777                                   Stronghold
3804                       The Kingdoms of Terror
3805                                 Castle Death
3808                       The Dungeons of Torgar
3896                        The Hunger of Sejanoz
3909                                    Vampirium
3910                   The Fall of Blood Mountain
3963                         The Hour of the Gate
4597                           Chosen of the Gods
4860                         The Bone Doll's Twin
4879                                Deryni Rising
4966                               Rise of a Hero
4979                                   Shadowplay
5063                      Dark Wraith of Shannara


Ou de fantaisie peut-être ?

Ce n’est pas toujours évident. Quelle serait par exemple la thématique du groupe 9 ? 

In [46]:
joined[joined[9] > 0.95]["title"]

8782    Ishmael and the Return of the Dugongs
9017                               Bloodlines
9103                       Soccer Comes First
9105                                     Goal
9202                        Succubus Revealed
9237                The Luck of Ginger Coffey
9268                  Big Nate: Strikes Again
Name: title, dtype: object

Il n’y a pas beaucoup de livres cette fois-ci. Donc même le modèle d’allocation latente de Dirichlet n’est pas trop sûr des groupes auxquels appartiennent ces livres. Lorsque cela se produit, il vous faudra peut-être peaufiner les paramètres du modèle d’allocation latente de Dirichlet pour obtenir de meilleurs résultats. Nous pouvons par exemple diminuer le nombre de groupes. L’algorithme d’apprentissage non dirigé regroupe lui-même les éléments. Il est donc très utile pour déceler des tendances mais c’est à l’humain qu’il revient en bout de ligne d’interpréter les résultats.

## Conclusion
C’est là le problème de l’apprentissage non dirigé. L’algorithme identifiera des éléments qui vont ensemble mais sans préciser pourquoi. Il peut seulement vous indiquer les mots qu’il a utilisés pour regrouper les livres mais pour le modèle, ces mots ne sont que des indexes dans un dictionnaire. Il ne voit que des chiffres et les mots n’ont aucune signification.

Nous avons noté que nous pouvions, avec le jeu de données sur les livres, amener le modèle à faire des choix plutôt bons quant aux livres qui allaient ensemble. Nous avons aussi pu interpréter le nature de certains groupes, c.-à-d. le genre, en fonction de facteurs communs. Nous avons aussi appris à préparer les données destinées à alimenter les modèles de traitement automatique du langage naturel.

À ce stade, vous devriez commencer à ajuster les paramètres. À titre d’exemple, peut-être avons-nous opté pour trop (ou trop peu) de thématiques. Parmi les autres paramètres, il est possible de modifier le nombre de passages lors de l’entrainement ou la taille des blocs. Le [Manuel du modèle d’allocation latente de Dirichlet (en anglais)](https://radimrehurek.com/gensim/models/ldamodel.html) recense d’autres paramètres que vous pouvez modifier mais que nous n’avons pas ajustés. Il s’agit d’atteindre un équilibre entre vos ressources informatiques et le niveau de précision. Vous devrez surveiller étroitement le fichier de consignation (journal) généré par le modèle d’allocation latente de Dirichlet pour vous assurer que le réglage de vos paramètres a l’effet voulu. 

Il existe de nombreux autres modèles de traitement du langage naturel que vous pourriez utiliser mais cela dépasse le cadre du présent tutoriel. À titre d’exemple, l'algorithme de [regroupement DBSCAN](https://en.wikipedia.org/wiki/DBSCAN) mériterait qu’on s’y attarde. Vous pourriez aussi utiliser la [génération augmentée de récupération](https://fr.wikipedia.org/wiki/G%C3%A9n%C3%A9ration_augment%C3%A9e_de_r%C3%A9cup%C3%A9ration) avec un modèle de langage de grande taille, pour une approche plus interactive. Si ces deux méthodes sortent du cadre de cette série sur l’apprentissage-machine, nous vous invitons fortement à y jeter un coup d’œil !

Références :
- https://towardsdatascience.com/topic-modelling-in-python-with-nltk-and-gensim-4ef03213cd21
- https://radimrehurek.com/gensim/auto_examples/tutorials/run_lda.html