# <center>Commencer √† utiliser CLTK</center>

<center>Avril 2022</center>

## Abord√© dans ce chapitre

Dans ce chapitre, vous allez apprendre √† : 
- r√©cup√©rer un texte,
- comprendre les notions de *pipeline* de traitement, de document CLTK ou `Doc`, 
- utiliser un *pipeline* de traitement sur un texte,
- manipuler un texte au niveau du mot et aussi au niveau de la phrase.

## Introduction

## R√©cup√©rer un texte

Bien que CLTK permette de r√©cup√©rer des corpus de textes pour chaque langue, nous allons commencer par traiter des donn√©es stock√©es en local. Nous pouvons retrouver ce qu'on va faire dans <a href="https://github.com/cltk/cltk/blob/master/notebooks/CLTK%20Demonstration.ipynb">le *notebook* sur le d√©p√¥t de CLTK</a>. Dans le d√©p√¥t actuel, nous mettons √† disposition une collection de textes.
Regardons un extrait de Tite-Live.

Tout d'abord, nous avons besoin de r√©cup√©rer le texte en le stockant dans une variable.

In [1]:
with open("texts/lat-livy.txt") as f:
    livy_full = f.read()

Excellent ! Maintenant, regardons ce que nous avons en main.

In [2]:
print("Extrait du texte :", livy_full[:200])
print("Nombre de caract√®res :", len(livy_full))
print("Nombre approximatif de token :", len(livy_full.split()))

Extrait du texte : Iam primum omnium satis constat Troia capta in ceteros saevitum esse Troianos, duobus, Aeneae Antenorique, et vetusti iure hospitii et quia pacis reddendaeque Helenae semper auctores fuerant, omne ius
Nombre de caract√®res : 921462
Nombre approximatif de token : 129799


Nous utilisons l'expression "nombre approximatif de tokens" parce que les tokens sont consid√©r√©s comme quelque chose qui a une fonction syntaxique dans le texte. Cela signifie qu'un token n'est pas seulement un mot, mais aussi un signe de ponctuation par exemple. Nous utilisons le terme "approximatif" parce que la fonction `split()` transforme une cha√Æne de caract√®res en liste en consid√©rant par d√©faut le caract√®re espace. En d'autres termes, le nombre exact de tokens est plus √©lev√© puisque les signes de ponctuation peuvent √™tre coll√©s aux mots.


## Utiliser le *pipeline* de traitement de CLTK

CLTK est sp√©cialement con√ßu pour le traitement de langues naturelles appliqu√© aux langues antiques et m√©di√©vales. Pour utiliser au mieux cette biblioth√®que, nous avons d'abord besoin d'importer le *pipeline* mentionn√©.

In [3]:
from cltk import NLP

Si le code ci-dessus a fonctionn√© sans g√©n√©rer d'erreur, alors cela signifie que nous avons correctement import√© la classe NLP depuis CLTK. Cela nous permet de cr√©er un *pipeline* de traitement de CLTK. Pour ce faire, nous avons cependant besoin de conna√Ætre la langue dans laquelle le texte a √©t√© √©crit. Tite-Live √©tait un auteur romain, la langue est donc le latin et son code est "lat".

In [4]:
# Charger le pipline par d√©faut du latin
cltk_nlp = NLP(language="lat")

‚Äéê§Ä CLTK version '1.1.1'.
Pipeline for language 'Latin' (ISO: 'lat'): `LatinNormalizeProcess`, `LatinStanzaProcess`, `LatinEmbeddingsProcess`, `StopsProcess`, `LatinLexiconProcess`.


`NLP(language="lat")` est une variable qui contient le *pipeline* de traitement par d√©faut propos√© par CLTK pour le latin. Il est possible de d√©finir son propre *pipeline* de traitement. Il est courant d'utiliser une variable qui contient le nom `nlp` pour se rappeler facilement qu'on manipule un *pipeline* de traitement.

La sortie de cette cellule fournit des informations cl√©s sur notre *pipeline*. √áa inclut les diff√©rents *pipelines* de traitement,
ou processus appliqu√©s aux donn√©es d'entr√©e (le texte) :
- `LatinNormalizeProcess`
- `LatinStanzaProcess`
- `LatinEmbeddingsProcess`
- `StopsProcess`
- `LatinNERProcess`
- `LatinLexiconProcess`

Nous allons √©tudier chacun de processus ou *process* en profondeur dans ce *notebook*. Pour le moment, il suffit de comprendre qu'un *pipeline* de traitement est une suite ordonn√©e de processus. L'entr√©e du *pipeline* s'applique √† du texte et la sortie est un document `Doc` propre √† CLTK. Un processus se situant apr√®s un autre processus peut en d√©pendre, l'ordre est donc important.
Nous allons aborder l'ensemble des processus plus tard dans ce *notebook*. Pour l'instant, il faut comprendre que le texte qui est pass√© par une instance de la classe NLP passe √† travers un certain nombre de processus dans le *pipeline*. L'ordre est important √† respecter puisque des processus d√©pendent du r√©sultat des processus pr√©c√©dents.

Si on veut enlever un processus du *pipeline* de traitements, on peut modifier directement l'attribut `cltk_nlp.pipeline.processes` en appliquant la m√©thode `pop()`. Si aucun argument n'est donn√©, alors le dernier √©l√©ment est retir√©. S'il y a un argument, alors c'est l'indice de l'√©l√©ment dans la liste √† retirer.


In [5]:
cltk_nlp.pipeline.processes.pop()
print(cltk_nlp.pipeline.processes)

[<class 'cltk.alphabet.processes.LatinNormalizeProcess'>, <class 'cltk.dependency.processes.LatinStanzaProcess'>, <class 'cltk.embeddings.processes.LatinEmbeddingsProcess'>, <class 'cltk.stops.processes.StopsProcess'>]


Une raison de retirer un processus peut √™tre de vouloir √©viter des traitements trop long. Le processus `LatinLexiconProcess` prend beaucoup de temps et ne correspond pas forc√©ment √† tous les besoins, comme le n√¥tre qui est de faire un *pipeline* de traitements pour trouver les entit√©s nomm√©es dans des textes.


## The CLTK Doc Object

Maintenant que nous avons mis en place notre *pipeline*, analysons un texte. Pour ce faire, nous allons cr√©er un objet CLTK Doc. Si vous √™tes d√©j√† famili√© avec spaCy ou d'autres biblioth√®ques de TAL, √ßa doit vous dire quelque chose. L'objet Doc contient les donn√©es du texte. Avant que nous examinions l'objet `Doc`, instancions en donc un. Tout d'abord, raccourcissons le texte de Tite-Live.


In [6]:
livy = livy_full[:len(livy_full) // 12]
print("Nombre approximatif de tokens :", len(livy.split()))

Nombre approximatif de tokens : 10905


Une fois le texte raccourci, cr√©ons un objet `Doc` en appelant la m√©thode `analyze()` de `cltk_doc` avec comme premier argument le texte √† analyser. Si c'est la premi√®re fois que vous ex√©cutez ce code, le code va vous demander d'entrer "Y" pour t√©l√©charger les mod√®les.

In [7]:
cltk_doc = cltk_nlp.analyze(text=livy)

Une fois les mod√®les t√©l√©charg√©s, notre *pipeline* de traitements ex√©cute les processus √† partir du texte. Commen√ßons par examiner l'objet `Doc` g√©n√©r√©.

In [8]:
print(type(cltk_doc))

<class 'cltk.core.data_types.Doc'>


C'est une classe d√©finie par le code de CLTK. √áa ne fait pas partie du code de base de Python.

## Les accesseurs de l'objet Doc

L'objet `Doc` a des variables que l'on appelle attributs ou propri√©t√©s, selon qu'elles sont directement enregistr√©es comme telles (attributs) ou calcul√©ss √† partir d'attributs (propri√©t√©s). On regroupe les attributs et les propri√©t√©s sous le terme d'accesseurs (ou *accessors* en anglais). Dans notre cas, ces accesseurs, seront ou biende type de base de Python ou bien seront compos√©s d'objets propres √† CLTK comme `Word` par exemple. Ces accesseurs nous aideront √† parser de diff√©rentes mani√®res, √† notre guise, les variables de type `Doc`.

Regardons d'abord les accesseurs directement disponibles √† partir d'une variable `Doc`.

In [9]:
accessors = ([x for x in dir(cltk_doc) if not x.startswith("__")])
for a in accessors:
    print (a)

_get_words_attribute
embeddings
embeddings_model
language
lemmata
morphosyntactic_features
normalized_text
pipeline
pos
raw
sentence_embeddings
sentences
sentences_strings
sentences_tokens
stanza_doc
stems
tokens
tokens_stops_filtered
words


Examinons plusieurs de ces accesseurs en d√©tail. Chaque accesseur a un titre de telle mani√®re qu'il vous est possible de naviguer facilement entre les paragraphes.

### Raw

L'attribut `raw` (cru, brut en anglais) est le texte brut que l'on a donn√© en entr√© du *pipeline*.

In [10]:
print (cltk_doc.raw[:20])

Iam primum omnium sa


### Tokens

L'attribut *tokens* est une liste ordonn√©e qui contient les tokens du texte.

In [11]:
print(cltk_doc.tokens[:20])

['Iam', 'primum', 'omnium', 'satis', 'constat', 'Troia', 'capta', 'in', 'ceteros', 'saevitum', 'esse', 'Troianos', ',', 'duobus', ',', 'Aeneae', 'Antenorique', ',', 'et', 'vetusti']


Vous pouvez voir que les tokens sont isol√©s les uns par rapport aux autres dans une liste. Les mots et la ponctuation ont chacun leur place. Une √©tude du texte au niveau des mots est d√®s lors possible.

### Lemmata

Comme la propri√©t√© `tokens`, la propri√©t√© `lemmata` est aussi une liste d√©riv√©e du texte brut √† la diff√©rence pr√®s que les √©l√©ments sont les lemmes associ√©s aux tokens. Un lemme est la forme du dictionnaire associ√© √† un token. Ici, on a le token "capta" qui est associ√© au lemme "capio" parce qu'en latin, la forme du dictionnaire d'un participe pass√© est la premi√®re personne du singulier du pr√©sent de l'indicatif du verbe en question.

In [12]:
print(cltk_doc.lemmata[:20])

['Iam', 'primus', 'omnis', 'satis', 'consto', 'Troia', 'capio', 'in', 'ceterus', 'saevitum', 'sum', 'Troianos', ',', 'duo', ',', 'Aeneae', 'Antenorique', ',', 'et', 'vetusti']


### POS

La propri√©t√© `pos` fonctionne de la m√™me mani√®re, mais contient la nature du mot en lieu et place du token dans `tokens`. `pos` est l'acronyme de *part-of-speech* ou *pars oratori* en latin qui correspond au fran√ßais "nature du mot" ou "nature grammaticale". Cet attribut est tr√®s courant dans les biblioth√®ques de TAL.

In [13]:
print(cltk_doc.pos[:20])

['ADV', 'ADJ', 'PRON', 'ADV', 'VERB', 'NOUN', 'VERB', 'ADP', 'PRON', 'VERB', 'AUX', 'NOUN', 'PUNCT', 'NUM', 'PUNCT', 'NOUN', 'VERB', 'PUNCT', 'CCONJ', 'NOUN']


### Words

La propri√©t√© `words` est aussi une liste comme `tokens` ou `lemmata` mais elle ne contient pas de *strings* mais contient des objets de type `Word`. Regardons le septi√®me √©lements de `words`.

In [14]:
print (cltk_doc.words[6])

Word(index_char_start=None, index_char_stop=None, index_token=6, index_sentence=0, string='capta', pos=verb, lemma='capio', stem=None, scansion=None, xpos='L2|modM|tem4|grp1|casA|gen2', upos='VERB', dependency_relation='acl', governor=5, features={Aspect: [perfective], Case: [nominative], Degree: [positive], Gender: [feminine], Number: [singular], Tense: [past], VerbForm: [participle], Voice: [passive]}, category={F: [neg], N: [neg], V: [pos]}, stop=False, named_entity=None, syllables=None, phonetic_transcription=None, definition=None)


C'est un objet qui a lui-m√™me plusieurs accesseurs ! Nous pouvons voir toutes les donn√©es pertinentes √† l'√©chelle d'un mot. On peut voir quelle est la nature du mot s√©lectionn√©.

In [15]:
print (cltk_doc.words[6].pos)

verb


Maintenant que nous savons que c'est un verbe, on peut vouloir conna√Ætre sa voix (voix active ou voix passive). On regarde pour √ßa l'attribut `features` qui est un dictionnaire.

In [16]:
print (cltk_doc.words[6].features)

{Aspect: [perfective], Case: [nominative], Degree: [positive], Gender: [feminine], Number: [singular], Tense: [past], VerbForm: [participle], Voice: [passive]}


Le dictionnaire a une clef "Voice" qui est associ√©e √† la valeur "passive". Ce verbe est √† la voix passive !

In [17]:
print (cltk_doc.words[6].features["Voice"])

[passive]


On peut voir les autres √©lements facilement.

In [18]:
print("Number:", cltk_doc.words[6].features["Number"])
print("Tense:", cltk_doc.words[6].features["Tense"])
print("VerbForm:", cltk_doc.words[6].features["VerbForm"]) 
print("Voice:", cltk_doc.words[6].features["Voice"])

Number: [singular]
Tense: [past]
VerbForm: [participle]
Voice: [passive]


Je vous encourage √† prendre le temps de d√©couvrir les possibilit√©s offertes par les classes `Doc` et `Word` et leurs accesseurs. Gr√¢ce √† elles, vous pouvez ais√©ment profiter de toute la puissance de CLTK. En prime, il est possible d'ajouter autant d'accesseurs que n√©cessaires.

### Sentence Tokens

Contrairement aux attributs pr√©c√©dents, `sentence_tokens` nous permet d'analyser le texte au niveau de la phrase. Ainsi, le parsage phrase par phrase devient possible. L'approche la plus simple pour s√©parer les phrases est d'utiliser `split(".")`. Cependant, cette m√©thode est tr√®s impr√©cise parce que les points peuvent noter des abbr√©viations en plein milieu d'une phrase par exemple. Gr√¢ce aux fonctions *ad hoc* √©crites par CLTK, on peut s√©parer ais√©ment les phrases d'un texte en latin.

In [19]:
print(cltk_doc.sentences_tokens[:2])

[['Iam', 'primum', 'omnium', 'satis', 'constat', 'Troia', 'capta', 'in', 'ceteros', 'saevitum', 'esse', 'Troianos', ',', 'duobus', ',', 'Aeneae', 'Antenorique', ',', 'et', 'vetusti', 'iure', 'hospitii', 'et', 'quia', 'pacis', 'reddendaeque', 'Helenae', 'semper', 'auctores', 'fuerant', ',', 'omne', 'ius', 'belli', 'Achiuos', 'abstinuisse', ';'], ['casibus', 'deinde', 'variis', 'Antenorem', 'cum', 'multitudine', 'Enetum', ',', 'qui', 'seditione', 'ex', 'Paphlagonia', 'pulsi', 'et', 'sedes', 'et', 'ducem', 'rege', 'Pylaemene', 'ad', 'Troiam', 'amisso', 'quaerebant', ',', 'venisse', 'in', 'intimum', 'maris', 'Hadriatici', 'sinum', ',', 'Euganeisque', 'qui', 'inter', 'mare', 'Alpesque', 'incolebant', 'pulsis', 'Enetos', 'Troianosque', 'eas', 'tenuisse', 'terras', '.']]


## Conclusion

Ce chapitre a pr√©sent√© les principales caract√©ristiques de la class NLP et nous avons vu comment construire le *pipeline* de traitement et comment y passer un texte √† travers lui. Dans le prochain chapitre, nous allons examiner plus particuli√®rement la reconnaissance d'entit√©s nomm√©es.