<a href="https://colab.research.google.com/github/OdysseusPolymetis/digital_classics_course/blob/main/2_nlp_greek_latin.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**ANALYSE TEXTUELLE : tokénisation, lemmatisation, syntaxe et entités nommées**

In [None]:
!pip install stanza

##Qu'est-ce que c'est que l'analyse textuelle (automatique), rapidement
En fait ça peut toucher beaucoup de domaines. Ici, on va en voir plusieurs, entre autres la **tokenisation**, la **lemmatisation**, le **postagging**. J'appellerai ça les étapes de "pre-processing", de travail préliminaire.
<br>En effet, on a très souvent besoin, pour faire des choses plus poussées, de ces étapes pour éviter de créer des biais dans les analyses qui vont suivre.

##Comment on pré-traite ?
Il y a plusieurs écoles, et donc aussi plusieurs modules pour le faire.
<br>D'expérience personnelle, il y a les modules rapides et qui donnent des résultats plus mitigés, et des modules plus longs qui sont généralement meilleurs (mais pas forcément).
<br>Ici, je vais vous montrer plusieurs outils avec des qualités et des défauts, pour le français (mais ils ont aussi des modèles en d'autres langues).

##**Quelques outils en ligne utiles**

###**UDPipe**
<br>Vous le trouverez [ici](https://lindat.mff.cuni.cz/services/udpipe/).
<br>C'est un bon outil pour un texte court. Dès que vous allez faire un texte intégral ou un peu long, ça rame très vite.
<br>Mais vous avez des fonctionnalités sympathiques, type les arbres syntaxiques en images vectorielles.**texte en gras**

###**Deucalion**
<br>Vous le trouverez [ici](https://dh.chartes.psl.eu/deucalion/api/fr/).
<br>Bien plus gérable pour les textes longs. Une sortie pas sexy, mais ce n'est pas ce qu'on lui demande. Il est surtout très efficace pour des langues plus rares, type l'ancien français ou le grec et le latin.

###**VoyantTools**
<br>Vous le trouverez [ici](https://voyant-tools.org/).
<br>C'est un outil de visualisation. C'est pratique et un peu shiny, mais on peut faire des choses très développées dessus.

#**LE TAL : TOKENISATION, LEMMATISATION, POSTAGGING**

Nous allons tester un outil principal, qui permet de faire ces trois actions, **`stanza`**. Il en existe beaucoup d'autres (notamment spacy et pie-extended), mais stanza est le plus performant en termes de rapport qualité/temps.

In [None]:
catilinaires="Quousque tandem abutere, Catilina, patientia nostra ? Quamdiu etiam furor iste tuus nos eludet ? Quem ad finem sese effrenata jactabit audacia ? Nihilne te nocturnum praesidium Palatii, nihil urbis vigiliae, nihil timor populi, nihil concursus bonorum omnium, nihil hic munitissimus habendi senatus locus, nihil horum ora vultusque moverunt ? Patere tua consilia non sentis ? Constrictam jam horum omnium scientia teneri conjurationem tuam non vides ? Quid proxima, quid superiore nocte egeris, ubi fueris, quos convocaveris, quid consilii ceperis, quem nostrum ignorare arbitraris ? O tempora ! O mores ! Senatus haec intellegit, consul videt. Hic tamen vivit."

##**stanza (précédemment Stanford CoreNLP)**

Personnellement, c'est l'analyseur que j'utilise quand je n'ai pas besoin de faire de représentations graphiques de mes résultats. Il est rapide et efficace.

Je mentionne `stanza` en particulier pour trois raisons :
<br>- d'abord parce qu'il dispose d'un très grand nombre de modèles de langue, et pas forcément des langues très répandues,
<br>- ensuite parce qu'il est très rapide, et niveau performance tout à fait satisfaisant pour les gros corpus,
<br>- enfin parce que je le trouve facile à manipuler et à implémenter.

Mais il faut garder en tête qu'il en existe bien d'autres qui fonctionnent vraiment très bien, avec un nombre de modèles qui se multiplie. Je pense au tagger de BERT,  ou de `flair` entre autres. Mais ça nécessite d'être un peu plus aguerri.

Là encore, il existe plusieurs modèles rien que pour le français (je vous mets ici la [liste des modèles](https://stanfordnlp.github.io/stanza/available_models.html) dans d'autres langues), mais le modèle par défaut peut être appelé avec `la` pour le latin et `grc` pour le grec ancien.

In [None]:
import stanza
stanza.download('la', package="perseus")
import os

On commence par lui spécifier une Pipeline, c'est-à-dire qu'on lui signifie quels processeurs il va devoir mobiliser pour les opérations suivantes et en quelle langue. L'avantage de cette opération est qu'on ne mobilise pas l'artillerie lourde quand on veut faire des opérations simples).

In [None]:
nlp_stanza = stanza.Pipeline(lang='la', package="perseus", processors='tokenize,pos,lemma, depparse')

Maintenant, nous pouvons lancer le TAL sur l'ensemble du texte (il est beaucoup plus rapide que `spacy` à cet égard).

In [None]:
catilinaires_analyzed=nlp_stanza(catilinaires)

Voyons maintenant ses résultats.

In [None]:
for sent in catilinaires_analyzed.sentences:
  print("XXXXX "+sent.text+" XXXXX")

In [None]:
for sent in catilinaires_analyzed.sentences:
  for token in sent.words:
    print(token.text + ' - ' + token.lemma + ' - ' + token.pos)

# Avec votre texte maintenant

Normalement, vous avez sur vous une sortie d'HTR presque propre.
<br>Vous aurez besoin d'un texte enregistré en ".txt". Je ne garantis pas la qualité des résultats.
<br>Une fois que vous avez votre texte, vous devez appuyer sur l'icône "dossier" sur la gauche de l'écran, et faire glisser le fichier dans la colonne blanche jusqu'à voir un "+". Votre texte va s'importer dans l'environnement Colab.
<br>Nous allons maintenant lancer une analyse automatique avec `stanza`, qui sera en latin par défaut ici.
<br>Nous ne pourrons pas le faire exactement de la même manière que précédemment car le texte est plus long, et il faudra ménager un peu la mémoire de colab.
<br>Si vous travaillez sur du grec, changez simplement les endroits où vous voyez `"la"` en `"grc"`.

J'utilise généralement `stanza` pour trois raisons :
<br>- il y a un très grand nombre de langues traitées (Vous pouvez les consulter [ici](https://stanfordnlp.github.io/stanza/performance.html)),
<br>- c'est très rapide et ça fait un excellent usage de la GPU,
<br>- c'est facile à implémenter.

In [None]:
def batch_process(text, nlp, batch_size=50):
    paragraphs = text.split('\n')
    batches = [paragraphs[i:i + batch_size] for i in range(0, len(paragraphs), batch_size)]

    words = []

    for batch in batches:
        batch_text = '\n'.join(batch)
        doc = nlp(batch_text)
        for sentence in doc.sentences:
            for word in sentence.words:
                token={}
                if word.lemma is not None:
                    token["word"]=word.text
                    token["lemma"]=word.lemma
                    token["pos"]=word.pos
                    words.append(token)

    return words

In [None]:
import stanza
import string

Ici je vous propose un texte par défaut, l'_Odyssée_ intégrale, mais vous pouvez tout aussi bien:


*   soit ouvrir le fichier `odyssee_integrale.txt` que vous verrez si vous appuyez sur l'icône dossier sur la gauche (vous double-cliquez, vous collez votre texte et vous faites un ctrl+S pour sauvegarder),
*   soit faire un "drag and drop" de votre fichier en txt lorsque vous aurez appuyé sur l'icône dossier sur la gauche (veillez à bien droper sur le blanc, et pas sur le dossier). Vous devrez ensuite, dans la cellule `filepath_of_text = "/content/odyssee_integrale.txt"` changer le nom en mettant bien le nom de votre fichier, et en conservant "/content/".



In [None]:
!wget https://raw.githubusercontent.com/OdysseusPolymetis/digital_classics_course/refs/heads/main/odyssee_integrale.txt

In [None]:
filepath_of_text = "/content/odyssee_integrale.txt"

In [None]:
full_text = open(filepath_of_text, encoding="utf-8").read()

Beaucoup de modèles ont beaucoup de processus embarqués, et sont trop lourds. Je vous recommande d'être plus sélectifs lors de l'instanciation des processus. Vous pouvez le faire de cette manière :

In [None]:
nlp_stanza = stanza.Pipeline(lang='grc', processors='tokenize,lemma')

Cette cellule, selon le texte que vous avez mis, peut être longue. C'est la cellule de lemmatisation.

In [None]:
analyzed_text = batch_process(full_text, nlp_stanza)

là c'est un aperçu de ce qu'il a obtenu en lemmatisant.

In [None]:
print(analyzed_text[5:15])

Pour une de nos expériences à venir, nous allons avoir besoin d'une liste de mots outils, que vous pourrez modifier à votre guise (il s'agit, pour le latin, du fichier stopwords_lat.txt, et pour le grec, du fichier stopwords_gk.txt).
<br>Si vous souhaitez utiliser le fichier pour le latin, faites ce code :
```python
!wget https://raw.githubusercontent.com/OdysseusPolymetis/digital_classics_course/refs/heads/main/stopwords_lat.txt
```
et pour le grec :
```python
!wget https://raw.githubusercontent.com/OdysseusPolymetis/digital_classics_course/refs/heads/main/stopwords_gk.txt
```


In [None]:
!wget https://raw.githubusercontent.com/OdysseusPolymetis/digital_classics_course/refs/heads/main/stopwords_gk.txt

In [None]:
stopwords = open("/content/stopwords_gk.txt",'r',encoding="utf8").read().split("\n")

Cette cellule là l'aide à ne pas trop tenir compte des accentuations (en grec ça peut être un vrai problème, parce qu'un accent qui apparaîtra de la même manière, peut être encodé de plusieurs manières différentes).

In [None]:
import unicodedata

def strip_diacritics(s: str) -> str:
    decomposed = unicodedata.normalize("NFD", s)
    without_marks = ''.join(ch for ch in decomposed
                            if unicodedata.category(ch) != "Mn")
    return without_marks.casefold()

In [None]:
normalized_stopwords = {strip_diacritics(w) for w in stopwords}

Ici nous faisons trois listes, une qui va contenir le texte, une les lemmes, et une les lemmes sans la ponctuation et sans les mots outils.

In [None]:
forms = []
lemmas = []
no_stop = []

for token in analyzed_text:
    form = token["word"]
    lemma = token["lemma"]

    if lemma not in string.punctuation:
        forms.append(form)
        lemmas.append(lemma)

    lemma_norm = strip_diacritics(lemma)

    if (
        lemma not in string.punctuation and
        lemma_norm not in normalized_stopwords
    ):

        no_stop.append(lemma)

là on va vérifier la longueur des listes.

In [None]:
len(lemmas)

In [None]:
len(no_stop)

Si vous faites du grec, par défaut, certaines polices ne marchent pas bien. La cellule qui suit télécharge une police sur github, qui marche généralement un peu avec toutes les langues.

In [None]:
!wget https://github.com/helvetica-font/helvetica-font.github.io/raw/refs/heads/master/fonts/Helvetica.ttf

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import numpy as np

DEFAULT_FONT = "/content/Helvetica.ttf"

def create_word_cloud(words_list, title):
    text = ' '.join(words_list)

    radius = 495
    diameter = radius * 2
    center = radius
    x, y = np.ogrid[:diameter, :diameter]
    mask = (x - center) ** 2 + (y - center) ** 2 > radius ** 2
    mask = 255 * mask.astype(int)

    mask_rgba = np.dstack((mask, mask, mask, 255 - mask))

    wordcloud = WordCloud(
        repeat=False,
        width=diameter,
        height=diameter,
        background_color=None,
        mode="RGBA",
        colormap='plasma',
        mask=mask_rgba,
        font_path=DEFAULT_FONT,
    ).generate(text)

    plt.figure(figsize=(10, 10))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.title(title)
    plt.axis('off')
    plt.show()

In [None]:
create_word_cloud(forms, 'Word Cloud for Forms')

In [None]:
create_word_cloud(lemmas, 'Word Cloud for Lemmas')

In [None]:
create_word_cloud(no_stop, 'Word Cloud for Lemmas without stopwords')

Par ailleurs, il m'a semblé utile de joindre les trois listes sous forme de fichiers téléchargeables, afin que vous puissiez vous en servir pour d'autres expériences. C'est la cellule qui suit, qui vous fait un zip avec les trois listes. Si vous ne voulez pas télécharger, inutile de faire la suite.

In [63]:
export_dir = "/content/export_lists"
os.makedirs(export_dir, exist_ok=True)

def write_list_to_txt(filename, items):
    path = os.path.join(export_dir, filename)
    with open(path, "w", encoding="utf-8") as f:
        for item in items:
            f.write(str(item) + "\n")
    return path

forms_path   = write_list_to_txt("forms.txt", forms)
lemmas_path  = write_list_to_txt("lemmas.txt", lemmas)
no_stop_path = write_list_to_txt("no_stop.txt", no_stop)

In [64]:
import shutil
from google.colab import files

zip_base = "/content/text_lists"
shutil.make_archive(zip_base, "zip", export_dir)

zip_path = zip_base + ".zip"
print("Archive créée :", zip_path)

files.download(zip_path)

Archive créée : /content/text_lists.zip


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>