# 22 textes pour marionnettes de Duranty #

Nous allons tout d'abord copier les fichiers textes issus de l'océrisation dans le cache. Les fichiers textes contiennent chacun une pièce. Le découpage a été fait à la main, l'océrisation aussi.

## Etape 1 : Tokenisation et Lemmatisation ##

Nous allons ici créer des documents lemmatisés à partir d'un fichier en texte brut.

Pour cela, il s'agira d'abord de tokenizer chaque mot, puis de reproduire chaque abstract où chaque mot sera remplacé par son lemme. Cela permet ainsi de réduire le bruit et les erreurs lors de l'analyse du document par la machine, et faciliter ainsi le rapprochement des documents pour former des clusters.

Nous offrons cependant 2 alternatives à l'analyse :
- La lemmatisation, produisant une version décrétée canonique de chaque mot en reconnaissant sa forme.
- La stemmisation, retirant la terminaison des mots pour ne garder que le radical.

### Les packages ###

Nous allons utiliser notamment les packages nltk, spaCy et PorterStemmer pour produire des documents lemmatisés et stemmisés.

In [41]:
from nltk.stem import PorterStemmer
import os
import spacy
from pathlib import Path
from shutil import copy

#### Méthode 1 : tokenisation et lemmatisation ####

Je propose ci-dessous de lemmatizer le texte avec spaCy. Ma lemmatisation va retourner une forme canonique de chaque mot. La tokenisation et la lemmatisation s'appuient sur un petit corpus que j'ai importé (en_core_web_sm) depuis la base de spaCy. En entrée se trouve le texte normalisé de chaque abstract, et en sortie nous retrouvons ce même texte, mais où chaque mot est remplacé par son lem.

In [42]:
if not os.path.exists("./cache1864/"): #permet de créer le cache s'il est supprimé.
    os.makedirs("./cache1864/")

try: #cela permet de récupérer les ficheirs textes depuis le début de l'arborescence pour les copier dans le cache. c'est plus simple à manipuler
    source_ocr_parent = Path().resolve().parent.parent #je remonte l'arborescence jusque là où se trouvent les fichiers
    source_ocr = str(source_ocr_parent) + "/1864_segmente/" #je redescends dans mon arbre
    shutil.copytree(dd,"./cache1864/cacheTXT") #je copie
except:
    pass

In [43]:
Path = "./cache1864/cacheTXT/" #chemin permettant d'accès aux abstracts
Path_output = "./cache1864/cacheLEM/" #chemin de sortie des abstracts stemmés
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents abstracts.
if not os.path.exists("./cache1864/cacheLEM/"): #permet de créer un dossier dans le cache s'il est supprimé.
    os.makedirs("./cache1864/cacheLEM/")

In [44]:
for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        nlp = spacy.load("fr_core_news_sm") #je récupère le corpus français de spacy
        doc = nlp(texte) #doc est le texte annoté. Ce n'est pas une str pour autant
        liste_mots_lemmatise = [] # j'instancie une liste qui accueillera chaque lemme (le lemme étant une str)
        for token in doc:
            liste_mots_lemmatise.append(token.lemma_) #token.lemma_ est une str. Cette méthode tokenise puis lematise. Il crée une liste qu'on va joindre ensuite.
        resultat = ' '.join(liste_mots_lemmatise)
        with open(Path_output + abstract, "w", encoding="UTF-8") as z:
            z.write(resultat) #resultat est une str

#### Méthode 2 : tokenization + stemmisation ####

Dans cette seconde méthode, le texte est tokenisé (grâce à spaCy toujours) mais il est stemmé et non pas lemmatisé. Le stemming consiste à retirer les terminaisons pour garder une forme canonique de chaque mot. Le fonctionnement est identique à celui de la lemmatisation, pour ma démarche. Le résultat est également stocké dans un cache.

In [45]:
Path = "./cache1864/cacheTXT/" #chemin permettant d'accès aux abstracts
Path_output = "./cache1864/cacheSTEM/" #chemin de sortie des abstracts stemmés
filelist = os.listdir(Path) #filelist est une liste regroupant tous les chemins vers les différents abstracts.
if not os.path.exists("./cache1864/cacheSTEM/"): #permet de créer un dossier dans le cache s'il est supprimé.
    os.makedirs("./cache1864/cacheSTEM/")

In [46]:
stemmer = PorterStemmer() #J'importe une méthode acceptant une chaîne de caractère à une variable.
for abstract in filelist:
    with open(Path + abstract, "r", encoding="UTF-8") as y:
        texte = y.read()
        liste_mots_tokenise = [] # j'instancie une liste qui accueillera chaque lemme (le lemme étant une str)
        liste_mots_a_tokenise = texte.split() #je crée une liste sur laquelle je vais pouvoir boucler
        for elem in liste_mots_a_tokenise:
            mot_tokenise = stemmer.stem(elem) #mot_tokenise est une str, et est le lemme du mot sur lequel je boucle
            liste_mots_tokenise.append(mot_tokenise) #j'ajoute chaque mot à une liste, qu'ensuite je join pour recréer l'abstract sous la forme d'une str
        resultat = ' '.join(liste_mots_tokenise)
        with open(Path_output + abstract, "w", encoding="UTF-8") as z:
            z.write(resultat) #resultat est une str