<a href="https://colab.research.google.com/github/MSH-Clermont/initiation_python/blob/main/Initiation_TAL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

-- Source : *Formation "Initiation à l'analyse automatique de textes en SHS" Le cours de Marianne Reboul https://github.com/Consortium-ARIANE/Formation-Lyon-8-9-novembre-2023/blob/main/formation_tal_reboul/1_premier_TAL.ipynb*

# <center>Premières expériences de Traitement Automatique de la Langue</center>

Vous allez maintenant apprendre à faire du traitement automatique de base. Pour ce faire, nous utiliserons **spaCy**, qui est efficace pour l'objectif de vous initier au TAL.

La première étape c'est d'installer la bibliothèque spaCy. Pour ce faire, il faut lancer la commande `pip install spacy`. Si le module est déjà installé, le terminal vous le dira.

In [None]:
!pip install spacy

Il vous faut ensuite importer le module dans le carnet (lui dire où piocher ses fonctions).

In [1]:
import spacy

In [None]:
!python -m spacy download fr_core_news_sm


In [7]:
nlp = spacy.load('fr_core_news_sm')

In [8]:
# Charger les stopwords de SpaCy
more_stopwords = set(nlp.Defaults.stop_words)

Nous chargeons ensuite un texte (ici une chaîne de caractères, ou "string"), à analyser. Il s'agit de la préface de 1862 des <i>Misérables</i>. Le "u" au début hors des guillemets sert à signaler que nous voulons que la chaîne soit en unicode.

In [9]:
miserables=u'Tant qu’il existera, par le fait des lois et des mœurs, une damnation sociale créant artificiellement, en pleine civilisation, des enfers, et compliquant d’une fatalité humaine la destinée qui est divine ; tant que les trois problèmes du siècle, la dégradation de l’homme par le prolétariat, la déchéance de la femme par la faim, l’atrophie de l’enfant par la nuit, ne seront pas résolus ; tant que, dans de certaines régions, l’asphyxie sociale sera possible ; en d’autres termes, et à un point de vue plus étendu encore, tant qu’il y aura sur la terre ignorance et misère, des livres de la nature de celui-ci pourront ne pas être inutiles.'

doc = nlp(miserables)


Je veux par exemple écrire tout le texte. SpaCy va stocker l'ensemble des information d'un token dans la variable "token", qui comporte différentes caractéristiques (text, lemma_, pos_, etc.). Nous allons utiliser une boucle pour parcourir l'ensemble des données stockées par spaCy dans la variable `doc`.

In [None]:
for token in doc:
    print(token.text)

Je peux faire la même chose avec les lemmes,

In [None]:
for token in doc:
    print(token.lemma_)

ou avec les étiquettes de nature :

In [None]:
for token in doc:
    print(token.pos_)

ou les trois :

In [None]:
for token in doc:
    print(token.text+" "+token.lemma_+" "+token.pos_)

Mettons maintenant que je veuille savoir quelle est la proportion des noms, verbes, adjectifs, etc. dans un texte. Et que je veuille le représenter graphiquement.
<br>Je vais d'abord compter le nombre d'éléments dans chaque catégorie, comme ça :

In [None]:
advs=0
nouns=0
vbs=0
adjs=0
conjs=0
for token in doc:
    if token.pos_ == "ADV":
        advs+=1
    elif token.pos_ == "NOUN":
        nouns+=1
    elif token.pos_ == "VERB":
        vbs+=1
    elif token.pos_ == "ADJ":
        adjs+=1
    elif token.pos_ == "SCONJ":
        conjs+=1
print(advs,nouns,vbs,adjs,conjs)

Maintenant, les variables `advs`, `nouns`, `vbs` etc. comportent toutes le nombre absolu d'éléments présents dans le texte.
<br>Mais je veux obtenir une proportion, donc je vais faire un simple produit en croix, pour obtenir le pourcentage de chaque élément.
<br>Je vais stocker le pourcentage de chaque élément dans une liste, appelée `parts`.

In [15]:
total_len=nouns+vbs+adjs+conjs+advs

nNames=(nouns*100)/total_len

nVerbs=(vbs*100)/total_len

nAdjectives=(adjs*100)/total_len

nConj=(conjs*100)/total_len

nAdverbs=(advs*100)/total_len

parts=[nNames,nVerbs,nConj,nAdjectives,nAdverbs]

Nous allons aussi utiliser un module qui nous servira pour créer une représentation graphique, appelé **matplotlib**. Vous pouvez, là encore, l'importer avec `pip install matplotlib`.
<br>Lorsque vous importez un module, vous pouvez lui donner un nom plus simple, comme ici matplotlib, qui est très souvent surnommé `plt`.
<br>La ligne suivante configure la taille du grahique produit par défaut.

Enfin je vais créer le graphique en camembert, avec la librairie matplotlib renommée `plt`. Je vais pour cela donner des noms à mes éléments (les légender), et leur attribuer une couleur.
<br>Je peux aussi, avec la valeur de `explode`, une liste qui comporte pour chaque élément soit 1 soit 0, demander à ce qu'une partie du camembert soit détachée du reste. Je peux aussi déterminer l'angle de démarrage du camembert (`startangle`), ou dire si je veux du relief (`shadow`, paramètre qui est soit `True` soit `False`).
<br>Enfin, je demande à matplotlib de me montrer le résultat avec `show()`.

In [16]:
import matplotlib.pyplot as plt
plt.rcParams["figure.figsize"] = [16,9]

In [None]:
legende = ('Nouns','Verbs','Conjs','Adjectives','Advbs')
colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue','orange']
explode = (0.1, 0,0,0,0 )
plt.pie(parts, explode=explode, labels=legende, colors=colors,
        autopct='%1.1f%%', shadow=True, startangle=140)
plt.axis('equal')
plt.show()

# Utiliser des commandes linux pour se déplacer dans les dossiers

Autorisez Colab à accéder au Drive (accordez toutes les autorisation demandées)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Creez un dossier appellé `data` dans MyDrive et ajoutez y le fichier `BUCA_Bastaire_Roman_Aventures_C95403`

commande linux pour connaître le dossier dans lequels on se trouve

In [None]:
pwd

commande linux pour connaître le contenu du dossier dans lequels on se trouve

In [None]:
ls

commande linux pour se déplacer dans les dossiers

In [None]:
cd drive/MyDrive/data

# Charger un fichier depuis Drive et lecture du fichier par Python

In [None]:
fichier = "BUCA_Bastaire_Roman_Aventures_C95403.txt"

romanOuvert = open (fichier, "r", encoding="utf-8") # ouverture du fichier
policier = romanOuvert.read() # lecture du fichier

print(policier)

###QUIZ : Affichier seulement les 100 premiers mots du texte

In [None]:
# première solution
nouveauxDoc = nlp(policier) #crée un objet document qui est itérable
for token in nouveauxDoc[:100]:
    print(token.text)

In [None]:
# votre code ici pour appliquer une autre méthode


## Prétraitement pour normaliser, corriger et uniformiser le texte

In [None]:
# Lit le contenu du fichier et le convertit en minuscules
minuscules = policier.lower()
print(minuscules)

In [None]:
# suprrime les espaces vides
sansEspace = " ".join (minuscules.split())
print(sansEspace)

In [27]:
# Ajout des ponctuations spécifiques
#from string import punctuation
punctuation = "&↩•—.,!...?:;"

In [None]:
# Créer une liste pour stocker les caractères filtrés
filtered_chars = []
# Parcourir chaque caractère dans le texte
for c in sansEspace:
    # Vérifier si le caractère n'est pas dans la liste de ponctuation
    if c not in punctuation:
        # Si le caractère n'est pas une ponctuation, l'ajouter à la liste
        filtered_chars.append(c)

# Joindre les caractères filtrés en une seule chaîne
textSansPonctuation = ''.join(filtered_chars)
print(textSansPonctuation)

In [None]:
doc = nlp(textSansPonctuation)

for token in doc[:100]:
    print(token.text, token.lemma_, token.pos_)