# <center> Analysez vos données textuelles </center>

**Source :** https://openclassrooms.com/fr/courses/4470541-analysez-vos-donnees-textuelles 

## 1- Récupérez et explorez le corpus de textes

Etapes :
- récupérer le corpus de textes
- faire une analyse exploratoire afin de bien comprendre les spécificités du jeu de données
- nettoyer les données afin de pouvoir les utiliser ultérieurement

### Définitions :

- le **corpus** : ensemble de documents (des textes dans notre cas), regroupés dans une optique ou dans une thématique précise. 

- un **document** : la notion de document fait référence à un texte appartenant au corpus, mais indépendant des autres textes. Il peut être constitué d'une ou plusieurs phrases, un ou plusieurs paragraphes.

- un **token** : le terme token désigne généralement un mot et/ou un élément de ponctuation. La phrase "Hello World!" comprend donc 3 tokens. 

- le **vocabulaire** : il s'agit de l'ensemble des tokens distincts présents dans l'ensemble du corpus.

### Etapes du prétraitrement d'un texte :

- La **récupération du corpus**, ansi qu'un premier traitement de ce dernier pour avoir des données textuelles exploitables (au format string).

- La **tokenization**, qui désigne le découpage en mots des différents documents qui constituent votre corpus.

- La **normalisation et la construction du dictionnaire** qui permet de ne pas prendre en compte des détails importants au niveau local (ponctuation, majuscules, conjugaison, etc.)

### Récupération du corpus de texte
Plusieurs méthodes : chargement d'un fichier, webscraping...

### Exploration du texte : tokenisation et analyse des fréquences

La fonction `word_tokenize` va décomposer une phrase en ensemble de mots afin de pouvoir effectuer des opérations dessus.

In [17]:
# pip install nltk
import nltk

phrase = "D'un texte à l'autre, l'exemple peut-il varier ?"

phrase_token = nltk.word_tokenize(phrase)
print(phrase_token)

["D'un", 'texte', 'à', "l'autre", ',', "l'exemple", 'peut-il', 'varier', '?']


## Normalisation

Harmonisation des tokens (on enlève la ponctuation, on sépare "d'un" en "d" et "un"...)

In [20]:
tokenizer = nltk.RegexpTokenizer(r'\w+')
phrase_norm = tokenizer.tokenize("D'un texte à l'autre, l'exemple peut-il varier ?")
phrase_norm

['D', 'un', 'texte', 'à', 'l', 'autre', 'l', 'exemple', 'peut', 'il', 'varier']

---

## 2- Nettoyez et normalisez les données

### Supprimer les stopwords

Supprimer les mots fréquents qui n'apportent pas de valeur informative pour la compréhension du "sens" d'un document et corpus. 

In [14]:
# on récupère les stopwords
from nltk.corpus import stopwords
french_stopwords = set(stopwords.words('french'))

In [22]:
# on supprime les stopwords
index = 0

for element in phrase_norm :
    if element in french_stopwords :
        del phrase_norm[index]
    index += 1

In [23]:
phrase_norm

['D', 'texte', 'l', 'autre', 'exemple', 'peut', 'varier']

### Lemmatisation ou racinisation (stemming)

Le processus de **lemmatisation** consiste à représenter les mots sous leur forme canonique. Par exemple pour un verbe, ce sera son infinitif. Pour un nom, son masculin singulier. L'idée étant encore une fois de ne **conserver que le sens des mots utilisés dans le corpus**.

Il existe un autre processus qui exerce une fonction similaire qui s'appelle la **racinisation**(ou *stemming*). Cela consiste à ne **conserver que la racine des mots étudiés**. L'idée étant de supprimer les suffixes, préfixes et autres des mots afin de ne conserver que leur origine. C'est un procédé plus simple que la lemmatisation et plus rapide à effectuer puisqu'on tronque les mots essentiellement contrairement à la lemmatisation qui nécessite d'utiliser un dictionnaire.

In [30]:
from nltk.stem.snowball import FrenchStemmer

stemmer = FrenchStemmer()

phrase_stem = []

for w in phrase_norm:
    phrase_stem.append(stemmer.stem(w))
    
print(phrase_norm)
print("Racinisation : ")
print(phrase_stem)

['D', 'texte', 'l', 'autre', 'exemple', 'peut', 'varier']
Racinisation : 
['d', 'text', 'l', 'autr', 'exempl', 'peut', 'vari']
