# Analyse de texte utilisant NLTK

In [2]:
from nltk.tokenize import word_tokenize
from nltk.text import Text
import nltk

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [82]:
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

# La tokenization

Le but est de transformer une phrase en vecteur de mots. 

In [37]:
my_string = "Je suis ici pour étudier le Natural Language Processing, j'adore ça"
tokens = word_tokenize(my_string)
tokens

['Je',
 'suis',
 'ici',
 'pour',
 'étudier',
 'le',
 'Natural',
 'Language',
 'Processing',
 ',',
 "j'adore",
 'ça']

On peut voir que la tokenization n'est pas parfaite "j'adore" est considéré comme une seul mot. 
on va utiliser les expressions régulières pour ne récupérer que les caractères alphanumériques de chaque phrase.

In [14]:
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(my_string)
tokens

['Je',
 'suis',
 'ici',
 'pour',
 'étudier',
 'le',
 'Natural',
 'Language',
 'Processing',
 'j',
 'adore',
 'ça']

On peut voir que l'on a toujours des majuscules ce qui peut être un problème lors d'un comptage de notre vocabulaire. 

N'oubliez pas de mettre votre phrase en minuscule avant de travailler desssus. 

In [20]:
tokens = tokenizer.tokenize(my_string.lower())
tokens

['je',
 'suis',
 'ici',
 'pour',
 'étudier',
 'le',
 'natural',
 'language',
 'processing',
 'j',
 'adore',
 'ça']

# Les stopwords

On va supprimer ici les mots les plus fréquents et qui n'apporte pas beaucoup d'informations. Si on voit la phrase comme un signal transportant de l'information, les stopwords peuvent être vue comme du bruit. 

Combien de stopwords sont présent dans la langue française ?

In [31]:
len(nltk.corpus.stopwords.words('french'))

157

La librairie *nltk* répertorie 157 stopwords pour la langue française !

Vous pouvez voir les dix premiers mots ci-dessous.

In [32]:
nltk.corpus.stopwords.words('french')[:10]

['au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle']

On peut donc retirer les stopwords de notre phrase de base. 

In [33]:
[w for w in tokens if not w in list(nltk.corpus.stopwords.words('french'))]

['ici', 'étudier', 'natural', 'language', 'processing', 'adore', 'ça']

Notre phrase contient seulement les mots qui ont de la valeur, il est maintenant possible de l'étudier. 

# Un problème de doublon 

In [46]:
my_string = "Julien est plus grand que toi, mais tu es plus grande que Sophie. \
            Julien et Sophie sont plus grands que Marie"
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(my_string.lower())
tokens = [w for w in tokens if not w in list(nltk.corpus.stopwords.words('french'))]

tokens

['julien',
 'plus',
 'grand',
 'plus',
 'grande',
 'sophie',
 'julien',
 'sophie',
 'plus',
 'grands',
 'marie']

On peut voir que dans la phrase il y a plusieurs le même mot "grand" mais accordé de différentes façon. 

In [50]:
nltk.FreqDist(tokens)

FreqDist({'grand': 1,
          'grande': 1,
          'grands': 1,
          'julien': 2,
          'marie': 1,
          'plus': 3,
          'sophie': 2})

Si l'on travail le texte, on va donc considérer que "grand", "grande" et "grands" sont trois mots différents.

# Le stemming

Le stemming garde une racinisation des mots. Cette technique permet de regrouper des verbes conjugués et des adjectifs accordés sous la même orthographe. 

In [60]:
from nltk.stem.snowball import FrenchStemmer

stemmer = FrenchStemmer()

N'oubliez pas d'utiliser une stemming adéquat au language utilisé. 

In [71]:
tokens_stem = [stemmer.stem(w) for w in tokens]
tokens_stem

['let', 'dog']

In [57]:
nltk.FreqDist(tokens_stem)

FreqDist({'grand': 3, 'julien': 2, 'mar': 1, 'plus': 3, 'soph': 2})

On peut voir que cette fois, "grand", "grande" et "grands" se retrouve sous la même forme "grand".

# Lemmatization

Le processus de lemmatisation consiste à représenter les mots sous leur forme canonique. Par exemple pour un verbe, ce sera son infinitif. Pour un nom, son masculin singulier. 

La fonction de lemmatization n'existe pas dans *nltk* pour le français l'exemple qui suit sera donc en anglais.

In [68]:
from nltk.stem import WordNetLemmatizer
Word_Lemmatizer = WordNetLemmatizer()

In [75]:
my_string = "Who let's the dogs out."
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(my_string.lower())
tokens = [w for w in tokens if not w in list(nltk.corpus.stopwords.words())]
print(tokens)
tokens_lema = [Word_Lemmatizer.lemmatize(w) for w in tokens]
print(tokens_lema)

['let', 'dogs']
['let', 'dog']


# Part of speach tagging

On peut avoir des précisions sur l'usage du mot dans la phrase.

In [84]:
my_string = "I like hot tea"
tokenizer = nltk.RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(my_string.lower())
nltk.pos_tag(tokens)

[('i', 'NNS'), ('like', 'VBP'), ('hot', 'JJ'), ('tea', 'NN')]