pip install nltk

In [29]:
import nltk

In [None]:
nltk.download()

In [18]:
from nltk.corpus import stopwords
from nltk import word_tokenize
from nltk.tokenize import sent_tokenize
from nltk.stem.snowball import FrenchStemmer
import re

In [19]:
data = u"""Wikipédia est un projet wiki d’encyclopédie collective en ligne, universelle, multilingue et fonctionnant sur le principe du wiki. Aimez-vous l'encyclopédie wikipedia ?"""

### Récupération des stop words Français / création d'une fonction de filtre avec ces stopwords

In [20]:
french_stopwords = set(stopwords.words('french'))

In [21]:
filtre_stopfr =  lambda text: [token for token in text if token.lower() not in french_stopwords]

In [22]:
filtre_stopfr( word_tokenize(data, language="french") )

['Wikipédia',
 'projet',
 'wiki',
 '’',
 'encyclopédie',
 'collective',
 'ligne',
 ',',
 'universelle',
 ',',
 'multilingue',
 'fonctionnant',
 'principe',
 'wiki',
 '.',
 'Aimez-vous',
 "l'encyclopédie",
 'wikipedia',
 '?']

### Découpage avec RegEx

In [23]:
sp_pattern = re.compile( """[\.\!\"\s\?\-\,\']+""", re.M).split

In [24]:
sp_pattern(data)

['Wikipédia',
 'est',
 'un',
 'projet',
 'wiki',
 'd’encyclopédie',
 'collective',
 'en',
 'ligne',
 'universelle',
 'multilingue',
 'et',
 'fonctionnant',
 'sur',
 'le',
 'principe',
 'du',
 'wiki',
 'Aimez',
 'vous',
 'l',
 'encyclopédie',
 'wikipedia',
 '']

## Tokenisation

In [25]:
word_tokenize(data, language="french")

['Wikipédia',
 'est',
 'un',
 'projet',
 'wiki',
 'd',
 '’',
 'encyclopédie',
 'collective',
 'en',
 'ligne',
 ',',
 'universelle',
 ',',
 'multilingue',
 'et',
 'fonctionnant',
 'sur',
 'le',
 'principe',
 'du',
 'wiki',
 '.',
 'Aimez-vous',
 "l'encyclopédie",
 'wikipedia',
 '?']

In [26]:
phfr = filtre_stopfr( word_tokenize(data, language="french") )
phfr

['Wikipédia',
 'projet',
 'wiki',
 '’',
 'encyclopédie',
 'collective',
 'ligne',
 ',',
 'universelle',
 ',',
 'multilingue',
 'fonctionnant',
 'principe',
 'wiki',
 '.',
 'Aimez-vous',
 "l'encyclopédie",
 'wikipedia',
 '?']

### Tokenisation de phrase

In [27]:
sent_tokenize(data, language="french")

['Wikipédia est un projet wiki d’encyclopédie collective en ligne, universelle, multilingue et fonctionnant sur le principe du wiki.',
 "Aimez-vous l'encyclopédie wikipedia ?"]

## Fréquence de distribution des valeurs

In [30]:
fd = nltk.FreqDist(phfr) 
print(fd.most_common())

[('wiki', 2), (',', 2), ('Wikipédia', 1), ('projet', 1), ('’', 1), ('encyclopédie', 1), ('collective', 1), ('ligne', 1), ('universelle', 1), ('multilingue', 1), ('fonctionnant', 1), ('principe', 1), ('.', 1), ('Aimez-vous', 1), ("l'encyclopédie", 1), ('wikipedia', 1), ('?', 1)]


## "Racinisation" ou Stemming

In [31]:
example_words = ["donner","don","donne","donnera","dons","test"]
stemmer = FrenchStemmer()

for w in example_words:
    print(stemmer.stem(w))

don
don
don
don
don
test


In [36]:
type (phfr)

list

In [40]:
phfrlist = [stemmer.stem(x) for x in phfr]
phfrlist

['wikipédi',
 'projet',
 'wik',
 '’',
 'encycloped',
 'collect',
 'lign',
 ',',
 'universel',
 ',',
 'multilingu',
 'fonction',
 'princip',
 'wik',
 '.',
 'aimez-vous',
 "l'encycloped",
 'wikipedi',
 '?']