# NLTK : Natural Language ToolKit

Email : <a href='mailto:madani.a@ucd.ac.ma'>madani.a@ucd.ac.ma</a>

## Qu'est-ce que c'est NLTK ?
<p>
Natural Language Toolkit (NLTK) est une boîte-à-outil permettant la création de programmes pour l'analyse de texte (TextMining). Cet ensemble a été créé à l'origine par Steven Bird et Edward Loper, en relation avec des cours de linguistique informatique à l'Université de Pennsylvanie en 2001.
</p>

## Travailler avec NLTK
<p>
La première chose à faire pour utiliser NLTK est de télécharger ce qui se nomme le <strong>NLTK corpora</strong>. On peut télécharger tout le Corpus. C'est vrai que c'est énorme (à peu près 10,9 Go), mais nous ne le ferons qu'une seule fois. Si vous connaissez déjà quel corpus vous utiliserez, inutile de télécharger cet ensemble.
</p>
<p>
Dans votre éditeur Python IDLE, écrivez ceci :
</p>

In [None]:
import nltk
# Pour télécharger tout le corpus
nltk.download()
# Pour télécharger seulement le corpus de 'stopwords'
nltk.download('stopwords')
# Pour télécharger seulement le corpus de 'tokenizer'
nltk.download('punkt')

## Stop Words
<p>
Parfois, nous avons besoin d'éliminer des éléments inutiles afin que les données soient davatange traduisables pour l'ordinateur. En NLP, de telles données (des mots, words) sont qualifiées par <strong>stop words</strong>. Par conséquent, ces mots n'ont aucune signification pour nous, et nous souhaiterions les retirer.
</p>
<p>
La libraire NLTK contient quelques stopwords. Pour les connaître, écrivons ces petits scripts :
</p>


In [1]:
from nltk.corpus import stopwords
stop_words=set(stopwords.words('english'))
print(stop_words)

{'were', 'ourselves', "you've", "didn't", 'those', 'couldn', 'how', 'needn', 't', 'shouldn', 'these', 'a', 'by', "haven't", 'been', 'was', "it's", 'out', 'doesn', 'haven', 'wasn', 'into', "don't", 'on', 'she', 'i', 'you', "should've", 'such', 'during', 'of', 'ours', 'very', 'why', 'm', 'am', 'off', 'against', "mightn't", 'won', 'or', 'they', 'yours', 'ain', 'your', 'weren', 'for', 'than', 'doing', 'that', 'then', 'our', 'between', 'them', 'just', 'again', 'now', 'at', 'does', 'not', 'it', 'through', 'where', 'aren', 'after', 'do', 'he', 'didn', 'up', 'themselves', 'hers', 'who', "wouldn't", 'if', 'its', "weren't", "aren't", 'ma', 'her', 'we', 'should', 'are', 'and', 'before', "shan't", 'other', "needn't", 'y', "couldn't", 'the', 'be', 'had', 'to', 'my', 'myself', 'same', "you're", 'about', 'nor', 'from', 'there', 'below', 'himself', 'having', 'because', 'over', 'hadn', "hadn't", "wasn't", 'any', 'no', 'with', 's', 'him', 'an', "won't", 'until', 'theirs', 'under', 'hasn', 'wouldn', 'bot

In [2]:
from nltk.corpus import stopwords
print(set(stopwords.words('french')))

{'mais', 'aient', 'fusses', 'dans', 'serais', 'avions', 't', 'aviez', 'les', 'n', 'leur', 'eue', 'aux', 'fût', 'auriez', 'j', 'que', 'ayante', 'à', 'on', 'pour', 'nos', 'serai', 'serons', 'étante', 'serez', 'ton', 'étais', 'fussions', 'ai', 'ayants', 'suis', 'aurai', 'aurions', 'm', 'eussiez', 'lui', 'avaient', 'ayez', 'seriez', 'étés', 'étant', 'sa', 'étantes', 'étée', 'aie', 'été', 'es', 'ayons', 'ait', 'ont', 'sois', 'fussiez', 'fûtes', 'et', 'mes', 'avec', 'étions', 'est', 'vos', 'eusses', 'fusse', 'qu', 'l', 'mon', 'sont', 'du', 'elle', 'ma', 'êtes', 'auraient', 'ses', 'serait', 'fûmes', 'y', 'un', 'ayantes', 'ayant', 'aurais', 'sera', 'soit', 'eusse', 'moi', 'de', 'auront', 'fut', 'aurons', 'seras', 'était', 'se', 'ta', 'étants', 'eussions', 'eussent', 'ces', 'avons', 'eu', 'avais', 'tes', 'par', 'eûmes', 'en', 'soient', 'avait', 'auras', 's', 'tu', 'même', 'le', 'sur', 'ne', 'son', 'pas', 'au', 'vous', 'seront', 'ce', 'notre', 'me', 'as', 'votre', 'aura', 'eut', 'une', 'nous', '

In [3]:
from nltk.corpus import stopwords
print(set(stopwords.words('arabic')))

{'لكيلا', 'هذان', 'إليكن', 'اللتين', 'بهن', 'بل', 'حبذا', 'ذوا', 'لئن', 'حين', 'ذه', 'ممن', 'لولا', 'فيما', 'يا', 'إليكم', 'إن', 'كلتا', 'سوف', 'ذي', 'لستم', 'قد', 'لكم', 'ذين', 'هيا', 'كل', 'إما', 'إنما', 'ومن', 'كي', 'في', 'التي', 'أما', 'أنتم', 'ذلكم', 'لنا', 'إذا', 'اللذان', 'إي', 'لكي', 'آي', 'فلا', 'ذانك', 'مذ', 'إلى', 'بخ', 'بها', 'ته', 'لك', 'أيها', 'ولو', 'بعض', 'حتى', 'عدا', 'أين', 'عن', 'أينما', 'عسى', 'بهم', 'لكن', 'ليت', 'بعد', 'بمن', 'بين', 'دون', 'إنه', 'كليهما', 'أنت', 'ليستا', 'بنا', 'كأن', 'إليك', 'لم', 'لهن', 'منه', 'فمن', 'فيه', 'إيه', 'غير', 'عليه', 'ليسوا', 'لستن', 'ما', 'وإذا', 'عل', 'لي', 'هاتان', 'عليك', 'ذواتا', 'أم', 'هي', 'منذ', 'والذين', 'والذي', 'حيث', 'بما', 'لدى', 'خلا', 'ولا', 'إذن', 'منها', 'أنتما', 'اللتيا', 'كما', 'ثم', 'أولئك', 'له', 'هن', 'ريث', 'تي', 'كيف', 'هذي', 'بهما', 'بس', 'وإذ', 'مه', 'كأي', 'هناك', 'وإن', 'فإن', 'الذين', 'أكثر', 'هكذا', 'تلكم', 'لسنا', 'ليسا', 'أقل', 'نعم', 'آه', 'ولكن', 'بكن', 'كلاهما', 'وهو', 'شتان', 'حيثما', 'كيت', 'لعل'

## Tokenizing (segmentation du texte)
<p>
</p>

In [1]:
from nltk.tokenize import word_tokenize

text = "In this tutorial, You're learning NLTK. It is an interesting platform. You're lucky"

words = word_tokenize(text, language='english')
print("Liste des tokens :")
print(words)

Liste des tokens :
['In', 'this', 'tutorial', ',', 'You', "'re", 'learning', 'NLTK', '.', 'It', 'is', 'an', 'interesting', 'platform', '.', 'You', "'re", 'lucky']


In [2]:
from nltk.tokenize import word_tokenize

text = "In this tutorial, You're learning NLTK. It is an interesting platform. You're lucky"

words = set(word_tokenize(text, language='english'))
 
new_sentence = []
 
for word in words:
    new_sentence.append(word)
print(new_sentence)

['It', 'platform', 'is', 'an', 'NLTK', 'You', 'interesting', 'lucky', 'tutorial', '.', 'learning', "'re", 'this', 'In', ',']


Elimination des stop words

In [13]:
new_sentence = []
 
for word in words:
    if word not in stop_words:
        new_sentence.append(word)
print("Liste des tokens sans StopWords:") 
print(new_sentence)

Liste des tokens sans StopWords:
['tutorial', ',', "'re", 'learning', 'NLTK', '.', 'interesting', 'platform', '.', "'re", 'lucky']


In [17]:
from nltk.tokenize import sent_tokenize
 

text_fr = "Ceci est la première phrase. Puis j'en écris une seconde. pour finir en voilà une troisième sans mettre de majuscule"
 
# We use the segmentation function on the text
sentences = sent_tokenize(text_fr, language = 'french')
 
# We print the sentences
for sent in sentences:
    print(sent)

Ceci est la première phrase.
Puis j'en écris une seconde.
pour finir en voilà une troisième sans mettre de majuscule


## Stemming

<p>
En linguistique, le stemming, la racinisation ou désuffixation est un procédé de transformation des mots en leur radical ou racine. La racine d’un mot correspond à la partie du mot restante une fois que l’on a supprimé son (ses) préfixe(s) et suffixe(s), afin d'obtenir son radical
</p>
<p>
Deux principales familles d'algorithme de stemming sont présentes dans la littérature : orientés algorithmes et ceux utilisant un dictionnaire.
<ul>
<li><strong>Orienté algorithmes</strong> plus rapide et permet d'extraire des racines de mots inconnus.
<li><strong>L'approche par dictionnaire</strong> quant à elle ne fait pas d'erreur sur les mots connus, mais en produit sur ceux qu'elle ne liste pas. Elle est aussi plus lente, et nécessite malgré tout la suppression de suffixes avant d'aller chercher la racine correspondante dans le dictionnaire.
</ul>
</p>

In [18]:
#Information sur nktl.stem : différents méthodes de stemming
import nltk.stem
dir(nltk.stem)

['Cistem',
 'ISRIStemmer',
 'LancasterStemmer',
 'PorterStemmer',
 'RSLPStemmer',
 'RegexpStemmer',
 'SnowballStemmer',
 'StemmerI',
 'WordNetLemmatizer',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 'api',
 'cistem',
 'isri',
 'lancaster',
 'porter',
 'regexp',
 'rslp',
 'snowball',
 'util',
 'wordnet']

### Exemple de stemming : porter

In [1]:
from nltk.stem import porter
input_words =['movies','dogs','planes','flowers','flies','fries','fry','weeks','planted' ,'running','throttle']
porter = porter.PorterStemmer()
p_words=[]
for word in input_words:
    p_words.append(porter.stem(word))
print(p_words)

['movi', 'dog', 'plane', 'flower', 'fli', 'fri', 'fri', 'week', 'plant', 'run', 'throttl']


### Exemple de steming : lancaster

In [2]:
from nltk.stem import lancaster
input_words =['movies','dogs','planes','flowers','flies','fries','fry','weeks','planted' ,'running','throttle']
lancaster = lancaster.LancasterStemmer()
l_words=[]
for word in input_words:
    l_words.append(lancaster.stem(word))
print(l_words)

['movy', 'dog', 'plan', 'flow', 'fli', 'fri', 'fry', 'week', 'plant', 'run', 'throttle']


### Exemple de steming : snowball

In [3]:
from nltk.stem import snowball
input_words =['movies','dogs','planes','flowers','flies','fries','fry','weeks','planted' ,'running','throttle']
snowball = snowball.EnglishStemmer()
s_words=[]
for word in input_words:
    s_words.append(snowball.stem(word))
print(s_words)

['movi', 'dog', 'plane', 'flower', 'fli', 'fri', 'fri', 'week', 'plant', 'run', 'throttl']


## Lemmatisation
<p>
La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
</p>
<p>
La lemmatisation d'une forme d'un mot consiste à en prendre sa forme canonique. Celle-ci est définie comme suit :
<ul>
<li>pour un verbe : ce verbe à l'infinitif,
<li>pour les autres mots : le mot au masculin singulier.
</ul>
</p>

In [5]:
# N'oublier pas de télacharger nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer

input_words =['movies','dogs','planes','flowers','flies','fries','fry','weeks',
'planted','running','throttle','good','better','best','movies', 'children']

wordnet_lemm = WordNetLemmatizer()
words =[]
for w in input_words:
    words.append(WordNetLemmatizer().lemmatize(w))
print(words)

['movie', 'dog', 'plane', 'flower', 'fly', 'fry', 'fry', 'week', 'planted', 'running', 'throttle', 'good', 'better', 'best', 'movie', 'child']


## Eliminer les stopwords

In [None]:
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import string

stop_words = set(stopwords.words('English'))
text = "In this tutorial, I'm learning NLTK. It is an interesting platform. Good luck".lower()

words = word_tokenize(text, language='english')
 
tokens = []
result=[]
 
for word in words:
    if word not in stop_words:
        tokens.append(word)
for word in tokens:
    if word not in string.punctuation:
        result.append(word)
print(tokens)
print(result)