# La Bibliothèque NLTK

## Introduction

* Le corpus est un ensemble de documents dans le même sujet.
* Un document est composé de paragraphes, de phrases et des mots.
* Le paragraphe est composé de phrases.
* La phrase est composée d'un ensemble de mots, de symboles (ponctuations, ...).
* Le mot est une chaine de caractères.
* Un chaine de caractère est composée de caractères.

## Installation de NLTK

* Outil Conda : 
<br>*conda install nltk*
* Outil pip :
<br>*pip install nltk*

## Importation de NLTK
### import nltk

In [4]:
# impoeter la bibliothèque NLTK / Framework spacy  / stanfordnlp
import nltk

### Télécharger les modules nltk 

In [None]:
nltk.download()

### Télécharger les packages nltk nécessaire 
punkt : Tokenizer

In [2]:
#Télécharger les packages nltk nécessaire 
nltk.download('punkt')  # punkt pour la tokenisation
nltk.download('averaged_perceptron_tagger')   #pour les POS tagging (Part of speech tagging)

[nltk_data] Downloading package punkt to /home/student-
[nltk_data]     cum/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/student-cum/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

## Etape 1 : La Tokenization du texte

### Importer les modules de tokenisation
* word_tokenize : donne une listes de jetons, sous forme de mots, d'une chaines de caractères
* sent_tokenize : donne une liste de phrases du document

In [7]:
from nltk import word_tokenize
from nltk import sent_tokenize

## Initialisation de la variable texte

### Texte sur plusieurs lignes : utilisez les trois (quotes, ou double quots) """

In [28]:
text = """One of the most significant contributions of technology is its ability to enhance productivity. Automation and digital 
tools enable businesses to streamline processes, reduce costs, and increase output."""

In [5]:
texte = "One of the most significant contributions of technology is its ability to enhance productivity. Automation and digital tools enable businesses to streamline processes, reduce costs, and increase output."

### Appel des fonctions

In [6]:
#tokenz = nltk.word_tokenize(texte)

In [8]:
tokens = word_tokenize(texte)  # Tokenisation
phrases = sent_tokenize(texte)

In [9]:
# Afficher les Tokens : mots
print(f"La liste des Tokens :\n{tokens}\n")

#Afficher le nombre de Tokens
print(f"Le nombres de Tokens = {len(tokens)}\n") #len(ch) length = longeur 

La liste des Tokens :
['One', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', '.', 'Automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', ',', 'reduce', 'costs', ',', 'and', 'increase', 'output', '.']

Le nombres de Tokens = 32



In [10]:
#Afficher les Phrases
print(f"La liste des Phrases :\n{phrases}\n")

#Afficher le nombre de Phrases
print(f"Le nombres de Phrases = {len(phrases)}\n")

La liste des Phrases :
['One of the most significant contributions of technology is its ability to enhance productivity.', 'Automation and digital tools enable businesses to streamline processes, reduce costs, and increase output.']

Le nombres de Phrases = 2



## Etape 2 : Supprimer la ponctuation
### Importer le module PunktToken

In [11]:
from nltk.tokenize.punkt import PunktToken
# PunktToken --> fct : is_non_punct

#### Parcours par element
#### parcours par indice (index)

Liste [elt1, elt2, elt3, ...]
<br>index   0      1    2    3

#### Utiliser deux méthodes 
1. Une boule FOR ordinnaire
2. List Comprehension 

In [34]:
print(f"La liste des tokens :\n{tokens}\n")

La liste des tokens :
['One', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', '.', 'Automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', ',', 'reduce', 'costs', ',', 'and', 'increase', 'output', '.']



In [12]:
# Boucle for
# La liste des token : tokens
token_ponct = []

for token in tokens :
    if PunktToken(token).is_non_punct :
        token_ponct.append(token)  # Ajouter

In [13]:
# Afficher les Tokens : mots
print(f"La liste des Tokens sans ponct :\n{token_ponct}\n")

#Afficher le nombre de Tokens
print(f"Le nombres de tokens sans ponct = {len(token_ponct)}\n")

La liste des Tokens sans ponct :
['One', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', 'Automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', 'reduce', 'costs', 'and', 'increase', 'output']

Le nombres de tokens sans ponct = 28



#### List Comprehension

In [14]:
# List Comprehension

tokens_ponct = [jeton for jeton in tokens if PunktToken(jeton).is_non_punct]

In [15]:
# Afficher les Tokens : mots
print(f"La liste des Tokens sans ponctuations :\n{tokens_ponct}\n")

#Afficher le nombre de Tokens
print(f"Le nombres de tokens sans ponctuations = {len(tokens_ponct)}\n")

La liste des Tokens sans ponctuations :
['One', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', 'Automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', 'reduce', 'costs', 'and', 'increase', 'output']

Le nombres de tokens sans ponctuations = 28



## Etape 3 : Convertir en minuscules

In [16]:
# Boucle for
token_min = []
for jeton in tokens_ponct :
    token_min.append(jeton.lower())  #Ajouter

In [17]:
# List Comprehension
tokens_min = [token.lower() for token in tokens_ponct]

In [18]:
# Afficher les Tokens : mots
print(f"La liste des Tokens en minuscule :\n{tokens_min}\n")

#Afficher le nombre de Tokens
print(f"Le nombres de tokens en minuscule = {len(tokens_min)}\n")

La liste des Tokens en minuscule :
['one', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', 'automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', 'reduce', 'costs', 'and', 'increase', 'output']

Le nombres de tokens en minuscule = 28



## Etape 4 : Suppression des mots vides
### Importer le module stopwords

In [19]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /home/student-
[nltk_data]     cum/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [20]:
#Download the standard stopword list
#nltk.download('stopwords')
from nltk.corpus import stopwords

### French stopwords

In [21]:
#token not in stopwords list
# Initialisez la liste des mots vide en français stopwords.words('french')

fr_mots_vides = stopwords.words('french')

#### Liste des mots vides en français

In [22]:
print(fr_mots_vides)

['au', 'aux', 'avec', 'ce', 'ces', 'dans', 'de', 'des', 'du', 'elle', 'en', 'et', 'eux', 'il', 'ils', 'je', 'la', 'le', 'les', 'leur', 'lui', 'ma', 'mais', 'me', 'même', 'mes', 'moi', 'mon', 'ne', 'nos', 'notre', 'nous', 'on', 'ou', 'par', 'pas', 'pour', 'qu', 'que', 'qui', 'sa', 'se', 'ses', 'son', 'sur', 'ta', 'te', 'tes', 'toi', 'ton', 'tu', 'un', 'une', 'vos', 'votre', 'vous', 'c', 'd', 'j', 'l', 'à', 'm', 'n', 's', 't', 'y', 'été', 'étée', 'étées', 'étés', 'étant', 'étante', 'étants', 'étantes', 'suis', 'es', 'est', 'sommes', 'êtes', 'sont', 'serai', 'seras', 'sera', 'serons', 'serez', 'seront', 'serais', 'serait', 'serions', 'seriez', 'seraient', 'étais', 'était', 'étions', 'étiez', 'étaient', 'fus', 'fut', 'fûmes', 'fûtes', 'furent', 'sois', 'soit', 'soyons', 'soyez', 'soient', 'fusse', 'fusses', 'fût', 'fussions', 'fussiez', 'fussent', 'ayant', 'ayante', 'ayantes', 'ayants', 'eu', 'eue', 'eues', 'eus', 'ai', 'as', 'avons', 'avez', 'ont', 'aurai', 'auras', 'aura', 'aurons', 'aur

### English stopwords

In [23]:
en_stop_words = stopwords.words('english')

#### Liste des mots vides en Anglais

In [24]:
print(en_stop_words)

['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", 'him', 'himself', 'his', 'how', 'i', "i'd", 'if', "i'll", "i'm", 'in', 'into', 'is', 'isn', "isn't", 'it', "it'd", "it'll", "it's", 'its', 'itself', "i've", 'just', 'll', 'm', 'ma', 'me', 'mightn', "mightn't", 'more', 'most', 'mustn', "mustn't", 'my', 'myself', 'needn', "needn't", 'no', 'nor', 'not', 'now', 'o', 'of', 'off', 'on', 'once', 'only', 'or', 'other', 'our', 'ours', 'ourselves', 'out', 'over', 'own', 're', 's', 'same', 'shan', "shan't", 'she

In [25]:
# Afficher les Tokens en minuscule : mots
print(f"La liste des Tokens en minuscule :\n{tokens_min}\n nombre : {len(tokens_min)}")

La liste des Tokens en minuscule :
['one', 'of', 'the', 'most', 'significant', 'contributions', 'of', 'technology', 'is', 'its', 'ability', 'to', 'enhance', 'productivity', 'automation', 'and', 'digital', 'tools', 'enable', 'businesses', 'to', 'streamline', 'processes', 'reduce', 'costs', 'and', 'increase', 'output']
 nombre : 28


In [26]:
# Boucle for
token_stop = []
i = 1
for token in tokens_min :
    if token not in en_stop_words :
        token_stop.append(token)
    else :
        print(i," ",token)
        i = i + 1

1   of
2   the
3   most
4   of
5   is
6   its
7   to
8   and
9   to
10   and


In [27]:
# List Comprehension
tokens_stop = [jeton for jeton in tokens_min if jeton not in en_stop_words]

### Afficher la liste des Tokens non vides

In [28]:
# Afficher les Tokens sans mots vides
print(f"La liste des Tokens sans stopwords :\n{tokens_stop}\n")

#Afficher le nombre de Tokens sans mots vides
print(f"Le nombre de Tokens sans stopwords :\n{len(tokens_stop)}\n")

La liste des Tokens sans stopwords :
['one', 'significant', 'contributions', 'technology', 'ability', 'enhance', 'productivity', 'automation', 'digital', 'tools', 'enable', 'businesses', 'streamline', 'processes', 'reduce', 'costs', 'increase', 'output']

Le nombre de Tokens sans stopwords :
18



## Stemming

In [29]:
#Utilisez la bibliothèque SnowballStemmer pour la radicalisation.
from nltk.stem.snowball import SnowballStemmer

In [30]:
# charger le Stemmer Français
stemmer = SnowballStemmer("french")

In [31]:
# charger le Stemmer Anglais
stemmer = SnowballStemmer("english")

In [32]:
# Extraire les stem de la liste des tokens sans stopwords tokens_stop
tokens_stem = [stemmer.stem(token) for token in tokens_stop ]

In [34]:
# Afficher les Tokens sans mots vides
print(f"La liste des Stem des Tokens :\n{tokens_stem}\n")

#Afficher le nombre de Tokens sans mots vides
print(f"Le nombre de Stem :\n{len(tokens_stem)}\n")

La liste des Stem des Tokens :
['one', 'signific', 'contribut', 'technolog', 'abil', 'enhanc', 'product', 'autom', 'digit', 'tool', 'enabl', 'busi', 'streamlin', 'process', 'reduc', 'cost', 'increas', 'output']

Le nombre de Stem :
18



## Lemmatisation

In [35]:
from nltk.stem import WordNetLemmatizer

In [36]:
lemmatizer = WordNetLemmatizer()
tokens_lem = [lemmatizer.lemmatize(token) for token in tokens_stop ]

In [37]:
# Afficher les Tokens : mots
print(f"La liste des Tokens Lematiser :\n{tokens_lem}\n")

#Afficher le nombre de Tokens
print(f"Le nombres de tokens Lematiser = {len(tokens_lem)}\n")

La liste des Tokens Lematiser :
['one', 'significant', 'contribution', 'technology', 'ability', 'enhance', 'productivity', 'automation', 'digital', 'tool', 'enable', 'business', 'streamline', 'process', 'reduce', 'cost', 'increase', 'output']

Le nombres de tokens Lematiser = 18

