<a href="https://colab.research.google.com/github/ibtissam01/Data_Quality/blob/main/TP_2_Preprocessing_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Après la phase de collecte des données textuelles, l'exploration et le prétraitement du texte sont
des étapes cruciales dans le processus d'analyse en traitement automatique du langage naturel
(NLP). L'exploration révèle la nature profonde du corpus linguistique, identifiant les aspects clés
et les défis potentiels. Elle prépare ainsi le terrain pour le nettoyage des données, les
transformations nécessaires, et la normalisation du texte, rendant ainsi les données prêtes à être
utilisées par des modèles d'apprentissage automatique (objectif principale du cours textminig).
Ce TP couvre les différentes étapes de preprocessing du texte : la suppression des mots vides, la
et la ponctuation, la mise en minuscules, la lemmatisation, le stemming, et l'utilisation de
quelques techniques basiques de word embeddings (vectorisation).


Tout au long de ce cette activité, nous allons travailler sur le contenu Texte et WORDS et mots
définis comme ce qui suit :

In [2]:
Text='''Data virtualization is a concept and technology that allows organizations to
access and manage data from various sources in a unified and simplified manner,
without the need to physically move or replicate the data. It provides a layer of
abstraction that presents a virtual view of data from different sources, making it appear
as if it resides in a single, centralized location.'''


In [3]:
WORDS= ["RUNNING", "Played", "AM", "BEAUtiful", "Dogs"]

In [4]:
Mots= ["manges", "jouent", "suis", "suivons", "corpora","heureusement", "grandes",
"better"]

1. Avant de démarrer :
1.1 Assurer vous que la bibliothèque NLTK et bien installée et importée

In [5]:
import nltk

1.2 Télécharger en local les données nécessaires pour le traitement automatique du langage.

In [6]:
nltk.download("wordnet") #utile pour lemmatisation
nltk.download('stopwords') #utile pour supprimer les stopwords
nltk.download('punkt') #utile pour tokenisation
nltk.download('all')#telecharge en local le tout.


[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading collection 'all'
[nltk_data]    | 
[nltk_data]    | Downloading package abc to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/abc.zip.
[nltk_data]    | Downloading package alpino to /root/nltk_data...
[nltk_data]    |   Unzipping corpora/alpino.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data]    | Downloading package averaged_perceptron_tagger_ru to
[nltk_data]    |     /root/nltk_data...
[nltk_data]    |   Unzipping
[nltk_data]    |       taggers/averaged_perceptron_tagger_ru.zip.
[nltk_data]    | Downloading package basque_grammars to
[

True

2. Normalisation

In [7]:
from nltk.corpus import stopwords

2.1 Suppression des mots vides

In [8]:
# Télécharger les mots vides pour la langue anglaise
stop_words = set(stopwords.words('english'))

In [18]:
# Tokenisation des mots
from nltk.tokenize import word_tokenize
tokens = word_tokenize(Text)

# Suppression des mots vides
filtered_tokens = [word for word in tokens if word.casefold() not in stop_words]

Tout d'abord, il télécharge les mots vides pour la langue anglaise en utilisant stopwords.words('english'). Ensuite, il tokenise le texte en mots individuels à l'aide de word_tokenize(). Ensuite, il utilise une boucle pour filtrer les mots vides en vérifiant si chaque mot, converti en minuscules avec casefold(), n'est pas présent dans l'ensemble des mots vides. Les mots restants, c'est-à-dire ceux qui ne sont pas des mots vides, sont stockés dans la liste filtered_tokens.

In [19]:
Text

'Data virtualization is a concept and technology that allows organizations to\naccess and manage data from various sources in a unified and simplified manner,\nwithout the need to physically move or replicate the data. It provides a layer of\nabstraction that presents a virtual view of data from different sources, making it appear\nas if it resides in a single, centralized location.'

In [20]:
# Affichage des mots sans mots vides
print(filtered_tokens)

['Data', 'virtualization', 'concept', 'technology', 'allows', 'organizations', 'access', 'manage', 'data', 'various', 'sources', 'unified', 'simplified', 'manner', ',', 'without', 'need', 'physically', 'move', 'replicate', 'data', '.', 'provides', 'layer', 'abstraction', 'presents', 'virtual', 'view', 'data', 'different', 'sources', ',', 'making', 'appear', 'resides', 'single', ',', 'centralized', 'location', '.']


In [36]:
text = ' '.join(filtered_tokens)

2.2 Suppression de la Ponctuation

In [23]:
# Suppression de la ponctuation
import string
filtered_tokens = [word.translate(str.maketrans("", "", string.punctuation)) for word in filtered_tokens ]

 str.maketrans("", "", string.punctuation) crée une table de traduction qui indique que tous les signes de ponctuation doivent être supprimés lors de la traduction d'une chaîne de caractères. Cette table de traduction est ensuite utilisée avec la méthode translate() pour supprimer les signes de ponctuation d'une chaîne de caractères donnée.

In [24]:
# Affichage des mots sans mots vides et sans ponctuation
print(filtered_tokens)

['Data', 'virtualization', 'concept', 'technology', 'allows', 'organizations', 'access', 'manage', 'data', 'various', 'sources', 'unified', 'simplified', 'manner', '', 'without', 'need', 'physically', 'move', 'replicate', 'data', '', 'provides', 'layer', 'abstraction', 'presents', 'virtual', 'view', 'data', 'different', 'sources', '', 'making', 'appear', 'resides', 'single', '', 'centralized', 'location', '']


supprimer les chaînes vides de cette liste

In [25]:
filtered_list = [word for word in filtered_tokens if word != '']

In [26]:
print(filtered_list )

['Data', 'virtualization', 'concept', 'technology', 'allows', 'organizations', 'access', 'manage', 'data', 'various', 'sources', 'unified', 'simplified', 'manner', 'without', 'need', 'physically', 'move', 'replicate', 'data', 'provides', 'layer', 'abstraction', 'presents', 'virtual', 'view', 'data', 'different', 'sources', 'making', 'appear', 'resides', 'single', 'centralized', 'location']


In [37]:
text = ' '.join(filtered_list)

In [38]:
text

'Data virtualization concept technology allows organizations access manage data various sources unified simplified manner without need physically move replicate data provides layer abstraction presents virtual view data different sources making appear resides single centralized location'

2.3 Transformation en Minuscules

Cohérence et normalisation  :Par exemple, "Chat", "chat" et "CHAT" seront tous convertis en "chat", ce qui facilite la comparaison et la recherche de mots.

In [27]:
WORDS= ["RUNNING", "Played", "AM", "BEAUtiful", "Dogs"]

In [28]:
words = [word.lower() for word in WORDS]

In [29]:
print(words)


['running', 'played', 'am', 'beautiful', 'dogs']


3. Tokenisation

La tokenisation est le processus de division d'un texte en unités plus petites appelées "tokens". Un token peut être un mot, une phrase ou même un caractère, selon le niveau de granularité souhaité.

In [30]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [33]:
# Conversion en minuscules
Text = Text.lower()
stop_words = set(stopwords.words("english"))
punctuation = set(string.punctuation)
# Tokenisation des mots
tokens = word_tokenize(Text)

# Suppression des mots vides et de la ponctuation
tokens = [token for token in tokens if token not in stop_words and token not in punctuation]

In [35]:
print(tokens)



['data', 'virtualization', 'concept', 'technology', 'allows', 'organizations', 'access', 'manage', 'data', 'various', 'sources', 'unified', 'simplified', 'manner', 'without', 'need', 'physically', 'move', 'replicate', 'data', 'provides', 'layer', 'abstraction', 'presents', 'virtual', 'view', 'data', 'different', 'sources', 'making', 'appear', 'resides', 'single', 'centralized', 'location']


4. Lemmatisation & Stemming

4.1 Lemmatisation

a lemmatisation vise à ramener les mots à leur forme de base, appelée "lemme", qui est linguistiquement correcte et représente le sens fondamental du mot. Par exemple, le lemme du mot "marches" est "marche" (verbe "marcher"), et le lemme du mot "meilleures" est "meilleur" (adjectif "bon")

 le stemming est un processus plus simple et plus rapide qui consiste à réduire les mots à leur racine, en supprimant les suffixes et les préfixes. Le stemming se base sur des règles heuristiques et des algorithmes de correspondance de motifs pour effectuer cette réduction. Par exemple, le stemming pourrait réduire les mots "marches", "marchant" et "marchait" à la racine "march".

 La lemmatisation produit généralement des lemmes qui sont des mots réels et linguistiquement corrects, tandis que le stemming peut générer des racines qui ne sont pas nécessairement des mots valides. Par conséquent, la lemmatisation est considérée comme une méthode plus précise pour normaliser les mots, mais elle est également plus complexe et peut nécessiter des ressources linguistiques supplémentaires.

In [40]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words_tok = ["running", "played", "am", "beautiful", "dogs", "better"]

lemmatized_words = []
for word in words_tok:
    lemmatized_word = lemmatizer.lemmatize(word)
    lemmatized_words.append(lemmatized_word)

print(lemmatized_words)

['running', 'played', 'am', 'beautiful', 'dog', 'better']


j'ai utilisé le WordNetLemmatizer sans spécifier la partie du discours (part of speech - POS). Par défaut, sans spécifier la POS, le WordNetLemmatizer considère les mots comme des noms (nouns).

In [39]:
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

lemmatizer = WordNetLemmatizer()

words_tok = ["running", "played", "am", "beautiful", "dogs", "better"]

lemmatized_words = []
for word in words_tok:
    pos = wordnet.VERB if word.endswith("ed") else wordnet.NOUN
    lemmatized_word = lemmatizer.lemmatize(word, pos=pos)
    lemmatized_words.append(lemmatized_word)

print(lemmatized_words)

['running', 'play', 'am', 'beautiful', 'dog', 'better']


Dans cet exemple, j'ai utilisé une heuristique simple pour déterminer la partie du discours (POS) en se basant sur la terminaison du mot. Les mots se terminant par "ed" sont considérés comme des verbes (VERB), tandis que les autres mots sont considérés comme des noms (NOUN).

In [43]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

lemmatizer = WordNetLemmatizer()

lemmatized_text = []
for word in tokens:
    lemmatized_word = lemmatizer.lemmatize(word)
    lemmatized_text.append(lemmatized_word)

lemmatized_text = ' '.join(lemmatized_text)
print(lemmatized_text)

data virtualization concept technology allows organization access manage data various source unified simplified manner without need physically move replicate data provides layer abstraction present virtual view data different source making appear resides single centralized location


In [46]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

lemmatizer = WordNetLemmatizer()

lemmatized_text = []
for word in tokens:
    pos = wordnet.VERB if word.endswith("ed") else wordnet.NOUN
    lemmatized_word = lemmatizer.lemmatize(word, pos=pos)
    lemmatized_text.append(lemmatized_word)

lemmatized_text = ' '.join(lemmatized_text)
print(lemmatized_text)

data virtualization concept technology allows organization access manage data various source unify simplify manner without need physically move replicate data provides layer abstraction present virtual view data different source making appear resides single centralize location


In [49]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

mots = ["manges", "jouent", "suis", "suivons", "corpora", "heureusement", "grandes", "better"]

lemmatized_words = []
for mot in mots:
    lemmatized_word = lemmatizer.lemmatize(mot, pos='v')
    lemmatized_words.append(lemmatized_word)

print(lemmatized_words)

['manges', 'jouent', 'suis', 'suivons', 'corpora', 'heureusement', 'grandes', 'better']


 le WordNetLemmatizer de NLTK est principalement basé sur WordNet, qui est une ressource lexicale disponible en anglais.



In [48]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("french")

mots = ["manges", "jouent", "suis", "suivons", "corpora", "heureusement", "grandes", "better"]

stemmed_words = []
for mot in mots:
    stemmed_word = stemmer.stem(mot)
    stemmed_words.append(stemmed_word)

print(stemmed_words)

['mang', 'jouent', 'suis', 'suivon', 'corpor', 'heureux', 'grand', 'bet']


4.2 Stemming

In [50]:
from nltk.stem import SnowballStemmer

stemmer = SnowballStemmer("english")

text = "'Data virtualization concept technology allows organizations access manage data various sources unified simplified manner without need physically move replicate data provides layer abstraction presents virtual view data different sources making appear resides single centralized locatio'"

words = text.split()

stemmed_words = [stemmer.stem(word) for word in words]

stemmed_text = ' '.join(stemmed_words)

print(stemmed_text)

data virtual concept technolog allow organ access manag data various sourc unifi simplifi manner without need physic move replic data provid layer abstract present virtual view data differ sourc make appear resid singl central locatio


In [51]:
from nltk.stem import SnowballStemmer, PorterStemmer, LancasterStemmer

text = "'Data virtualization concept technology allows organizations access manage data various sources unified simplified manner without need physically move replicate data provides layer abstraction presents virtual view data different sources making appear resides single centralized locatio'"

# Snowball Stemmer
snowball_stemmer = SnowballStemmer("english")
snowball_stemmed_words = [snowball_stemmer.stem(word) for word in text.split()]
snowball_stemmed_text = ' '.join(snowball_stemmed_words)

# Porter Stemmer
porter_stemmer = PorterStemmer()
porter_stemmed_words = [porter_stemmer.stem(word) for word in text.split()]
porter_stemmed_text = ' '.join(porter_stemmed_words)

# Lancaster Stemmer
lancaster_stemmer = LancasterStemmer()
lancaster_stemmed_words = [lancaster_stemmer.stem(word) for word in text.split()]
lancaster_stemmed_text = ' '.join(lancaster_stemmed_words)

print("Snowball Stemmer:", snowball_stemmed_text)
print("Porter Stemmer:", porter_stemmed_text)
print("Lancaster Stemmer:", lancaster_stemmed_text)

Snowball Stemmer: data virtual concept technolog allow organ access manag data various sourc unifi simplifi manner without need physic move replic data provid layer abstract present virtual view data differ sourc make appear resid singl central locatio
Porter Stemmer: 'data virtual concept technolog allow organ access manag data variou sourc unifi simplifi manner without need physic move replic data provid layer abstract present virtual view data differ sourc make appear resid singl central locatio'
Lancaster Stemmer: 'data virt conceiv technolog allow org access man dat vary sourc un simpl man without nee phys mov reply dat provid lay abstract pres virt view dat diff sourc mak appear resid singl cent locatio'


Le Snowball Stemmer et le Porter Stemmer ont produit des résultats assez similaires, avec quelques variations mineures dans la racinisation des mots.

Le Lancaster Stemmer a produit des résultats plus agressifs, avec des racines plus courtes et des modifications plus importantes des mots.

5. Word Embeddings avec Word2Vec

Les embeddings de mots (Word Embeddings en anglais) sont une représentation numérique des mots dans le traitement du langage naturel (NLP). Ils sont utilisés pour capturer et représenter les relations sémantiques et syntaxiques entre les mots d'un langage donné.

es embeddings de mots sont utilisés dans le NLP pour représenter les mots de manière dense et continue, capturant ainsi les relations sémantiques et syntaxiques entre les mots. Ils sont utilisés pour améliorer les performances des modèles de NLP et faciliter le traitement automatique du langage naturel.

Les embeddings de mots sont une technique puissante pour représenter les mots en tant que vecteurs denses dans des applications de traitement automatique du langage naturel (TALN) et sont largement utilisés dans de nombreux projets et applications de TALN.

In [54]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

text = 'data virtual concept technolog allow organ access manag data various sourc unifi simplifi manner without need physic move replic data provid layer abstract present virtual view data differ sourc make appear resid singl central locatio'

# TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform([text])
tfidf_features = tfidf_vectorizer.get_feature_names_out()

print("TfidfVectorizer:")
for i, feature in enumerate(tfidf_features):
    print(f"Feature '{feature}': {tfidf_matrix[0, i]}")

# CountVectorizer
count_vectorizer = CountVectorizer()
count_matrix = count_vectorizer.fit_transform([text])
count_features = count_vectorizer.get_feature_names_out()

print("\nCountVectorizer:")
for i, feature in enumerate(count_features):
    print(f"Feature '{feature}': {count_matrix[0, i]}")

TfidfVectorizer:
Feature 'abstract': 0.14002800840280097
Feature 'access': 0.14002800840280097
Feature 'allow': 0.14002800840280097
Feature 'appear': 0.14002800840280097
Feature 'central': 0.14002800840280097
Feature 'concept': 0.14002800840280097
Feature 'data': 0.5601120336112039
Feature 'differ': 0.14002800840280097
Feature 'layer': 0.14002800840280097
Feature 'locatio': 0.14002800840280097
Feature 'make': 0.14002800840280097
Feature 'manag': 0.14002800840280097
Feature 'manner': 0.14002800840280097
Feature 'move': 0.14002800840280097
Feature 'need': 0.14002800840280097
Feature 'organ': 0.14002800840280097
Feature 'physic': 0.14002800840280097
Feature 'present': 0.14002800840280097
Feature 'provid': 0.14002800840280097
Feature 'replic': 0.14002800840280097
Feature 'resid': 0.14002800840280097
Feature 'simplifi': 0.14002800840280097
Feature 'singl': 0.14002800840280097
Feature 'sourc': 0.28005601680560194
Feature 'technolog': 0.14002800840280097
Feature 'unifi': 0.14002800840280097
F

 The TF-IDF score represents the importance of a word in the text, considering both its frequency in the text and its rarity in the overall corpus.

In [56]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

text = 'data virtual concept technolog allow organ access manag data various sourc unifi simplifi manner without need physic move replic data provid layer abstract present virtual view data differ sourc make appear resid singl central locatio'

# Tokenize the text
tokens = word_tokenize(text)

# Train Word2Vec model
model = Word2Vec([tokens], min_count=1)

# Get the word embeddings
word_embeddings = model.wv

# Example usage: finding similar words
similar_words = word_embeddings.most_similar('data')

print("Similar words to 'data':")
for word, similarity in similar_words:
    print(f"{word}: {similarity}")

Similar words to 'data':
physic: 0.2191307246685028
manag: 0.21627198159694672
singl: 0.19568192958831787
resid: 0.09983161836862564
simplifi: 0.09325605630874634
organ: 0.0929407924413681
layer: 0.08404714614152908
unifi: 0.07984879612922668
abstract: 0.06462380290031433
various: 0.06285078823566437
