In [1]:
import os
import nltk


In [2]:
# Obtenir le chemin absolu du répertoire de données NLTK
nltk_data_dir = os.path.abspath('./.venv/nltk_data')

# Définir la variable d'environnement NLTK_DATA
os.environ['NLTK_DATA'] = nltk_data_dir

# Télécharger les ressources NLTK
nltk.download('punkt', download_dir=nltk_data_dir)
nltk.download('stopwords', download_dir=nltk_data_dir)
nltk.download('wordnet', download_dir=nltk_data_dir)
nltk.download('punkt_tab', download_dir=nltk_data_dir)

[nltk_data] Downloading package punkt to
[nltk_data]     /home/lionel/DEVIA/NLP_/.venv/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/lionel/DEVIA/NLP_/.venv/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to
[nltk_data]     /home/lionel/DEVIA/NLP_/.venv/nltk_data...
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/lionel/DEVIA/NLP_/.venv/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

## Tokenisation

In [3]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = "L'intelligence artificielle est une science qui permet aux ordinateurs de comprendre et de traiter le langage humain. Elle est utilisée dans de nombreux domaines, tels que la reconnaissance vocale, la traduction automatique et les chatbots."
tokens = word_tokenize(text)
print(tokens)

["L'intelligence", 'artificielle', 'est', 'une', 'science', 'qui', 'permet', 'aux', 'ordinateurs', 'de', 'comprendre', 'et', 'de', 'traiter', 'le', 'langage', 'humain', '.', 'Elle', 'est', 'utilisée', 'dans', 'de', 'nombreux', 'domaines', ',', 'tels', 'que', 'la', 'reconnaissance', 'vocale', ',', 'la', 'traduction', 'automatique', 'et', 'les', 'chatbots', '.']


## Nettoyage

In [10]:
import re
import regex

def clean_text(text):
    # Supprimer les caractères spéciaux
    text = re.sub(r'[^a-zA-Z]', ' ', text)
    # Supprimer les espaces multiples et le début et la fin de la chaîne
    text = re.sub(r"\s+", " ", text).strip()
    return text.lower()

def clean_text2(text):
    # Supprimer les caractères spéciaux
    text = regex.sub(r"[^\p{L}]", " ", text)
    # Supprimer les espaces multiples et le début et la fin de la chaîne
    text = re.sub(r"\s+", " ", text).strip()
    return text.lower()


clean_txt = clean_text2(text)
print(clean_txt)

l intelligence artificielle est une science qui permet aux ordinateurs de comprendre et de traiter le langage humain elle est utilisée dans de nombreux domaines tels que la reconnaissance vocale la traduction automatique et les chatbots


In [11]:
tokens = word_tokenize(clean_txt)
print(tokens)

['l', 'intelligence', 'artificielle', 'est', 'une', 'science', 'qui', 'permet', 'aux', 'ordinateurs', 'de', 'comprendre', 'et', 'de', 'traiter', 'le', 'langage', 'humain', 'elle', 'est', 'utilisée', 'dans', 'de', 'nombreux', 'domaines', 'tels', 'que', 'la', 'reconnaissance', 'vocale', 'la', 'traduction', 'automatique', 'et', 'les', 'chatbots']


## Stop Words

In [None]:
from nltk.corpus import stopwords
stop_words = set(stopwords.words('french'))

# Filtrer les mots non stop words
filtered_tokens = [w for w in tokens if w.lower() not in stop_words and w.isalnum()]
print(filtered_tokens)
print(len(filtered_tokens))
print(len(tokens))

['intelligence', 'artificielle', 'science', 'permet', 'ordinateurs', 'comprendre', 'traiter', 'langage', 'humain', 'utilisée', 'nombreux', 'domaines', 'tels', 'reconnaissance', 'vocale', 'traduction', 'automatique', 'chatbots']
18
36


## Stemming

In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

stems = [stemmer.stem(w) for w in filtered_tokens]
print(stems)
print(len(stems))

['intellig', 'artificiel', 'scienc', 'permet', 'ordinateur', 'comprendr', 'traiter', 'langag', 'humain', 'utilisé', 'nombreux', 'domain', 'tel', 'reconnaiss', 'vocal', 'traduct', 'automatiqu', 'chatbot']


## Lemmatization

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

lemmas = [lemmatizer.lemmatize(w) for w in filtered_tokens]
print(lemmas)
print(len(lemmas))

['intelligence', 'artificielle', 'science', 'permet', 'ordinateurs', 'comprendre', 'traiter', 'langage', 'humain', 'utilisée', 'nombreux', 'domaines', 'tels', 'reconnaissance', 'vocale', 'traduction', 'automatique', 'chatbots']
18


## Test en Anglais

In [22]:
eng_text = "Artificial intelligence is a field of study that focuses on creating intelligent machines."
clean_txt2 = clean_text2(eng_text)
tokens = word_tokenize(clean_txt2)
stop_words = set(stopwords.words('english'))
filtered_tokens = [w for w in tokens if w.lower() not in stop_words and w.isalnum()]
lemmas = [lemmatizer.lemmatize(w) for w in filtered_tokens]
print(lemmas)

['artificial', 'intelligence', 'field', 'study', 'focus', 'creating', 'intelligent', 'machine']


In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

mon_text = [
    "Je suis un développeur",
    "Le Chien mange un os",
    "La voiture roule à vitesse élevée",
    "le chien regarde le chat",
    "Le chat dort sur le canapé",
    "Le chat fait une pause",
    "Le chat joue avec un balle",
    "le poisson regarde le chat"
]
vectorizer = CountVectorizer()
bow = vectorizer.fit_transform(mon_text)
df = pd.DataFrame(bow.toarray(), columns=vectorizer.get_feature_names_out())
print(df)



   avec  balle  canapé  chat  chien  dort  développeur  fait  je  joue  ...  \
0     0      0       0     0      0     0            1     0   1     0  ...   
1     0      0       0     0      1     0            0     0   0     0  ...   
2     0      0       0     0      0     0            0     0   0     0  ...   
3     0      0       0     1      1     0            0     0   0     0  ...   
4     0      0       1     1      0     1            0     0   0     0  ...   
5     0      0       0     1      0     0            0     1   0     0  ...   
6     1      1       0     1      0     0            0     0   0     1  ...   
7     0      0       0     1      0     0            0     0   0     0  ...   

   poisson  regarde  roule  suis  sur  un  une  vitesse  voiture  élevée  
0        0        0      0     1    0   1    0        0        0       0  
1        0        0      0     0    0   1    0        0        0       0  
2        0        0      1     0    0   0    0        1        

In [32]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

mon_text = [
    "Je suis un développeur",
    "Le Chien mange un os",
    "La voiture roule à vitesse élevée",
    "le chien regarde le chat",
    "Le chat dort sur le canapé",
    "Le chat fait une pause",
    "Le chat joue avec un balle",
    "le poisson regarde le chat"
]
vectorizer = TfidfVectorizer()
bow = vectorizer.fit_transform(mon_text)
df = pd.DataFrame(bow.toarray(), columns=vectorizer.get_feature_names_out())
print(df)



       avec     balle    canapé      chat     chien      dort  développeur  \
0  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000     0.532774   
1  0.000000  0.000000  0.000000  0.000000  0.449574  0.000000     0.000000   
2  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000     0.000000   
3  0.000000  0.000000  0.000000  0.340407  0.508289  0.000000     0.000000   
4  0.000000  0.000000  0.481467  0.270233  0.000000  0.481467     0.000000   
5  0.000000  0.000000  0.000000  0.297275  0.000000  0.000000     0.000000   
6  0.494605  0.494605  0.000000  0.277607  0.000000  0.000000     0.000000   
7  0.000000  0.000000  0.000000  0.323176  0.000000  0.000000     0.000000   

       fait        je      joue  ...   poisson   regarde     roule      suis  \
0  0.000000  0.532774  0.000000  ...  0.000000  0.000000  0.000000  0.532774   
1  0.000000  0.000000  0.000000  ...  0.000000  0.000000  0.000000  0.000000   
2  0.000000  0.000000  0.000000  ...  0.000000  0.000000 

In [42]:
from sklearn.cluster import KMeans
mon_text = [
    "ce film est super nul",
    "mon telephone est cassé",
    " la fibre c'est génial", 
    " le scenario est plat et les acteurs sont mauvais",
    "le film est mal fait",
    "le film est trop long",
    " mon telephone est vieux",
    "la fibre est faible",
]
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(mon_text)
kmeans = KMeans(n_clusters=2, random_state=42)
kmeans.fit(X)

for i, label in enumerate(kmeans.labels_):
    print(f"Texte {i+1}: {mon_text[i]} - Groupe: {label}")

Texte 1: ce film est super nul - Groupe: 1
Texte 2: mon telephone est cassé - Groupe: 0
Texte 3:  la fibre c'est génial - Groupe: 0
Texte 4:  le scenario est plat et les acteurs sont mauvais - Groupe: 1
Texte 5: le film est mal fait - Groupe: 1
Texte 6: le film est trop long - Groupe: 1
Texte 7:  mon telephone est vieux - Groupe: 0
Texte 8: la fibre est faible - Groupe: 0


### Embedding

In [3]:
import gensim.downloader as api
model = api.load("word2vec-google-news-300")



In [13]:
result = model.most_similar(positive = ["king"], negative = ["man"], topn=1)
print(f'Roi - homme + femme : "{result[0][0]}", cosine similarity : {result[0][1]}')

Roi - homme + femme : "kings", cosine similarity : 0.4295138418674469


In [20]:
list = ["banana", "orange", "apple" ,"strawberry" ]
intrus = model.doesnt_match(list)
print(f"l'intrus est : {intrus}")

l'intrus est : orange


In [22]:
# Afficher le vecteur complet du mot "joy"
word = "king"
if word in model:
    vector = model[word]
    print(f"Vecteur pour '{word}' (Taille: {len(vector)}) :")
    print(vector)
else:
    print("Le mot n'est pas dans le dictionnaire.")

Vecteur pour 'king' (Taille: 300) :
[ 1.25976562e-01  2.97851562e-02  8.60595703e-03  1.39648438e-01
 -2.56347656e-02 -3.61328125e-02  1.11816406e-01 -1.98242188e-01
  5.12695312e-02  3.63281250e-01 -2.42187500e-01 -3.02734375e-01
 -1.77734375e-01 -2.49023438e-02 -1.67968750e-01 -1.69921875e-01
  3.46679688e-02  5.21850586e-03  4.63867188e-02  1.28906250e-01
  1.36718750e-01  1.12792969e-01  5.95703125e-02  1.36718750e-01
  1.01074219e-01 -1.76757812e-01 -2.51953125e-01  5.98144531e-02
  3.41796875e-01 -3.11279297e-02  1.04492188e-01  6.17675781e-02
  1.24511719e-01  4.00390625e-01 -3.22265625e-01  8.39843750e-02
  3.90625000e-02  5.85937500e-03  7.03125000e-02  1.72851562e-01
  1.38671875e-01 -2.31445312e-01  2.83203125e-01  1.42578125e-01
  3.41796875e-01 -2.39257812e-02 -1.09863281e-01  3.32031250e-02
 -5.46875000e-02  1.53198242e-02 -1.62109375e-01  1.58203125e-01
 -2.59765625e-01  2.01416016e-02 -1.63085938e-01  1.35803223e-03
 -1.44531250e-01 -5.68847656e-02  4.29687500e-02 -2.46

In [26]:
sim = model.similarity('cat','dog')
sim

np.float32(0.76094574)

In [None]:
result = model.most_similar(positive = ["France"],topn=1)
print(f'France : "{result[0][0]}", cosine similarity : {result[0][1]}')

France : "French", cosine similarity : 0.7000749707221985


In [35]:
result = model.most_similar(positive = ["he"],topn=20)
print(f'I : "{result}"')

I : "[('He', 0.6712614297866821), ('him', 0.6681135892868042), ('his', 0.6201768517494202), ('she', 0.612994909286499), ('himself', 0.588027834892273), ('nobody', 0.5637064576148987), ('I', 0.555713951587677), ('it', 0.5354882478713989), ('never', 0.5239652395248413), ('somebody', 0.5205153822898865), ('that', 0.5165579915046692), ('anybody', 0.5164058804512024), ('&_quotHe', 0.5146152377128601), ('saidhe', 0.5031726956367493), ('endless_bar_mitzvahs', 0.5028665661811829), ('worry_Buddy_Shadid', 0.5022481083869934), ('thathe', 0.4992711842060089), ('me', 0.498049259185791), ('She', 0.49661505222320557), ("hadn'tI", 0.49516546726226807)]"
