In [1]:
import gensim
from gensim import corpora
from gensim.models import LdaModel

# Charger les documents
doc1 = "Bonjour, pouvez-vous m'aider s'il vous plaît ?"
doc2 = "Bien sûr, que puis-je faire pour vous ?"
doc3 = "Je rencontre un problème avec mon ordinateur, il ne démarre plus."
doc4 = "Avez-vous essayé de le redémarrer ?"
doc5 = "Oui, mais il ne fonctionne toujours pas."
documents = [doc1, doc2, doc3, doc4, doc5]

# Tokenisation des documents
tokenized_docs = [doc.lower().split() for doc in documents]

# Création du dictionnaire
dictionary = corpora.Dictionary(tokenized_docs)

# Création du corpus (représentation en sac de mots)
corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Entraînement du modèle LDA
lda_model = LdaModel(corpus=corpus, id2word=dictionary, num_topics=2, passes=10)

# Affichage des sujets les plus probables dans chaque document
for i, doc in enumerate(corpus):
    print("Document ", i+1, ": ", documents[i])
    print("Sujets : ")
    for topic, proba in lda_model.get_document_topics(doc):
        print(" - Sujet ", topic+1, ": probabilité=", proba)


Document  1 :  Bonjour, pouvez-vous m'aider s'il vous plaît ?
Sujets : 
 - Sujet  1 : probabilité= 0.07259065
 - Sujet  2 : probabilité= 0.92740935
Document  2 :  Bien sûr, que puis-je faire pour vous ?
Sujets : 
 - Sujet  1 : probabilité= 0.93678296
 - Sujet  2 : probabilité= 0.063217066
Document  3 :  Je rencontre un problème avec mon ordinateur, il ne démarre plus.
Sujets : 
 - Sujet  1 : probabilité= 0.047917284
 - Sujet  2 : probabilité= 0.95208275
Document  4 :  Avez-vous essayé de le redémarrer ?
Sujets : 
 - Sujet  1 : probabilité= 0.07776173
 - Sujet  2 : probabilité= 0.92223823
Document  5 :  Oui, mais il ne fonctionne toujours pas.
Sujets : 
 - Sujet  1 : probabilité= 0.9308633
 - Sujet  2 : probabilité= 0.06913668


In [2]:
import gensim
from gensim import corpora
from gensim.models import TfidfModel

# Charger les documents
doc1 = "Bonjour, pouvez-vous m'aider s'il vous plaît ?"
doc2 = "Bien sûr, que puis-je faire pour vous ?"
doc3 = "Je rencontre un problème avec mon ordinateur, il ne démarre plus."
doc4 = "Avez-vous essayé de le redémarrer ?"
doc5 = "Oui, mais il ne fonctionne toujours pas."
documents = [doc1, doc2, doc3, doc4, doc5]

# Tokenisation des documents
tokenized_docs = [doc.lower().split() for doc in documents]

# Création du dictionnaire
dictionary = corpora.Dictionary(tokenized_docs)

# Création du corpus (représentation en sac de mots)
corpus = [dictionary.doc2bow(doc) for doc in tokenized_docs]

# Création du modèle TF-IDF
tfidf_model = TfidfModel(corpus)

# Application du modèle TF-IDF au corpus
tfidf_corpus = tfidf_model[corpus]

# Affichage des poids TF-IDF pour le premier document
print("Poids TF-IDF pour le premier document :")
for term, weight in tfidf_corpus[0]:
    print(dictionary[term], ":", weight)


Poids TF-IDF pour le premier document :
? : 0.1362711304020637
bonjour, : 0.42934401376036485
m'aider : 0.42934401376036485
plaît : 0.42934401376036485
pouvez-vous : 0.42934401376036485
s'il : 0.42934401376036485
vous : 0.24443561168463546


In [3]:
from gensim.parsing.preprocessing import lemmatize

# Texte brut à lemmatiser
text = "Les chats sont des animaux adorables et les chiens sont très fidèles."

# Tokenisation du texte brut en mots
words = text.split()

# Lemmatisation des mots
lemmatized_words = lemmatize(" ".join(words))

# Affichage des mots lemmatisés
for word in lemmatized_words:
    print(word.decode("utf-8"))

ImportError: cannot import name 'lemmatize' from 'gensim.parsing.preprocessing' (C:\Users\SACI Thizri\anaconda3\lib\site-packages\gensim\parsing\preprocessing.py)

In [4]:
from gensim.utils import tokenize

# Texte brut à tokenizer
text = "Les chats sont des animaux adorables et les chiens sont très fidèles."

# Tokenization du texte brut
tokens = list(tokenize(text, lowercase=True))

# Affichage des tokens
for token in tokens:
    print(token)

les
chats
sont
des
animaux
adorables
et
les
chiens
sont
très
fidèles


In [5]:
from gensim.utils import tokenize

# Texte brut à tokenizer
text = "لم يستطع إيجاد حل للمشكلة بالحبل ، لكنه حاول أن لا يكون قاسياً على نفسه ، لأن الأطفال السود لا يتلقون تربية جيدة ."

# Tokenization du texte brut
tokens = list(tokenize(text, lowercase=True))

# Affichage des tokens
for token in tokens:
    print(token)

لم
يستطع
إيجاد
حل
للمشكلة
بالحبل
لكنه
حاول
أن
لا
يكون
قاسيا
على
نفسه
لأن
الأطفال
السود
لا
يتلقون
تربية
جيدة


In [6]:
from gensim.models import Word2Vec

# Exemple de corpus de texte
sentences = [["this", "is", "a", "sentence"], ["so", "is", "this", "one"]]

# Entraînement d'un modèle Word2Vec
model = Word2Vec(sentences, min_count=1)

# Récupération des vecteurs de mots pour un mot donné
vector = model.wv['sentence']

# Recherche des mots similaires à un mot donné
similar_words = model.wv.most_similar('this')

# Affichage des résultats
print("Vecteur de 'sentence':", vector)
print("Mots similaires à 'this':", similar_words)

Vecteur de 'sentence': [-0.00713902  0.00124103 -0.00717672 -0.00224462  0.0037193   0.00583312
  0.00119818  0.00210273 -0.00411039  0.00722533 -0.00630704  0.00464721
 -0.00821997  0.00203647 -0.00497705 -0.00424769 -0.00310899  0.00565521
  0.0057984  -0.00497465  0.00077333 -0.00849578  0.00780981  0.00925729
 -0.00274233  0.00080022  0.00074665  0.00547788 -0.00860608  0.00058445
  0.00686942  0.00223159  0.00112468 -0.00932216  0.00848237 -0.00626413
 -0.00299237  0.00349379 -0.00077263  0.00141129  0.00178199 -0.0068289
 -0.00972481  0.00904058  0.00619805 -0.00691293  0.00340348  0.00020606
  0.00475374 -0.00711994  0.00402695  0.00434743  0.00995737 -0.00447374
 -0.00138927 -0.00731732 -0.00969783 -0.00908026 -0.00102276 -0.00650329
  0.00484973 -0.00616403  0.00251919  0.00073944 -0.00339216 -0.00097922
  0.00997912  0.00914589 -0.00446183  0.00908303 -0.00564176  0.00593092
 -0.00309722  0.00343175  0.00301723  0.00690046 -0.00237388  0.00877504
  0.00758943 -0.00954765 -0.0

In [2]:
#Exemple de calcul de similarités : 

from gensim.models import KeyedVectors

# load the google word2vec model
filename = '/Users/yuyanq/gensim-data/GoogleNews-vectors-negative300.bin'
model = KeyedVectors.load_word2vec_format(filename, binary=True)

# calculate: (king - man) + woman = ?
result = model.most_similar(positive=['woman', 'king'], negative=['man'], topn=1)
print(result)


[('queen', 0.7118192911148071)]
