# Embeddings

# Word Embeddings

### CBOW

In [None]:
import gensim
from nltk.tokenize import sent_tokenize, word_tokenize

In [None]:
# Données d'exemple
data = "This is a class. This is a table"

# Prétraitement des données en utilisant nltk pour obtenir des phrases et des mots
sentences = [word_tokenize(sentence.lower()) for sentence in sent_tokenize(data)]

# Construction du modèle CBOW avec Gensim
# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur.
# size: Dimension des embeddings de mots
# window: Distance maximale entre le mot courant et le mot prédit dans une phrase
cbow_model = gensim.models.Word2Vec(sentences, min_count=1, vector_size=100, window=3, sg=0)

# Affichage du vecteur du mot "this"
print("Vecteur du mot 'this':", cbow_model.wv["this"])

# Similarité entre les mots "this" et "class"
print("Similarité entre 'this' et 'class':", cbow_model.wv.similarity("this", "class"))

# Prédiction des deux mots les plus probables suivant le mot "is"
predicted_words = cbow_model.wv.most_similar(positive=["is"], topn=2)
print("Prédiction des mots suivant 'is':", predicted_words)

### Skip-grams

In [None]:
import gensim
from nltk.tokenize import sent_tokenize, word_tokenize

In [None]:
# Données d'exemple
data = "This is a class. This is a table"

# Prétraitement des données en utilisant nltk pour obtenir des phrases et des mots
sentences = [word_tokenize(sentence.lower()) for sentence in sent_tokenize(data)]

# Construction du modèle Skip-gram avec Gensim
# min_count: Ignorer tous les mots dont la fréquence totale est inférieure à cette valeur.
# size: Dimension des embeddings de mots
# window: Distance maximale entre le mot courant et le mot prédit dans une phrase
# sg: 1 pour skip-gram ; sinon CBOW.
skipgram_model = gensim.models.Word2Vec(sentences, min_count=1, vector_size=100, window=5, sg=1)

# Affichage du vecteur du mot "this"
print("Vecteur du mot 'this':", skipgram_model.wv["this"])

# Similarité entre les mots "this" et "class"
print("Similarité entre 'this' et 'class':", skipgram_model.wv.similarity("this", "class"))

# Prédiction des deux mots les plus probables suivant le mot "is"
predicted_words = skipgram_model.wv.most_similar(positive=["is"], topn=2)
print("Prédiction des mots suivant 'is':", predicted_words)

## Vectors (spaCy)

In [None]:
import spacy

In [None]:
# Charger le modèle spaCy
nlp = spacy.load("en_core_web_sm")

# Texte à analyser
text_to_analyze = "cat"
doc = nlp(text_to_analyze)

# Imprimer les vecteurs de chaque jeton sur une seule ligne
vector_list = [token.vector for token in doc]
print("Vecteurs de '{}' : {}".format(text_to_analyze, vector_list))

## Similarity

In [None]:
# Charger le modèle spaCy
nlp = spacy.load("en_core_web_sm")

# Définir les mots à comparer
words_to_compare = ["dog", "cat", "apple"]

# Calculer la similarité entre les paires de mots
for i in range(len(words_to_compare)):
    for j in range(i + 1, len(words_to_compare)):
        word1, word2 = words_to_compare[i], words_to_compare[j]
        doc1, doc2 = nlp(word1), nlp(word2)
        similarity_score = doc1.similarity(doc2)
        print("Similarité ({} / {}): {:.4f}".format(word1, word2, similarity_score))