# Краткая шпаргалка по gensim

### Что в ней вообще есть

1. Word2Vec, FastText, и Doc2Vec
2. Тематическое моделирование (Topic Modeling). Поддержка LDA (Latent Dirichlet Allocation) и LSI (Latent Semantic Indexing) для извлечения тематической структуры текстов
3. Поддержка LDA (Latent Dirichlet Allocation) и LSI (Latent Semantic Indexing) для извлечения тематической структуры текстов

пусть есть очищенный текст **war_and_peace_cleaned.txt** - без знаков препинания, все в нижнем регистре, предложения - по строкам

In [6]:
from gensim.models import FastText
from gensim.models.word2vec import PathLineSentences


In [7]:
!sed -n 1,4p war_and_peace_cleaned.txt

well prince so genoa and lucca are now just family estates of the buonapartes
but i warn you if you don't tell me that this means war if you still try to defend the infamies and horrors perpetrated by that antichrist i really believe he is antichrist i will have nothing more to do with you and you are no longer my friend no longer my faithful slave as you call yourself
but how do you do
i see i have frightened you sit down and tell me all the news


In [8]:
wap_cleaned_file_path = 'war_and_peace_cleaned.txt'

In [12]:
# забирает из файла строки и бьет их на слова, объединяя в массив
wap_sentences = PathLineSentences(wap_cleaned_file_path)

In [11]:
for sentence in wap_sentences:
    print(sentence)
    break

['well', 'prince', 'so', 'genoa', 'and', 'lucca', 'are', 'now', 'just', 'family', 'estates', 'of', 'the', 'buonapartes']


## FastText

In [13]:
# создает эмбеддинги по методу FastText
model = FastText(
        wap_sentences,
        vector_size=100, # размерность эмбеддинга
        window=5,        # размер окна
        alpha=3e-2,      # лёнин рейт
        sg=1,            # skip-gram
        epochs=5,        # число эпох
        seed=42,
    )

model.save("wap_fasttext_model.bin")

#### в  model.wv теперь все самое интересное и там много всего

In [15]:
# 10 самых близких слов
print(*model.wv.most_similar('peace', topn=10), sep='\n')

('secrecy', 0.8793855905532837)
('freedom', 0.8735875487327576)
('oblige', 0.8726655840873718)
('faith', 0.8702014088630676)
('problem', 0.8701443076133728)
('profit', 0.868318498134613)
('hope', 0.8669522404670715)
('religion', 0.8630445003509521)
('success', 0.8623485565185547)
('secret', 0.8611157536506653)


In [24]:
# токены и их индексы в массиве
print(model.wv.key_to_index['peace'])
print(model.wv.index_to_key[700])
print('light' in model.wv.key_to_index)

578
calm
True


In [25]:
# слова наиболее близкие к слову
print(*model.wv.most_similar('light', topn=10), sep='\n')

('lightblue', 0.9050869345664978)
('bright', 0.9018891453742981)
('moonlight', 0.9006673693656921)
('plight', 0.8968411087989807)
('twilight', 0.8953525424003601)
('slight', 0.8887059688568115)
('flight', 0.8579339981079102)
('daylight', 0.8572800755500793)
('upright', 0.8571322560310364)
('tight', 0.8496602773666382)


In [40]:
# параметры можно выдергивать из модели
print(model.alpha, model.sg)
model_vocabulary = set(model.wv.key_to_index.keys())

0.03 1


#### дообучение уже готовых эмбеддингов на другом корпусе

In [44]:
finetuned_model = FastText.load("wap_fasttext_model.bin")

# хотим дообучить эмбеддинги на новом корпусе - не трогаем то что уже обучено
# но добавляем новые слова в словарь 
quora_processed_file_path = 'quora_processed.txt'
quora_sentences = PathLineSentences(quora_processed_file_path)

# число строу в файле
quora_sentences_count = 50000 #537272

# update=True означает добавлять новые слова
finetuned_model.build_vocab(quora_sentences, update=True)

finetuned_model.alpha = finetuned_model.min_alpha * .9 # делаем поменьше

# Remember to correctly pass the parameters
finetuned_model.train(
    quora_sentences, 
    total_examples=quora_sentences_count, 
    epochs=finetuned_model.epochs - 1, # эпох тоже можно сделать поменьше, а можно и не делать
)

finetuned_model.save("wap_quora_fasttext_model.bin")

In [45]:
finetuned_model_vocabulary = set(finetuned_model.wv.key_to_index.keys())
new_words = finetuned_model_vocabulary - model_vocabulary

print("Number of new words added:", len(new_words))
print("New words:", list(new_words)[10:20])

Number of new words added: 23840
New words: ['termination', 'kick', 'tungsten', 'pie', 'consolidated', 'subcultures', 'nazis', 'descriptive', 'paella', 'pitcher']


## Тематическое моделирование

In [46]:
from gensim.models import LdaModel
from gensim.corpora.dictionary import Dictionary

texts = [["мир", "труд", "май"], ["май", "работа", "отдых"]]
dictionary = Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

lda = LdaModel(corpus, num_topics=2, id2word=dictionary, passes=10)
topics = lda.print_topics(num_words=3)

In [47]:
topics

[(0, '0.297*"май" + 0.177*"труд" + 0.176*"мир"'),
 (1, '0.202*"работа" + 0.201*"май" + 0.201*"отдых"')]

In [48]:
lda

<gensim.models.ldamodel.LdaModel at 0x7f93e7fa42c0>

## Similarity Queries

In [77]:
texts = [["мир", "труд", "май"], ["май", "работа", "отдых"], ['яблоко','слива','груша','перец','перец']]
dictionary = Dictionary(texts)
print(dictionary[0])
corpus = [dictionary.doc2bow(text) for text in texts]

# по сути индекс слова в словаре и число вхождений
print(corpus[0], corpus[1], corpus[2])

from gensim.similarities import MatrixSimilarity
similarity_index = MatrixSimilarity(corpus)
sims = similarity_index[corpus[0]]
print("\nматрица схожести:",sims)

май
[(0, 1), (1, 1), (2, 1)] [(0, 1), (3, 1), (4, 1)] [(5, 1), (6, 2), (7, 1), (8, 1)]

матрица схожести: [0.99999994 0.3333333  0.        ]


In [61]:
sims

array([0.3333333 , 0.99999994, 0.28867513], dtype=float32)

In [78]:
texts = [["мир", "труд", "май"], ["май", "работа", "отдых"], ["мир", "май", "май"]]

from gensim.corpora.dictionary import Dictionary
from gensim.models import TfidfModel
from gensim.similarities import MatrixSimilarity

dictionary = Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]

tfidf = TfidfModel(corpus)  # Построение TF-IDF модели
corpus_tfidf = [tfidf[doc] for doc in corpus]  # Преобразование в TF-IDF

similarity_index = MatrixSimilarity(corpus_tfidf)  # Матрица схожести
sims = similarity_index[corpus_tfidf[0]]  # Сравнение первого документа со всеми
