In [44]:
import numpy as np
import pandas as pd

import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer

import gensim
from gensim.utils import simple_preprocess
from gensim.parsing.preprocessing import STOPWORDS
from gensim import corpora, models

# Настраиваем NLTK

In [15]:
nltk.download('punkt')
nltk.download('stopwords')
stop_words = stopwords.words("russian");

[nltk_data] Downloading package punkt to /home/kostanew/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/kostanew/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


# Делаем для одной строки

In [16]:
full_data = pd.read_csv('full_data.csv').full
test_string = full_data[0]
test_string

'Система биометрической идентификации по лицу интегрированная с графовой базой данныъ Система позволяет не только регистрировать субъектов и осуществлять их идентификацию, но и проводить поиск с использованием аппарата сетевых графов для выявления связи между субъектами (кто, с кем и как часто ходит вместе, с кем его видели и т.п.) Веб-сервис интегрированный с видеоархивом (развертывание в локальной сети УрФУ)'

In [17]:
tokens = word_tokenize(test_string, language="russian")
tokens

['Система',
 'биометрической',
 'идентификации',
 'по',
 'лицу',
 'интегрированная',
 'с',
 'графовой',
 'базой',
 'данныъ',
 'Система',
 'позволяет',
 'не',
 'только',
 'регистрировать',
 'субъектов',
 'и',
 'осуществлять',
 'их',
 'идентификацию',
 ',',
 'но',
 'и',
 'проводить',
 'поиск',
 'с',
 'использованием',
 'аппарата',
 'сетевых',
 'графов',
 'для',
 'выявления',
 'связи',
 'между',
 'субъектами',
 '(',
 'кто',
 ',',
 'с',
 'кем',
 'и',
 'как',
 'часто',
 'ходит',
 'вместе',
 ',',
 'с',
 'кем',
 'его',
 'видели',
 'и',
 'т.п.',
 ')',
 'Веб-сервис',
 'интегрированный',
 'с',
 'видеоархивом',
 '(',
 'развертывание',
 'в',
 'локальной',
 'сети',
 'УрФУ',
 ')']

In [26]:
# Удаляем все знаки препинания
tokens = [word for word in tokens if word.isalnum()]
# Удаляем все стоп-слова (предлоги и т.д.) 
tokens = [token for token in tokens if token not in stop_words]
# Удаляем окончания
snowball = SnowballStemmer(language="russian")
tokens = [snowball.stem(token) for token in tokens]

# Собираем обратно в строку, чтобы потом выделять строки
string_for_analysis = ' '.join(tokens)
string_for_analysis

'инструмент манипуляц виртуальн сцен представл соб пространств огранич стен потолк котор пользовател наход разнообразн объект например геометрическ тел врем врем загор област виртуальн пространств задач пользовател взят люб предмет перемест указ точк посл цел област полож располож цел рандомн пользовател предлаг сесс след отлич усл 1 пользовател управл объект помощ контроллер контроллер имеет визуальн представл виртуальн пространств контроллер имеет визуальн представл виртуальн пространств когд пользовател навод выбр объект объект подсвечив ост подсвеч пок пользовател выполн захват посл захват объект передвиг пространств отпуст люб мест контроллер имеет визуальн представл виртуальн пространств объект сво вид вне завис навед контроллер захват визуальн определ объект передвиг виртуальн пространств пользовател такж отпуст объект люб мест контроллер имеет визуальн представл виртуальн пространств контроллер имеет визуальн представл виртуальн пространств когд пользовател навод выбр объект об

In [27]:
indexes = []
text_collection = []
tokenized_collection = []

for idx,test_string in enumerate(full_data.values):
    if isinstance(test_string, str):
        tokens = word_tokenize(test_string, language="russian")
        # Удаляем все знаки препинания
        tokens = [word for word in tokens if word.isalnum()]
        # Удаляем все стоп-слова (предлоги и т.д.) 
        tokens = [token for token in tokens if token not in stop_words]
        # Удаляем окончания
        snowball = SnowballStemmer(language="russian")
        tokens = [snowball.stem(token) for token in tokens]
        
        tokenized_collection.append(tokens)

        # Собираем обратно в строку, чтобы потом выделять строки
        string_for_analysis = ' '.join(tokens)
        string_for_analysis

        text_collection.append(string_for_analysis)
        indexes.append(idx)

In [28]:
len(tokenized_collection), len(text_collection), len(indexes)

(357, 357, 357)

# LDA+BoW

In [39]:
dictionary = gensim.corpora.Dictionary(tokenized_collection)
dictionary

<gensim.corpora.dictionary.Dictionary at 0x7f203dba7850>

In [40]:
bow_corpus = [dictionary.doc2bow(doc) for doc in tokenized_collection]
bow_corpus

[[(0, 1),
  (1, 1),
  (2, 1),
  (3, 1),
  (4, 1),
  (5, 1),
  (6, 1),
  (7, 1),
  (8, 1),
  (9, 1),
  (10, 2),
  (11, 2),
  (12, 1),
  (13, 2),
  (14, 1),
  (15, 1),
  (16, 1),
  (17, 1),
  (18, 1),
  (19, 1),
  (20, 1),
  (21, 1),
  (22, 1),
  (23, 1),
  (24, 1),
  (25, 2),
  (26, 2),
  (27, 1),
  (28, 1),
  (29, 1)],
 [(2, 1),
  (4, 2),
  (10, 1),
  (11, 1),
  (15, 1),
  (17, 1),
  (18, 1),
  (20, 1),
  (23, 1),
  (25, 2),
  (27, 1),
  (30, 1),
  (31, 1),
  (32, 1),
  (33, 1),
  (34, 1),
  (35, 1),
  (36, 1),
  (37, 1),
  (38, 2),
  (39, 1),
  (40, 1),
  (41, 1),
  (42, 1),
  (43, 1),
  (44, 1),
  (45, 1),
  (46, 1)],
 [(25, 2),
  (29, 1),
  (32, 1),
  (47, 1),
  (48, 2),
  (49, 1),
  (50, 2),
  (51, 1),
  (52, 1),
  (53, 1),
  (54, 2),
  (55, 2)],
 [(7, 1),
  (25, 2),
  (32, 1),
  (51, 1),
  (56, 1),
  (57, 2),
  (58, 2),
  (59, 1),
  (60, 2),
  (61, 1),
  (62, 1),
  (63, 1),
  (64, 2),
  (65, 1),
  (66, 2),
  (67, 2),
  (68, 2),
  (69, 1)],
 [(7, 1),
  (25, 2),
  (32, 1),
  (48, 2)

In [51]:
bow_doc_100 = bow_corpus[100] 

for i in range(len(bow_doc_100)):
    print("Word {} (\"{}\") appears {} time.".format(bow_doc_100[i][0], 
                                               dictionary[bow_doc_100[i][0]], 
bow_doc_100[i][1]))

Word 67 ("стоимост") appears 2 time.
Word 179 ("прогнозирован") appears 2 time.
Word 770 ("модел") appears 1 time.
Word 1382 ("постро") appears 1 time.
Word 1439 ("лом") appears 2 time.
Word 1440 ("металлическ") appears 2 time.


In [66]:
tfidf = models.TfidfModel(bow_corpus)
corpus_tfidf = tfidf[bow_corpus]

In [69]:
lda_model_tfidf = gensim.models.LdaMulticore(corpus_tfidf, num_topics=3, id2word=dictionary, passes=2, workers=4)

for idx, topic in lda_model_tfidf.print_topics(-1):
    print('Topic: {} Word: {}\n'.format(idx, topic))

Topic: 0 Word: 0.002*"алгоритм" + 0.002*"сет" + 0.001*"нейрон" + 0.001*"проект" + 0.001*"дан" + 0.001*"приложен" + 0.001*"изображен" + 0.001*"объект" + 0.001*"игр" + 0.001*"в"

Topic: 1 Word: 0.002*"игр" + 0.001*"образовательн" + 0.001*"приложен" + 0.001*"систем" + 0.001*"дан" + 0.001*"разработк" + 0.001*"модел" + 0.001*"проект" + 0.001*"https" + 0.001*"возможн"

Topic: 2 Word: 0.002*"сайт" + 0.002*"сервис" + 0.002*"игр" + 0.001*"сет" + 0.001*"приложен" + 0.001*"дан" + 0.001*"компьютерн" + 0.001*"анализ" + 0.001*"модел" + 0.001*"пользовател"

