In [None]:
-!pip install BERTopic

In [None]:
!pip install bertopic
!pip install --upgrade joblib==1.1.0 # HDBScan fails to load with joblib==1.2.0
!pip install --upgrade git+https://github.com/scikit-learn-contrib/hdbscan.git#egg=hdbscan

In [None]:
import os                                                                       # библиотека для работы с Оп.системой
import pandas as pd
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import CountVectorizer                     # Convert a collection of text documents to a matrix of token counts.
from umap import UMAP # In case we want to make results deterministic and reproducible

In [None]:
with open("stopwords.txt", 'r', encoding="utf8") as f:
    stop = f.read().splitlines()

vectorizer_model = CountVectorizer(ngram_range=(1, 1), stop_words=frozenset(stop))

In [None]:
# Prepare data
df = pd.read_csv('text_ready.csv', encoding="utf-8")
docs = df['text_ready'].values.tolist()

In [None]:
df.head()

Unnamed: 0,text_ready
0,китайском городе ухань умер заболевший новым т...
1,всемирная организация здравоохранения воз пров...
2,всемирная организация здравоохранения рассматр...
3,заболевания вызванного коронавирусом нового ти...
4,сотрудники роспотребнадзора рассказали риск ра...


In [None]:
from bertopic import BERTopic
import pandas as pd
import nltk
nltk.download('stopwords')
#from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [None]:
df.head()

Unnamed: 0,text_ready
0,китайском городе ухань умер заболевший новым т...
1,всемирная организация здравоохранения воз пров...
2,всемирная организация здравоохранения рассматр...
3,заболевания вызванного коронавирусом нового ти...
4,сотрудники роспотребнадзора рассказали риск ра...


In [None]:
docs

['китайском городе ухань умер заболевший новым типом коронавируса примерно граждан болеют состоянием нескольких сотен наблюдают медики сообщает риа новости ссылкой данные городского комитета вопросам здравоохраненияв конце прошлого местные власти объявили вспышке пневмонии неизвестного происхождения городе ухань провинции хубэй сведениям января известно случаях заражения четверг января китайским экспертам удалось выяснить возбудителем заболевания тип коронавирусавыявлен заражения предварительным диагнозом тип коронавируса человека выписаны больницы находятся тяжелом состоянии умер состояние остальных пациентов стабильное отмечается сообщениисейчас медицинские специалисты имели тесный контакт больными находятся наблюдением симптомов заражения выявленопосле эксперты предварительно установили возбудителем заболевания тип коронавируса оперативно скорректировали лечение методы наблюдения диагностикипо состоянию января полной мере завершены исследования возбудителя заболевания методом нуклеи

In [None]:
from nltk.corpus import stopwords


In [None]:
# Remove stopwords **after** generating the clusters
# NOTE: You can also perform the lemmatization here
my_stopwords = stopwords.words("russian")
vectorizer_model = CountVectorizer(stop_words=my_stopwords)

In [None]:
#from hdbscan import HDBSCAN
documents = df['text_ready'].values.tolist()
umap_model = UMAP(n_neighbors=10, n_components=3,
                  min_dist=0.0, metric='cosine', random_state=13)

In [None]:


# Load KBLab's Swedish sentence transformer model
sentence_model = SentenceTransformer("paraphrase-multilingual-mpnet-base-v2", device="cuda")

# Initialize BERTopic with the settings we want
topic_model = BERTopic(embedding_model=sentence_model,
                       vectorizer_model=vectorizer_model,
                       umap_model=umap_model,
                       calculate_probabilities=True,
                       verbose=True)

# Fit the model
#topics, probs = topic_model.fit_transform(documents)

In [None]:
# Fit the model
topics, probs = topic_model.fit_transform(documents)

Batches:   0%|          | 0/144 [00:00<?, ?it/s]

2023-06-21 10:49:12,109 - BERTopic - Transformed documents to Embeddings
2023-06-21 10:49:20,915 - BERTopic - Reduced dimensionality
2023-06-21 10:49:23,157 - BERTopic - Clustered reduced embeddings


In [None]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,1150,-1_covid_области_коронавирусом_случаев,"[covid, области, коронавирусом, случаев, корон...",[число случаев заражения коронавирусом ирланди...
1,0,757,0_вакцины_вакцина_вакцину_гамалеи,"[вакцины, вакцина, вакцину, гамалеи, спутник, ...",[пострегистрационные клинические исследования ...
2,1,187,1_китая_хубэй_ухань_провинции,"[китая, хубэй, ухань, провинции, пневмонии, ки...",[китае число скончавшихся нового типа коронави...
3,2,99,2_воз_пандемии_пандемия_оон,"[воз, пандемии, пандемия, оон, здравоохранения...",[коллективный иммунитет поможет побороть covid...
4,3,93,3_хопкинса_джонса_университета_сша,"[хопкинса, джонса, университета, сша, универси...",[новых случаев заражения коронавирусом выявлен...
...,...,...,...,...,...
93,92,10,92_сутки_россии_заболевших_подмосковье,"[сутки, россии, заболевших, подмосковье, подол...",[городские округа королев подольск красногорск...
94,93,10,93_мире_возпо_заражения_организации,"[мире, возпо, заражения, организации, зараженн...",[количество случаев заражения коронавирусом ми...
95,94,10,94_учились_заперли_отметила_подъем,"[учились, заперли, отметила, подъем, доброволь...",[въезд онкобольных детей москву лечение ограни...
96,95,10,95_воронежской_липецкой_выздоровели_дому,"[воронежской, липецкой, выздоровели, дому, под...",[число умерших воронежской области пациентов п...


In [None]:
topic_model.get_topic(0)

[('вакцины', 0.02197669912185617),
 ('вакцина', 0.012970656446988589),
 ('вакцину', 0.012380425004044847),
 ('гамалеи', 0.011750943742275843),
 ('спутник', 0.011702309768176301),
 ('препарат', 0.010378548045503427),
 ('коронавируса', 0.009684241278564043),
 ('препарата', 0.00952239523837383),
 ('доз', 0.009462367423752437),
 ('испытаний', 0.009343161333471421)]

In [None]:
topic_model.get_representative_docs(0)

['пострегистрационные клинические исследования вакцины коронавируса разработанной центром гамалеи проводиться базе нескольких медучреждений москвы определит департамент здравоохранения москвы начнутся дней сообщил риа новости директор центра александр гинцбургон уточнил исследовании принимать участие десятков идет утверждение всей документации числе страхование участников исследованияпострегистрационные исследования вакцины коронавируса разработанной центром имени гамалеи займут месяцев сообщил риа новости директор центра александр гинцбургмедики работающие красных зонах вероятно принимать участие пострегистрационных клинических исследованиях вакцины коронавируса разработанной центром гамалеи сообщил риа новости директор центра александр гинцбургминздрав россии ранее зарегистрировал первую мире вакцину профилактики covid разработанную ницэм имени гамалеи совместно российским фондом прямых инвестиций получила название спутник v глава рфпи кирилл дмитриев сообщил данный момент фонд получ

In [None]:
topic_model.get_topic(4) # topic_model.get_topic(similar_topics[0])

[('рублей', 0.037587328853177004),
 ('выплаты', 0.024919229168252875),
 ('выплат', 0.016635067344308974),
 ('средства', 0.016140099792054552),
 ('рф', 0.015025078784196285),
 ('работникам', 0.014573335021280725),
 ('средств', 0.01422507504114341),
 ('бюджета', 0.012498295168680396),
 ('медикам', 0.01167129888847064),
 ('правительства', 0.01127050232115786)]

In [None]:
topic_model.visualize_topics()

In [None]:
#fig = topic_model.visualize_topics()
#fig.write_html("/content/sample_data/ria_topic_20t.html")

In [None]:
topic_model.visualize_hierarchy()

In [None]:
hierarchical_topics = topic_model.hierarchical_topics(documents)
topic_model.visualize_hierarchy(hierarchical_topics=hierarchical_topics)

100%|██████████| 96/96 [00:00<00:00, 139.58it/s]


In [None]:
topic_model.reduce_topics(docs, nr_topics=20)

2023-06-21 10:49:48,475 - BERTopic - Reduced number of topics from 98 to 20


<bertopic._bertopic.BERTopic at 0x7f73306bb490>

In [None]:
topic_model.get_topic_info()

Unnamed: 0,Topic,Count,Name,Representation,Representative_Docs
0,-1,1150,-1_covid_случаев_коронавирусом_области,"[covid, случаев, коронавирусом, области, корон...",[число случаев заражения коронавирусом ирланди...
1,0,1021,0_вакцины_коронавируса_россии_covid,"[вакцины, коронавируса, россии, covid, вакцина...",[экспортирует рубеж технологию вакцины коронав...
2,1,480,1_случаев_число_сутки_заражения,"[случаев, число, сутки, заражения, здравоохран...",[число выявленных случаев коронавируса мире су...
3,2,462,2_китая_коронавирус_коронавируса_заболевания,"[китая, коронавирус, коронавируса, заболевания...",[китае число скончавшихся нового типа коронави...
4,3,286,3_covid_случаев_число_сутки,"[covid, случаев, число, сутки, скончались, узб...",[число инфицированных коронавирусом узбекистан...
5,4,262,4_умерших_москве_смерти_скончались,"[умерших, москве, смерти, скончались, общее, п...",[пациентов коронавирусом скончались москве сут...
6,5,210,5_рублей_области_помощи_региона,"[рублей, области, помощи, региона, рф, врачей,...",[тамбовской области стимулирующие выплаты апре...
7,6,132,6_команды_клуба_игроков_коронавирус,"[команды, клуба, игроков, коронавирус, сайте, ...",[футболистов брянского динамо заражены коронав...
8,7,117,7_режим_самоизоляции_области_мая,"[режим, самоизоляции, области, мая, регионе, и...",[власти липецкой вводят мая регионе масочный р...
9,8,101,8_маски_масок_москвы_цен,"[маски, масок, москвы, цен, собянин, медицинск...",[дефицит медицинских масок зафиксирован москве...


In [None]:
topic_model.get_topic(3)

[('covid', 0.042507833843768425),
 ('случаев', 0.041244211368712806),
 ('число', 0.04066287097693103),
 ('сутки', 0.032152721643827153),
 ('скончались', 0.027767268884734447),
 ('узбекистане', 0.02433360340508672),
 ('новых', 0.023794104523793436),
 ('области', 0.023790988587289508),
 ('общее', 0.02304314493441502),
 ('коронавирусной', 0.02284605564246496)]

In [None]:
topic_model.visualize_topics()


In [None]:
topic_model.visualize_barchart(width=280, height=330,top_n_topics=7, n_words=20)
