In [None]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

# Анализ тональности отзывов на товары, генерация ответов на отрицательные отзывы, детекция фальшивых отрицательных отзывов

План выполнения работы:
1. [EDA датасета для обучения и оценки модели и датасета для inference](https://colab.research.google.com/drive/1l45ZPxSMYo8rCczzkARkGWI0NQN1vvFc?usp=sharing)

2. Тематическое моделирование датасета для обучения и оценки модели

3. Выбор модели для классификации отзывов на товары:
  
  * Baseline - LogisticRegression
  * cnn_rand
  * cnn_static
  * cnn_non_static
  * предобученная модель с huggingface

4. Inference на тестовом датасете

5. Генерация ответов на отрицательные отзывы

#0. Загрузка модулей, импорт библиотек и пользовательские функции

In [1]:
import os
import re
import shutil
import numpy as np
import pandas as pd
import random
import time

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_curve, auc
from tqdm.notebook import tqdm
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
! pip install -U spacy



In [3]:
! python -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m52.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting pymorphy3>=1.0.0 (from ru-core-news-sm==3.7.0)
  Downloading pymorphy3-2.0.1-py3-none-any.whl.metadata (1.8 kB)
Collecting dawg-python>=0.7.1 (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading DAWG_Python-0.7.2-py2.py3-none-any.whl (11 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3>=1.0.0->ru-core-news-sm==3.7.0)
  Downloading pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m46.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Downloading pymorphy3-2.0.1-py3-none-any.whl (53 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m53.2/53.

In [4]:
import spacy

In [5]:
print(spacy.util.get_package_path("ru_core_news_sm"))

/opt/conda/lib/python3.10/site-packages/ru_core_news_sm


In [6]:
nlp = spacy.load("ru_core_news_sm")

In [None]:
# Тематическое моделирование отзывов с помощью последовательного применения инструментария Bertopic

Bertopic - Это удобный пайплайн, разработанный Мартином Гроотендорстом специально для тематического моделирования. Он выполняет:

* Создание эмбеддингов документов (sentence-transformers)
* Уменьшение размерности эмбеддингов (UMAP)
* Кластеризация уменьшенных эмбеддингов  в топики (HDBSCAN)
* Токенизация топиков
* Нахождение весов токенов ( c-TF-IDF)
* Представление топиков в одном или нескольких representations

  >>@misc{grootendorst2020bertopic,
  >>author       = {Maarten Grootendorst},
  >>title        = {BERTopic: Leveraging BERT and c-TF-IDF to create easily >>interpretable topics.},
  >>year         = 2020,
  >>publisher    = {Zenodo},
  >>version      = {v0.9.4},
  >>doi          = {10.5281/zenodo.4381785},
  >>url          = {https://doi.org/10.5281/zenodo.4381785}
>>}

Основная концепция - документ является репрезентативным по отношению только к одному топику ( в этом отличие от концепции ARTM). Топик может быть представлен эмбеддингом из ключевых токенов топика с учетом их относительной важности (весов)

In [7]:
# установка собственно пайплайна, предусматривающего использование возможностей spaCy
!pip install bertopic[spacy]

Collecting bertopic[spacy]
  Downloading bertopic-0.16.0-py2.py3-none-any.whl.metadata (21 kB)
Collecting hdbscan>=0.8.29 (from bertopic[spacy])
  Downloading hdbscan-0.8.33.tar.gz (5.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.2/5.2 MB[0m [31m35.6 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Collecting sentence-transformers>=0.4.1 (from bertopic[spacy])
  Downloading sentence_transformers-2.3.1-py3-none-any.whl.metadata (11 kB)
Collecting cython<3,>=0.27 (from hdbscan>=0.8.29->bertopic[spacy])
  Using cached Cython-0.29.37-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.manylinux_2_24_x86_64.whl.metadata (3.1 kB)
Downloading sentence_transformers-2.3.1-py3-none-any.whl (132 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.8/132.8 kB[0m [31m6.8 MB/s[0m et

In [8]:
! pip install transformers



In [None]:
Результат работы модели - найденные топики - можно представить в различных видах:
* ключевые слова и фразы,
* кастомные тэги,
* даже summaries.

При обучении модели можно получить несколько разновидностей представления топиков, это концепция multy-aspect topic modelling

In [9]:
from bertopic import BERTopic
from sentence_transformers import SentenceTransformer

2024-02-13 15:44:38.925238: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-02-13 15:44:38.925380: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-02-13 15:44:39.074472: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


In [10]:
# from bertopic.representation import BaseRepresentation # Bag of words
from bertopic.representation import KeyBERTInspired # увеличивает когерентность, снижает кол-во стоп-слов в представлениях
from bertopic.representation import PartOfSpeech  # использует возможности spacy и ее Rule-based matching
from bertopic.representation import MaximalMarginalRelevance # удаляет похожие слова из ключевых, например, car и cars.MMR учитывает схожесть ключевых слов с документом. Максимизируется их разнообразие по отношению к документу
# Используется алгорим проверки similarity. Декларируется, что это заменяет лемматизацию, которую не советуют делать, чтобы не портить
# работу Sentencetransformer
from bertopic.representation import ZeroShotClassification
from bertopic.representation import TextGeneration

In [11]:
from hdbscan import HDBSCAN
from umap import UMAP
from sklearn.feature_extraction.text import CountVectorizer
from bertopic.vectorizers import ClassTfidfTransformer

In [None]:
## Параметры модели тематического моделирования

* calculate_probability   - признак выполнения расчета вероятностей принадлежности документа ко всем найденным топикам (эти вероятности не точные, а их аппроксимация, используемая в HDBSCAN). Если False - берется максимальная вероятность, и документ относится к конкретному топику.
* n_gram_range            - Диапазон используемых n-грамм
* min_topic_size          - минимальное количество документов, в которых присутсвует данный топик
* top_n_words             -  количество ключевых токенов для топика
* seed_topic_list         - список исходных слов для каждой темы (найденный другими способами)
* zeroshot_topic_list     - список топиков, используемых для zero_shot классификации
* zeroshot_min_similarity - минимальная косинусная близость при inference для того, чтобы документ был отнесен к топику из списка zeroshot_topic_list
* diversity  

In [12]:
calculate_probabilities = True
n_gram_range            = (1,1)
min_topic_size          = 100
top_n_words             = 10
zeroshot_min_similarity = 0.7
diversity               = 0.7

In [17]:
main_representation = KeyBERTInspired()
pos_patterns = [

            [{'POS': 'NOUN'}]
]
aspect_model_1 = PartOfSpeech("ru_core_news_sm",
                              pos_patterns=pos_patterns)
aspect_model_2 =  [KeyBERTInspired(top_n_words=top_n_words),MaximalMarginalRelevance(diversity=0.5)]

representation_model = {"Main": main_representation,
                        "Aspect_1": aspect_model_1,
                        "Aspect_2": aspect_model_2
                      }

In [18]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
stopwords = stopwords.words("russian")

[nltk_data] Downloading package stopwords to /usr/share/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [19]:
import pandas as pd
df = pd.read_csv('/kaggle/input/diplom/dp_women-clothing-accessories.3-class.balanced.csv')
df.head()

Unnamed: 0,review,sentiment
0,качество плохое пошив ужасный (горловина напер...,0
1,"Товар отдали другому человеку, я не получила п...",0
2,"Ужасная синтетика! Тонкая, ничего общего с пре...",0
3,"товар не пришел, продавец продлил защиту без м...",0
4,"Кофточка голая синтетика, носить не возможно.",0


In [None]:
Тематическое моделирование выполним отдельно негативных отзывов, т.к. задача исследования - выявить причины отрицательной реакции клиентов

In [None]:
# Все-таки следует выполнить лемматизацию
!!! Добавить код

In [20]:
pos, neg, neut = df[df['sentiment']==2]['review'], df[df['sentiment']==0]['review'], df[df['sentiment']==1]['review']

In [None]:
### Разделение датасета на train и test

In [21]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(neg, test_size=0.2, random_state=42)

In [22]:
from transformers.pipelines import pipeline

In [26]:
# Модель для уменьшения размерности эмбеддингов
umap_model = UMAP(n_neighbors=15,
                  n_components=5,
                  min_dist=0.0,
                  metric='cosine',
                  low_memory=True,
                  random_state=42)

# Модель для кластеризации
hdbscan_model = HDBSCAN(min_cluster_size=100,
                        max_cluster_size=2000,
                        metric='euclidean',
                        cluster_selection_method='eom',
                        prediction_data=True,
                        min_samples=5)
# from sklearn.cluster import KMeans
# cluster_model= KMeans(n_cluster = 15, random_state=42)

# Модель для токенизации и определения весов токенов
vectorizer_model = CountVectorizer(ngram_range=n_gram_range,
                                   stop_words=stopwords, min_df=1)

# вместо vectorizer_model можно использовать ctfidf_model,
# чтобы уменьшить число часто встречающихся слов
ctfidf_model = ClassTfidfTransformer(reduce_frequent_words=True)
# Если нет GPU, то лучше CountVectorizer или TfidfTransformer(reduce_frequent_words=True)
# если GPU есть:
# или "all-mpnet-base-v2" или топовая модель с MTEB LEADERBOARD, например,"BAAI/bge-base-en-v1.5"

# Модель для получения эмбеддингов
embedding_model = pipeline("feature-extraction", model='sentence-transformers/paraphrase-multilingual-mpnet-base-v2')

# Модель для тематического моделирования
topic_model = BERTopic(language="russian",
                       top_n_words=top_n_words,
                       min_topic_size=min_topic_size,
                       n_gram_range=n_gram_range,
                       embedding_model=embedding_model,
                      #  embedding_model=nlp,   ## Это можно закомментировать и использовать другие
                       hdbscan_model=cluster_model,
                       vectorizer_model=vectorizer_model,
                       ctfidf_model=ctfidf_model,
                       calculate_probabilities=calculate_probabilities,
                       umap_model=umap_model,
                       representation_model=representation_model,
                       verbose=True)

#### Обучение модели тематической классификации на train подвыборке

In [27]:
train_topics, train_probs = topic_model.fit_transform(train)

2024-02-13 17:20:15,066 - BERTopic - Embedding - Transforming documents to embeddings.
100%|██████████| 24000/24000 [49:16<00:00,  8.12it/s] 
2024-02-13 18:09:31,716 - BERTopic - Embedding - Completed ✓
2024-02-13 18:09:31,719 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
2024-02-13 18:09:59,233 - BERTopic - Dimensionality - Completed ✓
2024-02-13 18:09:59,236 - BERTopic - Cluster - Start clustering the reduced embeddings
2024-02-13 18:10:04,407 - BERTopic - Cluster - Completed ✓
2024-02-13 18:10:04,421 - BERTopic - Representation - Extracting topics from clusters using representation models.
2024-02-13 18:11:07,601 - BERTopic - Representation - Completed ✓


In [28]:
freq = topic_model.get_topic_info()
freq.shape[0]

5

#### Анализ найденных тем

In [29]:
freq

Unnamed: 0,Topic,Count,Name,Representation,Aspect_1,Aspect_2,Representative_Docs
0,-1,631,-1_заказала_прислал_заказывала_заказывали,"[заказала, прислал, заказывала, заказывали, вы...","[товар, цвета, шапку, цвет, шапки, деньги, про...","[заказала, прислал, заказывала, заказывали, вы...","[Продавец НЕДОБРОСОВЕСТНЫЙ!!!, заказала у него..."
1,0,13252,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр..."
2,1,9872,1_доставлен_дождалась_заказывала_продавцом,"[доставлен, дождалась, заказывала, продавцом, ...","[деньги, товар, продавец, спор, заказ, месяца,...","[доставлен, дождалась, заказывала, продавцом, ...",[товар так и не пришел(( хотя прошло почти 3 м...
3,2,129,2_алиэскпресс_заказали_отправили_прислал,"[алиэскпресс, заказали, отправили, прислал, за...","[товар, деньги, спор, заказ, посылка, куртку, ...","[алиэскпресс, заказали, отправили, прислал, за...",[Доставка просто УЖАС !!!! Заказала 11.11.2017...
4,3,116,3_брака_браком_брак_разводах,"[брака, браком, брак, разводах, развода, потра...","[браком, брак, кофта, дыра, разводах, брака, м...","[брака, браком, брак, разводах, развода, потра...",[Не заказывайте !!!!приходит брак !!!!!!!!все ...


-1 это искусственно созданная тема для выбросов

In [32]:
# Топик с наибольшим числом публикаций помимо "мусорной" темы -1: top_n_words ключевых токенов в разных представлениях.
# Указаны относительные важности ( веса) ключевых токеров для каждого топика
topic_model.get_topic(1, full=True)

{'Main': [('доставлен', 0.5296174054969922),
  ('дождалась', 0.5127532713208133),
  ('заказывала', 0.5098756618479667),
  ('продавцом', 0.5091202156708573),
  ('продавцу', 0.5082015789573403),
  ('продавец', 0.49911326517286436),
  ('продавца', 0.4980558637681781),
  ('посылку', 0.4975631057835784),
  ('заказ', 0.4955926724085198),
  ('заказа', 0.49161658803969854)],
 'Aspect_1': [('деньги', 0.500330171408597),
  ('товар', 0.47847400724345474),
  ('продавец', 0.4735307060223742),
  ('спор', 0.4596249426841723),
  ('заказ', 0.4382426426172762),
  ('месяца', 0.3733089971377347),
  ('продавца', 0.32910476479534195),
  ('посылка', 0.315937225998591),
  ('денег', 0.31306953239627333),
  ('трек', 0.3110333902179897)],
 'Aspect_2': [('доставлен', 0.5296174054969922),
  ('дождалась', 0.5127532713208133),
  ('заказывала', 0.5098756618479667),
  ('продавцом', 0.5091202156708573),
  ('продавцу', 0.5082015789573403),
  ('продавец', 0.49911326517286436),
  ('продавца', 0.4980558637681781),
  ('посы

In [33]:
for key, value in topic_model.topic_representations_.items():
    print(f'Topic {key}: ')
    print('-------------------')
    for (word, prob) in value:
        print(f'{word}: {prob}')
    print()
# Здесь ключевые слова и вероятности по всем топикам из базового представления

Topic -1: 
-------------------
заказала: 0.7031267595530599
прислал: 0.7026813305647955
заказывала: 0.6849012299148651
заказывали: 0.6801857250714494
высылает: 0.6746721579133974
прислали: 0.6675389010997861
отправил: 0.6642835866371088
ð²ðµñ: 0.6392479706145985
пришлем: 0.6385944716776657
итоге: 0.6357921902090974

Topic 0: 
-------------------
сшито: 0.6806826542305778
юбка: 0.673573162501523
ткань: 0.6472068953136716
платье: 0.6326200806372511
носить: 0.6311000828354671
штаны: 0.6271068487287453
нитки: 0.6060237375179159
ткани: 0.6035873065904105
стирки: 0.5968183181081905
свитер: 0.5888778212935687

Topic 1: 
-------------------
доставлен: 0.5296174054969922
дождалась: 0.5127532713208133
заказывала: 0.5098756618479667
продавцом: 0.5091202156708573
продавцу: 0.5082015789573403
продавец: 0.49911326517286436
продавца: 0.4980558637681781
посылку: 0.4975631057835784
заказ: 0.4955926724085198
заказа: 0.49161658803969854

Topic 2: 
-------------------
алиэскпресс: 0.7215052117033072
заказ

In [34]:
train_probs=topic_model.probabilities_  # документ-это смесь топиков, здесь вероятности принадлежности к темам

In [35]:
# в topic_distr для каждого документа лежит вероятность его принадлежности к разным топикам
train_topic_distr, _ = topic_model.approximate_distribution(train) # второй параметр - это распределение на уровне токенов
distributions =[distr[topic] if topic !=-1 else 0 for topic, distr in zip(train_topics, train_topic_distr)]

100%|██████████| 24/24 [00:05<00:00,  4.48it/s]


In [36]:
tm = topic_model.get_document_info(train, metadata = {"Topic_distribution": distributions}) #   к-во репрезентативных документов ограничено, не все выдаются.ДЛя всех документов: topic_model.get_representative_docs()
tm['topic_in_docs']=[i for i in train_topic_distr]

Извлечение информации на уровне отдельного документа в виде датафрейма Pandas.
Возвращаются следующие данные по каждому документу:
* Номер и название наиболее вероятного топика
* Список репрезентативных публикаций по этому топику
* Ключевые слова
* Вероятность принадлежности документа к топику
* Признак того, что документ является репрезентативным по отношении к указанному топику

In [37]:
tm.head()

Unnamed: 0,Document,Topic,Name,Representation,Aspect_1,Aspect_2,Representative_Docs,Top_n_words,Probability,Representative_document,Topic_distribution,topic_in_docs
0,"очень ОЧЕНЬ! расстроило то, что сам рисунок (п...",0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.589801,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
1,"заказ не отслеживался, и так и не пришел. може...",1,1_доставлен_дождалась_заказывала_продавцом,"[доставлен, дождалась, заказывала, продавцом, ...","[деньги, товар, продавец, спор, заказ, месяца,...","[доставлен, дождалась, заказывала, продавцом, ...",[товар так и не пришел(( хотя прошло почти 3 м...,доставлен - дождалась - заказывала - продавцом...,0.895167,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
2,"Ужасная жилетка,размер неверный!!! Качество уж...",0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.622688,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
3,пижама пришла не того размера! до этого заказы...,0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.716568,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
4,"Продавец не отправил товар , на Сообщения не о...",1,1_доставлен_дождалась_заказывала_продавцом,"[доставлен, дождалась, заказывала, продавцом, ...","[деньги, товар, продавец, спор, заказ, месяца,...","[доставлен, дождалась, заказывала, продавцом, ...",[товар так и не пришел(( хотя прошло почти 3 м...,доставлен - дождалась - заказывала - продавцом...,0.861043,False,1.0,"[0.0, 1.0, 0.0, 0.0]"


#### Визуализация

In [45]:
# Intertopic distance map
topic_model.visualize_topics()

In [40]:
# Визуализация весов ключевых слов по топикам - До уменьшения их числа
topic_model.visualize_barchart(top_n_topics=16)

In [41]:
# это пример распределение вероятностей принадлежности документа 1 к различным топикам. Здесь сумма <1, т.к представлены наиболее вероятные топики
topic_model.visualize_distribution(train_probs[1], min_probability=0.015)

In [None]:
# Иерархическая кластеризация
topic_model.visualize_hierarchy(top_n_topics=27)

In [44]:
# Тепловая карта
topic_model.visualize_heatmap(n_clusters=3, width=1000, height=1000)

In [None]:
topics_to_merge = [[2,8,14,31], ]
topic_model.merge_topics(train, topics_to_merge)
topic_model.topic_embeddings_.shape

In [None]:
topic_model.visualize_documents(docs=train, topics =[0,2,3,4,5,6,7,8,9])

In [46]:
# Визуализация рангов всех терминов по всем темам
#visualize_term_rank(self, topics=None, log_scale=False, custom_labels=False, title='<b>Эффект от добавления новых слов в topic terms снижается</b>', width=800, height=500)
topic_model.visualize_term_rank(title='<b>Эффект от добавления новых слов в topic terms снижается</b>')

In [48]:
# Из модели можно получить эмбеддинги топиков размерностью 384. Каждый эмбеддинг рассчитывается для центроида кластера из всех документов, отнесенных к топику
neg_topic_embeddings = topic_model.topic_embeddings_
print(neg_topic_embeddings[1:].shape, neg_topic_embeddings[1:][0]) # Пример для нулевого топика. В списке эмбеддингов самый первый это эмбеддинг для выбросов, его не берем

(4, 768) [ 3.31066621e-02  8.51800925e-03 -9.33544623e-03  2.64421899e-02
  6.18023336e-03  2.35216575e-02  4.76176915e-02  1.02654436e-03
  3.06788425e-04  2.02668116e-02  3.05100943e-02  1.77637399e-02
  9.97348986e-03  1.80165373e-02  7.37397636e-03 -2.79183389e-02
 -2.71026564e-02  5.59030042e-02 -5.51227040e-03  1.60490699e-02
  2.41186196e-02 -6.82337761e-03  3.50454677e-02  8.67779602e-03
 -1.84952304e-02 -2.08024220e-02  2.17397821e-02  1.35745411e-02
  1.04557320e-02  6.84456967e-03  9.56192442e-02 -1.13170064e-02
 -1.69145705e-02 -2.02859543e-02  2.68125643e-02 -6.75933140e-04
  7.51823825e-03  1.44664743e-02 -3.56392772e-02  3.77670861e-02
  6.45372588e-02 -2.06310759e-02 -9.66752748e-03 -2.75255469e-03
 -1.92842856e-02 -3.23874804e-02  3.01874441e-02  4.19743680e-02
 -1.78414874e-02 -6.63498290e-03  1.08776923e-02  6.27464537e-02
 -2.32789576e-02  1.72452341e-02  1.05155773e-01 -1.30287827e-02
 -4.20339536e-02 -1.42823983e-02  4.66505602e-02 -2.43581310e-02
 -6.97324303e-03

In [47]:
train_probs=topic_model.probabilities_  # отзыв-это смесь топиков, здесь вероятности принадлежности к темам
train_probs.shape

(24000, 4)

In [49]:
new_train_topics = topic_model.topics_

In [50]:
# в topic_distr для каждого документа лежит вероятность его принадлежности к разным топикам
train_topic_distr, _ = topic_model.approximate_distribution(train) # второй параметр - это распределение на уровне токенов
distributions =[distr[topic] if topic !=-1 else 0 for topic, distr in zip(new_train_topics, train_topic_distr)]

100%|██████████| 24/24 [00:05<00:00,  4.08it/s]


In [51]:
tm = topic_model.get_document_info(train, metadata = {"Topic_distribution": distributions})

In [52]:
tm['topic_in_docs']=[i for i in train_topic_distr]

In [53]:
tm.head()

Unnamed: 0,Document,Topic,Name,Representation,Aspect_1,Aspect_2,Representative_Docs,Top_n_words,Probability,Representative_document,Topic_distribution,topic_in_docs
0,"очень ОЧЕНЬ! расстроило то, что сам рисунок (п...",0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.589801,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
1,"заказ не отслеживался, и так и не пришел. може...",1,1_доставлен_дождалась_заказывала_продавцом,"[доставлен, дождалась, заказывала, продавцом, ...","[деньги, товар, продавец, спор, заказ, месяца,...","[доставлен, дождалась, заказывала, продавцом, ...",[товар так и не пришел(( хотя прошло почти 3 м...,доставлен - дождалась - заказывала - продавцом...,0.895167,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
2,"Ужасная жилетка,размер неверный!!! Качество уж...",0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.622688,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
3,пижама пришла не того размера! до этого заказы...,0,0_сшито_юбка_ткань_платье,"[сшито, юбка, ткань, платье, носить, штаны, ни...","[размер, качество, ткань, фото, платье, цвет, ...","[сшито, юбка, ткань, платье, носить, штаны, ни...","[Куртка пришла быстро, сшита нормально, швы пр...",сшито - юбка - ткань - платье - носить - штаны...,0.716568,False,0.0,"[0.0, 0.0, 0.0, 0.0]"
4,"Продавец не отправил товар , на Сообщения не о...",1,1_доставлен_дождалась_заказывала_продавцом,"[доставлен, дождалась, заказывала, продавцом, ...","[деньги, товар, продавец, спор, заказ, месяца,...","[доставлен, дождалась, заказывала, продавцом, ...",[товар так и не пришел(( хотя прошло почти 3 м...,доставлен - дождалась - заказывала - продавцом...,0.861043,False,1.0,"[0.0, 1.0, 0.0, 0.0]"


In [54]:
doc_embeddings = []
for i in tqdm(range(len(tm))):
    topic_weights = tm['topic_in_docs'][i]
    doc_embedding = np.dot(topic_weights, neg_topic_embeddings[1:])
    doc_embeddings.append(doc_embedding)

tm['doc_embedding'] = pd.Series(doc_embeddings)

  0%|          | 0/24000 [00:00<?, ?it/s]

In [57]:
from pathlib import Path
import pickle
# Сохраняем эмбеддинги для негативных отзывов
with open(str(Path('/kaggle/working/', 'neg_embeddings.pickle')), 'wb') as f:
    pickle.dump(tm, f)

## Генерация названия топиков

In [62]:
import warnings
warnings.filterwarnings('ignore')

In [63]:
! pip install openai

Collecting openai
  Downloading openai-1.12.0-py3-none-any.whl.metadata (18 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.26.0-py3-none-any.whl.metadata (7.6 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.2-py3-none-any.whl.metadata (20 kB)
Downloading openai-1.12.0-py3-none-any.whl (226 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m226.7/226.7 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading httpx-0.26.0-py3-none-any.whl (75 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.9/75.9 kB[0m [31m4.1 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading httpcore-1.0.2-py3-none-any.whl (76 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m76.9/76.9 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: httpcore, httpx, openai
Successfully installed httpcore-1.0.2 httpx-0.26.0 openai-1.12.0


In [60]:
representations, aspect_1, aspect_2 = freq['Representation'].to_list(),freq['Aspect_1'].to_list(),freq['Aspect_2'].to_list(),

In [64]:
import openai
from openai import OpenAI

In [71]:
os.environ["OPENAI_API_KEY"] = input()

 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


In [72]:
# Получение значения переменной окружения OPENAI_API_KEY
openai_api_key = os.environ.get("OPENAI_API_KEY")

# Проверка, что переменная определена
if openai_api_key:
    # Используйте значение переменной
    print('Ключ установлен')
else:
    print("Переменная окружения OPENAI_API_KEY не определена.")

Ключ установлен


In [67]:
def create_label(topic_content):
    client = OpenAI()
    prompt = f"Сгенерируй название темы из 1-3 слов на русском языке по ее краткому содержанию'{topic_content}'."
    response = client.chat.completions.create(
      model="gpt-3.5-turbo",
      messages=[
        {"role": "system", "content": "You are a rewriter."},
        {"role": "user", "content": prompt},
      ]
    )
    return response.choices[0].message.content

In [69]:
def create_labels(representations):
    t_labels=[]
    for r in tqdm(representations):
        t_labels.append(create_label(' '.join(r)))
    return t_labels

In [73]:
labels1 = create_labels(representations)

  0%|          | 0/5 [00:00<?, ?it/s]

In [74]:
labels2 = create_labels(aspect_1)

  0%|          | 0/5 [00:00<?, ?it/s]

In [75]:
labels3 = create_labels(aspect_2)

  0%|          | 0/5 [00:00<?, ?it/s]

In [79]:
for i in range(len(labels1)):
    print(f'Топик {i}: {labels1[i]}, {labels2[i]},{labels3[i]}')

Топик 0: Доставка товара, "Цветовые предпочтения в покупке одежды",Служба доставки
Топик 1: Модная одежда из ткани, Выбор ткани для платья: размер, качество, цвет.,Модные комбинированные наряды
Топик 2: "Ожидание доставки", "Финансовые транзакции в электронной коммерции",Ожидание доставки
Топик 3: Заказ кофты через Алиэкспресс, Доставка товаров,"Алиэкспресс: доставка и покупка кофты в Удмуртии"
Топик 4: "Брак и развод: истории распущенных доделок", Развод и кофта - брак или дыра?,"Брак и развод"
