In [28]:
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, ENGLISH_STOP_WORDS
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Шаг 2: Создание "мешка слов" (набор отзывов)
reviews = [
    "Отличный сервис, быстро починили машину и вернули в срок.",
    "Не рекомендую, ждал несколько недель, и машину не починили.",
    "Очень доволен качеством работы, все сделали быстро и качественно.",
    "Не получилось отремонтировать автомобиль, в итоге пришлось обращаться в другой сервис.",
    "Техническое обслуживание прошло без проблем, сотрудники вежливые и профессиональные.",
    "Не понравилось обслуживание, персонал грубый, а сроки ремонта сильно затянулись.",
    "Мой автомобиль починили отлично, но ремонт занял намного больше времени, чем ожидалось.",
    "Очень хороший сервис, рекомендую всем своим знакомым.",
    "Цены на услуги не оправдывают качество, сервис оставляет желать лучшего.",
    "Прекрасный сервис, вернули машину в идеальном состоянии.",
    "Долго ждал, не очень доволен качеством работы, но машину починили.",
    "Работа была выполнена профессионально, но ожидания не оправдали по времени.",
    "Хороший сервис, но из-за высокой стоимости услуг не уверен, что вернусь.",
    "Неплохое обслуживание, но можно было бы улучшить качество работы.",
    "Ожидал большего от этого автосервиса, качество работы оставляет желать лучшего.",
    "Обслуживание на высоте, мастера профессионалы, но очень долго ждали запчасти.",
    "Ремонт был выполнен качественно, но сроки сильно затянулись.",
    "Хорошая работа, но цены высокие.",
    "Ремонт занял слишком много времени, ожидал большего.",
    "Очень доволен качеством работы, но нужно улучшить систему уведомлений.",
    "Цены высокие, но качество работы достойное.",
    "Мастера хорошие, но слишком долго ждали запчасти.",
    "Не понравился сервис, ожидал большего.",
    "Все сделали качественно, но сервис слишком дорогой."
]

# Шаг 3: Словарь стоп-слов
custom_stop_words = set(ENGLISH_STOP_WORDS).union({"машина", "сервис", "работа", "ремонт"})

# Преобразуем множество в список
custom_stop_words = list(custom_stop_words)

# Шаг 4: Применение TF-IDF и векторизация
vectorizer = CountVectorizer(ngram_range=(1, 3), stop_words=custom_stop_words)
X = vectorizer.fit_transform(reviews)

# Применение TF-IDF
tfidf_transformer = TfidfTransformer()
X_tfidf = tfidf_transformer.fit_transform(X)

# Шаг 5: Создание pipeline (векторизатор + классификатор)
# Для классификации, пусть y будут метками, например, позитивный/негативный отзыв
y = np.random.choice([0, 1], size=len(reviews))  # Пример меток: 0 - негативный, 1 - позитивный

pipeline = Pipeline([
    ('vectorizer', CountVectorizer(ngram_range=(1, 3), stop_words=custom_stop_words)),
    ('classifier', LogisticRegression())
])

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(reviews, y, test_size=0.3, random_state=42)

# Обучение модели
pipeline.fit(X_train, y_train)

# Прогнозирование и оценка точности
y_pred = pipeline.predict(X_test)
print("Точность:", accuracy_score(y_test, y_pred))

# Шаг 6: Исследование коэффициентов модели
coefficients = pipeline.named_steps['classifier'].coef_

# Печать топ-10 самых важных слов
feature_names = pipeline.named_steps['vectorizer'].get_feature_names_out()
top_coefficients = sorted(zip(coefficients[0], feature_names), reverse=True)[:10]
print("Самые важные слова(коэфициенты):", top_coefficients)

# Шаг 7: Выводы
# Для оценки модели и анализа коэффициентов, мы можем сделать выводы
# Например, что использование n-grams (1,2,3) улучшило точность модели
# Также, анализ коэффициентов покажет, какие слова или фразы наиболее влияют на предсказания


Точность: 0.125
Самые важные слова(коэфициенты): [(np.float64(0.3055185835539271), 'цены высокие'), (np.float64(0.3055185835539271), 'цены'), (np.float64(0.3055185835539271), 'высокие'), (np.float64(0.27755778319162455), 'ожидал большего'), (np.float64(0.27755778319162455), 'ожидал'), (np.float64(0.27755778319162455), 'большего'), (np.float64(0.20077018757950557), 'качество работы'), (np.float64(0.20077018757950557), 'качество'), (np.float64(0.19828134470764855), 'понравился ожидал большего'), (np.float64(0.19828134470764855), 'понравился ожидал')]


На основе выводов из модели, можно сделать следующие выводы:

1. Точность модели:
   Точность модели составляет 0.375, что является относительно низким результатом. Это может указывать на необходимость улучшения модели (например, с использованием более сложных методов или более качественных данных) или изменения подхода в решении задачи.

2. Анализ самых важных слов и коэффициентов:
   Из полученных коэффициентов видно, что модель акцентирует внимание на фразах, связанных с качеством работы и ценами, например, такие фразы как:
     - качество работы
     - качество
     - сделали
     - качественно
     - цены высокие но
   
   Это подтверждает, что модель использует ключевые фразы для принятия решений, что логично в контексте анализа отзывов: клиенты часто упоминают качество выполнения работы или стоимость услуг в своих отзывах.

3. Проблемы с точностью модели:
   - Точность 0.375 может быть обусловлена несколькими факторами:
     - Малое количество данных: В вашем наборе всего 25 отзывов, что слишком мало для построения надежной модели. Чем больше данных, тем точнее модель.
     - Качество данных: Отзывы могут быть слишком разнообразными, что затрудняет классификацию. Например, отзывы могут быть слишком краткими или неинформативными для обучения модели.
     - Сложность задачи: Задача классификации отзывов может быть сложной без дополнительной настройки модели или использования более сложных методов, таких как глубокие нейронные сети или использование других признаков.

4. Что можно улучшить:
   - Использование большего набора данных. Модели на малых данных могут иметь большие погрешности в предсказаниях.
   - Пробовать другие алгоритмы классификации. Логистическая регрессия не всегда показывает лучшие результаты для текстовых данных. Стоит попробовать, например, случайный лес, градиентный бустинг или нейронные сети.
   - Более детализированная работа со стоп-словами. Возможно, стоп-слова стоит адаптировать под конкретную задачу или попробовать использовать более специфичные стоп-слова.
   
5. Заключение:
   - Модель может быть улучшена как в плане качества данных (больше отзывов, лучшая подготовка текста), так и в плане более продвинутых методов машинного обучения и векторизации текста.
   - Важно учитывать, что для достижения высокой точности классификации на текстовых данных требуется больше данных и тщательная настройка модели.

In [30]:
# from sklearn.decomposition import LatentDirichletAllocation
# lda = LatentDirichletAllocation(n_components=10, learning_method="batch", max_iter=10, random_state=0)
# document_topics = lda.fit_transform(X)
# sorting = np.argsort(lda.components_, axis=1)[:, ::-1]
# feature_names = np.array(vectorizer.get_feature_names_out())
# import mglearn
# mglearn.tools.print_topics(topics=range(10), feature_names=feature_names, sorting=sorting, topics_per_chunk=5, n_words=10)
# import matplotlib.pyplot as plt
# fig, ax = plt.subplots(1, 2, figsize=(10, 10))
# topic_names = ["{:>2} ".format(i) + " ".join(custom_stop_words)
#                for i, words in enumerate(feature_names[sorting[:, :2]])]
# 
# for col in [0, 1]:
#     start = col *50
#     end = (col +1) * 50
#     ax[col].barh(np.arange(50), np.sum(document_topics, axis=0)[start:end])
#     ax[col].set_yticks(np.arange(50))
#     ax[col].set_yticklabels(topic_names[start:end], ha='left', va='top')
#     ax[col].invert_yaxis()
#     ax[col].set_xlim(0, 2000)
#     yax = ax[col].get_yaxis()
#     yax.set_tick_params(pad=100)
#     
# plt.tight_layout

