# Анализ отзывов клиентов банка (Тональность и Тематика)

Описание проекта:
Этот проект посвящен анализу тональности текстовых отзывов о банковских услугах.  
**Цель проекта** — классифицировать отзывы как положительные или отрицательные, а также сегментировать основные темы отзывов. Для анализа использованы методы обработки естественного языка (NLP) и машинного обучения, включая классификацию текста и тематическое моделирование.

Шаги выполнения проекта:

# 1. Загрузка и подготовка данных

Датасет: Determining the Sentiment of Bank Reviews Dataset, Kaggle
https://www.kaggle.com/datasets/egorandreasyan/determining-the-sentiment-of-bank-reviews-dataset

Этот датасет содержит текстовые отзывы клиентов банка с метками тональности (положительные/отрицательные).

# 2. Предварительная обработка данных

 2.1. Приведение текста к нижнему регистру.  
 2.2. Удаление спецсимволов, цифр и лишних пробелов.  
 2.3. Удаление стоп-слов для улучшения качества текста.  

# 3. Преобразование текста в числовые данные

Для преобразования текста в числовые векторы использовался метод TF-IDF (Term Frequency-Inverse Document Frequency), который позволяет оценить важность каждого слова в контексте документа.

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(stop_words='english')
X_train_tfidf = vectorizer.fit_transform(X_train)
X_test_tfidf = vectorizer.transform(X_test)

# 4. Обучение модели машинного обучения

Для классификации текста использован алгоритм Naive Bayes. Это один из классических методов для работы с текстовыми данными. Модель обучена на тренировочных данных, а затем оценена на тестовых.

from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

model = MultinomialNB()
model.fit(X_train_tfidf, y_train)

**Предсказания**
y_pred = model.predict(X_test_tfidf)

**Оценка модели**
print("Accuracy:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

# 5. Самостоятельный анализ тональности



# 6. Выделение ключевых тем (Topic Modeling)

Для выделения ключевых тем можно использовать Latent Dirichlet Allocation (LDA) — популярную модель для тематического моделирования. Эта модель позволяет выявить скрытые темы в текстах.


----------------------------------------------------------------------

# 1. Загрузка и подготовка данных
Датасет: Determining the Sentiment of Bank Reviews Dataset, Kaggle https://www.kaggle.com/datasets/egorandreasyan/determining-the-sentiment-of-bank-reviews-dataset

Этот датасет содержит текстовые отзывы клиентов банка с метками тональности (положительные/отрицательные).

In [5]:
import pandas as pd
reviews = pd.read_csv('determining_the_sentiment_of_bank_reviews_dataset/train.csv', sep='\t')
reviews = pd.DataFrame(reviews)
display(reviews.head())
reviews.info()

Unnamed: 0,idx,Score,Text
0,0,Positive,В Альфа-Банке работает замечательная девушка -...
1,1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...
2,2,Positive,Очень порадовала оперативность работы в банке....
3,3,Negative,Имела неосторожность оформить потреб. кредит в...
4,4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13999 entries, 0 to 13998
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   idx     13999 non-null  int64 
 1   Score   13999 non-null  object
 2   Text    13999 non-null  object
dtypes: int64(1), object(2)
memory usage: 328.2+ KB


# 2. Предварительная обработка данных
2.1. Приведение текста к нижнему регистру.  
2.2. Удаление спецсимволов, цифр и лишних пробелов.  
2.3. Удаление стоп-слов для улучшения качества текста.  

In [7]:
!pip install pymorphy2





In [8]:
# 1. Импорт библиотек и загрузка данных

import pandas as pd
import re
import nltk
import pymorphy2
from nltk.corpus import stopwords

# Загрузка стоп-слов для русского языка
nltk.download('stopwords')
stop_words = set(stopwords.words('russian'))

# Инициализация морфологического анализатора для лемматизации
morph = pymorphy2.MorphAnalyzer()


# Просмотр первых строк
print(reviews.head())

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\hitwo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


   idx     Score                                               Text
0    0  Positive  В Альфа-Банке работает замечательная девушка -...
1    1  Negative  Оформляя рассрочку в м. Видео в меге тёплый ст...
2    2  Positive  Очень порадовала оперативность работы в банке....
3    3  Negative  Имела неосторожность оформить потреб. кредит в...
4    4  Negative  Небольшая предыстория: Нашел на сайте MDM банк...


In [9]:
# 2. Функция очистки текста

def clean_text(text):
    """
    Очистка текста:
    - Приведение к нижнему регистру
    - Удаление спецсимволов, цифр, лишних пробелов
    - Удаление стоп-слов
    - Лемматизация
    """
    if not isinstance(text, str):  # Проверка, что передан текст
        return ""

    text = text.lower()  # Приводим к нижнему регистру
    text = re.sub(r'[^а-яё\s]', '', text)  # Удаляем все, кроме русских букв и пробелов
    words = text.split()  # Разбиваем текст на слова
    words = [morph.parse(word)[0].normal_form for word in words if word not in stop_words]  # Лемматизация и удаление стоп-слов
    return " ".join(words)


In [10]:
!pip install swifter 





In [11]:
# 3. Применение очистки к данным
import swifter # используем swifter для параллельного вычисления, иначе компьютер зависает
reviews["clean_text"] = reviews["Text"].astype(str).swifter.apply(clean_text) 

# Просмотр результатов
print(reviews[["Text", "clean_text"]].head())

Pandas Apply:   0%|          | 0/13999 [00:00<?, ?it/s]

                                                Text  \
0  В Альфа-Банке работает замечательная девушка -...   
1  Оформляя рассрочку в м. Видео в меге тёплый ст...   
2  Очень порадовала оперативность работы в банке....   
3  Имела неосторожность оформить потреб. кредит в...   
4  Небольшая предыстория: Нашел на сайте MDM банк...   

                                          clean_text  
0  альфабанка работать замечательный девушка илья...  
1  оформлять рассрочка м видео мег тёплый стан по...  
2  очень порадовать оперативность работа банк зак...  
3  иметь неосторожность оформить потреба кредит а...  
4  небольшой предыстория найти сайт банк интересн...  


In [12]:
# 4. Сохранение очищенного датасета

reviews.to_csv("cleaned_reviews.csv", index=False)

Результат:

 - Колонка clean_text содержит очищенные и лемматизированные отзывы.  
 - Теперь данные готовы для дальнейшего анализа, например, анализа тональности.  

In [13]:
# Проверяем 
display(reviews.head())
# Данные обработались корректно

Unnamed: 0,idx,Score,Text,clean_text
0,0,Positive,В Альфа-Банке работает замечательная девушка -...,альфабанка работать замечательный девушка илья...
1,1,Negative,Оформляя рассрочку в м. Видео в меге тёплый ст...,оформлять рассрочка м видео мег тёплый стан по...
2,2,Positive,Очень порадовала оперативность работы в банке....,очень порадовать оперативность работа банк зак...
3,3,Negative,Имела неосторожность оформить потреб. кредит в...,иметь неосторожность оформить потреба кредит а...
4,4,Negative,Небольшая предыстория: Нашел на сайте MDM банк...,небольшой предыстория найти сайт банк интересн...


# 3. Преобразование текста в числовые данные
Преобразуем очищенный текст в числовые векторы с помощью TF-IDF (Term Frequency-Inverse Document Frequency). Это позволит модели машинного обучения понимать текст как набор значимых признаков.

Выбрала TF-IDF, т.к. он прост в реалзиации и подходит для задачи. Ru-BERT занимает больше памяти.


In [14]:
# 1. Импорт библиотеки
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
# 2. Преобразование текста в TF-IDF

# Создаём объект TfidfVectorizer и применяем его к данным:

vectorizer = TfidfVectorizer(stop_words=stop_words, max_features=5000)  # Указываем макс. число признаков
tfidf_matrix = vectorizer.fit_transform(reviews["clean_text"])  # Преобразуем текст в матрицу чисел

In [16]:
# 3. Просмотр результатов

#Чтобы убедиться, что всё работает, посмотрим на полученную матрицу:

print(f"Размерность матрицы: {tfidf_matrix.shape}")  # Количество отзывов × количество признаков
print("Примеры признаков (слов):", vectorizer.get_feature_names_out()[:10])  # Выведем 10 самых частых слов

Размерность матрицы: (13999, 5000)
Примеры признаков (слов): ['аа' 'аба' 'абонент' 'абонентский' 'абсолют' 'абсолютбанк' 'абсолютно'
 'абсолютный' 'абсурд' 'абэ']


# 4. Обучение модели машинного обучения  
Мы будем использовать Naive Bayes (MultinomialNB), так как он хорошо подходит для задач классификации текста.  
• 80% данных — для обучения.  
• 20% данных — для тестирования.

In [17]:
# проверка на дублирование
print(f"Количество повторяющихся отзывов: {reviews.duplicated().sum()}")

Количество повторяющихся отзывов: 0


In [20]:
from sklearn.model_selection import train_test_split

# Разделение данных (20% - тест, 80% - обучение)
X_train, X_test, y_train, y_test = train_test_split(
tfidf_matrix, reviews["Score"], test_size=0.2, random_state=42, shuffle=True
) #shuffle=True (по умолчанию), чтобы данные перемешивались перед разделением

# проверка размеров выборок
print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

Размер обучающей выборки: (11199, 5000)
Размер тестовой выборки: (2800, 5000)


In [22]:
# Преобразуем разреженные матрицы в плотные массивы
X_train_dense = X_train.toarray()
X_test_dense = X_test.toarray()

# Сравниваем строки (тексты) в выборках
common_texts = set(map(tuple, X_train_dense)).intersection(set(map(tuple, X_test_dense)))
print(f"Совпадающих текстов: {len(common_texts)}")

Совпадающих текстов: 0


Выборки разлины по объему, совпадающих текстов и дублей нет, можем приступать в обучению модели и доверять её результатам.

In [23]:
# Импорт модели Naive Bayes
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Создаем и обучаем модель
model = MultinomialNB()
model.fit(X_train, y_train)

# Делаем предсказания
y_pred = model.predict(X_test)

# Оцениваем точность модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.2f}")

# Выводим детальный отчет по метрикам
print(classification_report(y_test, y_pred))

Точность модели: 0.92
              precision    recall  f1-score   support

    Negative       0.91      0.94      0.93      1401
    Positive       0.94      0.90      0.92      1399

    accuracy                           0.92      2800
   macro avg       0.92      0.92      0.92      2800
weighted avg       0.92      0.92      0.92      2800



Accuracy (Точность): модель правильно классифицирует 92% всех примеров. Качество модели хорошее.

Precision (Точность для каждого класса):

- Negative: 91% примеров, предсказанных как Negative, действительно являются Negative.

- Positive: 94% примеров, предсказанных как Positive, действительно являются Positive.

Recall (Полнота для каждого класса):

- Negative: модель правильно идентифицирует 94% всех реальных Negative примеров.

- Positive: модель правильно идентифицирует 90% всех реальных Positive примеров.

F1-score (F1-мера):  
Negative 0.93 и Positive 0.92 указывают на хороший баланс между precision и recall.

Поддержка (Support): Количество примеров в каждом классе примерно одинаковое (1401 для Negative и 1399 для Positive), это говорит о сбалансированности данных.

**Итог**: модель демонстрирует высокое качество классификации для обоих классов, с небольшим преимуществом в точности для класса Positive и в полноте для класса Negative. Общая точность модели (92%) и сбалансированные метрики F1-score указывают на то, что модель хорошо справляется с задачей классификации.

Если бы точность модели была низкая, можно было попробовать альтернативные модели для классификации:
- Logistic Regression — часто работает лучше, но медленнее.
- Random Forest — хуже для текстов, но стоило бы проверить.
- ruBERT — мощная нейросеть, но требует больше вычислений.

Поскольку ранее мы проверяли утечку данных в тестовую выборку, отсутствие дублей и совпадающих текстов, можем доверять высокой точности модели.

# 5. Самостоятельный анализ тональности  
Мы уже подготовили данные и лемматизировали текст, так что теперь можем провести анализ тональности для каждого отзыва.  
TextBlob — хороший инструмент для анализа тональности для русского языка.

In [3]:
!pip install textblob
from textblob import TextBlob





In [25]:
# Функция для анализа тональности
def analyze_sentiment(text):
    blob = TextBlob(text) # Тональность будет на шкале от -1 (отрицательная) до 1 (положительная)
    sentiment = blob.sentiment.polarity
    return sentiment

# Применяем функцию для анализа тональности к каждому отзыву
reviews['sentiment_polarity'] = reviews['Text'].apply(analyze_sentiment)

# Классификация: положительный, отрицательный
reviews['sentiment_label'] = reviews['sentiment_polarity'].apply(
lambda x: 'positive' if x >= 0 else 'negative'
)

# Выводим результаты
print(reviews[['Text', 'sentiment_polarity', 'sentiment_label']].head())

                                                Text  sentiment_polarity  \
0  В Альфа-Банке работает замечательная девушка -...            0.000000   
1  Оформляя рассрочку в м. Видео в меге тёплый ст...            0.000000   
2  Очень порадовала оперативность работы в банке....            0.166667   
3  Имела неосторожность оформить потреб. кредит в...            0.000000   
4  Небольшая предыстория: Нашел на сайте MDM банк...            0.000000   

  sentiment_label  
0        positive  
1        positive  
2        positive  
3        positive  
4        positive  


In [26]:
# Сравниваем результаты с метками из датасета (точность)
accuracy = (reviews['sentiment_label'] == reviews['Score']).mean()
print(f'Accuracy of Sentiment Analysis: {accuracy:.2f}')

Accuracy of Sentiment Analysis: 0.00


In [27]:
# пробуем другую модель

!pip install deeppavlov
!pip install deeppavlov[aio]









In [28]:
!pip install torch





In [2]:
!python -m deeppavlov install sentiment_twitter_ru  # Устанавливаем модель

Traceback (most recent call last):
  File "C:\Users\hitwo\anaconda3\lib\runpy.py", line 197, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "C:\Users\hitwo\anaconda3\lib\runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "C:\Users\hitwo\anaconda3\lib\site-packages\deeppavlov\__main__.py", line 2, in <module>
    from .deep import main
  File "C:\Users\hitwo\anaconda3\lib\site-packages\deeppavlov\deep.py", line 20, in <module>
    from deeppavlov.core.common.cross_validation import calc_cv_score
  File "C:\Users\hitwo\anaconda3\lib\site-packages\deeppavlov\core\common\cross_validation.py", line 21, in <module>
    from sklearn.model_selection import KFold
  File "C:\Users\hitwo\anaconda3\lib\site-packages\sklearn\__init__.py", line 82, in <module>
    from .base import clone
  File "C:\Users\hitwo\anaconda3\lib\site-packages\sklearn\base.py", line 17, in <module>
    from .utils import _IS_32BIT
  File "C:\Users\hitwo\anaconda3\lib\site-pac

In [32]:
from deeppavlov import build_model, configs

# Загружаем готовую модель для анализа тональности
sentiment_model = build_model(configs.classifiers.rusentiment_convers_bert, download=True)

# Функция для анализа тональности
def analyze_sentiment(text):
    return sentiment_model([text])[0]  # Берем первый элемент из предсказания

# Применяем к данным
reviews['predicted_sentiment'] = reviews['Text'].apply(analyze_sentiment)

# Оценка точности
accuracy = (reviews['predicted_sentiment'] == reviews['Score']).mean()
print(f'Accuracy: {accuracy:.2f}')

2025-03-06 12:50:06.803 INFO in 'deeppavlov.download'['download'] at line 138: Skipped http://files.deeppavlov.ai/v1/classifiers/rusentiment_convers_bert/rusentiment_convers_bert_torch.tar.gz download because of matching hashes


ModuleNotFoundError: No module named 'transformers'

# 6. Выделение ключевых тем (Topic Modeling) с использованием LDA