# Библиотеки 

In [59]:
from classes_and_definitions import *
import pickle
import time 
from tqdm import tqdm
from datetime import datetime
import warnings

warnings.filterwarnings("ignore")

# Загрузка данных и пример использования

## Инициализируем объект класса для прогнозирования

In [60]:
with open('./Вспомогательные файлы/category_models.pkl', 'rb') as f:
    topic_modeling_dict = pickle.load(f)
    
with open('./Вспомогательные файлы/sentiment_classifier.pkl', 'rb') as f:
    sentiment_classifier = pickle.load(f)
    
with open('./Вспомогательные файлы/product_classifer.pkl', 'rb') as f:
    product_classifier = pickle.load(f)

with open('./Вспомогательные файлы/allowed_lemmas.pkl', 'rb') as f:
    allowed_lemmas = pickle.load(f)
    tokenizer=NLTKWordTokenizer()
    text_transformer = TextTransformer(allowed_lemmas)
    
mapping = dict()

mapping['autocredits'] = {0: {0: 'Неудовлетворительные условия кредитования',
                             1: 'Проблемы с процессом обращения и обработки заявки',
                             2: 'Проблемы с платежами и погашением кредита',
                             3: 'Проблемы с залогом и автомобилем',
                             4: 'Неудовлетворенность условиями автокредита'},
                         1: {0: 'Хорошее обслуживание',
                             1: 'Удовлетворенность процессом оформления автокредита',
                             2: 'Удовлетворенность условиями кредита и выплатами по кредиту',
                             3: 'Удовлетворенность процессом закрытия автокредита',
                             4: 'Положительный опыт использования рассрочки'}
                         }

mapping['credits'] = {0: {0: 'Проблемы с условиями кредита и страхованием',
                             1: 'Проблемы с обслуживанием и обработкой заявок',
                             2: 'Проблемы с платежами и счетами',
                             3: 'Проблемы с кредитной историей и исполнительным производством',
                             4: 'Проблемы с обращением в банк и услугами поддержки'},
                         1: {0: 'Положительный опыт общения с сотрудниками банка',
                             1: 'Быстрое оформление кредита',
                             2: 'Положительный опыт использования мобильного приложения',
                             3: 'Поддержка для развития бизнеса',
                             4: 'Удобство и гибкость условий использования кредитной карты'}
                         }

mapping['deposits'] = {0: {0: 'Проблемы с исполнительным производством и взысканием долгов',
                             1: 'Проблемы с доступом к счету',
                             2: 'Проблемы с обработкой заявок по горячей линии',
                             3: 'Проблемы с комиссиями и снятием средств с депозитов',
                             4: 'Неудовлетворительные условия депозитов'},
                         1: {0: 'Удовлетворенность гибкими условиями депозитов',
                             1: 'Положительный опыт обслуживания в отделении',
                             2: 'Удовлетворение услугами депозитов, предоставляемыми с использованием карточки',
                             3: 'Удовлетворение качеством мобильного приложения банка',
                             4: 'Удовлетворение процентными ставками и удобством общения с операторами'}
                         }

mapping['hypothec'] = {0: {0: 'Проблемы с условиями ипотечного кредитования',
                             1: 'Отказы по ипотеке и проблемы с коммуникацией с менеджерами',
                             2: 'Проблемы с платежами и денежными операциями по ипотеке',
                             3: 'Сложность процедуры получения ипотеки',
                             4: 'Проблемы со страховкой при оформлении ипотеки'},
                         1: {0: 'Удовлетворенность процессом осуществлени сделки',
                             1: 'Положительный опыт обслуживания в отделении',
                             2: 'Хорошая работа менеджера и отсутствие проблем при подписании договора',
                             3: 'Положительный опыт обслуживания ипотеки',
                             4: 'Выгодные условия, низкая ставка по ипотеке'}
                         }

mapping['creditcards'] = {0: {0: 'Проблемы с списыванием средств и дополнительными комиссиями',
                             1: 'Недовольство условиями акций по карте',
                             2: 'Неудовлетворенность результатом обращения в банк',
                             3: 'Проблемы с исполнением обязательств',
                             4: 'Проблемы с погашением задолженности'},
                         1: {0: 'Эффективное обслуживание и поддержка клиентов',
                             1: 'Удобное приложение',
                             2: 'Удобное оформление карты',
                             3: 'Выгодные условия использования кредитной карты',
                             4: 'Преимущества программ лояльности и рассрочки'}
                         }

mapping['debitcards'] = {0: {0: 'Проблемы с оформлением и предоставлением документов',
                             1: 'Проблемы с доступом к счету',
                             2: 'Проблемы с использованием дебетовой карты',
                             3: 'Неудовлеворенность пенсионеров использованием дебетовой карты',
                             4: 'Неясность условий акций и начисления бонусов'},
                         1: {0: 'Разнообразные финансовые возможности',
                             1: 'Удобство использования мобильного приложения',
                             2: 'Удобство использования дебетовых карт',
                             3: 'Качественное оформление дебетовой карты',
                             4: 'Оперативность работы поддержки'}
                         }

response_decomposition = ResponseDecomposition(
    sentiment_classifier=sentiment_classifier,
    category_classifier=product_classifier,
    topic_modeling=topic_modeling_dict,
    text_transformer=text_transformer
)

## Пример с обработкой текста и ряда из текстов

In [61]:
test_text = "Дебетовые карты? Что? нет, не слышал. Ваша компания - обманщики и лузеры. Я за киберкоммунизм"

result_text = response_decomposition.transform(
    test_text,
    need_topic=True,
    need_sentiment=True,
    need_category=True,
    task_type_sentiment='tfidf',
    classifier_name_sentiment='svm',
    task_type_category='tfidf',
    classifier_name_category='logreg',
    sentiment_for_category_classifier=True,
    threshold_for_sentiment=0.58,
    topic_mapping=mapping
)

result_text

Unnamed: 0,sentiment,category,topic
0,0,debitcards,Проблемы с использованием дебетовой карты


In [62]:
test_series = pd.Series(['Я сказал', 'король молчит', ', а ты кушаешь вопперы'])

result_series = response_decomposition.transform(
    test_series,
    need_topic=True,
    need_sentiment=True,
    need_category=True,
    task_type_sentiment='tfidf',
    classifier_name_sentiment='svm',
    task_type_category='tfidf',
    classifier_name_category='logreg',
    sentiment_for_category_classifier=True,
    threshold_for_sentiment=0.58,
    topic_mapping=mapping
)
result_series

Unnamed: 0,sentiment,category,topic
0,0,credits,Проблемы с обслуживанием и обработкой заявок
1,1,debitcards,Разнообразные финансовые возможности
2,1,debitcards,Разнообразные финансовые возможности


# Аналитика

## Загрузка датафрейма и выделение тем

In [67]:
data = pd.read_csv('./Вспомогательные файлы/dataset_for_modeling.csv')
data['lemmas'] = data['lemmas'].str.replace(r'[\[\],\']', '').str.split()
data = data[data['grade'] != 'unknown']
data['grade'] = data['grade'].replace({'good' : 1, 'bad' : 0}).astype(int)
data.head(3)

Unnamed: 0,text,city,date,rating,grade,bank,category,site,week,month,lemmas_with_tags,lemmas
0,21.01.2024 сделала заявку на перенос даты плат...,Москва,2024-01-23,1,0,МТС Банк,credits,banki_ru,2024-01-22/2024-01-28,2024-01,"['сделать_VERB', 'заявка_NOUN', 'перенос_NOUN'...","[сделать, заявка, перенос, дата, платеж, прило..."
1,Сталкнулся с такой проблемой что при переводе ...,Екатеринбург,2024-01-23,1,0,МТС Банк,credits,banki_ru,2024-01-22/2024-01-28,2024-01,"['проблема_NOUN', 'перевод_NOUN', 'деньги_NOUN...","[проблема, перевод, деньги, заблокировать, опе..."
2,15-16/01 пытался перевести деньги с дебетовой ...,Санкт-Петербург,2024-01-18,2,0,МТС Банк,credits,banki_ru,2024-01-15/2024-01-21,2024-01,"['пытаться_VERB', 'перевести_VERB', 'деньги_NO...","[пытаться, перевести, деньги, дебетовый, карта..."


In [64]:
response_decomposition = ResponseDecomposition(
    sentiment_classifier=sentiment_classifier,
    category_classifier=product_classifier,
    topic_modeling=topic_modeling_dict,
    text_transformer=text_transformer
)
data['topics'] = response_decomposition._predict_topic(
    data['lemmas'], mapping, data['category'].values, data['grade'].values)

In [65]:
data.head(2)

Unnamed: 0,text,city,date,rating,grade,bank,category,site,week,month,lemmas_with_tags,lemmas,topics
0,21.01.2024 сделала заявку на перенос даты плат...,Москва,2024-01-23,1,0,МТС Банк,credits,banki_ru,2024-01-22/2024-01-28,2024-01,"['сделать_VERB', 'заявка_NOUN', 'перенос_NOUN'...","[сделать, заявка, перенос, дата, платеж, прило...",Проблемы с платежами и счетами
1,Сталкнулся с такой проблемой что при переводе ...,Екатеринбург,2024-01-23,1,0,МТС Банк,credits,banki_ru,2024-01-22/2024-01-28,2024-01,"['проблема_NOUN', 'перевод_NOUN', 'деньги_NOUN...","[проблема, перевод, деньги, заблокировать, опе...",Проблемы с платежами и счетами


## OverView

In [131]:
grouped_data = data.groupby('bank').size()
selected_banks = grouped_data[grouped_data > 100].index.tolist()
filtered_bank_data = data[data['bank'].isin(selected_banks)] # Оставим только банки с 100+ отзывами
filtered_bank_data['site'] = filtered_bank_data['site'].replace({'banki_ru' : 1, 'sravni_ru' : 0})
filtered_bank_data = filtered_bank_data.groupby('bank').agg({'rating' : 'mean', 'date' : 'size', 'site' : 'mean'}).sort_values(by = 'rating', ascending = False)
filtered_bank_data.rename(columns = {'rating' : 'Mean grade', 'date' : 'Number of responses', 'site' : 'Share of banki.ru'}, inplace = True)
filtered_bank_data


Unnamed: 0_level_0,Mean grade,Number of responses,Share of banki.ru
bank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Банк Точка,5.0,182,0.0
Банк «Центр-инвест»,4.945205,219,0.09589
Московский кредитный банк (МКБ),4.857143,490,1.0
Русский Стандарт,4.795154,454,0.991189
Совкомбанк,4.747432,4284,0.576797
Абсолют Банк,4.741667,120,0.791667
Кредит Европа Банк,4.741007,278,0.985612
Экспобанк,4.659218,179,0.486034
Россельхозбанк,4.492978,712,0.803371
Альфа-Банк,4.457014,3094,0.626697


In [85]:
np.corrcoef(filtered_bank_data['Mean grade'], filtered_bank_data['Share of banki.ru'])


array([[ 1.        , -0.46100596],
       [-0.46100596,  1.        ]])

Есть гипотеза, что на сравни ру в принципе оставляется меньше плохих отзывов. Но это понимание нам не даст вообще ничего поэтом углубляться в ее проверку не будем

## Слабые и сильные стороны каждого банка 

### В целом в банковском секторе

In [168]:
data_top_banks = data.copy()
size_of_segment = data_top_banks.groupby(['category', 'grade'])['topics'].size().to_frame()
size_of_segment = size_of_segment.reset_index(level = [0, 1]).rename(columns = {'topics' : 'size of segment'})
grouped_data = data_top_banks.groupby(['category', 'grade'])['topics'].apply(lambda x: x.mode().iloc[0]).reset_index()
topic_counts = data_top_banks.groupby(['category', 'grade'])['topics'].apply(lambda x: x.value_counts(normalize=True)).to_frame()
topic_counts = topic_counts.reset_index(level = [0, 1, 2]).rename(columns = {'level_2' : 'topics', 'topics' : 'share of topic among segment'})
topic_counts['share of topic among segment'] = topic_counts['share of topic among segment'].apply(lambda x: round(x, 2))
grouped_data = grouped_data.merge(topic_counts, on=['category', 'grade', 'topics'], how='left')
grouped_data = grouped_data.merge(size_of_segment, on=['category', 'grade'], how='left')
helpful_frame = grouped_data.groupby(['category'])['size of segment'].sum().rename('size')
grouped_data = grouped_data.merge(helpful_frame, on=['category'], how='left')
grouped_data['share of such sentiment among category'] = (grouped_data['size of segment'] / grouped_data['size']).apply(lambda x: round(x, 2))
grouped_data.drop(columns = ['size'], inplace = True)
grouped_data

Unnamed: 0,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
0,autocredits,0,Проблемы с процессом обращения и обработки заявки,0.51,650,0.33
1,autocredits,1,Удовлетворенность процессом оформления автокре...,0.61,1332,0.67
2,creditcards,0,Неудовлетворенность результатом обращения в банк,0.79,521,0.18
3,creditcards,1,Удобное приложение,0.36,2370,0.82
4,credits,0,Проблемы с обслуживанием и обработкой заявок,0.41,584,0.2
5,credits,1,Быстрое оформление кредита,0.5,2375,0.8
6,debitcards,0,Проблемы с использованием дебетовой карты,0.84,684,0.25
7,debitcards,1,Оперативность работы поддержки,0.33,2043,0.75
8,deposits,0,Проблемы с доступом к счету,0.73,508,0.18
9,deposits,1,Положительный опыт обслуживания в отделении,0.45,2363,0.82


### В конкретных банках

In [174]:
data_top_banks = data.copy()
size_of_segment = data_top_banks.groupby(['bank', 'category', 'grade'])['topics'].size().to_frame()
size_of_segment = size_of_segment.reset_index(level = [0, 1, 2]).rename(columns = {'topics' : 'size of segment'})
grouped_data = data_top_banks.groupby(['bank', 'category', 'grade'])['topics'].apply(lambda x: x.mode().iloc[0]).reset_index()
topic_counts = data_top_banks.groupby(['bank', 'category', 'grade'])['topics'].apply(lambda x: x.value_counts(normalize=True)).to_frame()
topic_counts = topic_counts.reset_index(level = [0, 1, 2, 3]).rename(columns = {'level_3' : 'topics', 'topics' : 'share of topic among segment'})
topic_counts['share of topic among segment'] = topic_counts['share of topic among segment'].apply(lambda x: round(x, 2))
grouped_data = grouped_data.merge(topic_counts, on=['bank', 'category', 'grade', 'topics'], how='left')
grouped_data = grouped_data.merge(size_of_segment, on=['bank', 'category', 'grade'], how='left')
helpful_frame = grouped_data.groupby(['bank', 'category'])['size of segment'].sum().rename('size')
grouped_data = grouped_data.merge(helpful_frame, on=['bank', 'category'], how='left')
grouped_data['share of such sentiment among category'] = (grouped_data['size of segment'] / grouped_data['size']).apply(lambda x: round(x, 2))
grouped_data.drop(columns = ['size'], inplace = True)

Пример:

In [175]:
grouped_data[grouped_data['bank'] == 'Тинькофф Банк']

Unnamed: 0,bank,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
389,Тинькофф Банк,autocredits,0,Проблемы с процессом обращения и обработки заявки,0.78,77,0.37
390,Тинькофф Банк,autocredits,1,Удовлетворенность процессом оформления автокре...,0.81,132,0.63
391,Тинькофф Банк,creditcards,0,Неудовлетворенность результатом обращения в банк,0.9,61,0.3
392,Тинькофф Банк,creditcards,1,Эффективное обслуживание и поддержка клиентов,0.55,140,0.7
393,Тинькофф Банк,credits,0,Проблемы с обслуживанием и обработкой заявок,0.62,52,0.46
394,Тинькофф Банк,credits,1,Быстрое оформление кредита,0.35,62,0.54
395,Тинькофф Банк,debitcards,0,Проблемы с использованием дебетовой карты,0.9,72,0.27
396,Тинькофф Банк,debitcards,1,Оперативность работы поддержки,0.66,198,0.73
397,Тинькофф Банк,deposits,0,Проблемы с доступом к счету,0.5,18,0.19
398,Тинькофф Банк,deposits,1,"Удовлетворение услугами депозитов, предоставля...",0.44,77,0.81


In [176]:
grouped_data[grouped_data['bank'] == 'Альфа-Банк']

Unnamed: 0,bank,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
42,Альфа-Банк,autocredits,0,Проблемы с процессом обращения и обработки заявки,1.0,18,0.07
43,Альфа-Банк,autocredits,1,Удовлетворенность процессом оформления автокре...,0.87,245,0.93
44,Альфа-Банк,creditcards,0,Неудовлетворенность результатом обращения в банк,0.83,105,0.12
45,Альфа-Банк,creditcards,1,Эффективное обслуживание и поддержка клиентов,0.42,785,0.88
46,Альфа-Банк,credits,0,Проблемы с обслуживанием и обработкой заявок,0.54,57,0.16
47,Альфа-Банк,credits,1,Быстрое оформление кредита,0.39,298,0.84
48,Альфа-Банк,debitcards,0,Проблемы с использованием дебетовой карты,0.75,118,0.15
49,Альфа-Банк,debitcards,1,Оперативность работы поддержки,0.41,679,0.85
50,Альфа-Банк,deposits,0,Проблемы с доступом к счету,0.62,34,0.08
51,Альфа-Банк,deposits,1,"Удовлетворение услугами депозитов, предоставля...",0.44,381,0.92


## Ключевые проблемы и достоинства работы банков в разрезе городов 

In [187]:
cities_with_more_than_200 = data.groupby('city').size()[data.groupby('city').size() > 200].index
data_top_citys = data[data['city'].isin(cities_with_more_than_200)]
size_of_segment = data_top_citys.groupby(['city', 'category', 'grade'])['topics'].size().to_frame()
size_of_segment = size_of_segment.reset_index(level = [0, 1, 2]).rename(columns = {'topics' : 'size of segment'})
grouped_data = data_top_citys.groupby(['city', 'category', 'grade'])['topics'].apply(lambda x: x.mode().iloc[0]).reset_index()
topic_counts = data_top_citys.groupby(['city', 'category', 'grade'])['topics'].apply(lambda x: x.value_counts(normalize=True)).to_frame()
topic_counts = topic_counts.reset_index(level = [0, 1, 2, 3]).rename(columns = {'level_3' : 'topics', 'topics' : 'share of topic among segment'})
topic_counts['share of topic among segment'] = topic_counts['share of topic among segment'].apply(lambda x: round(x, 2))
grouped_data = grouped_data.merge(topic_counts, on=['city', 'category', 'grade', 'topics'], how='left')
grouped_data = grouped_data.merge(size_of_segment, on=['city', 'category', 'grade'], how='left')
helpful_frame = grouped_data.groupby(['city', 'category'])['size of segment'].sum().rename('size')
grouped_data = grouped_data.merge(helpful_frame, on=['city', 'category'], how='left')
grouped_data['share of such sentiment among category'] = (grouped_data['size of segment'] / grouped_data['size']).apply(lambda x: round(x, 2))
grouped_data.drop(columns = ['size'], inplace = True)
grouped_data

Unnamed: 0,city,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
0,Воронеж,autocredits,0,Неудовлетворительные условия кредитования,0.43,7,0.28
1,Воронеж,autocredits,1,Удовлетворенность процессом оформления автокре...,0.67,18,0.72
2,Воронеж,creditcards,0,Неудовлетворенность результатом обращения в банк,0.94,16,0.30
3,Воронеж,creditcards,1,Удобное приложение,0.37,38,0.70
4,Воронеж,credits,0,Проблемы с обслуживанием и обработкой заявок,0.54,13,0.28
...,...,...,...,...,...,...,...
163,Челябинск,debitcards,1,Удобство использования дебетовых карт,0.34,29,0.76
164,Челябинск,deposits,0,Проблемы с доступом к счету,0.80,5,0.17
165,Челябинск,deposits,1,Положительный опыт обслуживания в отделении,0.50,24,0.83
166,Челябинск,hypothec,0,Отказы по ипотеке и проблемы с коммуникацией с...,0.82,11,0.29


In [188]:
grouped_data[grouped_data['city'] == 'Воронеж']

Unnamed: 0,city,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
0,Воронеж,autocredits,0,Неудовлетворительные условия кредитования,0.43,7,0.28
1,Воронеж,autocredits,1,Удовлетворенность процессом оформления автокре...,0.67,18,0.72
2,Воронеж,creditcards,0,Неудовлетворенность результатом обращения в банк,0.94,16,0.3
3,Воронеж,creditcards,1,Удобное приложение,0.37,38,0.7
4,Воронеж,credits,0,Проблемы с обслуживанием и обработкой заявок,0.54,13,0.28
5,Воронеж,credits,1,Быстрое оформление кредита,0.56,34,0.72
6,Воронеж,debitcards,0,Проблемы с использованием дебетовой карты,0.71,14,0.33
7,Воронеж,debitcards,1,Удобство использования дебетовых карт,0.46,28,0.67
8,Воронеж,deposits,0,Проблемы с доступом к счету,0.67,9,0.23
9,Воронеж,deposits,1,Удовлетворение процентными ставками и удобство...,0.42,31,0.78


In [189]:
grouped_data[grouped_data['city'] == 'Москва']

Unnamed: 0,city,category,grade,topics,share of topic among segment,size of segment,share of such sentiment among category
48,Москва,autocredits,0,Проблемы с процессом обращения и обработки заявки,0.53,165,0.32
49,Москва,autocredits,1,Удовлетворенность процессом оформления автокре...,0.72,347,0.68
50,Москва,creditcards,0,Неудовлетворенность результатом обращения в банк,0.84,127,0.2
51,Москва,creditcards,1,Удобное приложение,0.39,495,0.8
52,Москва,credits,0,Проблемы с обслуживанием и обработкой заявок,0.44,148,0.22
53,Москва,credits,1,Быстрое оформление кредита,0.43,522,0.78
54,Москва,debitcards,0,Проблемы с использованием дебетовой карты,0.86,163,0.26
55,Москва,debitcards,1,Удобство использования мобильного приложения,0.28,471,0.74
56,Москва,deposits,0,Проблемы с доступом к счету,0.82,175,0.2
57,Москва,deposits,1,Положительный опыт обслуживания в отделении,0.5,715,0.8
