In [1]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
import re
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from nltk.corpus import stopwords

# Read data

In [2]:
data = pd.read_csv('D:/tele2_data_hack/email_reports.csv')
print(data.shape)

(125938, 10)


In [3]:
data.head()

Unnamed: 0,SENDER_ID,SENDER_EMAIL,OPERATOR_ID,ACCEPTOR,SUBJECT,To.queue.time,agent.receive.time,treatment.end.time,CONTENT,ANSWERTEXT
0,token_7747,xxxx@yandex.ru,token_48,spb.vopros@tele2.ru,Обратная связь,2088-06-17 02:31:32,2088-06-18 19:48:26,2088-06-18 20:24:59,Тело письма\r\n\r\nMSISDN: +xxx xxx xx xx\r\nО...,"\r\n\r\nЗдравствуйте, xxxxx xxxxx xxxxx!\r\n\r..."
1,token_14226,xxxx@mail.ru,token_50,Saransk.Vopros@tele2.ru,Re[2]: Обратная связь,2088-06-17 02:31:52,2088-06-18 18:43:45,2088-06-18 18:58:43,\r\nвся необходимая информация отображена в ...,"Здравствуйте, xxxxx xxxxx xxxxx!\r\nБлагодарим..."
2,token_23942,xxxx@mail.ru,token_3,rostov.vopros@tele2.ru,Обратная связь,2088-06-17 02:33:14,2088-06-18 18:43:45,2088-06-18 18:47:06,Тело письма\r\n\r\nMSISDN: +xxx xxx xx xx\r\nО...,"\r\n\r\nЗдравствуйте, xxxxx xxxxx xxxxx!\r\nБл..."
3,token_18368,xxxx@mail.ru,token_53,krasnodar.vopros@tele2.ru,Обратная связь,2088-06-17 02:33:36,2088-06-18 19:49:10,2088-06-18 19:53:57,Тело письма\r\n\r\nMSISDN: +xxx xxx xx xx\r\nО...,"\r\n\r\nЗдравствуйте, xxxxx xxxxx xxxxx! ¦\r\n..."
4,token_21039,xxxx@mail.ru,token_34,kostroma.vopros@tele2.ru,Обратная связь,2088-06-17 02:33:56,2088-06-18 19:49:17,2088-06-18 19:59:48,"Тело письма\r\n\r\nОтметьте, в каком регионе В...","\r\n\r\nАлександр, доброго времени суток! ;)\r..."


# determine fraction of each problem 

In [4]:
# for training classifier use only letters for support 
print(data.shape)
data = data[data['CONTENT'].apply(lambda x: 'Тело письма' in str(x))].reset_index(drop=True)
print(data.shape)

(125938, 10)
(102898, 10)


### Get question from user and topic of this question 

In [5]:
def get_topic(x):
    ret = ''
    try:
        ret = x.split('Выберите тему обращения: ')[1].split('\r')[0]
    except:
        pass
    return ret

def get_question(x):
    ret = ''
    try:
        ret = x.split('Выберите тему обращения: ')[1].split('\r')[1].split('\nЗадайте ваш вопрос или опишите проблему: ')[1]
    except:
        pass
    return ret


data['topic'] = data['CONTENT'].apply(lambda x: get_topic(x))
data['question'] = data['CONTENT'].apply(lambda x: get_question(x))

### Statistics of topics 

In [6]:
temp = data[['topic','CONTENT']].groupby('topic').agg('count').reset_index()
temp = temp.rename_axis({'CONTENT':'Number of questions'},axis=1)
num_q = np.sum(temp['Number of questions'])
temp = temp[temp['Number of questions']>1200].reset_index(drop=True)

temp['Topic fraction'] = temp['Number of questions'] / num_q * 100
print('Most popular topics fraction: ', np.sum(temp['Topic fraction']), '%')

Most popular topics fraction:  97.50335283484615 %


  


In [7]:
temp.sort_values(by='Topic fraction', ascending=False)

Unnamed: 0,topic,Number of questions,Topic fraction
8,прочее,24434,23.745845
10,тарифыИУслуги,18770,18.241365
3,мобильныйИнтернет,15918,15.469688
6,подключенныеУслуги,9112,8.855371
2,личныйКабинет,7379,7.171179
9,роумингИЗонаОбслуживания,6732,6.542401
7,поступлениеПлатежейОшибочныеПлатежи,6045,5.87475
1,детализацияСчётаИлиЗвонков,5474,5.319831
0,блокировкаИРазблокировкаSimКарты,2412,2.344069
5,подключениеКTele2,2398,2.330463


In [8]:
most_freq_topics = list(temp['topic'])

In [9]:
# keep only freq topics 
data = data[data['topic'].apply(lambda x: x in most_freq_topics)].reset_index(drop=True)

### Prepare data for test classification 

In [11]:
X_train, X_test, y_train, y_test = train_test_split(data['question'], data['topic'], 
                                                    shuffle=False, 
                                                    test_size=0.1)

In [12]:
le = LabelEncoder()
y_train_labels = le.fit_transform(y_train)
y_test_labels = le.transform(y_test)

In [13]:
xs_seq = []
for n_x in np.arange(10,2,-1):
    xs_seq.append('x'*n_x)
    
def preprocess_string(x):
    for xs in xs_seq:
        x = re.sub(xs, ' ', x)
    return x

X_train = X_train.apply(lambda x: preprocess_string(x))
X_test = X_test.apply(lambda x: preprocess_string(x))

In [14]:
stopWords = set(stopwords.words('russian'))
stopWords = list(stopWords)
stopWords = stopWords + ['вечер', 'добрый', 'день', 'скажите', 'пожалуйста', 'спасибо', 'ли', 'почему', 'вопрос']
stopWords.remove('не')
stopWords = set(stopWords)
print('Number of stop words:', len(stopWords))

Number of stop words: 158


In [16]:
tfidf = TfidfVectorizer(ngram_range=(1, 2), min_df=100, max_df=0.99, stop_words=stopWords)
X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

In [17]:
tfidf.vocabulary_

{'основной': 1261,
 'случилось': 2022,
 'не буду': 1006,
 'прошлого': 1788,
 'приложений': 1701,
 'не перенесли': 1039,
 'смогу': 2037,
 'произошло': 1759,
 'смене': 2026,
 'контент': 769,
 'свое': 1917,
 'говорит': 384,
 'система': 1978,
 'приложения': 1702,
 'связи этим': 1938,
 'оплатил': 1243,
 'услугу': 2332,
 '45': 99,
 'здравствуйте прошу': 629,
 'заранее благодарю': 585,
 'однако': 1220,
 'оплата': 1241,
 'не хватает': 1077,
 'живу': 547,
 'фото': 2359,
 'домашнем': 500,
 'получить': 1582,
 'обмена': 1185,
 'оператора': 1234,
 'операторы': 1240,
 'прошу отключить': 1797,
 'сняли 30': 2064,
 'купил': 804,
 'отправляется': 1329,
 'никак не': 1118,
 'своему': 1921,
 'ндс отключения': 1004,
 'рассмотреть': 1850,
 'непонятно': 1101,
 'равно': 1823,
 'какова': 729,
 'не заказывала': 1018,
 'работе': 1820,
 'позвонить не': 1551,
 'билайн': 220,
 'двух': 429,
 'ведома': 254,
 'месяцев': 860,
 'жалобу центральный': 544,
 'звонят': 615,
 'тарифном': 2217,
 'приложение пишет': 1694,
 'нуж

In [18]:
X_train_tfidf.shape, X_test_tfidf.shape

((90296, 2438), (10033, 2438))

In [19]:
from sklearn.linear_model import Lasso, LogisticRegression
from sklearn.ensemble import RandomForestClassifier

# acc=0.592
ls = LogisticRegression(solver='saga', verbose=1, n_jobs=-1)
ls.fit(X_train_tfidf, y_train_labels)

# acc=
#rf = RandomForestClassifier(n_estimators=200, n_jobs=-1, random_state=42, verbose=1)
#rf.fit(X_train_tfidf, y_train_labels)

convergence after 18 epochs took 34 seconds
convergence after 18 epochs took 35 seconds
convergence after 18 epochs took 35 seconds
convergence after 19 epochs took 36 seconds
convergence after 19 epochs took 36 seconds
convergence after 19 epochs took 36 seconds
convergence after 20 epochs took 37 seconds
convergence after 21 epochs took 38 seconds


[Parallel(n_jobs=-1)]: Done   8 out of  11 | elapsed:   37.6s remaining:   14.0s


convergence after 20 epochs took 9 seconds
convergence after 23 epochs took 10 seconds
convergence after 23 epochs took 9 seconds


[Parallel(n_jobs=-1)]: Done  11 out of  11 | elapsed:   43.9s finished


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=-1,
          penalty='l2', random_state=None, solver='saga', tol=0.0001,
          verbose=1, warm_start=False)

In [20]:
y_hat = ls.predict(X_test_tfidf)
acc_test = np.mean(y_hat==y_test_labels)

print('Accuracy on test data:', acc_test)

Accuracy on test data: 0.6052028306588259


In [35]:
def show_examples(id_example):
    
    text = data.iloc[id_example]['question']
    predicted_label = le.inverse_transform(y_hat[id_example])
    true_label = le.inverse_transform(y_test_labels[id_example])

    print('True label:', true_label)
    print('Predicted label:', predicted_label)
    print('Text:\n', text)
    print('---')

In [37]:
for idd in [-1, -5, -42, -2018]:
    show_examples(idd)

True label: прочее
Predicted label: поступлениеПлатежейОшибочныеПлатежи
Text:
 У меня списали средства за обещанный платеж  два раза хотя я его взял один раз
---
True label: тарифыИУслуги
Predicted label: тарифыИУслуги
Text:
 Здравствуйте! Какой у меня тариф?
---
True label: подключенныеУслуги
Predicted label: подключенныеУслуги
Text:
 Здравствуйте! Постоянно!!! Каждый месяц на этот номер подключаете платные услуги. Я команды не ввожу, всплывающие окна заблокированы. Сколько можно? Еще раз такое повториться и уйду от вас. Разберитесь пожалуйста и заблокируйте все платные услуги насовсем.
---
True label: детализацияСчётаИлиЗвонков
Predicted label: детализацияСчётаИлиЗвонков
Text:
 Хочу заказать детализацию звонков,как это сделать?
---


  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
  if diff:
