# libs

In [1]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from pycaret.classification import *

# product metric

- **продукт**: чат-бот для психологической поддержки (можно взять готовую модель bloom https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ). каждый ответ человека классифицируется по эмоциям. в итоге, мы можем посчитать какая эмоция превалировала в процентном соотношении за каждый разговор/ день/ неделю. эту информацию можно как превращать в столбчатые диаграммы с изменяемым периодом, чтобы человек сам видел как он себя чувствует, как его настроение меняется в каких ситуациях, так и для бизнес-метрики (ретеншен), т к она вероятнее всего будет коррелировать с тем, меняется ли настроение человека к концу разговора с ботом относительно начала. например, любой разговор (коммуникация, перерывы в которой не превышают 1 час) будем делить на 4 равные части из сообщений, по первой замерять преобладающее настроение человека в момент обращения к боту, а по последней - настроение после "работы" с ботом. если процент "хороших" эмоций повышается, то значит что бот помогает справляться с тяжелым состоянием, и ожидается, что такие люди будут с большей вероятностью возвращаться к использованию продукта. также это в целом полезный показатель удовлетворенности клиента в случае с таким нетиповым продуктом. 
- **задача ML**: многоклассовая классификация
- **целевая переменная**: метки эмоций
- **бизнесовая метрика**: выдвигаем гипотезу, что на RR влияет процент "хороших" эмоций к концу диалога с ботом относительно начала диалога
- **ML-метрики**: средняя F-мера, индивидуальные AUC-PRC и AUC-ROC

# data

labels:
 - 0 > sadness
 - 1 > joy
 - 2 > love
 - 3 > anger
 - 4 > fear
 - 5 > surprise

In [5]:
df_train = pd.read_csv('data/training.csv')
df_test = pd.read_csv('data/test.csv')
df_val = pd.read_csv('data/validation.csv')

In [3]:
df_train.label.value_counts()

1    5362
0    4666
3    2159
4    1937
2    1304
5     572
Name: label, dtype: int64

In [6]:
vect = TfidfVectorizer(sublinear_tf=True, use_idf=True)

X_train = vect.fit_transform(df_train.text.values)
X_test = vect.transform(df_test.text.values)
X_val = vect.transform(df_val.text.values)

In [5]:
X_train.shape

(16000, 15186)

In [7]:
tsvd = TruncatedSVD(n_components=1000)
X_train_pca = tsvd.fit_transform(X_train)
X_test_pca = tsvd.transform(X_test)
X_val_pca = tsvd.transform(X_val)

In [8]:
train = pd.concat([pd.DataFrame(X_train_pca),df_train.label],axis=1)
test = pd.concat([pd.DataFrame(X_test_pca),df_test.label],axis=1)
val = pd.concat([pd.DataFrame(X_val_pca),df_val.label],axis=1)

# baseline

In [11]:
train.shape

(16000, 1001)

In [9]:
clf = setup(data=train, test_data=test, target='label', fold=3)

Unnamed: 0,Description,Value
0,Session id,8273
1,Target,label
2,Target type,Multiclass
3,Original data shape,"(18000, 1001)"
4,Transformed data shape,"(22000, 1001)"
5,Transformed train set shape,"(18000, 1001)"
6,Transformed test set shape,"(4000, 1001)"
7,Numeric features,1000
8,Preprocess,True
9,Imputation type,simple


In [None]:
best = compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
ridge,Ridge Classifier,0.8781,0.0,0.8781,0.878,0.8761,0.8379,0.8388,4.9667
svm,SVM - Linear Kernel,0.8701,0.0,0.8701,0.8737,0.8684,0.827,0.8292,5.5333
lr,Logistic Regression,0.8378,0.9807,0.8378,0.8448,0.8306,0.7809,0.7853,27.05
qda,Quadratic Discriminant Analysis,0.7529,0.8524,0.7529,0.6734,0.7005,0.6568,0.6712,19.1433
rf,Random Forest Classifier,0.6012,0.8801,0.6012,0.7055,0.5488,0.4279,0.4605,51.2733
knn,K Neighbors Classifier,0.5432,0.7988,0.5432,0.6291,0.5556,0.4142,0.4265,40.5967
nb,Naive Bayes,0.449,0.7345,0.449,0.5175,0.4566,0.2951,0.3007,4.98
dt,Decision Tree Classifier,0.4132,0.6161,0.4132,0.4127,0.4129,0.2285,0.2285,37.4567
ada,Ada Boost Classifier,0.3872,0.603,0.3872,0.3644,0.3315,0.1254,0.1391,89.1467


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

In [None]:
# Logistic Regression is the best baseline model