# libs

In [1]:
import pandas as pd
import numpy as np

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from pycaret.classification import *

# product metric

- **продукт**: чат-бот для психологической поддержки (можно взять готовую модель bloom https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ). каждый ответ человека классифицируется по эмоциям. в итоге, мы можем посчитать какая эмоция превалировала в процентном соотношении за каждый разговор/ день/ неделю. эту информацию можно как превращать в столбчатые диаграммы с изменяемым периодом, чтобы человек сам видел как он себя чувствует, как его настроение меняется в каких ситуациях, так и для бизнес-метрики (ретеншен), т к она вероятнее всего будет коррелировать с тем, меняется ли настроение человека к концу разговора с ботом относительно начала. например, любой разговор (коммуникация, перерывы в которой не превышают 1 час) будем делить на 4 равные части из сообщений, по первой замерять преобладающее настроение человека в момент обращения к боту, а по последней - настроение после "работы" с ботом. если процент "хороших" эмоций повышается, то значит что бот помогает справляться с тяжелым состоянием, и ожидается, что такие люди будут с большей вероятностью возвращаться к использованию продукта. также это в целом полезный показатель удовлетворенности клиента в случае с таким нетиповым продуктом. 
- **задача ML**: многоклассовая классификация
- **целевая переменная**: метки эмоций
- **бизнесовая метрика**: выдвигаем гипотезу, что на RR влияет процент "хороших" эмоций к концу диалога с ботом относительно начала диалога
- **ML-метрики**: средняя F-мера, индивидуальные AUC-PRC и AUC-ROC

# data

labels:
 - 0 > sadness
 - 1 > joy
 - 2 > love
 - 3 > anger
 - 4 > fear
 - 5 > surprise

In [2]:
df_train = pd.read_csv('data/training.csv')
df_test = pd.read_csv('data/test.csv')
df_val = pd.read_csv('data/validation.csv')

In [3]:
df_train.label.value_counts()

1    5362
0    4666
3    2159
4    1937
2    1304
5     572
Name: label, dtype: int64

In [16]:
ind_0 = np.random.choice(list(df_train[df_train['label']==0].index), 2000, replace=False)
ind_1 = np.random.choice(list(df_train[df_train['label']==1].index), 2000, replace=False)
ind_3 = np.random.choice(list(df_train[df_train['label']==3].index), 2000, replace=False)

In [28]:
ind = list(pd.concat([df_train.iloc[ind_0], df_train.iloc[ind_1], df_train.iloc[ind_3], df_train.query('label==4 or label==2 or label==5')]).index)

In [29]:
np.random.shuffle(ind)

In [32]:
df_train.iloc[ind].reset_index(drop=True)

Unnamed: 0,text,label
0,i understand that chronically living makes som...,4
1,ive learned that people will forget what you s...,1
2,i struggled to feel any empathy for any of the...,1
3,i love what i do and i feel so blessed and luc...,2
4,i was transferred to the operating bed i began...,4
...,...,...
9808,i am rushed about here there and everywhere by...,0
9809,i am feeling very shaky,4
9810,i feel pressured helpless because i dont have ...,4
9811,i still love my so and wish the best for him i...,0


In [36]:
new_df = df_train.iloc[ind].reset_index(drop=True)

vect = TfidfVectorizer(sublinear_tf=True, use_idf=True)
X_train = vect.fit_transform(new_df.text.values)

tsvd = TruncatedSVD(n_components=1000)
X_train_pca = tsvd.fit_transform(X_train)

train = pd.concat([pd.DataFrame(X_train_pca),new_df.label],axis=1)

In [34]:
vect = TfidfVectorizer(sublinear_tf=True, use_idf=True)

X_train = vect.fit_transform(df_train.text.values)
X_test = vect.transform(df_test.text.values)
X_val = vect.transform(df_val.text.values)

In [35]:
X_train.shape

(16000, 15186)

In [5]:
tsvd = TruncatedSVD(n_components=1000)
X_train_pca = tsvd.fit_transform(X_train)
X_test_pca = tsvd.transform(X_test)
X_val_pca = tsvd.transform(X_val)

In [6]:
train = pd.concat([pd.DataFrame(X_train_pca),df_train.label],axis=1)
test = pd.concat([pd.DataFrame(X_test_pca),df_test.label],axis=1)
val = pd.concat([pd.DataFrame(X_val_pca),df_val.label],axis=1)

# baseline

In [38]:
models()

Unnamed: 0_level_0,Name,Reference,Turbo
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
lr,Logistic Regression,sklearn.linear_model._logistic.LogisticRegression,True
knn,K Neighbors Classifier,sklearn.neighbors._classification.KNeighborsCl...,True
nb,Naive Bayes,sklearn.naive_bayes.GaussianNB,True
dt,Decision Tree Classifier,sklearn.tree._classes.DecisionTreeClassifier,True
svm,SVM - Linear Kernel,sklearn.linear_model._stochastic_gradient.SGDC...,True
rbfsvm,SVM - Radial Kernel,sklearn.svm._classes.SVC,False
gpc,Gaussian Process Classifier,sklearn.gaussian_process._gpc.GaussianProcessC...,False
mlp,MLP Classifier,sklearn.neural_network._multilayer_perceptron....,False
ridge,Ridge Classifier,sklearn.linear_model._ridge.RidgeClassifier,True
rf,Random Forest Classifier,sklearn.ensemble._forest.RandomForestClassifier,True


In [37]:
clf = setup(data=train, target='label', fold=3)

Unnamed: 0,Description,Value
0,Session id,6167
1,Target,label
2,Target type,Multiclass
3,Original data shape,"(9813, 1001)"
4,Transformed data shape,"(9813, 1001)"
5,Transformed train set shape,"(6869, 1001)"
6,Transformed test set shape,"(2944, 1001)"
7,Numeric features,1000
8,Preprocess,True
9,Imputation type,simple


In [None]:
compare_models()

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
ridge,Ridge Classifier,0.8605,0.0,0.8605,0.861,0.8601,0.8288,0.8289,1.76
svm,SVM - Linear Kernel,0.8591,0.0,0.8591,0.8614,0.8588,0.8272,0.8277,2.77
lr,Logistic Regression,0.8027,0.9632,0.8027,0.8098,0.7987,0.7563,0.7576,12.8733
rf,Random Forest Classifier,0.5218,0.8146,0.5218,0.5684,0.5005,0.4028,0.4081,16.0533
knn,K Neighbors Classifier,0.4167,0.7387,0.4167,0.5809,0.4113,0.2753,0.3183,6.5367
nb,Naive Bayes,0.413,0.7167,0.413,0.4385,0.4133,0.2834,0.287,2.1833
dt,Decision Tree Classifier,0.3273,0.5877,0.3273,0.3269,0.3269,0.1747,0.1747,10.5433
ada,Ada Boost Classifier,0.3177,0.6382,0.3177,0.3223,0.3128,0.1552,0.1563,28.2633
qda,Quadratic Discriminant Analysis,0.2998,0.5927,0.2998,0.3873,0.3261,0.1765,0.1846,6.5867


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

In [None]:
# TT(Sec) это на один фолд, то есть при 3х фолдах умножаем на 3 и получаем общее время расчета кросс-вала

In [None]:
best = compare_models()
#compare_models(include = ['ridge', 'svm', 'lr', 'qda', 'rf', 'knn', 'nb', 'dt', 'ada'])

Unnamed: 0,Model,Accuracy,AUC,Recall,Prec.,F1,Kappa,MCC,TT (Sec)
ridge,Ridge Classifier,0.8784,0.0,0.8784,0.8784,0.8765,0.8383,0.8392,2.0133
svm,SVM - Linear Kernel,0.8742,0.0,0.8742,0.8753,0.8719,0.8325,0.8337,3.2533
lr,Logistic Regression,0.8377,0.9808,0.8377,0.845,0.8305,0.7807,0.7852,18.6367
qda,Quadratic Discriminant Analysis,0.7529,0.8525,0.7529,0.6735,0.7004,0.6567,0.6712,11.9
rf,Random Forest Classifier,0.5967,0.8803,0.5967,0.7029,0.5447,0.4212,0.454,40.4633
knn,K Neighbors Classifier,0.5401,0.7971,0.5401,0.6303,0.5536,0.4116,0.4238,24.3767
nb,Naive Bayes,0.4494,0.7344,0.4494,0.5177,0.4572,0.2955,0.301,2.6633
dt,Decision Tree Classifier,0.4141,0.6176,0.4141,0.4163,0.415,0.2322,0.2323,25.64
ada,Ada Boost Classifier,0.3849,0.5919,0.3849,0.3594,0.3224,0.1189,0.1361,65.3633


Processing:   0%|          | 0/65 [00:00<?, ?it/s]

In [None]:
# Logistic Regression is the best baseline model