0. Импортируем все нужные функции и классы из модуля `sklearn`

In [1]:
import pandas as pd

from sklearn.model_selection import train_test_split  # разделение на тестовую и обучающую выборку
from sklearn.metrics import classification_report  # метрики оценки

from sklearn.linear_model import LogisticRegression  # логистическая регрессия
from sklearn.tree import DecisionTreeClassifier  # дерево решений
from sklearn.ensemble import RandomForestClassifier  # случайный лес

---
1. Считаем с файла тональные вектора, сформированные в предыдущей работе

In [2]:
df = pd.read_csv('Manual_transcription tonal.csv', sep=',')

X = df.drop(columns='Sentiment')
Y = df['Sentiment']
X, Y

(     Count positive  Count negative  Mean sentiment       Max  Min  Median
 0                 2               2        0.002604  1.000000 -1.0     0.0
 1                 9               3        0.102525  1.000000 -1.0     0.0
 2                 7               8       -0.020149  1.000000 -1.0     0.0
 3                 5               9       -0.035507  1.000000 -1.0     0.0
 4                 0               1       -0.111111  0.000000 -1.0     0.0
 ..              ...             ...             ...       ...  ...     ...
 530               3               5       -0.001373  1.000000 -1.0     0.0
 531               1               7       -0.049271  1.000000 -1.0     0.0
 532               8               5       -0.003929  0.666667 -1.0     0.0
 533               6               7       -0.010018  1.000000 -1.0     0.0
 534               8               3        0.046812  1.000000 -1.0     0.0
 
 [535 rows x 6 columns],
 0      0
 1      0
 2      0
 3      0
 4      0
       ..
 

---
2. Сформируем обучающую и тестовую выборку 

In [3]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, shuffle=True)
X_train.head(3), Y_train.head(3)

(     Count positive  Count negative  Mean sentiment       Max       Min  \
 512              12               0        0.129310  1.000000  0.000000   
 322               3               0        0.024155  0.666667  0.000000   
 384               2               8       -0.211494  1.000000 -1.166667   
 
      Median  
 512     0.0  
 322     0.0  
 384     0.0  ,
 512    2
 322    2
 384    0
 Name: Sentiment, dtype: int64)

---
3.1. Обучим классификатор с логистической регрессией

In [4]:
lgstc_cls = LogisticRegression(penalty='l2', C=0.2, class_weight='balanced', n_jobs=-1)
trained_lgstc = lgstc_cls.fit(X_train, Y_train)
trained_lgstc

In [5]:
lgstc_predict = trained_lgstc.predict(X_test)
lgstc_predict, Y_test.to_numpy()

(array([0, 0, 0, 2, 2, 2, 2, 2, 2, 0, 1, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 0,
        0, 0, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 1, 0, 0, 0, 1, 1, 0, 2, 0, 0,
        0, 2, 0, 0, 0, 0, 0, 2, 0, 0, 2, 2, 0, 2, 0, 2, 0, 0, 0, 1, 2, 0,
        1, 0, 0, 0, 0, 0, 0, 2, 0, 1, 2, 2, 0, 0, 2, 2, 1, 0, 2, 1, 1, 0,
        0, 2, 2, 0, 2, 2, 0, 2, 2, 2, 0, 1, 2, 0, 2, 2, 2, 0, 0],
       dtype=int64),
 array([1, 0, 0, 0, 0, 0, 0, 0, 2, 1, 1, 0, 2, 0, 2, 0, 0, 0, 2, 0, 0, 0,
        0, 2, 0, 0, 2, 2, 0, 0, 2, 0, 0, 0, 0, 0, 2, 0, 1, 1, 1, 1, 0, 0,
        0, 2, 2, 0, 0, 2, 0, 2, 0, 2, 0, 2, 1, 1, 2, 0, 0, 0, 0, 2, 2, 0,
        1, 0, 1, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 2, 0,
        2, 0, 0, 2, 2, 0, 0, 1, 1, 2, 0, 2, 2, 0, 0, 0, 0, 0, 0],
       dtype=int64))

3.2. Обучим классификатор с деревьями решений

In [6]:
tree_cls = DecisionTreeClassifier(criterion='entropy', max_depth=200, class_weight='balanced')
trained_tree = tree_cls.fit(X_train, Y_train)
trained_tree

In [7]:
tree_predict = trained_tree.predict(X_test)
tree_predict, Y_test.to_numpy()

(array([0, 0, 0, 0, 0, 1, 0, 0, 2, 1, 1, 2, 0, 0, 2, 2, 0, 0, 2, 0, 0, 0,
        0, 2, 0, 0, 0, 0, 0, 0, 1, 1, 2, 0, 0, 0, 1, 2, 1, 2, 2, 2, 0, 0,
        0, 2, 0, 0, 0, 0, 0, 2, 0, 1, 0, 2, 0, 1, 0, 1, 0, 1, 2, 2, 1, 1,
        0, 2, 0, 0, 0, 0, 2, 1, 0, 2, 0, 2, 0, 2, 2, 2, 1, 1, 0, 0, 2, 0,
        0, 0, 1, 0, 1, 1, 0, 2, 2, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0],
       dtype=int64),
 array([1, 0, 0, 0, 0, 0, 0, 0, 2, 1, 1, 0, 2, 0, 2, 0, 0, 0, 2, 0, 0, 0,
        0, 2, 0, 0, 2, 2, 0, 0, 2, 0, 0, 0, 0, 0, 2, 0, 1, 1, 1, 1, 0, 0,
        0, 2, 2, 0, 0, 2, 0, 2, 0, 2, 0, 2, 1, 1, 2, 0, 0, 0, 0, 2, 2, 0,
        1, 0, 1, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 2, 0,
        2, 0, 0, 2, 2, 0, 0, 1, 1, 2, 0, 2, 2, 0, 0, 0, 0, 0, 0],
       dtype=int64))

3.3. Обучим классификатор со случайным лесом

In [8]:
forest_cls = RandomForestClassifier(n_estimators=200, max_depth=200, class_weight='balanced')
trained_forest = forest_cls.fit(X_train, Y_train)
trained_forest

In [9]:
forest_predict = trained_forest.predict(X_test)
forest_predict, Y_test.to_numpy()

(array([0, 0, 0, 0, 0, 1, 0, 0, 2, 1, 1, 0, 0, 0, 2, 0, 0, 0, 2, 2, 0, 0,
        0, 2, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 0, 1, 0, 1, 0, 0, 2, 0, 0,
        0, 2, 0, 0, 0, 0, 0, 2, 2, 2, 0, 2, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0,
        0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2, 0, 2, 1, 0, 0, 0, 2, 0,
        0, 0, 1, 0, 2, 1, 0, 2, 2, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0],
       dtype=int64),
 array([1, 0, 0, 0, 0, 0, 0, 0, 2, 1, 1, 0, 2, 0, 2, 0, 0, 0, 2, 0, 0, 0,
        0, 2, 0, 0, 2, 2, 0, 0, 2, 0, 0, 0, 0, 0, 2, 0, 1, 1, 1, 1, 0, 0,
        0, 2, 2, 0, 0, 2, 0, 2, 0, 2, 0, 2, 1, 1, 2, 0, 0, 0, 0, 2, 2, 0,
        1, 0, 1, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 2, 0,
        2, 0, 0, 2, 2, 0, 0, 1, 1, 2, 0, 2, 2, 0, 0, 0, 0, 0, 0],
       dtype=int64))

---
4. Оценим работу классификаторов с помощью метрик

In [10]:
print('Логистическая регрессия\n', classification_report(Y_test, lgstc_predict, digits = 4), '\n')
print('Деревья решений\n', classification_report(Y_test, tree_predict, digits = 4), '\n')
print('Случайный лес\n', classification_report(Y_test, forest_predict, digits = 4))

Логистическая регрессия
               precision    recall  f1-score   support

           0     0.7333    0.6875    0.7097        64
           1     0.4167    0.2941    0.3448        17
           2     0.3143    0.4231    0.3607        26

    accuracy                         0.5607       107
   macro avg     0.4881    0.4682    0.4717       107
weighted avg     0.5812    0.5607    0.5669       107
 

Деревья решений
               precision    recall  f1-score   support

           0     0.7167    0.6719    0.6935        64
           1     0.2500    0.2941    0.2703        17
           2     0.3704    0.3846    0.3774        26

    accuracy                         0.5421       107
   macro avg     0.4457    0.4502    0.4471       107
weighted avg     0.5584    0.5421    0.5495       107
 

Случайный лес
               precision    recall  f1-score   support

           0     0.7260    0.8281    0.7737        64
           1     0.3333    0.2941    0.3125        17
           2  

#### На основе метрик делаем вывод, что лучше всего с задачей классификации справился классификатор «Случайный лес».