In [79]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score
from sklearn.svm import LinearSVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB


In [2]:
tones = pd.read_csv('tonal_vectors.csv', sep=";")
tones.head()

Unnamed: 0.1,Unnamed: 0,Text,Positive,Negative,Mean,Max,Min,Sentiment
0,0,давать успокоиться начало мочь вестись ерунда ...,2.0,-1.916667,0.002604,1.0,-1.0,негативный сентимент
1,1,подождать подождать успокоиться пожалуйста под...,8.055556,-2.416667,0.102525,1.0,-1.0,негативный сентимент
2,2,кристин привет слышать самолёт упасть зеландия...,6.4,-7.75,-0.020149,1.0,-1.0,негативный сентимент
3,3,кристин привет .. слушать .. бояться лететь ра...,5.0,-7.45,-0.035507,1.0,-1.0,негативный сентимент
4,4,почему подождать ... подождать давно планирова...,0.0,-1.0,-0.111111,0.0,-1.0,негативный сентимент


In [11]:
X_train, X_test, y_train, y_test = train_test_split(
    tones.drop(columns=["Unnamed: 0", "Sentiment", "Text"]),
    tones.Sentiment,
    test_size=0.2,
    shuffle = True,
    random_state=42,
    stratify = None)

## Логистическая регрессия

In [17]:
clf = LogisticRegression(
    penalty = 'l2', #{‘l1’, ‘l2’, ‘elasticnet’, None}, default=’l2’
    C = 0.2, #float, default=1.0
    class_weight = 'balanced', #dict or ‘balanced’, default=None
    random_state = 42,
    max_iter = 1000, #int, default=100
    n_jobs = -1, #int, default=None
)

In [18]:
clf_pretrained = clf.fit(X_train, y_train)
y_predict = clf_pretrained.predict(X_test)
y_test


117     негативный сентимент
132      радостный сентимент
154     негативный сентимент
245    нейтральный сентимент
84      негативный сентимент
               ...          
322      радостный сентимент
375      радостный сентимент
368     негативный сентимент
534    нейтральный сентимент
384     негативный сентимент
Name: Sentiment, Length: 107, dtype: object

In [19]:
y_predict

array(['негативный сентимент', 'нейтральный сентимент',
       'негативный сентимент', 'радостный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'негативный сентимент', 'радостный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'радостный сентимент', 'негативный сентимент',
       'радостный сентимент', 'радостный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'негативный сентимент', 'радостный сентимент',
       'негативный сентимент', 'нейтральный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'негативный сентимент', 'нейтральный сентимент',
       'негативный сентимент', 'негативный сентимент',
       'радостный сентимент', 'нейтральный сентимент',
       'негативный сентимент', 'нейтральный сентимент',
       'радостный сентимент', 'негативный сентимент',
       'радос

In [22]:
f1_score(y_predict, y_test, average="macro")

0.3287490287490287

## Метод опорных векторов

In [25]:
clf_lsvc = LinearSVC(
    penalty = 'l2', #{‘l1’, ‘l2’}, default=’l2’
    C = 0.2, #float, default=1.0
    class_weight = 'balanced', #dict or ‘balanced’, default=None
    random_state = 42,
    max_iter = 2000 #int, default=1000
)

In [26]:
clf_lsvc = clf_lsvc.fit(X_train, y_train)
y_predict_lsvc = clf_lsvc.predict(X_test)

In [28]:
f1_score(y_predict_lsvc, y_test, average="macro")

0.3762740183792815

## Деревья решений

In [31]:
clf_dt =  DecisionTreeClassifier(
    criterion = 'entropy', #{“gini”, “entropy”, “log_loss”}, default=”gini”
    splitter = 'best', #{“best”, “random”}, default=”best”
    max_depth = 200, #int, default=None
    class_weight = 'balanced', #dict or ‘balanced’, default=None
    random_state = 42
)

In [32]:
clf_dt = clf_dt.fit(X_train, y_train)
y_predict_dt = clf_dt.predict(X_test)

In [33]:
f1_score(y_predict_dt, y_test, average="macro")


0.4779461279461279

## Случайный лес

In [56]:
clf_rf =  RandomForestClassifier(
    n_estimators = 5000, #int, default=100
    criterion = 'gini', #{“gini”, “entropy”, “log_loss”}, default=”gini”
    max_depth = 20, #int, default=None
    class_weight = 'balanced', #dict or ‘balanced’, default=None
    random_state = 42
)

In [57]:
clf_rf = clf_rf.fit(X_train, y_train)
y_predict_rf = clf_rf.predict(X_test)

In [58]:
f1_score(y_predict_rf, y_test, average="macro")


0.4794229748637043

## K ближайших

In [76]:
clf_KNN = KNeighborsClassifier(
    n_neighbors = 35, #int, default=5
    weights = 'distance', #{‘uniform’, ‘distance’}, callable or None, default=’uniform’
    metric = 'euclidean', #str or callable, default=’minkowski’
)

In [77]:
clf_KNN = clf_KNN.fit(X_train, y_train)
y_predict_KNN = clf_KNN.predict(X_test)

In [78]:
f1_score(y_predict_KNN, y_test, average="macro")


0.38307082987934055

## Naive bias

In [80]:
clf_nb = MultinomialNB(
    alpha = 1.1 #float or array-like of shape (n_features,), default=1.0
)

In [82]:
clf_nb = clf_nb.fit(X_train, y_train)
y_predict_nb = clf_nb.predict(X_test)

ValueError: Negative values in data passed to MultinomialNB (input X)