## Создание классических моделей машинного обучения

### Импорт собранных и обработанных данных

In [3]:
import pandas as pd

# Для mac
df_nlp = pd.read_csv(r'/Users/user/Documents/ML.csv')

# Для win
#df_nlp = pd.read_csv(r'C:\Users\User\Downloads\ML.csv'), если в начале лишних столбец с индексами

df_ml = df_nlp.drop(df_nlp.columns[[0,3,4,5,6,7,8,9,10]], axis = 1)

df_ml

Unnamed: 0,main_rubric,rubric,text_lemm,title_lemm
0,Происшествия,Происшествия,восемь человек погибать пострадать результат о...,тасс лнр время обстрел погибать восемь человек
1,Происшествия,Происшествия,буквально сегодня ночь вновь обстреливать мирн...,тасс обстрел всу лантратовка лнр погибать восе...
2,Происшествия,Происшествия,результате обстрел населенный пункт лантратовк...,результате обстрел всу лантратовка лнр погибат...
3,Происшествия,Происшествия,украинская армия наносить удар село лантратовк...,обстреле садиться лантратовка лнр украинский б...
4,Происшествия,Происшествия,результате обстрел украинский националист насе...,обстреле всу садиться лантратовка лнр погибать...
...,...,...,...,...
3428,Наука,Космос,китай суметь успешно осуществлять запуск первы...,китай потерять спутник запуск первый метановый...
3429,Наука,Космос,спутников который находиться борт ракета потеряны,старт первый мир ракета метан чжуцюэ заканчива...
3430,Наука,Космос,помимо испытание новый тип двигатель цель мисс...,первый орбитальный запуск ракета жидкий метан ...
3431,Наука,Космос,ходе миссия чжуцюэ удаваться достигать орбита ...,попытка запуск первый мир метановый орбитальны...


### Кодирование целевой переменной. Формирование тестовой и обучающей выборок

In [4]:
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

rubrics = ['Политика', 'Общество', 'Экономика', 'В мире', 'Спорт', 'Происшествия', 'Культура', 'Технологии', 'Наука']

encoder = LabelEncoder()
rubrics_list = df_ml['main_rubric'].to_list()
rubric_labels = encoder.fit_transform(rubrics_list)

X = df_ml['text_lemm']
y = rubric_labels

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
my_tags = rubrics

X_train.shape

(2403,)

In [5]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

### Байесовский классификатор

In [6]:
from sklearn.naive_bayes import MultinomialNB

def nb_classifier():
    
    nb = Pipeline ([('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', MultinomialNB()),
                   ])

    nb.fit(X_train, y_train)
    y_pred = nb.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    
    return round(accuracy_score(y_pred, y_test), 2)

nb_classifier()

accuracy 0.7922330097087379
              precision    recall  f1-score   support

    Политика       0.42      0.10      0.16        50
    Общество       0.99      0.81      0.89       108
   Экономика       1.00      0.49      0.66        69
      В мире       0.60      0.95      0.74       208
       Спорт       0.95      0.79      0.87       126
Происшествия       0.78      0.56      0.65        68
    Культура       0.81      0.96      0.88       171
  Технологии       0.98      0.83      0.90       108
       Наука       0.83      0.81      0.82       122

    accuracy                           0.79      1030
   macro avg       0.82      0.70      0.73      1030
weighted avg       0.82      0.79      0.78      1030



0.79

### Метод опорных векторов

In [7]:
from sklearn.linear_model import SGDClassifier

def sgd_classifier():
    
    sgd = Pipeline ([('vect', CountVectorizer()),
                     ('tfidf', TfidfTransformer()),
                     ('clf', SGDClassifier(loss='hinge', penalty='l2', alpha=1e-3, random_state=42, max_iter=5, tol=None)),
                    ])

    sgd.fit(X_train, y_train)
    y_pred = sgd.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    
    return round(accuracy_score(y_pred, y_test), 2)

sgd_classifier()

accuracy 0.8650485436893204
              precision    recall  f1-score   support

    Политика       0.53      0.34      0.41        50
    Общество       0.91      0.93      0.92       108
   Экономика       0.97      0.86      0.91        69
      В мире       0.84      0.89      0.87       208
       Спорт       0.91      0.87      0.89       126
Происшествия       0.81      0.81      0.81        68
    Культура       0.92      0.94      0.93       171
  Технологии       0.87      0.89      0.88       108
       Наука       0.82      0.88      0.85       122

    accuracy                           0.87      1030
   macro avg       0.84      0.82      0.83      1030
weighted avg       0.86      0.87      0.86      1030



0.87

### Логистическая регрессия

In [8]:
from sklearn.linear_model import LogisticRegression

def logreg_classifier():

    logreg = Pipeline ([('vect', CountVectorizer()),
                        ('tfidf', TfidfTransformer()),
                        ('clf', LogisticRegression(n_jobs=1, C=1e5)),
                       ])

    logreg.fit(X_train, y_train)
    y_pred = logreg.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    
    return round(accuracy_score(y_pred, y_test), 2)

logreg_classifier()

accuracy 0.8650485436893204
              precision    recall  f1-score   support

    Политика       0.51      0.52      0.51        50
    Общество       0.92      0.90      0.91       108
   Экономика       0.97      0.86      0.91        69
      В мире       0.81      0.90      0.85       208
       Спорт       0.92      0.87      0.90       126
Происшествия       0.78      0.76      0.77        68
    Культура       0.95      0.94      0.94       171
  Технологии       0.91      0.91      0.91       108
       Наука       0.86      0.83      0.85       122

    accuracy                           0.87      1030
   macro avg       0.85      0.83      0.84      1030
weighted avg       0.87      0.87      0.87      1030



STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.87

### Дерево решений 

In [9]:
from sklearn.tree import DecisionTreeClassifier

def dtree_classifier():
    
    dtree = Pipeline ([('vect', CountVectorizer()),
                       ('tfidf', TfidfTransformer()),
                       ('clf', DecisionTreeClassifier(max_depth = 2)),
                      ])

    dtree.fit(X_train, y_train)
    y_pred = dtree.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    
    return round(accuracy_score(y_pred, y_test), 2)

dtree_classifier()

accuracy 0.26796116504854367
              precision    recall  f1-score   support

    Политика       0.00      0.00      0.00        50
    Общество       0.00      0.00      0.00       108
   Экономика       0.00      0.00      0.00        69
      В мире       0.22      1.00      0.36       208
       Спорт       0.89      0.25      0.40       126
Происшествия       0.00      0.00      0.00        68
    Культура       1.00      0.21      0.35       171
  Технологии       0.00      0.00      0.00       108
       Наука       0.00      0.00      0.00       122

    accuracy                           0.27      1030
   macro avg       0.23      0.16      0.12      1030
weighted avg       0.32      0.27      0.18      1030



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


0.27

### Метод K ближайщих соседей KNN

In [10]:
from sklearn.neighbors import KNeighborsClassifier

def knn_classifier():

    knn = Pipeline([('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', KNeighborsClassifier(n_neighbors=3)),
                   ])

    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    
    return round(accuracy_score(y_pred, y_test), 2)

knn_classifier()

accuracy 0.8514563106796117
              precision    recall  f1-score   support

    Политика       0.53      0.60      0.56        50
    Общество       0.83      0.88      0.86       108
   Экономика       0.83      0.91      0.87        69
      В мире       0.84      0.85      0.84       208
       Спорт       0.90      0.90      0.90       126
Происшествия       0.77      0.82      0.79        68
    Культура       0.91      0.92      0.92       171
  Технологии       0.90      0.80      0.84       108
       Наука       0.95      0.81      0.88       122

    accuracy                           0.85      1030
   macro avg       0.83      0.83      0.83      1030
weighted avg       0.86      0.85      0.85      1030



0.85

### Метод градиентного бустинга

In [11]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.metrics import mean_squared_error,r2_score 

def gbr_classifier():
    
    gbr = Pipeline([('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', GradientBoostingRegressor(n_estimators=200, max_depth=12, criterion='squared_error', learning_rate=0.03, min_samples_leaf=16, min_samples_split=16)),
                   ])

    gbr.fit(X_train, y_train)
    y_pred = gbr.predict(X_test)
    train_accuracy_score=gbr.score(X_train,y_train)
    test_accuracy_score=gbr.score(X_test,y_test)
    mse = mean_squared_error(y_test,y_pred)

    print(train_accuracy_score)
    print(test_accuracy_score)
    print("MSE: %.2f" % mse)
    print(r2_score(y_test,y_pred))
    
    return round(test_accuracy_score, 2)

gbr_classifier()

0.5396581257869708
0.40287001073743167
MSE: 3.37
0.40287001073743167


0.4

### Случайный лес

In [28]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import roc_auc_score

def rf_classifier():

    rf = Pipeline([('vect', CountVectorizer()),
                    ('tfidf', TfidfTransformer()),
                    ('clf', RandomForestRegressor(n_estimators=10,
                               oob_score=True,
                               random_state=1))
                  ])

    rf.fit(X_train, y_train)
    y_pred = rf.predict(X_test)

    print('accuracy %s' % accuracy_score(y_pred, y_test))
    print(classification_report(y_test, y_pred, target_names=my_tags))
    print ("AUC-ROC (oob) = ", roc_auc_score(y_train, rf.oob_prediction_))
    print ("AUC-ROC (test) = ", roc_auc_score(y_test, y_pred))
    return round(accuracy_score(y_pred, y_test), 2)

#rf_classifier()

In [22]:
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

# константы
#  ядро для генератора случайных чисел
my_seed = 8
#  создаём псевдоним для короткого обращения к графикам
plt = mpl.pyplot
# настройка стиля и отображения графиков
#  примеры стилей и шаблонов графиков: 
#  http://tonysyu.github.io/raw_content/matplotlib-style-gallery/gallery.html
mpl.style.use('seaborn-whitegrid')
sns.set_palette("Set2")
# раскомментируйте следующую строку, чтобы посмотреть палитру
# sns.color_palette("Set2")

In [25]:
import numpy as np

# сколько столбцов в обучающих данных (p)
X_m = X_train.shape[-1]
# возьмём значения для m: p, p/2, sqrt(p) и log2(p)
ms = np.around([X_m, X_m / 2, np.sqrt(X_m), np.log2(X_m)]).astype(int)
ms

array([2403, 1202,   49,   11])

In [27]:
from sklearn.model_selection import KFold, GridSearchCV
import time
from sklearn.ensemble import RandomForestClassifier

# настроим параметры случайного леса с помощью сеточного поиска
param_grid = {'n_estimators' : [10, 20, 30, 40, 50],
              'max_features' : ms}

# разбиения для перекрёстной проверки
kfold = KFold(n_splits=5, random_state=my_seed, shuffle=True)

# таймер
tic = time.perf_counter()
clf = GridSearchCV(RandomForestClassifier(DecisionTreeClassifier()),
                   param_grid, scoring='accuracy', cv=kfold)
random_forest = clf.fit(X, y)
# таймер
toc = time.perf_counter()
print(f"Сеточный поиск занял {toc - tic:0.2f} секунд", sep='')

ValueError: 
All the 100 fits failed.
It is very likely that your model is misconfigured.
You can try to debug the error by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
80 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/ensemble/_forest.py", line 331, in fit
    X, y = self._validate_data(
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/base.py", line 596, in _validate_data
    X, y = check_X_y(X, y, **check_params)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/utils/validation.py", line 1074, in check_X_y
    X = check_array(
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/utils/validation.py", line 856, in check_array
    array = np.asarray(array, order=order, dtype=dtype)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/pandas/core/series.py", line 872, in __array__
    return np.asarray(self._values, dtype)
ValueError: could not convert string to float: 'восемь человек погибать пострадать результат обстрел населенный пункт лантратовка лнр сообщать тасс экстренный службах'

--------------------------------------------------------------------------------
20 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/ensemble/_forest.py", line 331, in fit
    X, y = self._validate_data(
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/base.py", line 596, in _validate_data
    X, y = check_X_y(X, y, **check_params)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/utils/validation.py", line 1074, in check_X_y
    X = check_array(
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/sklearn/utils/validation.py", line 856, in check_array
    array = np.asarray(array, order=order, dtype=dtype)
  File "/Users/user/opt/anaconda3/lib/python3.9/site-packages/pandas/core/series.py", line 872, in __array__
    return np.asarray(self._values, dtype)
ValueError: could not convert string to float: 'буквально сегодня ночь вновь обстреливать мирный поселок лантратовка использовать американский система залповый огонь himars писать издание русский весна согласно иметься текущий момент информация боевик наносить ракетный удар местный время житель поселок мирно спали'
