## Модели scikit-learn - задача классификации с использованием непараметрических, вероятностных, ансамблевых методов, в т.ч. бустингов

Обучение моделей на данных, извлекаемых из API https://i.centr.by/inforoads/api/v3/measurings.
Целью обучения является прогнозирование значения surface ['Closed' 'Dry' 'MoreWet' 'Wet' 'WetAndChemicals'] методом классификации.
Результат работы моделей - точность классификации на тестовом (проверочном) наборе данных.

In [None]:
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import AdaBoostClassifier
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

In [6]:
# Прочитаем набор данных и меток из файлов, подготовленных на этапе ELT
X = np.loadtxt('dataset.csv', delimiter=',', skiprows=1)
y = np.loadtxt('labels.csv', delimiter=',', skiprows=1)[:, 0]

In [68]:
# Разделим набор данных на тренировочный и тестовый
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.35, random_state=42)

### Метод опорных векторов

In [69]:
clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.7837837837837838


### Алгоритм к-ближайших соседей

In [70]:
clf = KNeighborsClassifier(n_neighbors=9)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.7837837837837838


### Гауссовский наивный байес

In [71]:
clf = GaussianNB()
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.7567567567567568


### Адаптивный бустинг

In [72]:
clf = AdaBoostClassifier(n_estimators=50, learning_rate=0.7, random_state=42)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.7567567567567568


### Гистограммный градиентный бустинг

In [73]:
clf = HistGradientBoostingClassifier(max_features=1.0, random_state=42)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.6486486486486487


### Градиентный бустинг

In [74]:
clf = GradientBoostingClassifier(n_estimators=50, max_features=1.0, random_state=42)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.6486486486486487


### Экстремально случайные деревья

In [75]:
clf = ExtraTreesClassifier(n_estimators=25, random_state=42)
clf.fit(X_train, y_train)
acc = clf.score(X_test, y_test)
print(f'Средняя точность: {acc}')

Средняя точность: 0.5945945945945946
