## Немного теории

Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. В этом задании мы предлагаем вам воспользоваться персептроном — одним из простейших вариантов линейных моделей.

Как и в случае с метрическими методами, качество линейных алгоритмов зависит от некоторых свойств данных. В частности, признаки должны быть нормализованы, то есть иметь одинаковый масштаб. Если это не так, и масштаб одного признака сильно превосходит масштаб других, то качество может резко упасть.

Один из способов нормализации заключается в стандартизации признаков. Для этого берется набор значений признака на всех объектах, вычисляется их среднее значение и стандартное отклонение. После этого из всех значений признака вычитается среднее, и затем полученная разность делится на стандартное отклонение.

In [7]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

In [8]:
data_test = pd.read_csv('perceptron-test.csv', header=None)

In [9]:
data_test = pd.read_csv('perceptron-test.csv', header=None)
X_test = data_test.loc[:,1:]  # Признаки: столбцы со 2 по последний
y_test = data_test.loc[:,0]  # Целевая переменная: первый столбец

In [10]:
data_train = pd.read_csv('perceptron-train.csv', header=None)
X_train = data_train.loc[:,1:]  # Признаки: столбцы со 2 по последний
y_train = data_train.loc[:,0]  # Целевая переменная: первый столбец

Обучение персептрона

In [14]:
perc = Perceptron()

clf = perc.fit(X_train, y_train)
predictions = clf.predict(X_test)
acc = accuracy_score(y_test, predictions)
acc

0.655

В качестве метрики качества мы будем использовать долю верных ответов (accuracy). Для ее подсчета можно воспользоваться функцией sklearn.metrics.accuracy_score, первым аргументом которой является вектор правильных ответов, а вторым — вектор ответов алгоритма.

Для стандартизации признаков удобно воспользоваться классом sklearn.preprocessing.StandardScaler. Функция fit_transform данного класса находит параметры нормализации (средние и дисперсии каждого признака) по выборке, и сразу же делает нормализацию выборки с использованием этих параметров. Функция transform делает нормализацию на основе уже найденных параметров.

In [15]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train.astype(float))
X_test_scaled = scaler.transform(X_test.astype(float))

In [16]:
clf_scaled = perc.fit(X_train_scaled, y_train)
predictions_scaled = clf_scaled.predict(X_test_scaled)

acc_scaled = accuracy_score(y_test, predictions_scaled)
print(acc_scaled)
print("%.3f" % abs(acc - acc_scaled))

0.845
0.190
