Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. В этом задании мы предлагаем вам воспользоваться персептроном — одним из простейших вариантов линейных моделей.

Как и в случае с метрическими методами, качество линейных алгоритмов зависит от некоторых свойств данных. В частности, признаки должны быть нормализованы, то есть иметь одинаковый масштаб. Если это не так, и масштаб одного признака сильно превосходит масштаб других, то качество может резко упасть.

Один из способов нормализации заключается в стандартизации признаков. Для этого берется набор значений признака на всех объектах, вычисляется их среднее значение и стандартное отклонение. После этого из всех значений признака вычитается среднее, и затем полученная разность делится на стандартное отклонение.

Реализация в Scikit-Learn
В библиотеке scikit-learn линейные методы реализованы в пакете sklearn.linear_model. Мы будем работать с реализацией персептрона sklearn.linear_model.Perceptron. Как и у большинства моделей, обучение производится с помощью функции fit, построение прогнозов — с помощью функции predict.

В качестве метрики качества мы будем использовать долю верных ответов (accuracy). Для ее подсчета можно воспользоваться функцией sklearn.metrics.accuracy_score, первым аргументом которой является вектор правильных ответов, а вторым — вектор ответов алгоритма.

Для стандартизации признаков удобно воспользоваться классом sklearn.preprocessing.StandardScaler. Функция fit_transform данного класса находит параметры нормализации (средние и дисперсии каждого признака) по выборке, и сразу же делает нормализацию выборки с использованием этих параметров. Функция transform делает нормализацию на основе уже найденных параметров.


Загрузите обучающую и тестовую выборки из файлов perceptron-train.csv и perceptron-test.csv. Целевая переменная записана в первом столбце, признаки — во втором и третьем.

In [51]:
import pandas as pd
from sklearn.linear_model import Perceptron
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

data_train = pd.read_csv('C:\\Users\\todosuk\\Desktop\\perceptron-train.csv',header=None)
data_test = pd.read_csv('C:\\Users\\todosuk\\Desktop\\perceptron-test.csv',header=None)

X_train = data_train.loc[:,1:] # Выбираем признаки в тренировочной выборке(все столбцы кроме первого)
y_train = data_train[0] # Выбираем целевую переменную тренировочного набора

X_test = data_test.loc[:,1:] # Выбираем признаки в тестовой выборке(все столбцы кроме первого)
y_test = data_test[0] # Выбираем целевую переменную тестового набора

Обучите персептрон со стандартными параметрами и random_state=241.

In [52]:
model = Perceptron(random_state = 241)
model.fit(X_train, y_train)



Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      max_iter=None, n_iter=None, n_jobs=1, penalty=None, random_state=241,
      shuffle=True, tol=None, verbose=0, warm_start=False)

Подсчитайте качество (долю правильно классифицированных объектов, accuracy) полученного классификатора на тестовой выборке.

In [53]:
acc_before = accuracy_score(y_test, model.predict(X_test))
acc_before

0.65500000000000003

Нормализуйте обучающую и тестовую выборку с помощью класса StandardScaler.

In [54]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

Обучите персептрон на новой выборке. Найдите долю правильных ответов на тестовой выборке.

In [55]:
model.fit(X_train_scaled,y_train)
acc_after = accuracy_score(y_test, model.predict(X_test_scaled))
acc_after



0.84499999999999997

Найдите разность между качеством на тестовой выборке после нормализации и качеством до нее. Это число и будет ответом на задание.

In [56]:
print(acc_after - acc_before)

0.19
