# Нормализация признаков

In [3]:
import pandas as pd

##### Введение
Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. В этом задании мы предлагаем вам воспользоваться персептроном — одним из простейших вариантов линейных моделей.

Как и в случае с метрическими методами, качество линейных алгоритмов зависит от некоторых свойств данных. В частности, признаки должны быть нормализованы, то есть иметь одинаковый масштаб. Если это не так, и масштаб одного признака сильно превосходит масштаб других, то качество может резко упасть.

Один из способов нормализации заключается в стандартизации признаков. Для этого берется набор значений признака на всех объектах, вычисляется их среднее значение и стандартное отклонение. После этого из всех значений признака вычитается среднее, и затем полученная разность делится на стандартное отклонение.

In [19]:
# Пример использования линейные методы
import numpy as np
from sklearn.linear_model import Perceptron # Мы будем работать с реализацией персептрона
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = Perceptron()
clf.fit(X, y)
predictions = clf.predict(X)

В качестве метрики качества мы будем использовать долю верных ответов (accuracy). Для ее подсчета можно воспользоваться функцией sklearn.metrics.accuracy_score, первым аргументом которой является вектор правильных ответов, а вторым — вектор ответов алгоритма.

Для стандартизации признаков удобно воспользоваться классом sklearn.preprocessing.StandardScaler. Функция fit_transform данного класса находит параметры нормализации (средние и дисперсии каждого признака) по выборке, и сразу же делает нормализацию выборки с использованием этих параметров. Функция transform делает нормализацию на основе уже найденных параметров.

In [20]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = np.array([[100.0, 2.0], [50.0, 4.0], [70.0, 6.0]])
X_test = np.array([[90.0, 1], [40.0, 3], [60.0, 4]])
X_train_scaled = scaler.fit_transform(X_train) # обучаемся только на трейне (чтобы не было утечек тестовой выборки в модель)
X_test_scaled = scaler.transform(X_test)

In [21]:
# Целевая переменная записана в первом столбце, признаки — во втором и третьем
df_train = pd.read_csv('perceptron-train.csv', index_col=False, header=None)
df_test = pd.read_csv('perceptron-test.csv', index_col=False, header=None)

X_train = df_train.iloc[:,1:]
X_test = df_test.iloc[:,1:]
y_train = df_train.iloc[:,0]
y_test = df_test.iloc[:,0]

Обучите персептрон со стандартными параметрами и random_state=241.

In [22]:
clf = Perceptron() #random_state=241)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

Подсчитайте качество (долю правильно классифицированных объектов, accuracy) полученного классификатора на тестовой выборке.

In [12]:
from sklearn.metrics import accuracy_score

In [23]:
accuracy_score(y_test, y_pred)

0.655

Нормализуйте обучающую и тестовую выборку с помощью класса StandardScaler. 

In [24]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train) 
X_test_scaled = scaler.transform(X_test)

Обучите персептрон на новой выборке. Найдите долю правильных ответов на тестовой выборке.

In [25]:
clf.fit(X_train_scaled, y_train)
y_pred_scaled = clf.predict(X_test_scaled)

In [26]:
accuracy_score(y_test, y_pred_scaled)

0.845

Найдите разность между качеством на тестовой выборке после нормализации и качеством до нее. Это число и будет ответом на задание.

In [27]:
round(accuracy_score(y_test, y_pred_scaled) - accuracy_score(y_test, y_pred), 3)

0.19