# Задание по программированию: Нормализация признаков

## Вы научитесь:
- работать с персептроном — простейшим вариантом линейного классификатора
- повышать качество линейной модели путем нормализации признаков

## Введение

Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. В этом задании мы предлагаем вам воспользоваться <a href="https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD">персептроном</a> — одним из простейших вариантов линейных моделей.

Как и в случае с метрическими методами, качество линейных алгоритмов зависит от некоторых свойств данных. В частности, признаки должны быть нормализованы, то есть иметь одинаковый масштаб. Если это не так, и масштаб одного признака сильно превосходит масштаб других, то качество может резко упасть.

Один из способов нормализации заключается в стандартизации признаков. Для этого берется набор значений признака на всех объектах, вычисляется их среднее значение и стандартное отклонение. После этого из всех значений признака вычитается среднее, и затем полученная разность делится на стандартное отклонение.

## Реализация в Scikit-Learn
В библиотеке scikit-learn линейные методы реализованы в пакете sklearn.linear_model. Мы будем работать с реализацией персептрона sklearn.linear_model.Perceptron. Как и у большинства моделей, обучение производится с помощью функции fit, построение прогнозов — с помощью функции predict.

Пример использования:

In [8]:
import numpy as np
from sklearn.linear_model import Perceptron
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = Perceptron()
clf.fit(X, y)
predictions = clf.predict(X) 



In [2]:
import sklearn
sklearn.__version__

'0.19.1'

В качестве метрики качества мы будем использовать долю верных ответов (`accuracy`). Для ее подсчета можно воспользоваться функцией `sklearn.metrics.accuracy_score`, первым аргументом которой является вектор правильных ответов, а вторым — вектор ответов алгоритма.

Для стандартизации признаков удобно воспользоваться классом `sklearn.preprocessing.StandardScaler`. Функция `fit_transform` данного класса находит параметры нормализации (средние и дисперсии каждого признака) по выборке, и сразу же делает нормализацию выборки с использованием этих параметров. Функция `transform` делает нормализацию на основе уже найденных параметров.

Пример использования:

In [4]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = np.array([[100.0, 2.0], [50.0, 4.0], [70.0, 6.0]])
X_test = np.array([[90.0, 1], [40.0, 3], [60.0, 4]])
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [27]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

In [29]:
# функция для записи ответов
def write_answer(name, answer):
    with open('data/' + name + '.txt', 'w') as file:
        file.write(str(answer))

## Инструкция по выполнению
1.Загрузите обучающую и тестовую выборки из файлов `perceptron-train.csv` и `perceptron-test.csv`. Целевая переменная записана в первом столбце, признаки — во втором и третьем.

In [14]:
train = pd.read_csv('data/perceptron-train.csv', header=None)
test = pd.read_csv('data/perceptron-test.csv', header=None)

In [13]:
train.head()

Unnamed: 0,0,1,2
0,-1.0,-0.024626,1174.600238
1,1.0,-0.978058,1083.198803
2,-1.0,0.314272,-1472.977609
3,-1.0,0.179752,231.017267
4,1.0,-1.262544,-778.271726


In [15]:
test.head()

Unnamed: 0,0,1,2
0,-1.0,1.651437,1337.453826
1,1.0,-0.866495,1191.232457
2,-1.0,0.789828,-475.647768
3,-1.0,0.179549,1959.095353
4,1.0,-0.434351,568.504207


2.Обучите персептрон со стандартными параметрами и random_state=241.

In [26]:
X_train = train.drop(0, axis=1).values
X_test = test.drop(0, axis=1).values
y_train = train[0]
y_test = test[0]
clf = Perceptron(random_state=241)
clf.fit(X_train, y_train)



Perceptron(alpha=0.0001, class_weight=None, eta0=1.0, fit_intercept=True,
      max_iter=None, n_iter=None, n_jobs=1, penalty=None, random_state=241,
      shuffle=True, tol=None, verbose=0, warm_start=False)

3.Подсчитайте качество (долю правильно классифицированных объектов, accuracy) полученного классификатора на тестовой выборке.

In [28]:
predictions = clf.predict(X_test) 
accuracy = accuracy_score(y_test, predictions)
accuracy

0.65500000000000003

4.Нормализуйте обучающую и тестовую выборку с помощью класса StandardScaler.   
5.Обучите персептрон на новой выборке. Найдите долю правильных ответов на тестовой выборке.   
6.Найдите разность между качеством на тестовой выборке после нормализации и качеством до нее. Это число и будет ответом на задание.

In [30]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

clf = Perceptron(random_state=241)
clf.fit(X_train_scaled, y_train)
predictions = clf.predict(X_test_scaled) 
accuracy_scaled = accuracy_score(y_test, predictions)
accuracy_scaled



0.84499999999999997

In [31]:
write_answer('statement-linear_answer1', round(accuracy_scaled - accuracy, 3))