## Linear Models: Нормализация признаков

Если ответом является нецелое число, то целую и дробную часть необходимо разграничивать точкой, например, 0.421. При необходимости округляйте дробную часть до трех знаков.

In [1]:
import numpy as np
import pandas as pd

from sklearn.linear_model import Perceptron
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score

In [2]:
def write_answer(filename, answer):
    
    with open(filename, 'w') as fout:
        
        fout.write(str(answer))
        fout.close()

### Введение

Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. В этом задании мы предлагаем вам воспользоваться персептроном — одним из простейших вариантов линейных моделей.

Как и в случае с метрическими методами, качество линейных алгоритмов зависит от некоторых свойств данных. В частности, признаки должны быть нормализованы, то есть иметь одинаковый масштаб. Если это не так, и масштаб одного признака сильно превосходит масштаб других, то качество может резко упасть.

Один из способов нормализации заключается в стандартизации признаков. Для этого берется набор значений признака на всех объектах, вычисляется их среднее значение и стандартное отклонение. После этого из всех значений признака вычитается среднее, и затем полученная разность делится на стандартное отклонение.

### Реализация в Scikit-Learn

В библиотеке scikit-learn линейные методы реализованы в пакете sklearn.linear_model. Мы будем работать с реализацией персептрона <code>sklearn.linear_model.Perceptron</code>. Как и у большинства моделей, обучение производится с помощью функции fit, построение прогнозов — с помощью функции predict.

Пример использования:
```python
import numpy as np
from sklearn.linear_model import Perceptron
X = np.array([[1, 2], [3, 4], [5, 6]])
y = np.array([0, 1, 0])
clf = Perceptron()
clf.fit(X, y)
predictions = clf.predict(X)
```

В качестве метрики качества мы будем использовать долю верных ответов (accuracy). Для ее подсчета можно воспользоваться функцией <code>sklearn.metrics.accuracy_score</code>, первым аргументом которой является вектор правильных ответов, а вторым — вектор ответов алгоритма.

Для стандартизации признаков удобно воспользоваться классом <code>sklearn.preprocessing.StandardScaler</code>. Функция fit_transform данного класса находит параметры нормализации (средние и дисперсии каждого признака) по выборке, и сразу же делает нормализацию выборки с использованием этих параметров. Функция transform делает нормализацию на основе уже найденных параметров.

Пример использования:
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = np.array([[100.0, 2.0], [50.0, 4.0], [70.0, 6.0]])
X_test = np.array([[90.0, 1], [40.0, 3], [60.0, 4]])
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
```


#### 1. Загрузите обучающую и тестовую выборки из файлов perceptron-train.csv и perceptron-test.csv. Целевая переменная записана в первом столбце, признаки — во втором и третьем.

In [3]:
train = pd.read_csv('perceptron-train.csv', header=None)

X_train = train.iloc[:, 1:]
y_train = train.iloc[:, 0]

X_train.head()

Unnamed: 0,1,2
0,-0.024626,1174.600238
1,-0.978058,1083.198803
2,0.314272,-1472.977609
3,0.179752,231.017267
4,-1.262544,-778.271726


In [4]:
test = pd.read_csv('perceptron-test.csv', header=None)

X_test = test.iloc[:, 1:]
y_test = test.iloc[:, 0]

X_test.head()

Unnamed: 0,1,2
0,1.651437,1337.453826
1,-0.866495,1191.232457
2,0.789828,-475.647768
3,0.179549,1959.095353
4,-0.434351,568.504207


#### 2. Обучите персептрон со стандартными параметрами.

In [5]:
clf = Perceptron()
clf.fit(X_train, y_train)

Perceptron()

#### 3. Подсчитайте качество (долю правильно классифицированных объектов, accuracy) полученного классификатора на тестовой выборке.

In [6]:
predict = clf.predict(X_test)
acc_score = accuracy_score(y_test, predict)

print(f'Accuracy score on unscaled dataset: {acc_score}')

Accuracy score on unscaled dataset: 0.655


#### 4. Нормализуйте обучающую и тестовую выборку с помощью класса StandardScaler. 

In [7]:
scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#### 5. Обучите персептрон на новой выборке. Найдите долю правильных ответов на тестовой выборке.

In [8]:
clf = Perceptron()
clf.fit(X_train_scaled, y_train)

predict = clf.predict(X_test_scaled)
acc_score_scaled = accuracy_score(y_test, predict)

print(f'Accuracy score on scaled dataset: {acc_score_scaled}')

Accuracy score on scaled dataset: 0.845


#### 6. Найдите разность между качеством на тестовой выборке после нормализации и качеством до нее. Это число и будет ответом на задание

In [9]:
write_answer('submission_perceptron_1.txt', round(acc_score_scaled - acc_score, 3))

Нормализация данных дает значительный прирост в качестве — оно увеличивается на 19%.