# Лабораторная работа №4
## Задание
1. Написать программу, которая разделяет исходную выборку на обучающую и тестовую (training set, validation set, test set), если такое разделение не предусмотрено предложенным набором данных.
2. Произвести масштабирование признаков (scaling).
3. С использованием библиотеки scikit-learn обучить 2 модели нейронной сети (Perceptron и MLPClassifier) по обучающей выборке.
4. Проверить точность модели по тестовой выборке.
5. Провести эксперименты и определить наилучшие параметры коэффициента обучения, параметра регуляризации, функции оптимизации.

Данные: Pen-Based Recognition of Handwritten Digits.

## Ход работы
Как обычно импортируем нужные для работы библиотеки.

In [15]:
import numpy as np
import pandas as pd
import gc

from typing import Tuple
from numpy import random as rnd
from matplotlib import pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_absolute_error, make_scorer, accuracy_score
from sklearn.neural_network import MLPClassifier
from sklearn.linear_model import LinearRegression, Lasso, Ridge, Perceptron
from sklearn.preprocessing import PolynomialFeatures, StandardScaler

gc.enable()

target_feature = 'number'

### Пункт 1
Данные даны уже в разделенном виде, так что остается только прочитать их и разделить фичи от целевого значения.

In [16]:
print('Reading data')
X_train = pd.read_csv('../../data/lab4_train.csv')
X_test = pd.read_csv('../../data/lab4_test.csv')

y_train = X_train[target_feature]
y_test = X_test[target_feature]

X_train.drop([target_feature], axis=1, inplace=True)
X_test.drop([target_feature], axis=1, inplace=True)

print('Done!')

Reading data
Done!


### Пункт 2
Для нормализации данных используем `StandardScaler`.

In [17]:
train_size = X_train.shape[0]

data = pd.concat([X_train, X_test], axis=0)
data.dropna(axis=0, inplace=True)

scaler = StandardScaler()
data[list(data)] = scaler.fit_transform(data)

X_train, X_test = data.iloc[:train_size, :], data.iloc[train_size:, :]
print('Done!')

Done!


### Пункт 3-4
Сначала обучим и проверим точность `Perceptron`.

In [18]:
model = Perceptron(n_jobs=-1, verbose=0, random_state=7)
model.fit(X_train, y_train)
test_score = model.score(X_test, y_test)
print("Basic perceptron's score: {:.2f}".format(test_score * 100))

Basic perceptron's score: 87.99


Можно видеть, что даже обычный перцептрон дает неплохие результаты для распознавания рукописных цифр.

Теперь же проверим `MLPClassifier`. Предполагается, что эта модель будет лучше, ибо это по сути каскад слоев из перцептронов.

In [19]:
model = MLPClassifier(verbose=0, random_state=7)
model.fit(X_train, y_train)
test_score = model.score(X_test, y_test)
print('Basic MLP score: {:.2f}'.format(test_score * 100))

Basic MLP score: 97.06


Как и ожидалось, модель не только дает очень хороший результат, но и значительно точнее `Perceptron`.

### Пункт 5
Теперь давайте попробуем улучшить результат обоих моделей с помощью подбора более оптимальных параметров моделей.

Проще всего поступить следующим образом: напишем функцию, которая будет принимать на вход модель для тюнинга параметров, начальные параметры модели и различные значения параметров, которые нужно проверить. Имея такую функцию все что нужно будет сделать это вызвать ее сначала для 1 модели, а потом для другой - получается в 2 раза меньше кода. Назовем функцию `find_best_params`.

Внутри нашей функции необходимо написать еще одну функцию, которая будет проверять значения 1 конкретного параметра, остальные же будут неизменны. На выход она будет давать `map` наиболее оптимальных параметров на данный момент. Назовем функцию `test_param`.

Таким образом, алгоритм функции `find_best_params` сводится к тому, чтобы запустить функцию `test_param` от всех параметров, каждый раз обновляя базовые параметры модели, чтобы новые параметры проверялись уже с учетом оптимизации других.

In [20]:
def find_best_params(testing_model, model_name: str, base_params: map, param_options: map) -> map:

    def test_param(base_params: map, param_name: str, param_options: list) -> map:
        print(f'Testing {param_name}')
        results = []
        for param in param_options:
            model = testing_model()
            curr_params = base_params
            curr_params[param_name] = param
            model = model.set_params(**curr_params)

            model.fit(X_train, y_train)
            score = model.score(X_test, y_test)
            print('{:s} {:s}: {}, score: {:.2f}'.format(model_name, param_name, param, score * 100))
            results.append(score)
        new_params = base_params
        new_params[param_name] = param_options[np.argmax(results)]
        return new_params

    for param, val in param_options.items():
        base_params = test_param(base_params, param, val)
        
    return base_params

Теперь опишем параметры, которые будет оптимизировать.

**Perceptron**:
- `penalty` - тип регуляризации;
- `max_iter` - максимальное количество итераций до остановки алгоритма;
- `alpha` - регуляризационный коэффициент.

In [21]:
perceptron_base_params = {
    'random_state': 7,
    'n_jobs': -1,
    'verbose': 0,
    'penalty': 'None'
}
perceptron_option_params = {
    'penalty': ['elasticnet', 'l1', 'l2', 'None'],
    'max_iter': [200, 400, 600, 800, 1000, 1500, 2000, 6000],
    'alpha': [1e-4, 1e-3, 1e-2, 0.1, 0.3, 0.6, 0.8, 1, 1.5, 3]
}
perceptron_best_params = find_best_params(Perceptron, 'Perceptron', perceptron_base_params, perceptron_option_params)

Testing penalty
Perceptron penalty: elasticnet, score: 82.10
Perceptron penalty: l1, score: 86.65
Perceptron penalty: l2, score: 82.10
Perceptron penalty: None, score: 87.99
Testing max_iter
Perceptron max_iter: 200, score: 87.99
Perceptron max_iter: 400, score: 87.99
Perceptron max_iter: 600, score: 87.99
Perceptron max_iter: 800, score: 87.99
Perceptron max_iter: 1000, score: 87.99
Perceptron max_iter: 1500, score: 87.99
Perceptron max_iter: 2000, score: 87.99
Perceptron max_iter: 6000, score: 87.99
Testing alpha
Perceptron alpha: 0.0001, score: 87.99
Perceptron alpha: 0.001, score: 87.99
Perceptron alpha: 0.01, score: 87.99
Perceptron alpha: 0.1, score: 87.99
Perceptron alpha: 0.3, score: 87.99
Perceptron alpha: 0.6, score: 87.99
Perceptron alpha: 0.8, score: 87.99
Perceptron alpha: 1, score: 87.99
Perceptron alpha: 1.5, score: 87.99
Perceptron alpha: 3, score: 87.99


**MLPClassifier**
- `solver` - функция оптимизации весов;
- `max_iter` - максимальное количество итераций до сходимости;
- `hidden_layer_sizes` - размер скрытых слоев;
- `alpha` - регуляризационный коэффициент L2.
- `learning_rate` - определяет то, как изменяется обучающий коэффициент во время оптимизации;
- `learning_rate_init` - изначальный обучающий коэффициент.

In [22]:
mlp_base_params = {
    'random_state': 7,
    'verbose': 0,
    'max_iter': 650
}
mlp_option_params = {
    'hidden_layer_sizes': [(16, 32), (32, 64), (64, 128), (128, 256)],
    'max_iter': [650, 800, 1000],
    'alpha': [1e-4, 1e-3, 1e-2, 0.08, 0.1, 0.2, 0.3, 0.6],
    'learning_rate': ['adaptive', 'constant', 'invscaling'],
    'learning_rate_init': [1e-4, 1e-3, 3e-3, 1e-2, 0.1, 0.15]
}

mlp_best_params = find_best_params(MLPClassifier, 'MPL', mlp_base_params, mlp_option_params)

Testing hidden_layer_sizes
MPL hidden_layer_sizes: (16, 32), score: 97.03
MPL hidden_layer_sizes: (32, 64), score: 97.06
MPL hidden_layer_sizes: (64, 128), score: 97.06
MPL hidden_layer_sizes: (128, 256), score: 97.40
Testing max_iter
MPL max_iter: 650, score: 97.40
MPL max_iter: 800, score: 97.40
MPL max_iter: 1000, score: 97.40
Testing alpha
MPL alpha: 0.0001, score: 97.40
MPL alpha: 0.001, score: 97.37
MPL alpha: 0.01, score: 97.20
MPL alpha: 0.08, score: 97.51
MPL alpha: 0.1, score: 97.46
MPL alpha: 0.2, score: 97.23
MPL alpha: 0.3, score: 97.11
MPL alpha: 0.6, score: 96.86
Testing learning_rate
MPL learning_rate: adaptive, score: 97.51
MPL learning_rate: constant, score: 97.51
MPL learning_rate: invscaling, score: 97.51
Testing learning_rate_init
MPL learning_rate_init: 0.0001, score: 97.37
MPL learning_rate_init: 0.001, score: 97.51
MPL learning_rate_init: 0.003, score: 97.48
MPL learning_rate_init: 0.01, score: 96.54
MPL learning_rate_init: 0.1, score: 95.80
MPL learning_rate_in

Теперь проверим точность моделей с новыми параметрами.

In [23]:
model = Perceptron()
model.set_params(**perceptron_best_params)
model.fit(X_train, y_train)

test_score = model.score(X_test, y_test)
print("Best perceptron's score: {:.2f}".format(test_score * 100))

model = MLPClassifier()
model.set_params(**mlp_best_params)
model.fit(X_train, y_train)

test_score = model.score(X_test, y_test)
print("Best MLP's score: {:.2f}".format(test_score * 100))

Best perceptron's score: 87.99
Best MLP's score: 97.51


В итоге получилось улучшить точность `MLPClassifier` 97.07 -> 97.51, с `Perceptron` такого сделать не получилось - точность осталась на том же уровне не смотря на тюнинг параметров.

## Вывод
В ходе выполнения лабораторной работы были разобраны модели `Perceptron` и `MLPClassifier`. В ходе оптимизации параметров моделей удалось улучшить качество `MLPClassifier`, точность `Perceptron` осталась на прежнем уровне.