# Лабораторная работа 4. Полносвязные нейронные сети (многослойный персептрон). Решение задач регрессии и классификации

## Искусственные нейроны

Искусственными нейронными сетями (чаще - просто нейронными сетями) называются модели машинного обучения, в основе функционирования которых лежат <b>принципы работы биологических нейронов</b> в человеческом мозге. 

Идея, лежащая в основе нейронных сетей, очень простая: каждый биологический нейрон имеет несколько входов (дендритов), на основе информации с которых формируется выходной сигнал, который с помощью выхода (аксона) передается далее к органам человеческого (и не только) организма. В 1943 году У. Маккалок и У. Питтс предложили идею искусственного нейрона.

![](https://upload.wikimedia.org/wikipedia/ru/thumb/b/ba/Single_layer_perceptron.png/270px-Single_layer_perceptron.png)

Искусственный нейрон также имеет дендриты и аксон. Математически, здесь на вход нейрона подается некоторый вектор из чисел $x$. При этом каждый дендрит имеет свой вес $w$. Значение нейрона $h$ вычисляется как $h=wx^T$, если в векторной форме. А если в скалярной, то речь идет о простом перемножении компонент входного вектора на соответствующие веса связей и последующее суммирование.

Заметим, что такой нейрон полностью эквивалентен линейному регрессору, а это значит, что он может находить в данных исключительно линейные зависимости. Чтобы такого не было придумали передавать аксону не $h$, а $f(h)$, где $f$ - нелинейная функция, называемая <b>функцией активации</b>.

Функции активации способны управлять множеством значений нейрона. Ниже приведены некоторые функции активации.

![](https://programforyou.ru/images/useful/cnn/part0/activations.png?v=5)

## Полносвязные нейронные сети. Получение предсказаний

Со временем идея искусственных нейронов была обобщена. Появились модели, в которых уже присутствовало несколько взаимосвязанных между собой нейронов. Исторически первым прикладным обобщением сетей из искусственных нейронов является <b>многослойный персептрон</b>. Его концепция была предложена Ф. Розенблатом в 1958 году. Однако персептрон Розенблата имел всего три слоя. Мы же будем рассматривать обобщенную модель.

![](https://neerc.ifmo.ru/wiki/images/thumb/6/63/Multi-layer-neural-net-scheme.png/500px-Multi-layer-neural-net-scheme.png)

Представленая выше нейронная сеть (многослойный персептрон) называется <b>полносвязной</b>. Это означает, что каждый нейрон текущего слоя связан с каждым нейроном предыдущего слоя. Если скрытых нейронов больше чем один, то такая сеть называется <b>глубокой</b>. Обучение глубоких нейронных сетей называется глубоким обучением.

В сети выделяют входной слой (нейроны, на которых просто размещается вектор входных значений), скрытые слои (у каждого слоя своя функция активации, которую используют все нейроны) и выходной слой (функция активации выходного слоя отображает значения суммы в требуемое множество значений). Вы, наверное, догадались, что в случае регрессии функция активации выходного слоя, как правило, не ограничивает значения нейронов (то есть может вообще не применяться), может отображать значения нейрона в положительное число (например, relu). В случае классификации в большинстве случаев используются функции активации sigmoid и softmax. Как именно они применяются вы увидите на практике ниже.

Получение предсказаний с помощью нейронной сети - это <b>процесс последовательного выполнения матричного умножения с последующим поэлементным применением функции активации к получившемуся вектору<b>. Не верите? давайте это увидим.

Каждому слою сети (кроме входного) соответствует матрица обучаемых параметров. Пусть мы рассматриваем первых скрытый слой, обозначим количество его нейронов за $m$. Обозначим количество нейронов предыдущего слоя (входного) за $n$. Тогда матрица весов слоя $W$ будет иметь размерность $m{\times}n$. Элемент $w_{ij}$ - вес связи $i$ нейрона текущего слоя с $j$ нейроном предыдущего.

Также каждому слою соответствует собственный вектор $b$ - это значение сдвига. Количество элементов вектора b соответствует количеству нейронов текущего слоя. Значения нейронов текущего слоя $h$ вычисляется как $h=Wx+b$. Выходное значение нейронов вычисляется как $f(h)$, где $f$ - функция активации текущего слоя.

Как вы видите, получить предсказания очень просто. Изначально значения W и b каждого слоя инициализируются случайным образом. Вы понимаете, что для получения адекватных предсказаний нам необходимо выполнить обучение, то есть <b>найти значения W и b для каждого слоя сети, которые позволят минимизировать функцию ошибки</b>.

## Обучение полносвязных нейронных сетей. Алгоритм обратного распространения ошибки

Обучение нейронной сети производится с использованием подходов, в основе которых лежит градиентный спуск. В самом простом случае - это обычный, уже знакомый нам, метод наискорейшего спуска. Но вот задача - все эти методы требуют расчета градиента функции ошибки. А как нам посчитать градиент функции ошибки при использовании нейронной сети? Оказывается, что в этом случае мы не можем просто взять и посчитать сразу весь градиент. Вместо этого, мы можем вычислить его по отдельным частям. Алгоритм вычисления градиента, используемый при обучении нейронных сетей, получил название <b>метод обратного распространения ошибки (backpropagation)</b>. Понимание его работы - это основа вашего понимания работы нейронных сетей.

Суть метода обратного распространения ошибки заключается в том, что мы после получения конечных предсказаний начинаем идти назад (от последнего слоя к первому) и последовательно вычислять части градиента. Как вы, наверное, догадались, обучаемыми параметрами у нас являются $W$ и $b$ для каждого слоя. Мы двигаемся начиная с последнего слоя и последовательно вычисляем эти градиенты.

Для того, чтобы нам удобно было все это понять, давайте каждый слой разобьем еще на два слоя. Для простоты сделаем так, что вся сеть имеет только входной слой и выходной (выходной разбит на два отдельных слоя).

![](https://i.vgy.me/S1IeLk.png)

Мы видим, что любую нейронную сеть таким образом можно разбить на большее количество слоев, если каждый слой с функцией активации разбить на два слоя. Представить, что на первом выполняется суммирование произведений (умножение матрицы на вектор и добавление сдвига), а на втором - поэлементное применение функции активации. Продолжая подобные рассуждения, мы придем к тому, что любая полносвязная сеть может быть представлена как набор последовательных компонентов, каждый из которых можно рассматривать как функцию.

![](https://i.vgy.me/7vWpIw.png)

Каждый такой компонент берет входные данные и преобразует их в выходные (в случае полносвязной нейронной сети компонент либо выполняет линейное преобразование, либо применяет функцию активации). Входные данные текущего блока являются выходными данными предыдущего. Но посмотрите, а что представляют собой тогда выходные данные последнего компонента с математической точки зрения? Это ни что иное, как результат применения <b>сложной функции</b> к входным данным. В данном случае, $y_3=f_3(f_2(f_1(x_1)))$. А теперь давайте вспомним, что каждый эти компоненты содержат обучаемые параметры $W$ и $b$. В данном случае у нас есть $W_1$ и $b_1$, а также $W_3$ и $b_3$ (второй компонент не содержит обучающих параметров, поскольку отвечает за просто поэлементное применение функции активации).

Но мы с вами ранее сказали о том, что градиент вычисляется частично и по каждому множеству обучаемых параметров, так? Да, все именно так. Мат. анализ предоставляет нам замечательный инструмент для вычисления производных сложной функции - <b>цепное правило (chain rule)</b>.

Суть цепного правила вы помните со школы: если $y=y(g(x))$, то ${\frac{dy}{dx}}={\frac{dy}{dg}}{\frac{dg}{dx}}$. То же самое работает и в нашем случае. Каждый компонент использует значения частных производных функции потерь по своему выходу для непосредственного вычисления частных производных функции потерь по $W$ и $b$, а также передает предыдущему компоненту вычисленные значения производной функии потерь по своему входу. Далее компонент с использованием оптимизатора делает шаг градиентного спуска (обновляются значения весов $W$ и $b$). <b>Обращаю внимание: обновление весов выполняется ПОСЛЕ вычисления частных производных по весам</b>.

![sejsej](https://i.vgy.me/m5KKFF.png)

Итак, пусть у нас задана функция потерь. Для регрессии и бинарной классификации можно использовать модифицированную MSE: $E={\frac{1}{2}}(y-\hat{y})^2$. Мы хотим ее минимизировать. Ранее мы буквой $L$ обозначали функцию потерь, а при работе с нейронными сетями устоялось обозначение $E$.

Осталось разобраться, по каким формулам вычисляются части градиента в каждом компоненте. Мы знаем, что в каждом компоненте вычисляется $\frac{\partial{E}}{\partial{x}}$. В некоторых компонентах вычисляются $\frac{\partial{E}}{\partial{W}}$ и $\frac{\partial{E}}{\partial{b}}$.

Запишем формулы:

$\frac{\partial{E}}{\partial{W}}$ = $\frac{\partial{E}}{\partial{y}}x^T$

$\frac{\partial{E}}{\partial{b}}$ = $\frac{\partial{E}}{\partial{y}}$

Частные производные функции потерь по входу вычисляются по разному, в зависимости от назначения компонента. Если это компонент, реализующий линейное преобразование ($Wx+b$), то $\frac{\partial{E}}{\partial{x}} = W^T\frac{\partial{E}}{\partial{y}} $. Если это компонент, применяющий функцию активации $f$ (sigmoid, tanh, relu), то $\frac{\partial{E}}{\partial{x}} = \frac{\partial{E}}{\partial{y}}\odot f'(x) $. $\odot$ - это поэлементное произведение векторов (произведение Адамара). 

Можно увидеть, что все функции активации слоев обязаны быть дифференцируемыми. 

При решении задач классификации (в общем случае, когда количество классов больше двух), как правило, применяется функция потерь перекрестная энтропия (при бинарной классификации применяется ее частный случай - бинарная перекрестная кросэнтропия). Выглядит она следующим образом:

Общий случай: $E = -\sum_{k}^{s}{{y_k}ln{\hat{y_k}}}$. Здесь s - количество классов. При использовании такой функции потерь, предполагается, что целевой признак размечен (например, для случая двух классов) как [1, 0]. Это оначает, что объект относится к 0 классу. Предположим, модель предсказала ответ [0,36, 0,64]. Она ошиблась. Можно посчитать значение перекрестной энтропии и обновить веса.

Как вы видите, использование перекрестной энтропии требует, чтобы сумма значений нейронов была единица и все числа были положительными. Для получения такого результата на произвольном слое с нейронами используется функция softmax. Ее можно назвать функцией активации, однако при использовании softmax $\frac{\partial{E}}{\partial{x}}$ считается по другому. $\frac{\partial{E}}{\partial{x}} = ((1-y^T)y)\frac{\partial{E}}{\partial{y}} $. Подчеркну, что 1 здесь обозначена единичная матрица.

Вот и все. Теперь вы можете реализовать собственную полносвязную нейронную сеть. Для облегчения задачи представьте ее в виде компонентов, как это описано выше. Чтобы начать вычисление градиента необходимо начать двигаться от последнего компонента к первому, при этом предварительно посчитать частную производную функции потерь по выходу последнего компонента.

## Использование фреймворка TensorFlow и API Keras для построеония нейронных сетей

Мы разобрались, как работают полносвязные нейронные сети. Давайте теперь решим задачи регрессии и классификации с помощью фреймворка TensorFlow. Начнем с загрузки предварительно обработанных данных.

In [1]:
import pandas as pd
data_regression = pd.read_csv('../data/trip_duration_task_obr.csv').sample(20000).reset_index(drop=True)
data_classification = pd.read_csv('../data/csgo_task_obr.csv').sample(20000).reset_index(drop=True)

In [2]:
data_regression.drop(columns = ["Unnamed: 0"], inplace=True)
data_classification.drop(columns = ["Unnamed: 0"], inplace=True)

In [None]:
data_regression.head()

Unnamed: 0,vendor_id,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,trip_duration,pickup_mes,dropoff_mes,pickup_day,dropoff_day,pickup_chas,dropoff_chas,pickup_min,dropoff_min,pickup_sec,dropoff_sec
0,1.0,1,-73.993027,40.737495,-74.014503,40.707966,1177,1,1,16,16,15,15,35,55,55,32
1,1.0,1,-74.012901,40.702194,-73.970917,40.693272,1242,6,6,13,13,18,19,49,9,2,44
2,2.0,3,-74.009895,40.72163,-73.993317,40.729565,721,3,3,9,9,14,14,33,45,52,53
3,2.0,1,-73.810753,40.692039,-73.794067,40.656559,722,2,2,15,15,8,8,37,49,38,40
4,1.0,2,-73.994064,40.690945,-74.008041,40.739918,1717,4,4,25,25,11,12,44,12,7,44


In [None]:
data_classification.head()

Unnamed: 0,time_left,ct_score,t_score,bomb_planted,ct_health,t_health,ct_armor,t_armor,ct_money,t_money,ct_helmets,t_helmets,ct_defuse_kits,ct_players_alive,t_players_alive
0,174.91,2.0,6.0,False,500.0,500.0,0.0,363.0,24250.0,26350.0,0.0,4.0,0.0,5.0,5.0
1,114.93,5.0,1.0,False,500.0,500.0,468.0,500.0,37950.0,1400.0,5.0,5.0,5.0,5.0,5.0
2,114.95,1.0,2.0,False,500.0,500.0,0.0,452.0,12650.0,22850.0,0.0,5.0,0.0,5.0,5.0
3,114.96,5.0,3.0,False,500.0,500.0,500.0,500.0,6900.0,300.0,5.0,1.0,3.0,5.0,5.0
4,94.95,1.0,1.0,False,500.0,500.0,500.0,400.0,2950.0,250.0,5.0,2.0,2.0,5.0,5.0


In [3]:
y_regression = data_regression["trip_duration"]
X_regression = data_regression.drop(columns = ['trip_duration'])
y_classification = data_classification['bomb_planted']
X_classification = data_classification.drop(columns = ['bomb_planted'])

In [4]:
from sklearn.model_selection import train_test_split
X_regression_train, X_regression_test, y_regression_train, y_regression_test = train_test_split(X_regression,
                                                                                                y_regression,
                                                                                                test_size=0.2)
X_classification_train, X_classification_test, y_classification_train, y_classification_test = train_test_split(X_classification,
                                                                                                                y_classification,
                                                                                                                stratify=y_classification,
                                                                                                                test_size=0.2)

Импортируем метрики

In [None]:
# для оценки качества решения задачи регрессии
from sklearn.metrics import mean_squared_error, mean_absolute_error
# для оценки качества решения задачи классификации
from sklearn.metrics import confusion_matrix, classification_report

In [None]:
import tensorflow as tf
import numpy as np

### Регрессия

Создаем полносвязную нейронную сеть для решения задачи регрессии

In [None]:
# создаем модель, как набор последовательных слоев
model_regression = tf.keras.Sequential(
    [
        # Dense - полносвязный слой (каждый нейрон следующего слоя связан со всеми нейронами предыдущего)
        tf.keras.layers.Dense(64, activation="relu", input_shape=(16,)),
        # на втором скрытом слое будет 32 нейрона
        tf.keras.layers.Dense(32, activation="linear"),
        # Dropout позволяет внести фактор случайности - при обучении часть нейронов будет отключаться
        # каждый нейрон, в данном случае, будет отключаться с вероятностью 0.1
        tf.keras.layers.Dropout(0.1),
        tf.keras.layers.Dense(16, activation="relu"),
        tf.keras.layers.Dropout(0.1),
        # на выходе один нейрон, функция активации не применяется
        tf.keras.layers.Dense(1, activation="linear"),
    ]
)

In [None]:
# посмотрим, какая сеть у нас получилась
model_regression.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_22 (Dense)            (None, 64)                1088      
                                                                 
 dense_23 (Dense)            (None, 32)                2080      
                                                                 
 dropout_5 (Dropout)         (None, 32)                0         
                                                                 
 dense_24 (Dense)            (None, 16)                528       
                                                                 
 dropout_6 (Dropout)         (None, 16)                0         
                                                                 
 dense_25 (Dense)            (None, 1)                 17        
                                                                 
Total params: 3,713
Trainable params: 3,713
Non-traina

Видим количество обучаемых параметров каждого слоя и общее количество обучаемых параметров. Перед использованием модель необходимо скомпилировать, при этом указывается оптимизатор, скорость обучения (можно представлять как величину шага в методе градиентного спуска), функция потерь и метрики, которые мы хотим (при желании) вычислять в будущем методом evaluate().

In [None]:
# компилируем
model_regression.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="mse")

In [None]:
X_classification_train.shape

(16000, 14)

In [None]:
# обучаем, 10 эпох означает 10 проходов по обучающей выборке
model_regression.fit(X_regression_train, y_regression_train, epochs=10)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x7fd7a13f4610>

In [None]:
# оцениваем качество с помощью метрик
print(mean_absolute_error(y_regression_test, model_regression.predict(X_regression_test)))
print(mean_squared_error(y_regression_test, model_regression.predict(X_regression_test)))

604.0736148986816
6067671.485238174


Мы получили наглядную демонстрацию важного факта - в некоторых задачах применение нейронных сетей менее целесообразно, чем использование более простых моделей. Но иногда они дают лучшие результаты. Важную роль еще играет подбор архитектуры и параметров.

### Бинарная классификация

Нейронная сеть для решения задачи классификации будет очень похожа на ту сеть для регрессии, однако у нее по другому будет организован выходной слой. У нас есть 2 стратегии наполнения выходного слоя нейронами:

- при решении задачи бинарной классификации мы можем расположить на выходном слое один нейрон с функцией активации sigmoid (значения от 0 и 1), после чего округлять полученные значения; значение нейрона покажет уверенность сети в предсказании; также мы можем расположить 2 нейрона на выходном слое и применить функцию softmax. Тогда сумма значений нейронов выходного слоя будет 1, а предсказание мы сможем получить определив нейрон с наибольшим значением;
- в случае многоклассовой классификации, как правило, на выходном слое располагаются k нейронов (по количеству классов), функция активации - softmax; нейрон с наибольшим значением определяет предсказанный класс.

У нас задача бинарной классификации, попробуем обе стратегии.

In [None]:
model_classification_1 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(14,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # сначала используем 1 нейрон и sigmoid
        tf.keras.layers.Dense(1, activation="sigmoid"),
    ]
)
# в качестве функции активации используется бинарная  кроссэнтропия
model_classification_1.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), loss="mse")
# verbose=None - не будет логов
model_classification_1.fit(X_classification_train, y_classification_train, epochs=25, verbose=None)

<keras.callbacks.History at 0x7fd7a12265c0>

Посмотрим, как выглядят предсказания сети.

In [None]:
model_classification_1.predict(X_classification_test, verbose=None)[:5]

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.]], dtype=float32)

Это числа от 0 до 1, поскольку мы использовали sigmoid. Для того, чтобы получить финальное предсказания классов, необходимо округлить все полученные значения.

In [None]:
y_pred = np.around(model_classification_1.predict(X_classification_test, verbose=None))
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

       False       0.89      1.00      0.94      3540
        True       0.00      0.00      0.00       460

    accuracy                           0.89      4000
   macro avg       0.44      0.50      0.47      4000
weighted avg       0.78      0.89      0.83      4000

[[3540    0]
 [ 460    0]]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Обратите внимание, что дисбаланс классов может привести к неудовлетворительным результатам обучения модели. Необходимо сбалансировать обучающую выборку.

Но, даже без выполнения балансировки, можно взвесить функцию потерь. Можем указать веса (параметр class_weight), которые будут использоваться при оптимизации функции ошибки. В качестве весов классов можно задать величины, обратные количеству элементов класса.

In [None]:
w0 = 1 / y_classification_train[y_classification_train==0].shape[0]
w1 = 1 / y_classification_train[y_classification_train==1].shape[0]

In [None]:
model_classification_1 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(14,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # используем 1 нейрон и sigmoid
        tf.keras.layers.Dense(1, activation="sigmoid"),
    ]
)
model_classification_1.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="binary_crossentropy")
model_classification_1.fit(X_classification_train, y_classification_train, epochs=25, verbose=None,
                           class_weight={0: w0, 1: w1})
y_pred = np.around(model_classification_1.predict(X_classification_test, verbose=None))
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

       False       0.99      0.91      0.95      3540
        True       0.59      0.96      0.73       460

    accuracy                           0.92      4000
   macro avg       0.79      0.94      0.84      4000
weighted avg       0.95      0.92      0.93      4000

[[3229  311]
 [  18  442]]


Видим улучшения. Можем поиграть с архитектурой и параметрами и добиться еще более качественных результатов. Но напоследок давайте попробуем разместить 2 нейрона на выходном слое и использовать softmax в качестве функции активации.

In [None]:
model_classification_2 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(14,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # сначала используем 2 нейрона и softmax
        tf.keras.layers.Dense(2, activation="softmax"),
    ]
)
# в качестве функции активации используется категориальная кроссэнтропия
# используем разряженный (sparse) вариант, поскольку значения целевого признака не закодированы One-Hot кодированием
model_classification_2.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="sparse_categorical_crossentropy")
model_classification_2.fit(X_classification_train, y_classification_train, epochs=25, verbose=None,
                           class_weight={0: w0, 1: w1})

<keras.callbacks.History at 0x7fd79f5e3670>

In [None]:
model_classification_2.predict(X_classification_test, verbose=None)[:5]

array([[9.8326784e-01, 1.6732154e-02],
       [3.2236293e-02, 9.6776372e-01],
       [9.9990696e-01, 9.2915710e-05],
       [1.9547029e-01, 8.0452973e-01],
       [9.9996895e-01, 3.0953699e-05]], dtype=float32)

Каждое предсказание - это два числа (потому что два нейрона). Сумма значений равна 1. Каждое значение можно интерпретировать как вероятность отнесения объекта к соответствующему классу (0 или 1). Воспользуемся функцией argmax для того, чтобы получить итоговые предсказания.

In [None]:
# получим индексы максимального значения для каждого элемента (вложенный массив) с помощью numpy
y_pred = [np.argmax(pred) for pred in model_classification_2.predict(X_classification_test, verbose=None)]

In [None]:
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

       False       1.00      0.84      0.91      3540
        True       0.45      1.00      0.62       460

    accuracy                           0.86      4000
   macro avg       0.73      0.92      0.77      4000
weighted avg       0.94      0.86      0.88      4000

[[2981  559]
 [   0  460]]


Когда мы закончили обучение моделей, мы можем сохранить их на диск, чтобы в будущем либо продолжить обучение (если оно занимает много времени) или использовать для получения предсказаний.

In [None]:
model_regression.save('../models/RegressionModel')
model_classification_1.save('../models/ClassificationModel1')
model_classification_2.save('../models/ClassificationModel2')



Модели сохранены в виде папки. Теперь, когда они нам потребуются, можем очень просто их загрузить. Загрузим, например, модель для регрессии.

In [None]:
model_regression_restored = tf.keras.models.load_model('../models/RegressionModel')
model_regression_restored.summary()

Model: "sequential_4"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_22 (Dense)            (None, 64)                1088      
                                                                 
 dense_23 (Dense)            (None, 32)                2080      
                                                                 
 dropout_5 (Dropout)         (None, 32)                0         
                                                                 
 dense_24 (Dense)            (None, 16)                528       
                                                                 
 dropout_6 (Dropout)         (None, 16)                0         
                                                                 
 dense_25 (Dense)            (None, 1)                 17        
                                                                 
Total params: 3,713
Trainable params: 3,713
Non-traina

In [None]:
# используем модель
print(mean_absolute_error(y_regression_test, model_regression_restored.predict(X_regression_test, verbose=None)))
print(mean_squared_error(y_regression_test, model_regression_restored.predict(X_regression_test, verbose=None)))

604.0736148986816
6067671.485238174


# Задание

<b>Традиционное предупреждение для всех лабораторных работ:</b> перед обучением моделей необходимо выполнить предварительную обработку данных, которая <b>обязательно</b> включает в себя:
- заполнение пропущенных значений (рекомедуется логика заполнения пропусков на основе типа данных, которая использовалась в РГР по Практикуму);
- преобразование категориальных признаков в числовые (используйте one-hot кодирование или map; используйте знания с Практикума).

Предобработка может включать в себя другие действия, но выполнение описанных выше действий обязательно.

Сделайте это один раз и сохраните в отдельный csv файл, а потом его используйте.

<b>Выполните следующие задания:</b>
- решите задачи регрессии и классификации на ваших данных используя полносвязные нейронные сети; соберите их используя API Keras фреймворка TensorFlow; оцените качество полученных моделей с помощью метрик; 
- реализуйте многослойный персептрон, с помощью которого можно решать задачи регрессии и классификации; предусмотрите возможность использовать такие функции активации, как sigmoid, tanh и relu; также предусмотрите возможность указать, сколько слоев нужно, сколько на каждом из них нейронов и какую функцию активации должен иметь слой; реализуйте обучение персептрона методом обратного распространения ошибки; самостоятельно найдите производные функций sigmoid, tanh и relu; реализуйте классический градиентный спуск с возможностью указания шага.

<b>Дополнительные задания:</b>
- самостоятельно изучите отличия работы оптимизаторов Adam и RMSProp от классического градиентного спуска; реализуйте градиентный спуск с использованием указанных оптимизаторов; предусмотрите возможность использования реализованных вами оптимизаторов в вашем персептроне.

In [5]:
class Perseptron:
    
    def __init__(self):
      self.layers = []
      self.w = []
      self.b = []
          
    def relu(t):
        return np.maximum(t,0)
    def sigmoid(t):
        return 1/(1+np.exp(-t))
    def tanh(t):
        return np.tanh(t)
    def softmax(t):
        out = np.exp(t)
        return out/np.sum(out)
    def linear(t):
        return t

    func_activaits = {
        'relu': relu,
        'sigmoid': sigmoid,
        'tanh': tanh,
        
        'linear': linear,
        'softmax': softmax
    }
    def relu_deriv(t):
        return x <= 0 ? 0 : 1
    
    def sigmoid_deriv(t):
        return sigmoid(t) * (1 - sigmoid(t))
    
    def tanh_deriv(t):
        return 1/(np.cosh(t)^2)
  
    def linear_deriv(t):
        return 1

    func_deriv = {
        'relu': relu_deriv,
        'sigmoid': sigmoid_deriv,
        'tanh': tanh_deriv,
        'linear': linear_deriv
    }

    def addlayer(self, amount_neirons, func_activait, input_c=0):
        if len(layers) != 0:
            self.layers.append([func_activait, amount_neirons])#добавляем инфу по слою
            self.w.append(np.random.randn(self.layers[len(self.layers)-2][1], amount_neirons)*0.01)
        else:
            self.layers.append([func_activait, amount_neirons])#добавляем инфу по слою
            self.w.append(np.random.randn(input_c, amount_neirons)*0.01)
        self.b.append(np.random.randn(1, amount_neirons))
            
    def MSE(y, y_pred):
        return np.sum(np.square(y-y_pred)) / np.len(y)
    
    def lossMSE(out, y):
      s = (np.square(out-y))
      return np.sum(s)/len(y)

    def predict(self, x):
        h=x
        for i in range(1, len(self.layers)):
            t = h @ self.w[i] + self.b[i]
            h = func_activaits[self.layers[i][0]](t)
        return h
    
    def compil(self, X, Y, alpha, epoch):
        for e in range(epoch):
          for i in range(len(X)):
              
            h = []
            t = []
            h.append(X[i])
            for j in range(1, len(self.layers)):
                t.append(h[len(h)-1] @ self.w[j] + self.b[j])
                h.append(func_activaits[self.layers[j][0]](t[j-1]))

            dE_dw = []
            dE_db = []
            
            dE_dt = h[len(h)-1] - Y[i];
            dE_dw.append(h[len(h)-1].T @ dE_dt)
            dE_db.append(dE_dt)

            for j in range(2, 1, -1):
                dE_dh = dE_dt @ self.w[j].T
                dE_dt = dE_dh * self.func_deriv[self.layers[j][0]](t[j-1])
                dE_dw.append(h[j].T @ dE_dt)
                dE_db.append(dE_dt)

            for j in range(2):
                self.w[j+1] = self.w[j+1] - alpha * dE_dw[1-j]
                self.b[j+1] = self.b[j+1] - alpha * dE_db[1-j]


In [6]:
for i in range(2, 0, -1):
  print(i)

2
1


In [7]:
def relu(t):
    return np.maximum(t,0)
def sigmoid(t):
    return 1/(1+np.exp(-t))
def tanh(t):
    return np.tanh(t)
def softmax(t):
    out = np.exp(t)
    return out/np.sum(out)
def linear(t):
    return t
func_activaits = {
    'relu': relu,
    'sigmoid': sigmoid,
    'tanh': tanh,
    
    'linear': linear,
    'softmax': softmax
}
t = 8
h = func_activaits['softmax']([1, 2, 3])
print(h)

NameError: name 'np' is not defined

In [None]:
dataY = [0.5, 0.3, 0.25, 0.2]
dataX = [[0.1, 0.2], [0.2, 0.3], [0.3, 0.4], [0.4, 0.5]]

In [None]:
perc_ch = Perseptron()
perc_ch.addlayer(2, 'sigmoid')
perc_ch.addlayer(50, 'sigmoid')
perc_ch.addlayer(1, 'sigmoid')
perc_ch.compil(dataX, dataY, 0.0001, 10000)

In [None]:
perc_ch.predict([0.4, 0.5])

array([[0.35754139]])