# Лабораторная работа 4. Полносвязные нейронные сети (многослойный персептрон). Решение задач регрессии и классификации

## Искусственные нейроны

Искусственными нейронными сетями (чаще - просто нейронными сетями) называются модели машинного обучения, в основе функционирования которых лежат <b>принципы работы биологических нейронов</b> в человеческом мозге. 

Идея, лежащая в основе нейронных сетей, очень простая: каждый биологический нейрон имеет несколько входов (дендритов), на основе информации с которых формируется выходной сигнал, который с помощью выхода (аксона) передается далее к органам человеческого (и не только) организма. В 1943 году У. Маккалок и У. Питтс предложили идею искусственного нейрона.

![](https://upload.wikimedia.org/wikipedia/ru/thumb/b/ba/Single_layer_perceptron.png/270px-Single_layer_perceptron.png)

Искусственный нейрон также имеет дендриты и аксон. Математически, здесь на вход нейрона подается некоторый вектор из чисел $x$. При этом каждый дендрит имеет свой вес $w$. Значение нейрона $h$ вычисляется как $h=wx^T$, если в векторной форме. А если в скалярной, то речь идет о простом перемножении компонент входного вектора на соответствующие веса связей и последующее суммирование.

Заметим, что такой нейрон полностью эквивалентен линейному регрессору, а это значит, что он может находить в данных исключительно линейные зависимости. Чтобы такого не было придумали передавать аксону не $h$, а $f(h)$, где $f$ - нелинейная функция, называемая <b>функцией активации</b>.

Функции активации способны управлять множеством значений нейрона. Ниже приведены некоторые функции активации.

![](https://programforyou.ru/images/useful/cnn/part0/activations.png?v=5)

## Полносвязные нейронные сети. Получение предсказаний

Со временем идея искусственных нейронов была обобщена. Появились модели, в которых уже присутствовало несколько взаимосвязанных между собой нейронов. Исторически первым прикладным обобщением сетей из искусственных нейронов является <b>многослойный персептрон</b>. Его концепция была предложена Ф. Розенблатом в 1958 году. Однако персептрон Розенблата имел всего три слоя. Мы же будем рассматривать обобщенную модель.

![](https://neerc.ifmo.ru/wiki/images/thumb/6/63/Multi-layer-neural-net-scheme.png/500px-Multi-layer-neural-net-scheme.png)

Представленая выше нейронная сеть (многослойный персептрон) называется <b>полносвязной</b>. Это означает, что каждый нейрон текущего слоя связан с каждым нейроном предыдущего слоя. Если скрытых нейронов больше чем один, то такая сеть называется <b>глубокой</b>. Обучение глубоких нейронных сетей называется глубоким обучением.

В сети выделяют входной слой (нейроны, на которых просто размещается вектор входных значений), скрытые слои (у каждого слоя своя функция активации, которую используют все нейроны) и выходной слой (функция активации выходного слоя отображает значения суммы в требуемое множество значений). Вы, наверное, догадались, что в случае регрессии функция активации выходного слоя, как правило, не ограничивает значения нейронов (то есть может вообще не применяться), может отображать значения нейрона в положительное число (например, relu). В случае классификации в большинстве случаев используются функции активации sigmoid и softmax. Как именно они применяются вы увидите на практике ниже.

Получение предсказаний с помощью нейронной сети - это <b>процесс последовательного выполнения матричного умножения с последующим поэлементным применением функции активации к получившемуся вектору<b>. Не верите? давайте это увидим.

Каждому слою сети (кроме входного) соответствует матрица обучаемых параметров. Пусть мы рассматриваем первых скрытый слой, обозначим количество его нейронов за $m$. Обозначим количество нейронов предыдущего слоя (входного) за $n$. Тогда матрица весов слоя $W$ будет иметь размерность $m{\times}n$. Элемент $w_{ij}$ - вес связи $i$ нейрона текущего слоя с $j$ нейроном предыдущего.

Также каждому слою соответствует собственный вектор $b$ - это значение сдвига. Количество элементов вектора b соответствует количеству нейронов текущего слоя. Значения нейронов текущего слоя $h$ вычисляется как $h=Wx+b$. Выходное значение нейронов вычисляется как $f(h)$, где $f$ - функция активации текущего слоя.

Как вы видите, получить предсказания очень просто. Изначально значения W и b каждого слоя инициализируются случайным образом. Вы понимаете, что для получения адекватных предсказаний нам необходимо выполнить обучение, то есть <b>найти значения W и b для каждого слоя сети, которые позволят минимизировать функцию ошибки</b>.

## Обучение полносвязных нейронных сетей. Алгоритм обратного распространения ошибки

Обучение нейронной сети производится с использованием подходов, в основе которых лежит градиентный спуск. В самом простом случае - это обычный, уже знакомый нам, метод наискорейшего спуска. Но вот задача - все эти методы требуют расчета градиента функции ошибки. А как нам посчитать градиент функции ошибки при использовании нейронной сети? Оказывается, что в этом случае мы не можем просто взять и посчитать сразу весь градиент. Вместо этого, мы можем вычислить его по отдельным частям. Алгоритм вычисления градиента, используемый при обучении нейронных сетей, получил название <b>метод обратного распространения ошибки (backpropagation)</b>. Понимание его работы - это основа вашего понимания работы нейронных сетей.

Суть метода обратного распространения ошибки заключается в том, что мы после получения конечных предсказаний начинаем идти назад (от последнего слоя к первому) и последовательно вычислять части градиента. Как вы, наверное, догадались, обучаемыми параметрами у нас являются $W$ и $b$ для каждого слоя. Мы двигаемся начиная с последнего слоя и последовательно вычисляем эти градиенты.

Для того, чтобы нам удобно было все это понять, давайте каждый слой разобьем еще на два слоя. Для простоты сделаем так, что вся сеть имеет только входной слой и выходной (выходной разбит на два отдельных слоя).

![](https://i.vgy.me/S1IeLk.png)

Мы видим, что любую нейронную сеть таким образом можно разбить на большее количество слоев, если каждый слой с функцией активации разбить на два слоя. Представить, что на первом выполняется суммирование произведений (умножение матрицы на вектор и добавление сдвига), а на втором - поэлементное применение функции активации. Продолжая подобные рассуждения, мы придем к тому, что любая полносвязная сеть может быть представлена как набор последовательных компонентов, каждый из которых можно рассматривать как функцию.

![](https://i.vgy.me/7vWpIw.png)

Каждый такой компонент берет входные данные и преобразует их в выходные (в случае полносвязной нейронной сети компонент либо выполняет линейное преобразование, либо применяет функцию активации). Входные данные текущего блока являются выходными данными предыдущего. Но посмотрите, а что представляют собой тогда выходные данные последнего компонента с математической точки зрения? Это ни что иное, как результат применения <b>сложной функции</b> к входным данным. В данном случае, $y_3=f_3(f_2(f_1(x_1)))$. А теперь давайте вспомним, что каждый эти компоненты содержат обучаемые параметры $W$ и $b$. В данном случае у нас есть $W_1$ и $b_1$, а также $W_3$ и $b_3$ (второй компонент не содержит обучающих параметров, поскольку отвечает за просто поэлементное применение функции активации).

Но мы с вами ранее сказали о том, что градиент вычисляется частично и по каждому множеству обучаемых параметров, так? Да, все именно так. Мат. анализ предоставляет нам замечательный инструмент для вычисления производных сложной функции - <b>цепное правило (chain rule)</b>.

Суть цепного правила вы помните со школы: если $y=y(g(x))$, то ${\frac{dy}{dx}}={\frac{dy}{dg}}{\frac{dg}{dx}}$. То же самое работает и в нашем случае. Каждый компонент использует значения частных производных функции потерь по своему выходу для непосредственного вычисления частных производных функции потерь по $W$ и $b$, а также передает предыдущему компоненту вычисленные значения производной функии потерь по своему входу. Далее компонент с использованием оптимизатора делает шаг градиентного спуска (обновляются значения весов $W$ и $b$). <b>Обращаю внимание: обновление весов выполняется ПОСЛЕ вычисления частных производных по весам</b>.

![sejsej](https://i.vgy.me/m5KKFF.png)

Итак, пусть у нас задана функция потерь. Для регрессии и бинарной классификации можно использовать модифицированную MSE: $E={\frac{1}{2}}(y-\hat{y})^2$. Мы хотим ее минимизировать. Ранее мы буквой $L$ обозначали функцию потерь, а при работе с нейронными сетями устоялось обозначение $E$.

Осталось разобраться, по каким формулам вычисляются части градиента в каждом компоненте. Мы знаем, что в каждом компоненте вычисляется $\frac{\partial{E}}{\partial{x}}$. В некоторых компонентах вычисляются $\frac{\partial{E}}{\partial{W}}$ и $\frac{\partial{E}}{\partial{b}}$.

Запишем формулы:

$\frac{\partial{E}}{\partial{W}}$ = $\frac{\partial{E}}{\partial{y}}x^T$

$\frac{\partial{E}}{\partial{b}}$ = $\frac{\partial{E}}{\partial{y}}$

Частные производные функции потерь по входу вычисляются по разному, в зависимости от назначения компонента. Если это компонент, реализующий линейное преобразование ($Wx+b$), то $\frac{\partial{E}}{\partial{x}} = W^T\frac{\partial{E}}{\partial{y}} $. Если это компонент, применяющий функцию активации $f$ (sigmoid, tanh, relu), то $\frac{\partial{E}}{\partial{x}} = \frac{\partial{E}}{\partial{y}}\odot f'(x) $. $\odot$ - это поэлементное произведение векторов (произведение Адамара). 

Можно увидеть, что все функции активации слоев обязаны быть дифференцируемыми. 

При решении задач классификации (в общем случае, когда количество классов больше двух), как правило, применяется функция потерь перекрестная энтропия (при бинарной классификации применяется ее частный случай - бинарная перекрестная кросэнтропия). Выглядит она следующим образом:

Общий случай: $E = -\sum_{k}^{s}{{y_k}ln{\hat{y_k}}}$. Здесь s - количество классов. При использовании такой функции потерь, предполагается, что целевой признак размечен (например, для случая двух классов) как [1, 0]. Это оначает, что объект относится к 0 классу. Предположим, модель предсказала ответ [0,36, 0,64]. Она ошиблась. Можно посчитать значение перекрестной энтропии и обновить веса.

Как вы видите, использование перекрестной энтропии требует, чтобы сумма значений нейронов была единица и все числа были положительными. Для получения такого результата на произвольном слое с нейронами используется функция softmax. Ее можно назвать функцией активации, однако при использовании softmax $\frac{\partial{E}}{\partial{x}}$ считается по другому. $\frac{\partial{E}}{\partial{x}} = ((1-y^T)y)\frac{\partial{E}}{\partial{y}} $. Подчеркну, что 1 здесь обозначена единичная матрица.

Вот и все. Теперь вы можете реализовать собственную полносвязную нейронную сеть. Для облегчения задачи представьте ее в виде компонентов, как это описано выше. Чтобы начать вычисление градиента необходимо начать двигаться от последнего компонента к первому, при этом предварительно посчитать частную производную функции потерь по выходу последнего компонента.

## Использование фреймворка TensorFlow и API Keras для построеония нейронных сетей

Мы разобрались, как работают полносвязные нейронные сети. Давайте теперь решим задачи регрессии и классификации с помощью фреймворка TensorFlow. Начнем с загрузки предварительно обработанных данных.

In [None]:
import pandas as pd
data_regression = pd.read_csv("../data/regression/apartment_data_preprocessed.csv")
data_classification = pd.read_csv("../data/classification/bank_churners_preprocessed.csv")

In [None]:
data_regression.drop(columns = ["Unnamed: 0"], inplace=True)
data_classification.drop(columns = ["Unnamed: 0"], inplace=True)

In [None]:
data_regression.head()

Unnamed: 0,SalePrice,YearBuilt,YrSold,MonthSold,Size(sqf),Floor,N_Parkinglot(Ground),N_Parkinglot(Basement),TimeToBusStop,TimeToSubway,...,c_management_in_trust,c_self_management,c_Bangoge,c_Banwoldang,c_Chil-sung-market,c_Daegu,c_Kyungbuk_uni_hospital,c_Myung-duk,c_Sin-nam,c_no_subway_nearby
0,141592,2006,2007,8,814,3,111.0,184.0,1,2,...,1,0,0,0,0,0,1,0,0,0
1,51327,1985,2007,8,587,8,80.0,76.0,2,3,...,0,1,0,0,0,1,0,0,0,0
2,48672,1985,2007,8,587,6,80.0,76.0,2,3,...,0,1,0,0,0,1,0,0,0,0
3,380530,2006,2007,8,2056,8,249.0,536.0,2,4,...,1,0,0,0,0,0,0,0,1,0
4,221238,1993,2007,8,1761,3,523.0,536.0,2,1,...,1,0,0,0,0,0,0,1,0,0


In [None]:
data_classification.head()

Unnamed: 0,Attrition_Flag,Customer_Age,Dependent_count,Education_Level,Income_Category,Card_Category,Months_on_book,Total_Relationship_Count,Months_Inactive_12_mon,Contacts_Count_12_mon,...,Total_Trans_Amt,Total_Trans_Ct,Total_Ct_Chng_Q4_Q1,Avg_Utilization_Ratio,c_F,c_M,c_Divorced,c_Married,c_Single,c_Unknown
0,0,45,3,2,3,0,39,5,1,3,...,1144,42,1.625,0.061,0,1,0,1,0,0
1,0,49,5,5,1,0,44,6,1,2,...,1291,33,3.714,0.105,1,0,0,0,1,0
2,0,51,3,5,4,0,36,4,1,0,...,1887,20,2.333,0.0,0,1,0,1,0,0
3,0,40,4,2,1,0,34,3,4,1,...,1171,20,2.333,0.76,1,0,0,0,0,1
4,0,40,3,1,3,0,21,5,1,0,...,816,28,2.5,0.0,0,1,0,1,0,0


In [None]:
y_regression = data_regression["SalePrice"]
X_regression = data_regression.drop(columns = ['SalePrice'])
y_classification = data_classification['Attrition_Flag']
X_classification = data_classification.drop(columns = ['Attrition_Flag'])

In [None]:
from sklearn.model_selection import train_test_split
X_regression_train, X_regression_test, y_regression_train, y_regression_test = train_test_split(X_regression,
                                                                                                y_regression,
                                                                                                test_size=0.2)
X_classification_train, X_classification_test, y_classification_train, y_classification_test = train_test_split(X_classification,
                                                                                                                y_classification,
                                                                                                                stratify=y_classification,
                                                                                                                test_size=0.2)

Импортируем метрики

In [2]:
# для оценки качества решения задачи регрессии
from sklearn.metrics import mean_squared_error, mean_absolute_error
# для оценки качества решения задачи классификации
from sklearn.metrics import confusion_matrix, classification_report

In [1]:
import tensorflow as tf
import numpy as np

### Регрессия

Создаем полносвязную нейронную сеть для решения задачи регрессии

In [None]:
# создаем модель, как набор последовательных слоев
model_regression = tf.keras.Sequential(
    [
        # Dense - полносвязный слой (каждый нейрон следующего слоя связан со всеми нейронами предыдущего)
        tf.keras.layers.Dense(64, activation="relu", input_shape=(40,)),
        # на втором скрытом слое будет 32 нейрона
        tf.keras.layers.Dense(32, activation="linear"),
        # Dropout позволяет внести фактор случайности - при обучении часть нейронов будет отключаться
        # каждый нейрон, в данном случае, будет отключаться с вероятностью 0.1
        tf.keras.layers.Dropout(0.1),
        tf.keras.layers.Dense(16, activation="relu"),
        tf.keras.layers.Dropout(0.1),
        # на выходе один нейрон, функция активации не применяется
        tf.keras.layers.Dense(1, activation="linear"),
    ]
)

In [None]:
# посмотрим, какая сеть у нас получилась
model_regression.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_10 (Dense)            (None, 64)                2624      
                                                                 
 dense_11 (Dense)            (None, 32)                2080      
                                                                 
 dropout_3 (Dropout)         (None, 32)                0         
                                                                 
 dense_12 (Dense)            (None, 16)                528       
                                                                 
 dropout_4 (Dropout)         (None, 16)                0         
                                                                 
 dense_13 (Dense)            (None, 1)                 17        
                                                                 
Total params: 5,249
Trainable params: 5,249
Non-traina

Видим количество обучаемых параметров каждого слоя и общее количество обучаемых параметров. Перед использованием модель необходимо скомпилировать, при этом указывается оптимизатор, скорость обучения (можно представлять как величину шага в методе градиентного спуска), функция потерь и метрики, которые мы хотим (при желании) вычислять в будущем методом evaluate().

In [None]:
# компилируем
model_regression.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="mse")

In [None]:
# обучаем, 10 эпох означает 10 проходов по обучающей выборке
model_regression.fit(X_regression_train, y_regression_train, epochs=50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x2666b0d42e0>

In [None]:
# оцениваем качество с помощью метрик
print(mean_absolute_error(y_regression_test, model_regression.predict(X_regression_test)))
print(mean_squared_error(y_regression_test, model_regression.predict(X_regression_test)))

41091.38192125212
2485492505.8873043


Мы получили наглядную демонстрацию важного факта - в некоторых задачах применение нейронных сетей менее целесообразно, чем использование более простых моделей. Но иногда они дают лучшие результаты. Важную роль еще играет подбор архитектуры и параметров.

### Бинарная классификация

Нейронная сеть для решения задачи классификации будет очень похожа на ту сеть для регрессии, однако у нее по другому будет организован выходной слой. У нас есть 2 стратегии наполнения выходного слоя нейронами:

- при решении задачи бинарной классификации мы можем расположить на выходном слое один нейрон с функцией активации sigmoid (значения от 0 и 1), после чего округлять полученные значения; значение нейрона покажет уверенность сети в предсказании; также мы можем расположить 2 нейрона на выходном слое и применить функцию softmax. Тогда сумма значений нейронов выходного слоя будет 1, а предсказание мы сможем получить определив нейрон с наибольшим значением;
- в случае многоклассовой классификации, как правило, на выходном слое располагаются k нейронов (по количеству классов), функция активации - softmax; нейрон с наибольшим значением определяет предсказанный класс.

У нас задача бинарной классификации, попробуем обе стратегии.

In [None]:
model_classification_1 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(23,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # сначала используем 1 нейрон и sigmoid
        tf.keras.layers.Dense(1, activation="sigmoid"),
    ]
)
# в качестве функции активации используется бинарная  кроссэнтропия
model_classification_1.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.001), loss="mse")
# verbose=None - не будет логов
model_classification_1.fit(X_classification_train, y_classification_train, epochs=25, verbose=None)

<keras.callbacks.History at 0x2666b6d8b50>

Посмотрим, как выглядят предсказания сети.

In [None]:
model_classification_1.predict(X_classification_test, verbose=None)[:5]

array([[0.],
       [0.],
       [0.],
       [0.],
       [0.]], dtype=float32)

Это числа от 0 до 1, поскольку мы использовали sigmoid. Для того, чтобы получить финальное предсказания классов, необходимо округлить все полученные значения.

In [None]:
y_pred = np.around(model_classification_1.predict(X_classification_test, verbose=None))
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

           0       0.84      1.00      0.91      1701
           1       0.00      0.00      0.00       325

    accuracy                           0.84      2026
   macro avg       0.42      0.50      0.46      2026
weighted avg       0.70      0.84      0.77      2026

[[1701    0]
 [ 325    0]]


  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


Обратите внимание, что дисбаланс классов может привести к неудовлетворительным результатам обучения модели. Необходимо сбалансировать обучающую выборку.

Но, даже без выполнения балансировки, можно взвесить функцию потерь. Можем указать веса (параметр class_weight), которые будут использоваться при оптимизации функции ошибки. В качестве весов классов можно задать величины, обратные количеству элементов класса.

In [None]:
w0 = 1 / y_classification_train[y_classification_train==0].shape[0]
w1 = 1 / y_classification_train[y_classification_train==1].shape[0]

In [None]:
model_classification_1 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(23,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # используем 1 нейрон и sigmoid
        tf.keras.layers.Dense(1, activation="sigmoid"),
    ]
)
model_classification_1.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="binary_crossentropy")
model_classification_1.fit(X_classification_train, y_classification_train, epochs=25, verbose=None,
                           class_weight={0: w0, 1: w1})
y_pred = np.around(model_classification_1.predict(X_classification_test, verbose=None))
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

           0       0.93      0.78      0.85      1701
           1       0.38      0.71      0.50       325

    accuracy                           0.77      2026
   macro avg       0.66      0.75      0.67      2026
weighted avg       0.85      0.77      0.79      2026

[[1329  372]
 [  94  231]]


Видим улучшения. Можем поиграть с архитектурой и параметрами и добиться еще более качественных результатов. Но напоследок давайте попробуем разместить 2 нейрона на выходном слое и использовать softmax в качестве функции активации.

In [None]:
model_classification_2 = tf.keras.Sequential(
    [
        tf.keras.layers.Dense(64, activation="relu", input_shape=(23,)),
        tf.keras.layers.Dense(128, activation="relu"),
        tf.keras.layers.Dropout(0.05),
        tf.keras.layers.Dense(64, activation="relu"),
        tf.keras.layers.Dense(32, activation="relu"),
        tf.keras.layers.Dense(16, activation="relu"),
        # сначала используем 2 нейрона и softmax
        tf.keras.layers.Dense(2, activation="softmax"),
    ]
)
# в качестве функции активации используется категориальная кроссэнтропия
# используем разряженный (sparse) вариант, поскольку значения целевого признака не закодированы One-Hot кодированием
model_classification_2.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=0.005), loss="sparse_categorical_crossentropy")
model_classification_2.fit(X_classification_train, y_classification_train, epochs=25, verbose=None,
                           class_weight={0: w0, 1: w1})

<keras.callbacks.History at 0x26672245a00>

In [None]:
model_classification_2.predict(X_classification_test, verbose=None)[:5]

array([[0.48673633, 0.51326376],
       [0.76047015, 0.23952979],
       [0.90106165, 0.09893838],
       [0.19694562, 0.8030544 ],
       [0.19694562, 0.8030544 ]], dtype=float32)

Каждое предсказание - это два числа (потому что два нейрона). Сумма значений равна 1. Каждое значение можно интерпретировать как вероятность отнесения объекта к соответствующему классу (0 или 1). Воспользуемся функцией argmax для того, чтобы получить итоговые предсказания.

In [None]:
# получим индексы максимального значения для каждого элемента (вложенный массив) с помощью numpy
y_pred = [np.argmax(pred) for pred in model_classification_2.predict(X_classification_test, verbose=None)]

In [None]:
print(classification_report(y_classification_test, y_pred))
print(confusion_matrix(y_classification_test, y_pred))

              precision    recall  f1-score   support

           0       0.94      0.78      0.85      1701
           1       0.39      0.73      0.50       325

    accuracy                           0.77      2026
   macro avg       0.66      0.75      0.68      2026
weighted avg       0.85      0.77      0.80      2026

[[1326  375]
 [  89  236]]


Когда мы закончили обучение моделей, мы можем сохранить их на диск, чтобы в будущем либо продолжить обучение (если оно занимает много времени) или использовать для получения предсказаний.

In [None]:
model_regression.save('../models/RegressionModel')
model_classification_1.save('../models/ClassificationModel1')
model_classification_2.save('../models/ClassificationModel2')



INFO:tensorflow:Assets written to: ../models/RegressionModel\assets


INFO:tensorflow:Assets written to: ../models/RegressionModel\assets


INFO:tensorflow:Assets written to: ../models/ClassificationModel1\assets


INFO:tensorflow:Assets written to: ../models/ClassificationModel1\assets


INFO:tensorflow:Assets written to: ../models/ClassificationModel2\assets


INFO:tensorflow:Assets written to: ../models/ClassificationModel2\assets


Модели сохранены в виде папки. Теперь, когда они нам потребуются, можем очень просто их загрузить. Загрузим, например, модель для регрессии.

In [None]:
model_regression_restored = tf.keras.models.load_model('../models/RegressionModel')
model_regression_restored.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_10 (Dense)            (None, 64)                2624      
                                                                 
 dense_11 (Dense)            (None, 32)                2080      
                                                                 
 dropout_3 (Dropout)         (None, 32)                0         
                                                                 
 dense_12 (Dense)            (None, 16)                528       
                                                                 
 dropout_4 (Dropout)         (None, 16)                0         
                                                                 
 dense_13 (Dense)            (None, 1)                 17        
                                                                 
Total params: 5,249
Trainable params: 5,249
Non-traina

In [None]:
# используем модель
print(mean_absolute_error(y_regression_test, model_regression_restored.predict(X_regression_test, verbose=None)))
print(mean_squared_error(y_regression_test, model_regression_restored.predict(X_regression_test, verbose=None)))

41091.38192125212
2485492505.8873043


# Задание

<b>Традиционное предупреждение для всех лабораторных работ:</b> перед обучением моделей необходимо выполнить предварительную обработку данных, которая <b>обязательно</b> включает в себя:
- заполнение пропущенных значений (рекомедуется логика заполнения пропусков на основе типа данных, которая использовалась в РГР по Практикуму);
- преобразование категориальных признаков в числовые (используйте one-hot кодирование или map; используйте знания с Практикума).

Предобработка может включать в себя другие действия, но выполнение описанных выше действий обязательно.

Сделайте это один раз и сохраните в отдельный csv файл, а потом его используйте.

<b>Выполните следующие задания:</b>
- решите задачи регрессии и классификации на ваших данных используя полносвязные нейронные сети; соберите их используя API Keras фреймворка TensorFlow; оцените качество полученных моделей с помощью метрик; 
- реализуйте многослойный персептрон, с помощью которого можно решать задачи регрессии и классификации; предусмотрите возможность использовать такие функции активации, как sigmoid, tanh и relu; также предусмотрите возможность указать, сколько слоев нужно, сколько на каждом из них нейронов и какую функцию активации должен иметь слой; реализуйте обучение персептрона методом обратного распространения ошибки; самостоятельно найдите производные функций sigmoid, tanh и relu; реализуйте классический градиентный спуск с возможностью указания шага.

<b>Дополнительные задания:</b>
- самостоятельно изучите отличия работы оптимизаторов Adam и RMSProp от классического градиентного спуска; реализуйте градиентный спуск с использованием указанных оптимизаторов; предусмотрите возможность использования реализованных вами оптимизаторов в вашем персептроне.

# Задача регресии

In [1]:
import numpy as np
import pandas as pd

In [45]:
data_regress = pd.read_csv('../data/pre_kc_house_data.csv')
data_regress.drop(['Unnamed: 0'], axis=1, inplace=True)
data_regress

Unnamed: 0,price,day,month,year,bedrooms,bathrooms,sqft_living,sqft_lot,floors,waterfront,...,grade,sqft_above,sqft_basement,yr_built,yr_renovated,zipcode,lat,long,sqft_living15,sqft_lot15
0,221900.0,13,10,2014,3,1.00,1180,5650,1.0,0,...,7,1180,0,1955,0,98178,47.5112,-122.257,1340,5650
1,538000.0,9,12,2014,3,2.25,2570,7242,2.0,0,...,7,2170,400,1951,1991,98125,47.7210,-122.319,1690,7639
2,180000.0,25,2,2015,2,1.00,770,10000,1.0,0,...,6,770,0,1933,0,98028,47.7379,-122.233,2720,8062
3,604000.0,9,12,2014,4,3.00,1960,5000,1.0,0,...,7,1050,910,1965,0,98136,47.5208,-122.393,1360,5000
4,510000.0,18,2,2015,3,2.00,1680,8080,1.0,0,...,8,1680,0,1987,0,98074,47.6168,-122.045,1800,7503
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21608,360000.0,21,5,2014,3,2.50,1530,1131,3.0,0,...,8,1530,0,2009,0,98103,47.6993,-122.346,1530,1509
21609,400000.0,23,2,2015,4,2.50,2310,5813,2.0,0,...,8,2310,0,2014,0,98146,47.5107,-122.362,1830,7200
21610,402101.0,23,6,2014,2,0.75,1020,1350,2.0,0,...,7,1020,0,2009,0,98144,47.5944,-122.299,1020,2007
21611,400000.0,16,1,2015,3,2.50,1600,2388,2.0,0,...,8,1600,0,2004,0,98027,47.5345,-122.069,1410,1287


In [46]:
X_regress = data_regress.drop(['price'], axis=1)

In [47]:
y_regress = data_regress['price']

In [3]:
from sklearn.model_selection import train_test_split

In [48]:
X_train_regress, X_test_regress,  y_train_regress, y_test_regress = train_test_split(X_regress, y_regress, test_size=0.2)

In [2]:
from sklearn.preprocessing import StandardScaler

In [49]:
scaler = StandardScaler()
X_train_regress = scaler.fit_transform(X_train_regress)
X_test_regress = scaler.transform(X_test_regress)

In [5]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [9]:
import tensorflow as tf
from keras.models import Sequential
from keras.layers import Dense, Dropout
from keras.optimizers import Adam

In [50]:
model_regression = Sequential(
    [
        Dense(64, activation="relu", input_shape=(X_train_regress.shape[1],)),
        Dense(32, activation="linear"),
        Dropout(0.1),
        Dense(16, activation="relu"),
        Dropout(0.1),
        Dense(1, activation="linear"),
    ]
)

In [51]:
model_regression.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_12 (Dense)            (None, 64)                1408      
                                                                 
 dense_13 (Dense)            (None, 32)                2080      
                                                                 
 dropout_6 (Dropout)         (None, 32)                0         
                                                                 
 dense_14 (Dense)            (None, 16)                528       
                                                                 
 dropout_7 (Dropout)         (None, 16)                0         
                                                                 
 dense_15 (Dense)            (None, 1)                 17        
                                                                 
Total params: 4,033
Trainable params: 4,033
Non-traina

In [52]:
model_regression.compile(optimizer=Adam(learning_rate=0.005), loss="mse")

In [53]:
model_regression.fit(X_train_regress, y_train_regress, epochs=50)

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


<keras.callbacks.History at 0x255d14cbb50>

In [54]:
print(mean_absolute_error(y_test_regress, model_regression.predict(X_test_regress)))
print(mean_squared_error(y_test_regress, model_regression.predict(X_test_regress)))

97571.59924748438
25246297833.14532


# Задача классификации

### для ргр

In [3]:
data_class = pd.read_csv('../data/pred_card_transdata.csv')
data_class.drop(['Unnamed: 0'], axis=1, inplace=True)
data_class

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price,repeat_retailer,used_chip,used_pin_number,online_order,fraud
0,-0.377995,0.155206,-0.507410,1,0,0,1,0
1,-0.346242,-0.201807,-0.730339,1,1,0,1,0
2,-0.344031,0.025102,-0.156792,1,0,0,1,0
3,-0.392158,-0.222599,0.138186,1,0,0,1,1
4,-0.384379,-0.197035,1.184226,1,1,0,1,1
...,...,...,...,...,...,...,...,...
174801,-0.384734,0.076984,-0.501225,1,0,0,0,0
174802,0.805875,-0.198069,-0.677156,1,1,0,1,0
174803,-0.175663,-0.212807,1.263701,1,1,0,1,1
174804,-0.384208,-0.207714,-0.640147,1,0,1,1,0


In [4]:
X_class = data_class.drop(['fraud'], axis=1)

In [5]:
y_class = data_class['fraud']

In [7]:
from sklearn.model_selection import train_test_split
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2)

In [10]:
model_classification_1 = Sequential(
    [
        Dense(64, activation="relu", input_shape=(X_train_class.shape[1],)),
        Dense(128, activation="relu"),
        Dropout(0.05),
        Dense(64, activation="relu"),
        Dense(32, activation="relu"),
        Dense(16, activation="relu"),
        Dense(1, activation="sigmoid"),
    ]
)
model_classification_1.compile(optimizer=Adam(learning_rate=0.005), loss="binary_crossentropy")

model_classification_1.fit(X_train_class, y_train_class, epochs=25)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


<keras.callbacks.History at 0x13b8aeb9460>

In [12]:
model_classification_1.save('../models/ModelNN_Classifier.h5')

In [7]:
data_class = pd.read_csv('../data/pre_card_transdata.csv')
data_class.drop(['Unnamed: 0'], axis=1, inplace=True)
data_class

Unnamed: 0,distance_from_home,distance_from_last_transaction,ratio_to_median_purchase_price,repeat_retailer,used_chip,used_pin_number,online_order,fraud
0,20.211127,0.080074,0.765894,1.0,1.0,0.0,1.0,0.0
1,3.991784,1.063091,0.843780,1.0,0.0,0.0,1.0,0.0
2,16.510867,3.927569,0.174174,1.0,0.0,0.0,0.0,0.0
3,2.000027,0.231883,1.427570,1.0,1.0,0.0,0.0,0.0
4,18.061769,0.623783,4.331394,1.0,0.0,0.0,1.0,1.0
...,...,...,...,...,...,...,...,...
174801,5.912711,0.048860,2.242847,1.0,0.0,0.0,1.0,0.0
174802,6.057480,0.339883,0.467084,1.0,1.0,1.0,1.0,0.0
174803,10.162044,2.566964,0.857462,1.0,1.0,0.0,1.0,0.0
174804,42.822821,0.317691,4.204283,1.0,1.0,0.0,1.0,1.0


In [8]:
X_class = data_class.drop(['fraud'], axis=1)

In [9]:
y_class = data_class['fraud']

In [10]:
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2)

In [11]:
scaler = StandardScaler()
X_train_class = scaler.fit_transform(X_train_class)
X_test_class = scaler.transform(X_test_class)

In [14]:
model_classification_1 = Sequential(
    [
        Dense(64, activation="relu", input_shape=(X_train_class.shape[1],)),
        Dense(128, activation="relu"),
        Dropout(0.05),
        Dense(64, activation="relu"),
        Dense(32, activation="relu"),
        Dense(16, activation="relu"),
        Dense(1, activation="sigmoid"),
    ]
)
model_classification_1.compile(optimizer=Adam(learning_rate=0.005), loss="binary_crossentropy")

model_classification_1.fit(X_train_class, y_train_class, epochs=25)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


<keras.callbacks.History at 0x2325b832d00>

In [16]:
from sklearn.metrics import classification_report, confusion_matrix

In [17]:
y_pred = np.around(model_classification_1.predict(X_test_class))
print(classification_report(y_test_class, y_pred))
print(confusion_matrix(y_test_class, y_pred))

              precision    recall  f1-score   support

         0.0       1.00      0.99      1.00     17528
         1.0       0.99      1.00      1.00     17434

    accuracy                           1.00     34962
   macro avg       1.00      1.00      1.00     34962
weighted avg       1.00      1.00      1.00     34962

[[17416   112]
 [   12 17422]]


In [19]:
model_classification_1.save('../models/NN_Classifier')

INFO:tensorflow:Assets written to: ../models/NN_Classifier\assets


In [70]:
model_classification_2 = tf.keras.Sequential(
    [
        Dense(64, activation="relu", input_shape=(X_train_class.shape[1],)),
        Dense(128, activation="relu"),
        Dropout(0.05),
        Dense(64, activation="relu"),
        Dense(32, activation="relu"),
        Dense(16, activation="relu"),
        Dense(2, activation="softmax"),
    ]
)

model_classification_2.compile(optimizer=Adam(learning_rate=0.005), loss="sparse_categorical_crossentropy")
model_classification_2.fit(X_train_class, y_train_class, epochs=25)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


<keras.callbacks.History at 0x255eb782fa0>

In [71]:
y_pred = [np.argmax(pred) for pred in model_classification_2.predict(X_test_class)]



In [72]:
print(classification_report(y_test_class, y_pred))
print(confusion_matrix(y_test_class, y_pred))

              precision    recall  f1-score   support

         0.0       0.99      0.96      0.98     17499
         1.0       0.96      0.99      0.98     17463

    accuracy                           0.98     34962
   macro avg       0.98      0.98      0.98     34962
weighted avg       0.98      0.98      0.98     34962

[[16869   630]
 [   96 17367]]


## Реализация многослойного персептрона

In [207]:
def iterate_batches(inputs, outputs, batchsize):
        l = len(inputs)
        for ndx in range(0, l, batchsize):
            yield inputs[ndx:min(ndx + batchsize, l)], outputs[ndx:min(ndx + batchsize, l)]

class DenseLayer:
    def __init__(self, n_units, input_size=None, activation=None):
        
        self.n_units = n_units                                    
        self.input_size = input_size                               
        self.W = None                                                                                      
        self.A = None                              
        self.fn, self.df = self.select_activation_fn(activation)

    def select_activation_fn(self, activation):
        if activation == 'relu':
            fn = lambda x: np.maximum(0, x)
            df = lambda x: np.where(x < 0, 0.0, 1.0)
        elif activation == 'sigmoid':
            fn = lambda x: 1 / (1 + np.exp(-x))
            df = lambda x: fn(x) * fn(1 - x)
        elif activation == 'tanh':
            fn = lambda x: (np.exp(x) - np.exp(-1)) / (np.exp(x) + np.exp(-x))
            df = lambda x: 1 / np.cos(x) ** 2
        elif activation == 'linear':
            fn = lambda x: x
            df = lambda x: 1.0
        return fn, df

    def init_weights(self):
        self.W = np.random.randn(self.n_units, self.input_size + 1)
    
    def get_activation_value(self, X):
        m_examples = X.shape[0]
        X_new = np.hstack([np.ones((m_examples, 1)), X])
        Z = np.dot(X_new, self.W.T)
        A = self.fn(Z)
        self.A = A
        return A
    
    def backprop(self, delta, a):
        da = self.df(a)    
        return np.dot(delta, self.W)[:, 1:] * da

class SequentialModel:
    def __init__(self, layers):     
        input_size = layers[0].n_units       
        layers[0].init_weights()             
        for layer in layers[1:]:             
            layer.input_size = input_size
            input_size = layer.n_units
            layer.init_weights()
        self.layers = layers
        self.lr = None

    def forward(self, X):            
        out = self.layers[0].get_activation_value(X)
        for layer in self.layers[1:]:
            out = layer.get_activation_value(out)
        return out
    
    def add_dim(self, x):
        return np.hstack([np.ones((x.shape[0], 1)), x])

    def backward(self, X, y_pred, y_true):
        n_layers = len(self.layers)
        delta = y_pred - y_true
        a = y_pred
        dWs = {}
        for i in range(-1, -len(self.layers), -1):
            a = self.layers[i - 1].A       
            dWs[i] = np.dot(delta.T, self.add_dim(a))
            delta = self.layers[i].backprop(delta, a)

        dWs[-n_layers] = np.dot(delta.T, self.add_dim(X))

        for k, dW in dWs.items():
            self.layers[k].W -= self.lr * dW
            
    def fit(self, X, y, epochs, batchsize=32, lr=0.01):
        
        self.lr = lr

        for i in range(epochs):

            for batch in iterate_batches(X, y, batchsize=batchsize):
                
                X_batch = batch[0]
                y_batch = batch[1]
                
                if not isinstance(y_batch, np.ndarray):
                    y_batch = y_batch.to_numpy()
                    
                y_batch = y_batch.reshape(-1, 1)
                y_pred = model.forward(X_batch)
                model.backward(X_batch, y_pred, y_batch)
                

In [184]:
import numpy as np
from sklearn.datasets import make_classification

np.random.seed(42)
X, y = make_classification(n_samples=10, n_features=4, 
    n_classes=2)
y_true = y.reshape(-1, 1)


np.random.seed(42)

model = SequentialModel([
    DenseLayer(6, activation='sigmoid', input_size= X.shape[1]),
    DenseLayer(4, activation='tanh'),
    DenseLayer(3, activation='relu'),
    DenseLayer(1, activation='sigmoid')
])

model.fit(X, y, epochs=100, batchsize=2)
    
display(np.where(model.forward(X)> 0.5, 1, 0), y)

array([[0],
       [0],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0]])

array([0, 0, 1, 1, 1, 1, 0, 1, 0, 0])

In [186]:
import numpy as np
from sklearn.datasets import make_regression

np.random.seed(42)
X, y = make_regression(n_samples=10, n_features=4)
y_true = y.reshape(-1, 1)


np.random.seed(42)

model = SequentialModel([
    DenseLayer(6, activation='relu', input_size=X.shape[1]),
    DenseLayer(4, activation='linear'),
    DenseLayer(3, activation='relu'),
    DenseLayer(1, activation='linear')
])

model.fit(X, y, epochs = 100, batchsize=3)
    
display(model.forward(X), y)

array([[nan],
       [nan],
       [nan],
       [nan],
       [nan],
       [nan],
       [nan],
       [nan],
       [nan],
       [nan]])

array([ -88.67672026,  176.18716008, -115.26173746, -238.8166274 ,
       -285.52976996,    3.46029271,  234.57846761, -337.21521568,
       -118.70177666,   28.36950144])

In [208]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

np.random.seed(42)

data_class = pd.read_csv('../data/pre_card_transdata.csv')
data_class.drop(['Unnamed: 0'], axis=1, inplace=True)

X_class = data_class.drop(['fraud'], axis=1)
y_class = data_class['fraud']
X_train_class, X_test_class, y_train_class, y_test_class = train_test_split(X_class, y_class, test_size=0.2)
scaler = StandardScaler()
X_train_class = scaler.fit_transform(X_train_class)
X_test_class = scaler.transform(X_test_class)

model = SequentialModel([
    DenseLayer(6, activation='sigmoid', input_size=X_class.shape[1]),
    DenseLayer(4, activation='tanh'),
    DenseLayer(3, activation='relu'),
    DenseLayer(1, activation='sigmoid')
])

model.fit(X_train_class, y_train_class, epochs = 5, batchsize=32)

  fn = lambda x: 1 / (1 + np.exp(-x))


In [210]:
pred = model.forward(X_test_class)

  fn = lambda x: 1 / (1 + np.exp(-x))


In [211]:
display(pred)

array([[0.00126699],
       [0.75340473],
       [0.75340473],
       ...,
       [0.00126699],
       [0.00126699],
       [0.00126699]])

In [190]:
pred = np.where(pred > 0.5, 1, 0)

In [191]:
pred[:10]

array([[0],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1]])

In [194]:
y_test_class[:10].astype(int).values.reshape(-1, 1)

array([[0],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1]])

In [195]:
from sklearn.metrics import classification_report, confusion_matrix
print(classification_report(y_test_class, pred))
print(confusion_matrix(y_test_class, pred))

              precision    recall  f1-score   support

         0.0       0.97      0.89      0.93     17451
         1.0       0.90      0.97      0.93     17511

    accuracy                           0.93     34962
   macro avg       0.93      0.93      0.93     34962
weighted avg       0.93      0.93      0.93     34962

[[15507  1944]
 [  509 17002]]


In [212]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

np.random.seed(42)

data_regress = pd.read_csv('../data/pre_kc_house_data.csv')
data_regress.drop(['Unnamed: 0'], axis=1, inplace=True)

X_regress = data_regress.drop(['price'], axis=1)
y_regress = data_regress['price']
X_train_regress, X_test_regress, y_train_regress, y_test_regress = train_test_split(X_regress, y_regress, test_size=0.2)
scaler = StandardScaler()
X_train_regress = scaler.fit_transform(X_train_regress)
X_test_regress = scaler.transform(X_test_regress)

model = SequentialModel([
    DenseLayer(6, activation='relu', input_size=X_regress.shape[1]),
    DenseLayer(4, activation='linear'),
    DenseLayer(3, activation='relu'),
    DenseLayer(1, activation='linear')
])

model.fit(X_train_regress, y_train_regress, epochs = 10, batchsize=32)

In [213]:
pred = model.forward(X_test_regress) 

In [214]:
pred

array([[nan],
       [nan],
       [nan],
       ...,
       [nan],
       [nan],
       [nan]])