# Многослойный перцептрон

В этом блокноте мы реализуем возможность построения полносвязной многослойной нейронной сети при помощи `numpy`. Сначала загрузим требующиеся библиотеки.

In [1]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
import numpy as np
from sklearn.datasets import load_iris

## Немного про то, как действуют слои

На данный момент мы намеренно не будем расширять матрицу входных данных значениями $-1$, как мы это делали в однослойной сети, и опишем действие слоя нейронной сети несколько иначе. 

Пусть нам дан на вход некоторый набор данных $X$ размера $[n \times p]$, состоящий из $n$ объектов, каждый из которых характеризуется $p$ фичами. Действие любого скрытого слоя нейронной сети можно разбить на два этапа. Первый этап — это действие сумматора, производится оно следующим образом:
$$
Y_1 = X\cdot W_0 - b_0,
$$
где $W_0$ — матрица размера $[p \times n_1]$, где $n_1$ — количество нейронов следующего слоя, $b_0$ — вектор смещений каждого нейрона (по сути — матрица размера $[n \times n_1]$, чьи элементы, находящиеся в одном столбце, одинаковы). Итого, на выходе мы получаем для каждого объекта $n_1$ новый признак. Но это не все, второй этап — применение некоторой функции активации $\varphi_0$ поэлементно ко всем элементам матрицы $Y_1$, полученной этапом ранее:
$$
Z_1 = \varphi_0(Y_1).
$$
Полученная матрица и является входной матрицей для следующего слоя нейронов. 

Таким образом, имея $(k - 1)$ построенный слой, мы можем построить $k$-ый слой при помощи двух операций:
$$
Y_k = Z_{k - 1}W_{k-1} - b_{k-1}, \quad Z_k = \varphi_{k-1}(Y_k).
$$
Последний слой обычно выделяют особо, так как этот слой — выходной, и в зависимости от решаемой задачи его выход может разниться. 

## Выходной слой при классификации

Мы, опять-таки, будем решать задачу классификации, так что введем еще раз уже известные обозначения.

Пусть
$$
x_i = (x_i^1, ..., x_i^{p}), \quad i \in \{1, 2, ..., n\},
$$
— $i$-ый тренировочный объект, $y_i$ — числовая метка класса $i$-ого объекта,
$$
w^j = (w_1^j, ..., w_{p}^j)^T, \quad j \in \{1, 2, ..., m\},
$$
— веса $j$-ого нейрона — столбцы матрицы $W$, $b^j$ — смещение $j$-ого нейрона — столбцы матрицы $b$.

Напишем интересующую нас функцию потерь, $y = \{y_1, ..., y_n\}$:
$$
Loss(X, W, y) = -\frac{1}{n} \sum\limits_{i = 1}^n \ln \frac{\exp(x_i \cdot w^{y_i} - b^{y_i})}{\sum\limits_{j = 1}^m\exp(x_i \cdot w^j - b^j)} + \lambda R(w) = -\frac{1}{n}\sum\limits_{i = 1}^n \left((x_i \cdot w^{y_i} - b^{y_i}) - \ln \sum\limits_{j = 1}^m\exp(x_i \cdot w^j - b^j)\right) + \lambda  R(w),
$$
где 
$$
x_i \cdot w^j = \sum\limits_{k = 1}^px_i^kw^j_k
$$
— скалярное произведение соответсвующих векторов.

Для обучения сети нам понадобится градиент этой функции, вычислим его.
$$
\frac{\partial Loss(X, W, y)}{\partial w^{y'}_p} = -\frac{1}{n} \sum\limits_{i = 1}^n \left( x_i^p[y_i = y'] - x_i^p \frac{exp(x_i \cdot w^{y'})}{\sum\limits_{j = 1}^m \exp(x_i \cdot w^j)}\right) + \lambda  \frac{\partial R}{\partial w}.
$$
В таком виде градиент использовать неудобно и вычислительно неэффективно. Можно заметить, что в матричном виде он переписывается следующим образом:
$$
\frac{\partial Loss(X, W, y)}{\partial w} = -\frac{1}{n}X^T\left(M - P\right) + \lambda \frac{\partial R}{\partial w}.
$$
Поясним входящие в последнее выражение объекты.  Как мы уже отметили, до применения функции активации выходы нейронов после «сумматора» для набора данных $X$ могут быть получены следущим образом:
$$
Outs = X \cdot W - b.
$$
Матрица $Outs$ имеет размер $[n \times m]$ и построчно содержит значения выходов каждого из $m$ нейронов для соответсвующего объекта подаваемых данных. Тогда матрица $P$ — это матрица `softmax`-ов для каждого нейрона, на пересечении $i$-ой строки и $t$-ого столбца которой стоят значения
$$
\frac{\exp(x_i \cdot w^t)}{\sum\limits_{j = 1}^m \exp(x_i \cdot w^j)}, \quad i \in \{1, 2, ..., n\}, \quad t \in \{1, 2, ..., m\},
$$
$M$ — матрица размера $[n \times m]$ — разреженная матрица `one_hot` кодированных откликов. 

## Снова про регуляризацию



Теперь про регуляризацию. В случае $l_p$, $p \in \{1, 2\}$, регуляризатор имеет вид:
$$
R_p(W) = \sum\limits_{i = 1}^p\sum\limits_{j = 1}^m |w_i^j|^p,
$$
поэтому в матричном виде производная (или градиент) может быть записана так:
$$
\frac{\partial R_2}{\partial w} = 2\lambda W, \quad \frac{\partial R_1}{\partial \omega} = \lambda \operatorname{sign}W.
$$

## Теперь о матричном дифференцировании

Матричные операции очень неплохо реализованы в питоне, поэтому именно им и стоит отдать предпочтение при реализации шага градиентного спуска для поиска параметров слоев. Мы уже поняли, что если выходы последнего слоя завязаны на функции потерь, описанной выше, то 
$$
\frac{\partial Loss(X, W, y)}{\partial w} = -\frac{1}{n}X^T\left(M - P\right) + \lambda \frac{\partial R}{\partial w}.
$$
Это реализовано в `__get_grad`. В общем случае,
$$
Z = \varphi(XW - b), \quad \frac{\partial Z}{\partial W} = X^T\frac{\partial(\varphi(XW - b))}{\partial(XW - b)}, \quad \frac{\partial Z}{db} = - \frac{\partial(\varphi(XW - b))}{\partial(XW - b)}.
$$
Немного деликатнее оказывается вопрос вычисления более «глубоких» производных, ведь параметры предыдущих слоев находятся внутри $X$, а $X$ получается в результате применения функции активации предыдущего слоя. Поятно, что если
$$
X = \psi(\widetilde X \widetilde W - \widetilde b),
$$
то
$$
\frac{\partial Z}{\partial \widetilde W} = \widetilde X^T\left(\left(\frac{\partial(\varphi(XW - b))}{\partial(XW - b)} W^T\right) \odot \frac{\partial \psi(X \widetilde W - \widetilde b)}{\partial (X \widetilde W - \widetilde b)}\right),
$$
и так далее. Это правило цепочки реализовано в самом конце метода `fit`.

## Программная реализация и тесты

In [2]:
class FullyConnectedNetwork:
    __REGULARIZATION_GRAD = {None: lambda _w: 0, "l1": lambda _w: np.sign(_w), "l2": lambda _w: 2*_w}
    __REGULARIZATION_FUNC = {None: lambda _w: 0, "l1": lambda _w: np.abs(_w), "l2": lambda _w: _w ** 2}
    __LOSS = 0
    # создание нейронной сети: alpha — скорость обучения (шаг градиентного спуска), reg_type — тип регуляризации (если есть), lambda — параметр регуляризации; слои будут храниться в списке layers
    def __init__(self, alpha=0.01, reg_type=None, lambda_=0, loss='MSE'):
        self.__layers = list()
        self.__alpha = alpha
        self.__reg_type = reg_type
        self.__lambda = lambda_
        self.__loss = loss

    # метод, позволяющий добавить новый слой: указываем правильные размеры слоя, название функции активации, class_number — количество классов в случае использования Sotmax'а на последнем слое, параметр a — параметр LeakyReLU
    def add_layer(self, size: tuple, activation_func: str, class_number=0, a=0):
        if not self.__layers or self.__layers[-1].size[1] == size[0]:
            self.__layers.append(FullyConnectedLayer(size, activation_func, class_number, a))
        else:
            raise Exception("Wrong size of the layer!")

    def change_alpha(self, alpha):
        self.__alpha = alpha

    def get_loss(self):
        return FullyConnectedNetwork.__LOSS

    # метод, выдающий предсказания для заданного набора данных после обучения модели
    def predict(self, data):
        current_output = data
        for layer in self.__layers[:-1]:
            current_output, _ = layer.forward(current_output, None)
        # отдельно обрабатываем последний слой
        layer_weights, layer_biases = self.__layers[-1].get_weights()
        current_output = np.matmul(current_output, layer_weights) - layer_biases
        return current_output

    def score(self, data, answers):
        predictions = self.predict(data)
        if self.__loss == 'MSE':
            return ((predictions - answers) ** 2).mean()
        elif self.__loss == 'MAE':
            return np.abs(predictions - answers).mean()

    def fit(self, data, answers):
        # выход входного слоя совпадает с фичами входных данных
        layer_outputs = [data]
        current_output = layer_outputs[0]
        grads = []
        # forward pass и вычисление градиентов функций активации
        for layer in self.__layers:
            current_output, gradient = layer.forward(current_output, answers)
            layer_outputs.append(current_output)
            grads.append(gradient)
        # для вычисления градиентов по правилу цепочки, удобно развернуть массив
        grads = grads[::-1]
        # для градиента параметров самого первого слоя, умножаем на «производную» независимой переменной
        grads.append(1)
        
        if self.__loss == 'MSE':
            current_gradient = 2 * (layer_outputs[-1] - answers) / len(answers)
            FullyConnectedNetwork.__LOSS = ((layer_outputs[-1] - answers) ** 2).mean()
        elif self.__loss == 'MAE':
            current_gradient = np.sign(layer_outputs[-1] - answers) / len(answers)
            FullyConnectedNetwork.__LOSS = np.abs(layer_outputs[-1] - answers).mean()
        
        for i, layer in enumerate(self.__layers[::-1]):
            layer_weights, layer_biases = layer.get_weights()
            FullyConnectedNetwork.__LOSS += self.__lambda * (np.sum(FullyConnectedNetwork.__REGULARIZATION_FUNC[self.__reg_type](layer_weights) + FullyConnectedNetwork.__REGULARIZATION_FUNC[self.__reg_type](layer_biases)))
            # вычисление градиента параметров W слоя layer
            d_weights = np.matmul(layer_outputs[-2 - i].T, current_gradient)
            # вычисление градиента параметров db слоя layer
            d_bias = -np.matmul(np.ones(layer_outputs[-2 - i].shape[0]), current_gradient) / layer_outputs[-2 - i].shape[0]
            # выполнение шага градиентного спуска
            layer.update_weights(self.__alpha * (d_weights + self.__lambda * FullyConnectedNetwork.__REGULARIZATION_GRAD[self.__reg_type](layer_weights)) , self.__alpha * (d_bias + self.__lambda * FullyConnectedNetwork.__REGULARIZATION_GRAD[self.__reg_type](layer_biases)))
            # правило цепочки
            current_gradient = np.matmul(current_gradient, layer_weights.T) * grads[i + 1]
            
class FullyConnectedLayer:
    # мы предполагаем что реализованы следующие функции активации 
    __ACTIVATION_FUNCTIONS={'ReLU':{'func':lambda a,x : np.maximum(x , 0),'derivative':lambda a,x : np.where(x >= 0 , 1 , 0)},
                            'LReLU':{'func':lambda a,x : np.where(x >= 0 , x , a*x),'derivative':lambda a,x : np.where(x >= 0 , 1 , a)},
                            'None':{'func':lambda a,x : x , 'derivative':lambda a,x : 1},
                            'Sigmoid':{'func':lambda a,x : np.exp(x)/(1+np.exp(x)),'derivative':lambda a,x : np.exp(x)/(1+np.exp(x))**2},
                            }
    # создание нового слоя задание размеров слоя 
    def __init__(self,size : tuple , activation_func : str , class_number=0,a=0):
        self.size=size
        self.__weights=np.random.random((size[0],size[1]))-0.5
        self.__bias=np.random.random((1,size[1]))-0.5
        self.__a=a
        if activation_func in FullyConnectedLayer. __ACTIVATION_FUNCTIONS.keys():
             self. __activation_func=activation_func 
        else:
             raise Exception("No such activation function!")
        
    # метод возвращающий значения весов : веса и смещения 
    def get_weights(self):
         return self. __weights,self. __bias
    
    # метод модифицирующий веса после градиентного шага 
    def update_weights(self, d_weights, d_biases):
#         print(f"d_weights shape: {d_weights.shape}, __weights shape: {self.__weights.shape}")
        self.__weights -= d_weights
        self.__bias -= d_biases

    
    # метод возвращающий градиент 
    def __get_grad(self,data):
        
         return FullyConnectedLayer. __ACTIVATION_FUNCTIONS[self. __activation_func]['derivative'](self. __a,data)

    
    # проход по слою с вычислением градиента функции активации на текущей итерации и текущем наборе данных 
    def forward(self,data,_):
         matrix_pass=np.matmul(data,self.get_weights()[0])-self.get_weights()[1]
         activation=FullyConnectedLayer. __ACTIVATION_FUNCTIONS[self. __activation_func]['func'](self. __a,matrix_pass)
         gradient=self. __get_grad(matrix_pass)
         return activation , gradient

In [3]:
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import numpy as np

# Load the diabetes dataset
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Split the data into training and test sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Scale the input data
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Reshape the y_train and y_test arrays
y_train = y_train.reshape(-1, 1)
y_test = y_test.reshape(-1, 1)


**Testing our model with loss function = mse**

In [4]:
# Create and train the neural network
NN = FullyConnectedNetwork(alpha=0.001, reg_type='l2', lambda_=0.002, loss='MSE')
loss = []
NN.add_layer((10, 121), 'ReLU')
NN.add_layer((121, 1), 'None')
alpha = 0.001

for ep in range(5000):
    NN.fit(X_train,y_train)
    loss.append((ep , NN.get_loss()))
    if (ep+1)%100==0:
         alpha=alpha/3
         NN.change_alpha(alpha)
         print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  2379.403023035973 Test MSE: 4115.0184527865285 Current loss: (99, 2385.857819234478)
Training MSE:  2272.6723066843274 Test MSE: 4154.712319958246 Current loss: (199, 2275.05771605398)
Training MSE:  2251.147841261612 Test MSE: 4168.514981005207 Current loss: (299, 2253.004200698077)
Training MSE:  2244.8439701183133 Test MSE: 4173.18087361424 Current loss: (399, 2246.5727013002443)
Training MSE:  2242.858187548063 Test MSE: 4174.577369645317 Current loss: (499, 2244.5490129277323)
Training MSE:  2242.1874788518326 Test MSE: 4175.053748311188 Current loss: (599, 2243.865307699329)
Training MSE:  2241.9638552179267 Test MSE: 4175.217783188558 Current loss: (699, 2243.6374322552183)
Training MSE:  2241.889485607004 Test MSE: 4175.27243649514 Current loss: (799, 2243.5615655576767)
Training MSE:  2241.864692552184 Test MSE: 4175.290828842827 Current loss: (899, 2243.536292431074)
Training MSE:  2241.8564293063355 Test MSE: 4175.2968823555575 Current loss: (999, 2243.5278672

**As we can the results are not bad, but MSE is still bigger than expected**

### Now let's try MAE as loss function

In [5]:
# Create and train the neural network
NN = FullyConnectedNetwork(alpha=0.001, reg_type='l2', lambda_=0.002, loss='MAE')
loss = []
NN.add_layer((10, 121), 'ReLU')
NN.add_layer((121, 1), 'None')
alpha = 0.001

for ep in range(5000):
    NN.fit(X_train,y_train)
    loss.append((ep , NN.get_loss()))
    if (ep+1)%100==0:
         alpha=alpha/3
         NN.change_alpha(alpha)
         print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  149.59781128082656 Test MSE: 152.63945920923723 Current loss: (99, 150.04599370037653)
Training MSE:  148.73116389684404 Test MSE: 151.8548474951322 Current loss: (199, 149.16268391572197)
Training MSE:  148.4412361529903 Test MSE: 151.5926177313558 Current loss: (299, 148.86721384802527)
Training MSE:  148.34446526570594 Test MSE: 151.50511611894035 Current loss: (399, 148.76859607097748)
Training MSE:  148.31219326944966 Test MSE: 151.47593796094964 Current loss: (499, 148.73570840939422)
Training MSE:  148.3014345138757 Test MSE: 151.4662105381317 Current loss: (599, 148.72474444046637)
Training MSE:  148.29784808036322 Test MSE: 151.46296793537797 Current loss: (699, 148.72108960257776)
Training MSE:  148.2966525823085 Test MSE: 151.46188705349192 Current loss: (799, 148.71987130307068)
Training MSE:  148.29625408070933 Test MSE: 151.46152675793994 Current loss: (899, 148.71946520098797)
Training MSE:  148.29612124659315 Test MSE: 151.46140665924588 Current loss: (99

**The model is working pretty good with MAE as loss function**

### Let's try more layers with loss function = MSE

In [6]:
# Create and train the neural network
NN = FullyConnectedNetwork(alpha=0.0001, reg_type='l2', lambda_=0.002, loss='MSE')
loss = []
NN.add_layer((10, 121), 'ReLU')
NN.add_layer((121, 242), 'ReLU')
NN.add_layer((242, 1), 'None')
alpha = 0.0001

for ep in range(5000):
    NN.fit(X_train,y_train)
    loss.append((ep , NN.get_loss()))
    if (ep+1)%100==0:
         alpha=alpha/3
         NN.change_alpha(alpha)
         print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  2454.613849524079 Test MSE: 3886.3479911144764 Current loss: (99, 2469.718888480301)
Training MSE:  2330.233135208905 Test MSE: 3993.5628776567423 Current loss: (199, 2341.584806899577)
Training MSE:  2298.2253772380855 Test MSE: 4028.010377560326 Current loss: (299, 2308.8769933603367)
Training MSE:  2287.951042762909 Test MSE: 4040.0074977252248 Current loss: (399, 2298.386899859456)
Training MSE:  2284.647350952331 Test MSE: 4043.714249341708 Current loss: (499, 2295.0165716515835)
Training MSE:  2283.5458783253075 Test MSE: 4044.930821929991 Current loss: (599, 2293.8934652525063)
Training MSE:  2283.1795689198066 Test MSE: 4045.333848311961 Current loss: (699, 2293.5197717688056)
Training MSE:  2283.0575727627192 Test MSE: 4045.4683672780025 Current loss: (799, 2293.3953928195756)
Training MSE:  2283.016928550407 Test MSE: 4045.513243974025 Current loss: (899, 2293.353928508789)
Training MSE:  2283.0033728481776 Test MSE: 4045.5282047806572 Current loss: (999, 2293.

**As we can see after adding more layers, our model is getting better. But, in some point MSE is not decreasing, which means it is not good enough.**

## Let's try adding more layer with MAE as loss function

In [7]:
# Create and train the neural network
NN = FullyConnectedNetwork(alpha=0.001, reg_type='l2', lambda_=0.002, loss='MAE')
loss = []
NN.add_layer((10, 121), 'ReLU')
NN.add_layer((121, 242), 'ReLU')
NN.add_layer((242, 1), 'None')
alpha = 0.001

for ep in range(5000):
    NN.fit(X_train,y_train)
    loss.append((ep , NN.get_loss()))
    if (ep+1)%100==0:
         alpha=alpha/3
         NN.change_alpha(alpha)
         print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  96.89311907424351 Test MSE: 104.28146781000703 Current loss: (99, 107.652898365492)
Training MSE:  81.53342291254367 Test MSE: 87.5352553422601 Current loss: (199, 91.9793803571235)
Training MSE:  76.73068869913284 Test MSE: 82.48235463288118 Current loss: (299, 87.08088738399185)
Training MSE:  75.1709104407356 Test MSE: 80.80420219998486 Current loss: (399, 85.4904923200086)
Training MSE:  74.64685748849014 Test MSE: 80.23967151714773 Current loss: (499, 84.95662850181071)
Training MSE:  74.47082874352877 Test MSE: 80.05012785882492 Current loss: (599, 84.77727683741165)
Training MSE:  74.41200236387033 Test MSE: 79.98679173193892 Current loss: (699, 84.71733694329428)
Training MSE:  74.39237543239598 Test MSE: 79.96566267964101 Current loss: (799, 84.69733820078832)
Training MSE:  74.38583125100466 Test MSE: 79.95861730680069 Current loss: (899, 84.69066999630009)
Training MSE:  74.38364963487723 Test MSE: 79.95626863692468 Current loss: (999, 84.68844703033456)
Train

**The results are good with MAE**

In [15]:
NN = FullyConnectedNetwork(alpha=0.01, reg_type='l2', lambda_=0.2, loss='MSE')
NN.add_layer((10, 1), 'ReLU')

In [16]:
%%time
loss = []
for ep in range(1000):
    NN.fit(X_train,y_train)
    loss.append((ep , NN.get_loss()))
    if (ep+1)%100==0:
         print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  27011.978472190807 Test MSE: 25198.75656365621 Current loss: (99, 16959.448466006765)
Training MSE:  26951.632710128088 Test MSE: 24709.221410212307 Current loss: (199, 16688.69964692361)
Training MSE:  26866.863805707675 Test MSE: 24545.234010853586 Current loss: (299, 16640.105084214763)
Training MSE:  26805.97008359929 Test MSE: 24474.673428771042 Current loss: (399, 16617.27832387571)
Training MSE:  26764.043228636903 Test MSE: 24436.27522974749 Current loss: (499, 16604.69314295072)
Training MSE:  26735.510226061284 Test MSE: 24412.44288023407 Current loss: (599, 16597.132607510786)
Training MSE:  26716.184681937742 Test MSE: 24396.786706734918 Current loss: (699, 16592.43279051951)
Training MSE:  26703.130716413914 Test MSE: 24386.27922951806 Current loss: (799, 16589.45574554663)
Training MSE:  26694.32815072851 Test MSE: 24379.174744633518 Current loss: (899, 16587.547127375652)
Training MSE:  26688.399133298113 Test MSE: 24374.360619001032 Current loss: (999, 16

In [17]:
NN = FullyConnectedNetwork(alpha=0.01, reg_type='l2', lambda_=0.2)
NN.add_layer((10, 1), 'ReLU')

In [22]:
%%time
loss = []
batch_size = int(len(X_train) / 100)
for ep in range(1000):
    for _ in range(0, 100):
        X_batch = X_train[_ * batch_size : (_ + 1) * batch_size]
        y_batch = y_train[_ * batch_size : (_ + 1) * batch_size]
        NN.fit(X_batch, y_batch)
        loss.append((ep, NN.get_loss()))
    if (ep + 1) % 100 == 0:
        print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  5938.675180462673 Test MSE: 5881.888649490655 Current loss: (99, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (199, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (299, 23019.65034592146)
Training MSE:  5938.675180462673 Test MSE: 5881.888649490655 Current loss: (399, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (499, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (599, 23019.65034592146)
Training MSE:  5938.675180462673 Test MSE: 5881.888649490655 Current loss: (699, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (799, 23019.65034592146)
Training MSE:  5938.675180462672 Test MSE: 5881.888649490655 Current loss: (899, 23019.65034592146)
Training MSE:  5938.675180462673 Test MSE: 5881.888649490655 Current loss: (999, 23019.65034592146)
C

In [27]:
NN = FullyConnectedNetwork(alpha=0.0001, reg_type='l2', lambda_=0.2)
NN.add_layer((10, 64), 'ReLU')
NN.add_layer((64, 121), 'ReLU')
NN.add_layer((121, 1), 'None')

In [28]:
%%time
loss = []
for ep in range(1000):
    NN.fit(X_train, y_train)
    loss.append((ep, NN.get_loss()))
    if (ep + 1) % 100 == 0:
        print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])

Training MSE:  2575.903663757834 Test MSE: 4030.7917114064467 Current loss: (99, 2903.5960631115518)
Training MSE:  2226.326740740151 Test MSE: 4196.602967399412 Current loss: (199, 2548.049276120995)
Training MSE:  2082.712203844051 Test MSE: 4311.249996678754 Current loss: (299, 2402.7135582837127)
Training MSE:  1963.8918694895606 Test MSE: 4494.668021710446 Current loss: (399, 2283.3588109423854)
Training MSE:  1858.5700310029963 Test MSE: 4693.431115322299 Current loss: (499, 2177.843810275431)
Training MSE:  1765.009827421931 Test MSE: 4866.764893630025 Current loss: (599, 2084.419479985919)
Training MSE:  1675.2281367617934 Test MSE: 5036.102447716469 Current loss: (699, 1995.0337518784775)
Training MSE:  1592.1804299462751 Test MSE: 5180.582423506888 Current loss: (799, 1912.41440150528)
Training MSE:  1511.1711790824995 Test MSE: 5312.727075615885 Current loss: (899, 1832.1298708273011)
Training MSE:  1436.2920859894748 Test MSE: 5432.9444388805205 Current loss: (999, 1757.803

In [30]:
alpha = 0.01
NN = FullyConnectedNetwork(alpha=alpha, reg_type='l2', lambda_=0.02, loss='MAE')
NN.add_layer((10, 121), 'ReLU')
NN.add_layer((121, 1), 'None')


In [31]:
%%time
loss = []
batch_size = int(len(X_train) / 100)
alpha = 0.01
for ep in range(1000):
    for _ in range(0, 100):
        X_batch = X_train[_ * batch_size : (_ + 1) * batch_size]
        y_batch = y_train[_ * batch_size : (_ + 1) * batch_size]
        NN.fit(X_batch, y_batch)
        loss.append((ep, NN.get_loss()))
    if (ep + 1) % 10 == 0:
        print('Training MSE: ', NN.score(X_train,y_train), 'Test MSE:', NN.score(X_test,y_test), 'Current loss:', loss[-1])
    if (ep + 1) % 100 == 0:
        alpha = alpha / 5
        NN.change_alpha(alpha)

Training MSE:  41.01460196351846 Test MSE: 52.69224867453433 Current loss: (9, 61.44171788382245)
Training MSE:  38.75507722665328 Test MSE: 51.37010416336248 Current loss: (19, 63.72583966780593)
Training MSE:  37.533718402351546 Test MSE: 51.339834493773935 Current loss: (29, 58.38319766121691)
Training MSE:  37.354875020545045 Test MSE: 51.316298998222074 Current loss: (39, 57.801773307805064)
Training MSE:  37.14413450785706 Test MSE: 51.14899629104934 Current loss: (49, 55.89867478383594)
Training MSE:  36.8067225333201 Test MSE: 50.86799914335148 Current loss: (59, 57.254875510376216)
Training MSE:  36.95178761789738 Test MSE: 50.94303821188315 Current loss: (69, 55.716665802484385)
Training MSE:  36.41945213324147 Test MSE: 51.002608157449586 Current loss: (79, 56.53924781070435)
Training MSE:  36.632473434292386 Test MSE: 51.35815103464751 Current loss: (89, 56.5161626437477)
Training MSE:  36.4906271062397 Test MSE: 51.039255189928234 Current loss: (99, 55.840284531185866)
Tra

Training MSE:  34.96839653493826 Test MSE: 51.15510169912867 Current loss: (849, 51.63104890001145)
Training MSE:  34.96839591418831 Test MSE: 51.15510274618357 Current loss: (859, 51.6310399057693)
Training MSE:  34.968396281864216 Test MSE: 51.15510057863594 Current loss: (869, 51.631047121045505)
Training MSE:  34.96839500962412 Test MSE: 51.15510225081531 Current loss: (879, 51.63104147544359)
Training MSE:  34.968394981899905 Test MSE: 51.155102370968095 Current loss: (889, 51.6310463042057)
Training MSE:  34.96839485423723 Test MSE: 51.15510255158005 Current loss: (899, 51.631044760061485)
Training MSE:  34.96839401167373 Test MSE: 51.15510340305966 Current loss: (909, 51.63102881778509)
Training MSE:  34.9683935510444 Test MSE: 51.15510490936404 Current loss: (919, 51.63102228477488)
Training MSE:  34.968393421895414 Test MSE: 51.155105339720976 Current loss: (929, 51.6310225685682)
Training MSE:  34.9683933598427 Test MSE: 51.15510554145513 Current loss: (939, 51.6310219231037)

In [33]:
NN.score(X_train, y_train)

34.968393076708104

# In Conclusion
* AS we can see the best loss function is MAE for this model and dataset.
* AS we add more layers and ep our model gets better.