## TOC:
* [1.Multi-layer perceptron](#session1)
* [2.Training the network](#session2)
* [3.Example code](#session3)

# 1. Mult-Layer Perceptron
---
<a id='#session1'></a>
- biological neural network를 모방한 computing system이다.
- 하나의 layer가 다중 neuron으로 구성된 형태는 MLP(multi-layer perceptron)이라고 하며, layer가 두개 이상 쌓인 형태는 Deep Neural Network라고 한다.
- 간단히 생각하면 아래 그림과 같이 linear classifier를 여러번 이어놓은 형태를 의미한다. <br/>hidden node에서 input의 feature들을 우리가 지정한 hidden layer의 개수만큼으로 표현해주고 이러한 linear function을 여러번 만들어서 최종 output을 추출해내는 형태이다. <br/>
    이때 neural network가 어떤 식으로 feature들을 가공하는지 알 수 없기 때문에 blackbox algorithm이라고 하며, 기계가 사람이 알 수 없는 방식으로 필요한 feature들을 뽑아준다는 점에서 deep learning이 기존의 머신러닝 알고리즘들과 가장 큰 차이점을 보인다고 할 수 있다.<br/> 
![ann](picture/neural_network.png)
<br/><br/>
- 그림에서 보이는 각각의 선들이 weight를 의미한다고 할 수 있다.<br/> Training과정에서 input을 넣어서 output을 계산하고 score를 계산하는 과정을 **forward propagation** 이라고 하며, loss function을 이용해서 weight를 loss를 줄이는 방향으로 update를 하는 과정을 **back propagation**이라고 한다.<br/> 이러한 과정으로 한번의 forward propagation이랑 back propagation 과정을 한번 거치는 것을 1 **epoch**라고 한다.<br/><br/>
- deep learning model은 다양한 hyperparameter에 의해서 영향을 받는다. 이러한 hyperparamter의 종류는 다음과 같다.
    - learning rate : weight를 얼마만큼 이동하면서 update할 것인지
    - number of hidden layer : layer를 얼마나 쌓을 것인지
    - number of hidden node for each layer : 각 hidden layer의 node를 몇개씩 지정해 줄것인지
    - regularization : l2또는 l1 regularization 을 얼마만큼 적용해줄 것인지
    - dropout rate : dropout시키는 비율을 얼마로 할것인지
  

<a id='#session2'></a>
# 2. Training the Network
---
## 2-1. Forward pass

input으로 (N,D)의 X가 주어졌다고 했을 때, hidden layer가 하나인 forward pass의 계산과정은 다음과 같다. <br/>
각 layer마다 linear classifier와 동일하게 wx+b 함수를 계산하고, activation함수를 이용해서 output이 0또는 1나올 수 있게 조정해준다.<br/>
여기서는 activation function으로 ReLU함수를 이용하였다.

In [None]:
import numpy as np

def relu(self,x):
    return np.maximum(x,0)

# parameter W와 b 불러오기
W1, b1 = self.params['W1'], self.params['b1']
W2, b2 = self.params['W2'], self.params['b2']
N, D = X.shape

# Compute the forward pass 
scores = None
u1 = X.dot(W1)+b1
z1 = self.relu(u1)
scores = z1.dot(W2)+b2


### Compute loss
* 계산해서 얻은 output이 실제랑 얼마나 잘 맞는지(해당 모델이 얼마나 잘 학습되었는지 확인하기 위해 loss를 계산한다.
* net의 마지막 output 결과 class개수 만큼의 값이 나오지만 이 값들의 합은 1이 아니므로 이를 합이 1인 평균의 형태로 맞춰주기 위하여 softmax function을 이용하여 진짜 클래스를 얼마의 확률로 맞추는 지에 대한 loss함수를 계산하게 된다.
* 그리고 loss에 regularization term을 더해줌으로써 overfitting을 방지한다.
* loss function으로는 대표적으로 svm loss(hinge loss)와 softmax function을 이용한 cross entropy를 많이 이용한다.
  1) softmax cross entropy<br>
  2) hinge loss(svm loss)

In [None]:
# Compute the loss
# 합이 1인 확률의 형태로 만든다.
# exp를 취하는 이유는 나중에 loss를 계산할때 log를 취해 뺄셈의 형태로 만들기 위해서 이다.

loss = None
        
prob = np.exp(scores)/np.sum(np.exp(scores),axis=1,keepdims=True)
        
loss = np.sum(-np.log(prob[range(N),y]))/N
loss += 0.5 * reg * (np.sum(W1**2)+np.sum(W2**2))

**1) Softmax loss function **

In [None]:
def softmax_loss(W, X, y, reg):
    """
    Softmax loss function, vectorized version.
    Inputs and outputs are the same as softmax_loss_naive.
    """
    # Initialize the loss and gradient to zero.
    loss = 0.0
    dW = np.zeros_like(W)
    num_train = X.shape[0]
    num_classes = W.shape[1]
    
    # 각 class대한 score계산
    score=X.dot(W)
    #값이 너무 커지지 않게 줄여주는 과정인듯
    stable_score=score-np.array(num_classes*[np.max(score,axis=1),]).T
    #전체 class에 대한 합으로 나눔
    prob = np.exp(stable_score)/np.sum(np.exp(stable_score),axis=1,keepdims=True)
    
    #진짜 클래스에 대한 probability값
    loss=np.sum(-np.log(prob[np.arange(0,prob.shape[0]),y]))
    loss=loss/num_train + 0.5 * reg * np.sum(W*W)  
    
    prob[np.arange(0,prob.shape[0]),y] -= 1
    
    # stochastic gradient descent를 위해 loss에 대한 gradient계산
    dW = prob.T.dot(X).T
    
    dW /= num_train
    dW += reg*W

    pass

    return loss, dW

** SVM Loss **

In [None]:
def svm_loss(W, X, y, reg):
    """
    Structured SVM loss function, vectorized implementation.
    Inputs and outputs are the same as svm_loss_naive.
    """
    loss = 0.0
    dW = np.zeros(W.shape) # initialize the gradient as zero

    pass
  
    num_classes = W.shape[1]
    num_train = X.shape[0]
    
    scores = X.dot(W)
    # 진짜 class에 대한 score값
    correct=scores[np.arange(0,scores.shape[0]),y]
    #dW[:,y[i]]+=-2*X[i]  
    correct_score=np.array([correct,]*num_classes).T
    
    #진짜 class의 score와 다른 class들과의 차이(margin) 계산
    margin=scores-correct_score+1
    
    #다른 class들과의 margin이 커지는 방향으로 loss 계산
    loss=np.sum(margin*(margin>0)*(margin!=1))/num_train
    loss += 0.5 * reg * np.sum(W * W)
     
    pass

    sum_or_not=np.array((margin>0)*(margin!=1),dtype=float)
    sum_or_not[np.arange(0,scores.shape[0]),y]=-np.sum(sum_or_not,axis=1)
    
    dW=np.dot(X.T,sum_or_not)
    
    dW/=num_train
    dW+=reg*W
    
    pass

    return loss, dW

---
## 2-2. Back Propagation
back propagation은 gradient descent optimization방법을 이용해서 weight를 update해나가는 과정을 의미한다 <br/>
**Gradient Descent**란 가설함수의 local minimum지점을 찾기 위해서 현재 지점의 gradient(미분값)의 음수값에 비례하게 이동해가면서 minimum을 찾아나가는 optimization algorithm이다.  
![sgd](picture/sgd.png)

따라서 각각의 parameter(W1, b1, W2, b2)에 대해서 weight를 update하기 위해서는 loss function에 대해서 각각의 parameter에 대한 편미분(partial derivative)값을 구해줌으로써 그 값에 비례하게 weight를 update한다.
$$ new_w = w - (learning\,rate)* \frac{\delta\,loss}{\delta \,w} $$

In [None]:
# Backward pass: compute gradients
# 원래 parameter를 계산한 gradient만큼 update
dscore = prob.copy()
dscore[np.arange(0,prob.shape[0]),y] -= 1
dscore = dscore/N
        
grads = {}
grads['W2'] = z1.T.dot(dscore) + reg*W2
grads['b2'] = np.sum(dscore,axis=0) + reg*b2
       
tmp = dscore.dot(W2.T)
tmp[z1<=0]=0
grads['W1'] = X.T.dot(tmp) +reg*W1
grads['b1'] = np.sum(tmp,axis=0) + reg*b1


이러한 과정을 여러 번(iteration) 반복해주면 weight가 training data를 잘 설명해 줄 수 있는 값으로 최적화되고 training과정이 끝나게 된다.

<a id='#session3'></a>
# 3. Code

## Load data

In [3]:
%matplotlib inline

import matplotlib.pyplot as plt

from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

import pandas as pd
import numpy as np

from tools import rmse_cal,mae_cal,cor_cal,mean_cal,frange,\
                    accuracy,precision,recall,aupr,f1_score,make_binary
from validation import classification_cv,regression_cv,external_val_reg,\
                        external_val_classif, test_preprocessing, \
                        draw_roc,cal_external_auc

In [None]:
enc = OneHotEncoder()

dataset=pd.read_table('../data/breast_cancer_svc.tsv',sep='\t')

input_data=dataset.iloc[:,1:].transpose()
X_data=input_data.iloc[:,:-1].values
y_data=input_data.iloc[:,-1]
y_data=make_binary('normal','cancer',y_data)


X_train, X_test, y_train, y_test = train_test_split(
    X_data, y_data, test_size=0.1, random_state=42)

y_train = enc.fit_transform(y_train.values.reshape(-1,1)).toarray()
y_test = enc.fit_transform(y_test.values.reshape(-1,1)).toarray()

## 3-1. Tensorflow

In [8]:
import tensorflow as tf

In [18]:
# variable 정의
X_dim = X_train.shape[1]
input_n = X_train.shape[0]
hidden_1 = 200
hidden_2 = 100
output_size = 2
lr = 1e-04
max_epoch = 50
dropout_prob = 0.5

In [19]:
# create fully connected layer
def dense(input_layer,layer_size):
    
    init = tf.contrib.layers.xavier_initializer()
    regularizer = tf.contrib.layers.l2_regularizer(scale=0.1)
    
    # Batchnorm settings
    #training_phase = tf.placeholder(tf.bool, phase, name='training_phase')
    
    HiddenLayer = tf.layers.dense(inputs = input_layer, units = layer_size, 
                              activation=None, # Batchnorm comes before nonlinear activation
                              use_bias=False, # Note that no bias unit is used in batchnorm
                              kernel_initializer=init, kernel_regularizer = regularizer)
    
    HiddenLayer = tf.layers.batch_normalization(HiddenLayer)
    HiddenLayer = tf.nn.relu(HiddenLayer)
    
    return HiddenLayer


In [20]:
tf.reset_default_graph()


# input 형태 정의
X = tf.placeholder(tf.float32, [None, X_dim])
y = tf.placeholder(tf.float32,[None,2])

with tf.name_scope("DNN"):
    
    keep_proba = tf.placeholder(tf.float32, None, name='keep_proba')

    
    hidden_layer1 = dense(X,hidden_1)
    hidden_layer2 = dense(hidden_layer1, hidden_2)
    hidden_layer2 = tf.nn.dropout(hidden_layer2, keep_prob=dropout_prob)
    output_layer = dense(hidden_layer2, output_size)
     
with tf.name_scope("loss"):
    loss = tf.nn.softmax_cross_entropy_with_logits(logits=output_layer,labels=y)
    cost = tf.reduce_mean(loss, name = 'loss')

with tf.name_scope("train"):
    optimizer = tf.train.AdamOptimizer(learning_rate = lr)
    training = optimizer.minimize(loss,name='training')
    
with tf.name_scope("eval"):
    correct = tf.equal(tf.argmax(y,1), tf.argmax(output_layer,1))
    accuracy = tf.reduce_mean(tf.cast(correct, tf.float32),name='eval')
    
    
init = tf.global_variables_initializer()


In [21]:
epoch_count = 0
best_accu_valid = 0
with tf.Session() as sess:
    init.run()
    while epoch_count < max_epoch :
        
        sess.run(training,feed_dict={X:X_train,y:y_train})
        accu_train = accuracy.eval(feed_dict={X:X_train,y:y_train})
        accu_valid = accuracy.eval(feed_dict={X:X_test,y:y_test})
        
        if accu_valid > best_accu_valid:
            best_accu_valid = accu_valid
            
        epoch_count+=1
        
        print('Epoch : ',epoch_count, '| Training Accuracy:',accu_train,'  Validation Accuracy:',accu_valid)

        

('Epoch : ', 1, '| Training Accuracy:', 0.81946403, '  Validation Accuracy:', 0.82278484)
('Epoch : ', 2, '| Training Accuracy:', 0.83215803, '  Validation Accuracy:', 0.8101266)
('Epoch : ', 3, '| Training Accuracy:', 0.83921021, '  Validation Accuracy:', 0.8101266)
('Epoch : ', 4, '| Training Accuracy:', 0.83921027, '  Validation Accuracy:', 0.8607595)
('Epoch : ', 5, '| Training Accuracy:', 0.84767276, '  Validation Accuracy:', 0.89873421)
('Epoch : ', 6, '| Training Accuracy:', 0.85754585, '  Validation Accuracy:', 0.88607597)
('Epoch : ', 7, '| Training Accuracy:', 0.85895628, '  Validation Accuracy:', 0.88607597)
('Epoch : ', 8, '| Training Accuracy:', 0.86036676, '  Validation Accuracy:', 0.89873415)
('Epoch : ', 9, '| Training Accuracy:', 0.85895634, '  Validation Accuracy:', 0.87341774)
('Epoch : ', 10, '| Training Accuracy:', 0.87023979, '  Validation Accuracy:', 0.88607597)
('Epoch : ', 11, '| Training Accuracy:', 0.86600846, '  Validation Accuracy:', 0.89873421)
('Epoch : '

## 3-2. Keras

In [22]:
import numpy as np
import pandas as pd
import os

from keras.models import Sequential
from keras.layers import Activation, Dropout, Dense
from keras import optimizers
from keras import applications
from keras.models import Model
from keras.regularizers import l2

Using TensorFlow backend.


In [23]:
hidden_1 = 128
hidden_2 = 64
dropout_rate = 0.5
batch_size = 25

epochs = 20
train_samples = X_train.shape[0]
validation_samples = X_test.shape[0]
x_dim = X_train.shape[1]

In [24]:
X_train.shape

(709, 294)

In [25]:
model = Sequential()

model.add(Dense(hidden_1,activation = 'relu',input_dim = x_dim))
model.add(Dense(hidden_2, activation = 'relu'))
model.add(Dropout(dropout_rate))
model.add(Dense(2, activation = 'sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='adam',
              metrics=['accuracy'])

In [26]:
model.fit(X_train, y_train, batch_size=batch_size, epochs=epochs, verbose=1, validation_data=(X_test,y_test), shuffle=True)

Train on 709 samples, validate on 79 samples
Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


<keras.callbacks.History at 0x7efde42f8650>

In [28]:
# should install h5py

model.save_weights('models/dnn_weight1.h5')

# 4. Batch Normalization
--- 

### Gradient vanishing
- neural network의 layer가 깊어질수록 gradient값이 0으로 수렴하는 문제점을 의미한다. 
- gradient descent방법을 이용한 parameter update는 parameter value의 작은 변화(미분값)이 network output에 얼마나 영향을 미칠지를 반영하여 parameter를 update한다.
- 이 변화량은 network가 깊어질수록 미분값이 0으로 수렴해버린다는 문제점이 있다. 
- 이러한 문제점이 발생하는 원인은 sigmoid나 tanh같은 기존의 activation function을 선택하면 매우 nonlinear한 방식으로 input을 (0,1) 또는 (-1,1)사이로 넣어버린다(squash)
- 이러한 문제점을 해결하는 대표적인 방법은 activation function으로 ReLU를 사용하는 것이다.
- batch normalization도 이러한 방법을 해결하는 대표적인 방법 중 하나이다.<br/>
[출처](http://ydseo.tistory.com/41)

### Batch normalization
- batch normalizatio은 gradient vanising현상이 일어하는 원인 중 하나가 'Interval Convariance Shift'라고 주장한다.
- **Internal Covariant Shift**는 network의 각 층마다 input distribution이 달라지는 현상을 의미한다.
- 이러한 현상을 막기 위해서는 간단하게 각 층의 input의 distribution을 표준정규분포로 normalize시키는 방법을 생각할 수 있다.
<br/>
- pseudo code<br/><br/>
![bn](picture/bn.png)
<br/><br/>
- 알고리즘을 보면 각 input값을 mini batch의 평균과 표준편차를 가지고 normalize해주고, 이를 beta(shift factor)와 gamma(scale factor)값을 이용해 변형시켜준 결과이다.
- test set에는 training set에서 계산해 놓은 이동평균으로 normalize한 뒤 마찬가지로 beta와 gamma로 변형시켜준다. 
### Backpropagation
<br/>
- Computational graph of batch normalization layer
<br/><br/>
![bn](picture/BNcircuit.png)
<br/><br/>
- update할 파라미터는 beta, gamma, mu, 
[출처](https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html)


In [None]:
def batchnorm_forward(x, gamma, beta, bn_param):
    """
    Forward pass for batch normalization.

    During training the sample mean and (uncorrected) sample variance are
    computed from minibatch statistics and used to normalize the incoming data.
    During training we also keep an exponentially decaying running mean of the
    mean and variance of each feature, and these averages are used to normalize
    data at test-time.

    At each timestep we update the running averages for mean and variance using
    an exponential decay based on the momentum parameter:

    running_mean = momentum * running_mean + (1 - momentum) * sample_mean
    running_var = momentum * running_var + (1 - momentum) * sample_var

    Note that the batch normalization paper suggests a different test-time
    behavior: they compute sample mean and variance for each feature using a
    large number of training images rather than using a running average. For
    this implementation we have chosen to use running averages instead since
    they do not require an additional estimation step; the torch7
    implementation of batch normalization also uses running averages.

    Input:
    - x: Data of shape (N, D)
    - gamma: Scale parameter of shape (D,)
    - beta: Shift paremeter of shape (D,)
    - bn_param: Dictionary with the following keys:
      - mode: 'train' or 'test'; required
      - eps: Constant for numeric stability
      - momentum: Constant for running mean / variance.
      - running_mean: Array of shape (D,) giving running mean of features
      - running_var Array of shape (D,) giving running variance of features

    Returns a tuple of:
    - out: of shape (N, D)
    - cache: A tuple of values needed in the backward pass
    """
    mode = bn_param['mode']
    eps = bn_param.get('eps', 1e-5)
    momentum = bn_param.get('momentum', 0.9)

    N, D = x.shape
    running_mean = bn_param.get('running_mean', np.zeros(D, dtype=x.dtype))
    running_var = bn_param.get('running_var', np.zeros(D, dtype=x.dtype))

    out, cache = None, None
    
    if mode == 'train':
        sample_mean = np.mean(x)
        sample_var = np.std(x)**2
        norm_x = (x-sample_mean)/np.sqrt(sample_var + eps)
        out = gamma*norm_x+beta
        
        running_mean = momentum * running_mean + (1 - momentum) * sample_mean
        running_var = momentum * running_var + (1 - momentum) * sample_var
        
        cache = (x, sample_mean, sample_var, norm_x, beta, gamma, eps)

    elif mode == 'test':
        norm_x = (x-running_mean)/np.sqrt(running_var + eps)
        scaled_x = gamma*norm_x+beta
        out=scaled_x

    else:
        raise ValueError('Invalid forward batchnorm mode "%s"' % mode)
    
    # Store the updated running means back into bn_param
    bn_param['running_mean'] = running_mean
    bn_param['running_var'] = running_var

    return out, cache


def batchnorm_backward(dout, cache):
    """
    Backward pass for batch normalization.

    For this implementation, you should write out a computation graph for
    batch normalization on paper and propagate gradients backward through
    intermediate nodes.

    Inputs:
    - dout: Upstream derivatives, of shape (N, D)
    - cache: Variable of intermediates from batchnorm_forward.

    Returns a tuple of:
    - dx: Gradient with respect to inputs x, of shape (N, D)
    - dgamma: Gradient with respect to scale parameter gamma, of shape (D,)
    - dbeta: Gradient with respect to shift parameter beta, of shape (D,)
    """
    dx, dgamma, dbeta = None, None, None
    
    (x, sample_mean, sample_var, norm_x, beta, gamma, eps) = cache
    
    N = x.shape[0]
    dbeta = np.sum(dout, axis = 0)
    dgamma = np.sum(norm_x*dout, axis=0)
    dnorm_x = gamma*dout
    dsample_mean = np.sum(-1/np.sqrt(sample_var+eps)* dnorm_x, axis = 0) + 1.0/N*sample_var *np.sum(-2*(x-sample_mean), axis = 0) 
    dx = 1/np.sqrt(sample_var+eps)*dnorm_x + sample_var*2.0/N*(x-sample_mean) + 1.0/N*dsample_mean


    return dx, dgamma, dbeta

## 구현 이슈
tensorflow에서 batch normalization과 같은 moving average기법을 이용하는 네트워크에서는 control_dependencies를 걸어주므로써 같이 update가 되게 해줘야 한다.
http://openresearch.ai/t/topic/80

In [None]:
update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)
if update_ops: 
     updates = tf.group(*update_ops)
total_loss = control_flow_ops.with_dependencies([updates], total_loss)

# 5. Dropout
---

- hidden layer의 개수가 많아질 경우 overfitting을 방지하기 위한 하나의 방법이다.
- hidden layer중 dropout probability 만큼 랜덤하게 뉴런을 꺼서 학습을 하지 않게 만든다.
- 일반적으로는 fc layer뒤에 넣지만 간혹 max pooling layer뒤에 넣는 경우도 있다.<br/>
![dropout](picture/dropout.jpeg)
<br/>
출처 : https://leonardoaraujosantos.gitbooks.io/artificial-inteligence/content/dropout_layer.html<br/>
[참고하면 좋을 논문](https://www.cs.toronto.edu/~hinton/absps/JMLRdropout.pdf)<br/><br/>
- 유의해야 할 사항은 predict 함수에서는 뉴런을 끄는 과정을 거치지 않고 p(dropout probability)값을 이용해서 layer의 값의 scale을 조절한다. 이 과정은 test하는 시간이 최소한 training time에서의 output을 구하는 시간과 동일해야하기 때문에 중요하다.<br/><br/>
예를 들어, p = 0.5인 경우에는 뉴런은 test할 시에 출력을 반으로 줄여서 training에 걸리는 시간과 동일한 출력을 내놓아야 한다.<br/>
만약 dropout을 적용하지 않았을 때 한 뉴런의 출력값이 x라고 한다면 dropout을 적용한 이후에 해당뉴런의 출력에 대한 기대값은 px+(1-p)0 이 된다. 왜냐하면 1-p의 확률로 뉴런의 output값은 0이 되기 때문이다.<br/>
test할 시에 neuron은 항상 활성화상태로 유지해야하고 또 동일한 예상출력을 유지하기 위해서는 x를 px로 조정해야 한다.
![dropouttest](picture/dropout_test.PNG)

In [None]:
def dropout_forward(x, dropout_param):
    """
    Performs the forward pass for (inverted) dropout.

    Inputs:
    - x: Input data, of any shape
    - dropout_param: A dictionary with the following keys:
      - p: Dropout parameter. We drop each neuron output with probability p.
      - mode: 'test' or 'train'. If the mode is train, then perform dropout;
        if the mode is test, then just return the input.
      - seed: Seed for the random number generator. Passing seed makes this
        function deterministic, which is needed for gradient checking but not
        in real networks.

    Outputs:
    - out: Array of the same shape as x.
    - cache: tuple (dropout_param, mask). In training mode, mask is the dropout
      mask that was used to multiply the input; in test mode, mask is None.
    """
    p, mode = dropout_param['p'], dropout_param['mode']
    if 'seed' in dropout_param:
        np.random.seed(dropout_param['seed'])

    mask = None
    out = None

    if mode == 'train':
        
        mask = (np.random.rand(*x.shape) < p) / p
        out = x*mask

        pass

    elif mode == 'test':
        out = x

        pass
     

    cache = (dropout_param, mask)
    out = out.astype(x.dtype, copy=False)

    return out, cache


def dropout_backward(dout, cache):
    """
    Perform the backward pass for (inverted) dropout.

    Inputs:
    - dout: Upstream derivatives, of any shape
    - cache: (dropout_param, mask) from dropout_forward.
    """
    dropout_param, mask = cache
    mode = dropout_param['mode']

    dx = None
    if mode == 'train':
        
        dx = dout * mask

        pass

    elif mode == 'test':
        dx = dout
    return dx
