# KNN

In [None]:
import numpy as np

class NearestNeighbor:
    def __init__(self):
        pass
    
    def train(self, X, y):
        self.Xtr = X
        self.ytr = y
    
    def predict(self, X):
        num_test = X.shape[0]
        Ypred = np.zeros(num_test, dtype=self.ytr.dtype)
        
        for i in xrange(num_test):
            distances = np.sum(np.abs(self.Xtr - X[i,:]), axis=1)
            min_index = np.argmin(distances)
            Ypred = self.ytr(min_index)
            
        return Ypred

![distance](./fig/1.png)

### 当向量中的每个元素都有实际意义时，L1可能优于L2

# 超参数设置策略

## dataset划分
![split](./fig/2.png)

## K-fold
![KF](./fig/3.png)
### tips：K-fold仅适用于较小的数据集，考虑到算力开销，通常不用于深度学习

# linear classification

## svm loss and others
![examp](./fig/lossexamp.png)


### 当初始化W取值均较小时，首轮svm loss应约等于C-1（debug策略）
### svm loss思想：正确的比错误的得分要高出一个安全边界


## softmax loss
![softmax](./fig/softmax.png)

### 当初始化W取值均较小时，首轮softmax loss应约等于log（C）（debug策略）


### 正则项：降低模型复杂度（幂次）

# 反向传播

![computationgraph](./fig/computation_graphs.png)

### 反向传播是链式法制的递归调用

![sigmoid gate](./fig/sigate.png)

# 卷积神经网络

## 卷积与池化

### 卷积的一大好处:可以保留空间结构

![卷积尺寸计算](./fig/conv_cal.png)
![常用尺寸](./fig/conv_settings.png)

### 池化：让表示尺寸更小，易于处理

## 激活函数

### 激活函数的选择
![激活函数的选择](./fig/act_chose.png)

### 数据预处理
![数据预处理](./fig/datapro.png)

### 权重初始化
![权重初始化1](./fig/weight_pro1.png)

### xavier初始化
![XAVIER](./fig/XAVIER.png)

### 批量归一化
#### 作用：把输入限制在非线性函数的线性区域内
![批量归一化](./fig/batchnor.png)
![批量归一化位置](./fig/batchpos.png)

## 常见问题分析
### loss基本不下降：学习率太低
### cost为NAN：学习率太高

### 学习率通常设置在1e-3到1e-5之间
![参数选择区间](./fig/paramchose.png)
![问题分析](./fig/problem.png)
![问题分析1](./fig/problem1.png)
![问题分析2](./fig/problem2.png)
![问题分析3](./fig/problem3.png)
![总结1](./fig/summary1.png)

# 优化
![动量SGD](./fig/SGD+MOM.png)
![Nest](./fig/nest.png)
![ADA](./fig/ADA+RMS.png)
![ADAM](./fig/ADAM.png)
### 尽管adam性能通常更好，但存在第一次更新时第二梯度接近于零，并作为分母，导致变化过大的问题，故有改进：
![ADAM改](./fig/adam_ex.png)
![学习率衰减](./fig/rate_dec.png)

### 对于衰减学习率，动量SGD经常用，adam很少用
### 实践策略：先不衰减，用一个不错的初始学习率进行实验，然后根据loss曲线决定从哪开始衰减

![总结2](./fig/summary2.png)
![集成](./fig/ensemble.png)
![小技巧](./fig/polyak.png)

# 正则化
![正则化](./fig/reg.png)

# dropout
### 在卷积层的dropout往往是将某个通道整个置零
![dropout的测试阶段](./fig/dropout_test.png)

# 数据增强
![数据增强](./fig/data_aug.png)

![总结3](./fig/summary3.png)

# 核心：引入随机性
# 一般来说batch normalization比较好，还能帮助网络收敛

# 迁移学习
![迁移学习](./fig/transfer.png)
![迁移学习1](./fig/transfer1.png)
![预训练模型](./fig/model_zoo.png)

# RNN

![RNN结构](./fig/RNN.png)
![RNN](./fig/vanilla_RNN.png)
![RNN计算图](./fig/RNN_CG.png)
![seq2seq](./fig/seq2seq.png)
![RNN反向传播](./fig/truncated_bp.png)
![multrcnn](./fig/mult_rcnns.png)
### tips：一般来说两到三层足矣
![rcc梯度流](./fig/rnn_gradflow.png)
![rcc梯度流1](./fig/rnn_gradflow1.png)
![LSTM](./fig/LSTM.png)
![LSTM1](./fig/LSTM1.png)
![LSTM梯度流](./fig/LSTM_gradflow.png)
![GRU](./fig/GRU.png)

# 识别与分割

## tips:loss的选择
### 连续值：L1, L2, smooth L1
### 间隔值：SVM loss, cross, softmax
![目标检测](./fig/OD.PNG)
![mask rcnn](./fig/mask.PNG)

# 图像目标检测和图像分割

## 上采样方法
### unpooling去池化
![unpooling](./fig/unpooling.PNG)
![max unpooling](./fig/max_unpool.PNG)
![转置卷积](./fig/transpose_conv.PNG)

![图像分割](./fig/seg.PNG)

# 可视化和理解

![可视化](./fig/gradient_ascent.png)
![fool](./fig/fool.png)

# 生成模型

![对比](./fig/sup_vs_unsup.png)
![概览图](./fig/gen.png)
![pixelrnn](./fig/pixel_rnn.png)
![pixelcnn](./fig/pixel_cnn.png)

## 变分自编码器VAEs
![auto1](./fig/auto1.png)
![auto2](./fig/auto2.png)
![auto3](./fig/auto3.png)
![auto4](./fig/auto4.png)
![auto5](./fig/auto5.png)
![VAEs1](./fig/VAEs1.png)
![VAEs2](./fig/VAEs2.png)
![VAEs3](./fig/VAEs3.png)
![VAEs4](./fig/VAEs4.png)
![VAEs5](./fig/VAEs5.png)
![VAEs6](./fig/VAEs6.png)
### z可用作下游任务的特征
![VAEs7](./fig/VAEs7.png)

## GANs
![GAN1](./fig/GAN1.png)
![GAN2](./fig/GAN2.png)
![GAN3](./fig/GAN3.png)
![GAN4](./fig/GAN4.png)
![GAN5](./fig/GAN5.png)
![GAN6](./fig/GAN6.png)
![GAN7](./fig/GAN7.png)

![小结4](./fig/summary4.png)

# 强化学习

![RL1](./fig/RL1.PNG)
![马尔科夫决策](./fig/Markov.PNG)
![马尔科夫决策1](./fig/Markov1.PNG)
![opt_policy](./fig/opt_policy.PNG)
![def](./fig/def.PNG)
![bellman](./fig/bellman.PNG)
![solve](./fig/solve.PNG)

# Q-learning
![Q1](./fig/Q1.PNG)
![q_pass](./fig/q_pass.PNG)
![q_arch](./fig/q_arch.PNG)
![exp_reply](./fig/exp_reply.PNG)
![q_alg](./fig/q_alg.PNG)
![RL2](./fig/RL2.PNG)
![Q3](./fig/Q3.PNG)
![Q4](./fig/Q4.PNG)
![Q5](./fig/Q5.PNG)
![Q6](./fig/Q6.PNG)
![Q7](./fig/Q7.PNG)
![Q8](./fig/Q8.PNG)
![Q9](./fig/Q9.PNG)
![Q10](./fig/Q10.PNG)
![Q11](./fig/Q11.PNG)
![小结5](./fig/summary5.PNG)