# Image Classification：KNN和softmax

# I. KNN

## I.1 思路
取距离（distance）最近的训练集样本类型作为被分类目标的类型

## I.2 算法

## I.3 优缺点
**优点**：
1. 实现简单
2. KNN也是universal approximation。因为在有巨大样本数据之后，这些样本构成的图形（比如曲线）就是函数本身的样子。当然，条件是数据量足够。但现实做做不到，因为有“维度的诅咒”。如果因变量有D维，每个维度上有K种取值，就有$K^D$种取值可能。拿到这么多数据不可能。

**缺点**：
1. 时间复杂度高，因为每次做推理都要计算distance。也因此，计算都集中在inference环节，和实践中的需求相反。
2. 空间复杂度高，training环节要记住所有training set。
3. 当k=1时，很大的问题是不robust。因为只要改变training set中的样本，分类结果就可能发生很大差异。
4. **"distance"带来的问题：**\
(1) 如果选择L1、L2 norm作为distance的度量工具，在图片分类任务中，这个意义上定义的distance，和人类直觉得到的similarity差异很大。两个例子：\
i. 一张人像用3种不同方式（左移、调黑、挖空部分画面）做处理得到的三张图与原图的distance相同的条件下，看到实际图像的效果差异很大。这体现了用L1norm计算的distance跟人工评价的distance之间的巨大差异。 
<img src="pics/KNNface.png" alt="alt text" width="560"/>
ii. 用t-SNE(t-SNE用L2 norm)算法把图片投影到二维平面上看，得到的结果显示“距离相近”的图片实际上是那些背景更相似的图片。
<img src="pics/KNNtSNE.png" alt="alt text" width="560"/>
(2) <font color=red>高维条件下会有“维度的诅咒”问题，因为高维的时候，向量之间的距离如果用L2 norm，则距离倾向于相同，这就让距离评估变得没有意义。</font>

## I.4 应用要点
### I.4.1 训练注意事项
1. 数据预处理：训练集数据要normalize
2. 如果数据维度太高，可以先做降维，比如PCA、NCA
3. 如果维度高，KNN的推理速度太慢，考虑用approximate Nearest Neighbor library来加速每张图片的nearest neighbor的提取。
4. 实际使用KNN的时候，超参数不只是不同的k取值，还应该尝试不同的distance定义，通常会同时试L1和L2norm。
5. 整个training data要分成training set和validation set。\
(1) 他们之间的分配要随机。\
(2) 一般70%-90%的样本作为traning set，10%-30%作为validation set.如果超参数数量较大，应该将多一点的样本分给validation set.这样才能尽可能好的比较超参数之间的差异。\
(3) 只要计算资源允许，尽可能做cross validation.

### I.4.2 应用结果
| distance | k | Accuracy |others|
|----------|----------|----------|----------|
| L1 norm | 1 | 38.6% | |
| L2 norm | 1 | 35.4% | L2会让单个维度dist差异分布更均衡的2张图片距离更小|

# II. Linear classifier

**整体算法结构：score function + loss function**
1. score function: 也就是linear classifier，作用是map raw data到class score
2. loss function：把class score跟label统一起来 \
在此基础上就能将整个问题视为优化问题来求解：min loss with respect to the parameters of the score function

## II.1. score function
### II.1.1 定义形式
$$\begin{align}
f(x_i,W, b) & = Wx_i+b \\
通过bias\ trick，变成：\\
f(x_i,W) & = Wx_i
\end{align}$$
<font color=blue>**通过W的大小，model可以构成对每个位置上取值的偏好。**</font><font color=orange>比如：对于船这一类型而言，可以想象，在RGB的B所对应的blue分值中，权重w大部分应该是正值，因为船经常出现在蓝色的海洋背景中。相反，R对应的red分值中，很多权重可能就是负值。通过这种W的正负和大小不同，各个class就有了自己类型的“偏好”。</font>

### II.1.2 两种角度理解线性score function(linear classifier)的实践含义
#### II.1.2.1 线性代数(几何)的角度：<font color=norange>linear classifier</font>
1. **理解线性分类器在做什么**：将每张图片的的raw data(如RGB)展开成一个column vector，可以将其视为高维空间中的一个点。每个class的weights(W中的一个row)对应的score function是高维空间中的一个超平面。
2. **局限性**：如果这些class是线性可分的，那么分类的效果就会很好。但实践中通常是线性不可分的。

#### II.1.2.2 视觉角度：<font color=norange>template/prototype matching</font>
1. **理解线性分类器在做什么**：每个class对的W中的一个row，单独把这些row的data取出来画成图片，就构成了各个class的template。在推理阶段做的，就是用图片与每个template比较看跟谁更像。<font color=green>[这里similarity的衡量方式是做inner product]</font>
2. **局限性**：如果一个class中的intra-class variation很大，用一个template作为matching的对象，很难完成分类。<font color=brown>比如：马有向左、向右、向前三种典型姿势，他们全部反映在一个template上就会降低template本身作为判断标准的准确性。</font>

## II.2 loss funciton
### II.2.1 SVM
####  II.2.1.1 思路
$$
\begin{align}
L_i & =\sum_j max \left [0, \Delta -(s_{y_i}-s_j)\right ] \\
min L & = \frac{1}{N}min \sum _i L_i \\
& = \frac{1}{N}min \sum _i\sum_j max \left [0, \Delta -(s_{y_i}-s_j)\right ]
\end{align}
$$
1. loss function的目标是让正确class的得分比所有其他类型的得分尽可能高一个固定的margin值$\Delta$。
2. $L_i$中取max的作用是让$s_{y_i}$只用比$s_j$高出margin$\Delta$就行，更高的差异对loss的计算没有影响。

####  II.2.1.2 regularization
1. 基础设定中，SVM的loss function有个问题是W取值不唯一。假如W能让Loss(W)=0，那么取任意$W^{'}=\lambda W, \lambda>0$都满足$Loss(W^{'})=0$。
2. 解决方式是加regularization loss。在这个场景下reg对W的取值引入preference。比如常用的L2 norm可以让W中各个元素的取值尽可能平均，这样可以让所有feature对loss的影响尽可能分散，而不至于出现少数features对应的weights太大，使得这些feature取值的小幅变化导致classification的结果出现较大波动。 \
<font color=blue>**加上reg后的loss function**
$$
\begin{align}
min L & = \frac{1}{N}min \sum _i L_i +\lambda \sum \sum W^2\\
& = \frac{1}{N}min \sum _i\sum_j max \left [0, \Delta -(s_{y_i}-s_j)\right ]
+\lambda \sum \sum W^2 \\
& = \frac{1}{N}min \sum _i\sum_j max \left [0, \Delta -(f(x_i,W)_{y_i}-f(x_i,W)_j)\right ]
+\lambda \sum \sum W^2
\end{align}
$$</font>

####  II.2.1.3 应用要点
虽然目标函数中有超参数$\Delta$，但是<font color=blue>**直接设$\Delta=1$就行**</font>。因为loss function中有两个超参数，他们之间的值在解优化问题时有比例关系。\
<font color=orange>比如，给定$\Delta=1$得到上式的最优估计。此时，将$\Delta$调大D倍，再将$\lambda$调小$D^2$倍，会得到W的最优估计也是此前的D倍。这种比例变化不改变inference阶段的分类结果。</font>

### II.2.2 Softmax
<font color=norange>soft differentiable approximation to the hard max function.</font>
####  II.2.2.1 思路
1. Softmax function
$$
将score做softmax处理,得到：\\
\frac{e^{f_{y_i}}}{\sum_je^{f_j}} \\
\because \sum_{i=1}^{K}\frac{e^{f_{i}}}{\sum_je^{f_j}} = 1, K表示分类的类型数量\\
\therefore softmax\ function可以理解为对P(y|x)的估计: \\
Q(y_i|x_i;W)=\frac{e^{f_{y_i}}}{\sum_je^{f_j}}
$$

2. cross entropy loss \
(1) 最小化cross entropy就是最小化KL divergence。真实分布P和估计分布Q之间的Cross entropy可以表示为：
$$
\begin{align}
H(P,Q) 
& = -\sum_x P(x)logQ(x) \\
& = -E_{P(x)}logQ(x)
\end{align}
$$
(2) 最小化CE与MLE等价：
$$
\begin{align}
\underset{w}{argmin}-E_{P(x)}[log{Q_w(x)} ]
&=\underset{Q_w}{argmax}E_{P(x)}[logQ_w(x) ] \\
&=\underset{Q_w}{argmax}\sum_{i=1}^{N}logQ(x_i;w) 
\end{align}
$$
(3)用Softmax function得到的'probability'作为原分布的估计，也就是上式中的Q(x)，则cross entropy可以表示为：
$$
\begin{align}
L_i 
& =-log\frac{e^{f_{y_i}}}{\sum_je^{f_j}} \\
& =-f_{y_i} +log\sum_je^{f_j}
\end{align}$$

3. 完整的loss function \
(1) 完整的loss function同样要加上regularization。
$$
\begin{align}
min\ L & = \frac{1}{N}min \sum _i L_i +\lambda \sum \sum W^2\\
\end{align}
$$
(2) <font color=deeppink>如果用L2 norm，那么此时loss function也可以理解为MAP(maximum a posteriori)。也就是贝叶斯视角下，高斯先验分布条件下的MAP结果。</font>

####  II.2.2.2 应用要点
<font color=blue>计算softmax function经常出现数值不稳定(numeric stability)的问题。
1. overflow: </font>因为$e^{f_{j}}$是指数，计算结果可能会非常大。当他们作为分母加入运算时，可能导致float运算溢出。\
**处理方式：**normalization trick。
$$score = score - \underset{i\in\{1,...,K\}}{max}(score_i)$$
之后再计算softmax function。
这个处理会让score的值小于0，因此不会出现分母过大而溢出的情况。并且这个处理不改变原softmax function的取值大小，因为：
$$\frac{e^{f_{y_i}-C}}{\sum_je^{f_j-C}} = \frac{e^{-C}\times e^{f_{y_i}}}{e^{-C}\times \sum_je^{f_j}}= \frac{e^{f_{y_i}}}{\sum_je^{f_j}}$$

2. underflow: $exp(x_{ij}-max(x_i))$可能很小而发生underflow，此时$log(exp(x_{ij}-max(x_i)))$相当于计算$log0$，得到的计算结果是nan。\
**处理方式：**计算probability不用$log\frac{exp(x_{ij}-max(x_i))}{Σ_jexp(x_{ij}-max(x_i))}$，用$[x_{ij}-max(x_i)]-log(Σ_jexp(x_{ij}-max(x_i)))$，可以避免log0出现