### Bias vs. Variance

#### Bias
The inability for a machine learning method (like linear regression) to capture the true relationship is called **bias**.

The **Squiggly Line** is super flexible and hugs the **training set** along the arc of the true relationship. Because the **Squiggly Line** can handle the arc in the true relationship between weight and height, it has very little **bias**.

We can compare how well the **Straight Line** and the **Squiggly Line** fit the training set by calculating their sums of squares.

In Machine Learning Lingo, the difference in fits between data sets (such as training set and test set)is called **variance**.

The **Squiggly Line** has low bias, since it is flexible and can adapt to the curve in the relationship between weight and height. But the **Squiggly Line** has **high variability**, because it results in vastly different Sums of Squares for different datasets.

In other words, it's hard to predict how well the **Squiggly Line** will perform with future data sets. It might do well sometimes, and other times it might do terribly.

In contrast, the **Straight Line** has relatively **high bias**, since it cannot caputre the curve in the relationship between weight and height.But the **Straight Line** has relatively low variance, because the Sums of Squares are very similar for different datasets.

In other words, the **Straight Line** might only give good predictions, and not great predictions. But they will be consistently good predictions. 

In machine learning, the ideal algorithm has **low bias** and can accurately model the true relationship, and it has **low variability**, by producing consistent predictions across different datasets. 

**High Bias signifies underfitting**.
**High Variance signifies overfitting**.

This is done by finding the sweet spot between a simple model and a complex model.
![image.png](attachment:image.png)

Three commonly used methods for finding the sweet spot between simple and complicated models are: **regularization, boosting and bagging**.

Random Forest shows an example of **bagging** in action.

The other methods for bias and variance tradeoff include:
- Dimensionality reduction
- Regularization in linear models / ANN
- Using mixture model and ensemble learning
- Optimal K in KNN model.


![image.png](attachment:image.png)

### Ensemble Learning
**Ensemble Learning** is basically a learning technique in which multiple individual models combine together to create a master model. This process is called an Ensemble.

**Bagging and Boosting** are techniques or ways to implement Ensemble models.

**Random Forest** is an implementation of Bagging technique. 

### Random Forest vs. AdaBoost

| Random Forest | Adaboost |
|---|---|
|Bagging Technique | Boosting technique|
|Parallel learning| Sequential learning|
|each model is independent with e/o | ML1<- ML2<-ML3<-...|
|all weaker learners have equal say or vote in final algorithm|all the ml do not have same vote|
|each model is a fully grown tree| trees are just one root and two leafs, called stump|


### AdaBoost vs. Gradient Boost

| Adaboost | Gradient Boost |
| ----| ----|
| weights of records get updated | learning happens by optimizing the loss function|
| stump, only one root, 2 leafs | bigger in size, leaf nodes 8-32

### Decision Tree
https://www.youtube.com/watch?v=lYwf1-causo&t=4s

#### Gini Index and Entropy


### Random Forest 
https://www.youtube.com/watch?v=lZ8dUozUli4

Random Forest reduce the high variance, and minimizes the variance of the model. 

M x N dataset is split (bootstrap or bagging) into three sub-dataset, B1, B2 or B3. 

m1 rows, randomly selected from M goes into B1. And n1 columns, randomly selected from N goes into B1 too.

m2 x n2 in B2, m3 x n3 in B3. 

2/3 of M comes to B1, B2 and B3. 

DT1 created on B1, DT2 created on B2, DT3 created on B3. 

Then the test data will be run on DT1, DT2 and DT3 and majority vote on the result. 
But for regression test, we can get the mean or median value from DT1,DT2 and DT3.

The disadvantages of Random Forest Model:
- unexplainable
- Use more memory space

### The Medical Test Paradox: Bayes Rule
https://www.youtube.com/watch?v=lG4VkPoG3ko

### 正则化 Regularization

**正则化**就是对某一问题加以先验的限制或约束以达到某种特定目的的一种手段或操作。
**在算法中使用正则化的目的**是防止模型出现**过拟合**。

#### LP 范数

**范数**简单可以理解为用来表征向量空间中的距离，而距离的定义很抽象，只要满足非负、自反、三角不等式就可以称之为距离。

LP范数不是一个范数，而是一组范数，其定义如下：

$ \parallel x\parallel_{p} = \left(\sum_{i=1}^n(x_i^p)\right)^\frac{1}{p} $

$ \mathbf p$的范围是 $ [1, \infty] $, $ \mathbf p$在（0，1）范围内不是范数，因为违反三角不等式。

根据$ \mathbf p$的变化，范数也有着不同的变化，借用一个经典的有关P范数的变化图如下：
http://cnblogs.com/maybe2030

##### L0范数

**L0范数表示向量中非零元素的个数**，用公式表示如下：

$ \parallel x\parallel_{0} = \#(i \mid x_i \neq 0) $

我们**可以通过最小化L0范数，来寻找最少最优的稀疏特征项**。但不幸的是，L0范数的最优化问题是一个NP hard问题（L0范数同样是非凸的）。因此，在实际应用中我们经常对L0进行凸松弛，理论上有证明，L1范数是L0范数的最优凸近似，因此**通常使用L1范数来代替直接优化L0范数**。

##### L1范数

**L1范数就是向量各元素的绝对值之和**， 用公式表示如下：

$ \parallel x\parallel_{1} = \sum_{i=1}^n\mid x_i\mid $

L1范数也被称为是"稀疏规则算子"（Lasso regularization）。稀疏化有两个好处：
- 特征选择；
- 可解释性

##### L2范数

**L2范数是使用的最广泛的欧几里得距离**，用公式表示如下：

$ \parallel x\parallel_{2} = \sqrt{\sum_{i=1}^n (x_i)^2} $

L2范数有很多名称，有人把它的回归叫“岭回归”（Ridge Regression），也有人叫它“权值衰减”（Weight Decay）。以L2范数作为正则项可以得到稠密解，即每个特征对应的参数$ \omega $ 都很小，接近于0但是不为0。此外，L2范数作为正则化项，可以防止模型为了迎合训练集而过于复杂造成过拟合的情况，从而提高模型的泛化能力。

##### L1范数和L2范数的区别

http://cnblogs.com/maybe2030

有如下结论，L1范数可以导致稀疏解，L2范数导致稠密解。
从贝叶斯先验的角度看，当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项，而加入正则项相当于加入了一种先验。
- L1范数相当于加入了一个Laplacean先验；
- L2范数相当于加入了一个Gaussian先验。

#### Dropout

Dropout是深度学习中经常采用的一种正则化方法。它的做法可以简单的理解为在DNNs训练的过程中以概率$ \mathbf p $丢弃部分神经元，即使得被丢弃的神经元输出为0。

我们可以从两个方面去直观地理解Dropout的正则化效果：

- 在Dropout每一轮训练过程中随机丢失神经元的操作相当于多个DNNs进行取平均，因此用于预测时具有vote的效果。
- 减少神经元之间复杂的共适应性。当隐藏层神经元被随机删除之后，使得全连接网络具有了一定的稀疏化，从而有效地减轻了不同特征的协同效应。也就是说，有些特征可能会依赖于固定关系的隐含节点的共同作用，而通过Dropout的话，就有效地组织了某些特征在其他特征存在下才有效果的情况，增加了神经网络的鲁棒性。

##### 批规范化（BN, Batch Normalization）

批规范化（Batch Normalization）严格意义上讲属于归一化手段，主要用于加速网络的收敛，但也具有一定程度的正则化效果。

这里借鉴下魏秀参博士的知乎回答中对covariate shift的解释（https://www.zhihu.com/question/38102762）。

注以下内容引自魏秀参博士的知乎回答：

大家都知道在统计机器学习中的一个经典假设是“源空间（source domain）和目标空间（target domain）的数据分布（distribution）是一致的”。如果不一致，那么就出现了新的机器学习问题，如transfer learning/domain adaptation等。而covariate shift就是分布不一致假设之下的一个分支问题，它是指源空间和目标空间的条件概率是一致的，但是其边缘概率不同。大家细想便会发现，的确，对于神经网络的各层输出，由于它们经过了层内操作作用，其分布显然与各层对应的输入信号分布不同，而且差异会随着网络深度增大而增大，可是它们所能“指示”的样本标记（label）仍然是不变的，这便符合了covariate shift的定义。

BN的基本思想其实相当直观，因为神经网络在做非线性变换前的激活输入值（𝑋=𝑊𝑈+𝐵，𝑈是输入）随着网络深度加深，其分布逐渐发生偏移或者变动（即上述的covariate shift）。之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（对于Sigmoid函数来说，意味着激活输入值𝑋=𝑊𝑈+𝐵是大的负值或正值），所以这导致后向传播时低层神经网络的梯度消失，这是训练深层神经网络收敛越来越慢的本质原因。而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，避免因为激活函数导致的梯度弥散问题。所以与其说BN的作用是缓解covariate shift，倒不如说BN可缓解梯度弥散问题。

### 归一化（Normalization）和标准化（Standardization）

**归一化（Normalization）**：归一化的目标是找到某种映射关系，将原数据映射到$ [a,b] $区间上。一般𝑎,𝑏会取$ [-1,1] ,[0,1] $这些组合。

一般有两种应用场景：
- 把数变为(0, 1)之间的小数
- 把有量纲的数转化为无量纲的数

常用min-max normalization：

$ x^{'} = \cfrac{x - min(x)}{max(x)-min(x)} $

**标准化（Standardization）**：用大数定理将数据转化为一个标准正态分布，标准化公式为：

$ x^{'} = \cfrac{x - \mu}{\sigma} $


#### 归一化和标准化的区别：

我们可以这样简单地解释：

归一化的缩放是“拍扁”统一到区间（仅由极值决定），而标准化的缩放是更加“弹性”和“动态”的，和整体样本的分布有很大的关系。

值得注意：

归一化：缩放仅仅跟最大、最小值的差别有关。

标准化：缩放和每个点都有关系，通过方差（variance）体现出来。与归一化对比，标准化中所有数据点都有贡献（通过均值和标准差造成影响）。

为什么要标准化和归一化？

提升模型精度：归一化后，不同维度之间的特征在数值上有一定比较性，可以大大提高分类器的准确性。
加速模型收敛：标准化后，最优解的寻优过程明显会变得平缓，更容易正确的收敛到最优解。


### Central Limit Theorm
https://www.youtube.com/watch?v=4YLtvNeRIrg

If the sample size ($ n $) is large enough ($ n \geq 30 $), the sample distribution taken from any population distribution regardless of its shape will approximate a **normal distribution**.

**Notation**

$ \mu \rightarrow  population \; mean $

$ \bar{x} \rightarrow sample \; mean $

$ \mu_{\bar x} \rightarrow mean\; of\; the\; sampling\; distribution $

$ \sigma \rightarrow standard\; deviation\; of\; population $

$ s \rightarrow standard \;deviation\; of\; single \; sample $

$ \sigma_{\bar x} \rightarrow standard\; deviation\; (also\; called\; standard\;error)\; of\; sampling \;distribution\;(many\; samples) $

$ n \rightarrow sample \; size $

**Law of Large Numbers**

$ n \uparrow , \bar{x} \rightarrow \mu $

$ n \uparrow , \mu_{\bar{x}} \rightarrow \mu $

$ n \geq 30, \mu_{\bar{x}} \simeq \mu $

In population

$$ X \sim N(\mu, \sigma) $$ 

$$ Z= \cfrac{x-\mu}{\sigma} $$

$$ P(x < a) = P(Z < \cfrac{x-\mu}{\sigma}) $$

In the sampling distribution

$$ 
Z = \cfrac{\bar x - \mu_{\bar x}}{\sigma_{\bar x}} $$

$$\sigma_{\bar x} = \cfrac{\sigma}{\sqrt{n}} \;\;\;(when \;n \uparrow , \sigma_{\bar x} \downarrow) $$

when n is large,

$$ \bar x \sim N(\mu, \cfrac{\sigma}{\sqrt{n}}) $$

$$ Z = \cfrac{\bar x - \mu}{\frac{\sigma}{\sqrt{n}}} $$

$$ P(x < a) = P(Z < \cfrac{\bar x-\mu}{\frac{\sigma}{\sqrt{n}}}) $$

when we consider the sum of the sampling distribution,

$$ \bar x \sim N(\mu_{\sum_x}, \sigma_{\sum_x}) $$

$$ \mu_{\sum_x} = \mu \cdot n = 25 \cdot 100 = 2500 $$

$$ \sigma_{\sum_x} = \sigma_{\bar x} \cdot n = 0.2309 \cdot 100 = 23.09 $$

$ IQR = Q_3 - Q_1 $