# 本周内容的概括：
 - 受监督的学习
 - 概率
 - KNN
 - 线性回归
 - 简单的神经网络
 - Naive Bayes

# 1. 概率问题

贝叶斯公式的两种形态：

![image.png](attachment:image.png)

后面都在讲期望，方差，协方差

好像不怎么考，狠狠略过

# 2. KNN

> KNN的训练：
> 
>  - 就是存储所有数据和数据对应的label

> KNN的预测：
> - 用于分类时：
>   - 对于一个新数据点：
>       - 寻找K个最近邻  向量见距离可以用 $norm(\vec{甲}-\vec{乙})$ 计算
>       - 最近邻中最多的label就是新点的label值
> - 用于回归时：
>   - 对于一个新数据点：
>       - 寻找K个最近邻
>       - 赋label值：
>           - 法1：weight = uniform: 将最近邻的label值加起来求平均
>           - 法2：weight = distance: 用距离作为每个邻居加和时的权重，然后把和除以权重的和（归一化） 

回归算法详见Week14 SupervisedLearning.pdf  p11/50

总结：
> - 既可以用于分类又可以用于回归
> - 寻找样本空间中最近的K个点

# 3. 线性回归（Linear Regression）

> 线性回归的目标是一个函数，此函数由两部分组成：
> - 权重$w_i$： 对输入向量中的每一个值乘以一个值
> - 偏置$w_0$：再额外加一个值
> 然后将上述求和。就是这么一个函数。
>
> $f(\vec{x}) = \sum^{n}_{i=1}w_{i}x_{i}+w_{0}$
>

> 那么，问题就转化为：如何寻找一组最合适的权重。
>
> 如何定义最合适？误差最小就叫最合适。
>
> 采取什么参数衡量误差？MSE。可参见上一周的笔记



怎么最小化误差？
> - 法1：将误差式对各个权重值求偏导，算出导为0时权重的值
> - 法2：梯度下降 

>   

总结：
> - 把问题的解看作是一条线或是一个平面
> - 可以算出正解
> - 可以上梯度下降

这个玩意儿能不能用来干分类？能。

>算出的值可以用来作为分欸的判据
>
>实际上，可以将算出来的值塞进sigmoid函数$\sigma$里，再来判断对类的归属
> 也就是说，$f(\vec{x}) = \sigma(\vec{w} · \vec{x})$
>
>可以用梯度下降来算出合适的权重

> 将loss函数选为：$Loss=(y-f(x))^2$
>
> 然后算偏导，进行梯度下降


总结：
> 线性回归提供了一种给一组数据拟合一条线的方法
> 我们可以算出这条线，也可以通过梯度下降学出这条线
> 逻辑回归（上述的分类技巧）提供了一种把数据点分为两类的方法


# 4. （简单的）神经网络

没啥新活，直接上总结吧：
> 多层节点之间靠权重值连接
> 每个节点都把输入给他的加权后结果值加和，并用激活函数算一下
> 用backpropagation训练网络
> backpropagation提供了一种计算隐藏层误差并更新其权重的方法

# 5. Naive Bayes

输入labeled data，可以产生一个似然度分布，来描述这个数据组

>naive的原因：
>
>假设feature空间中的各个量是不互相影响（独立）的。
>
>![image.png](attachment:image.png)
>
>上图中产生的椭圆的长轴都是沿某一轴的，如果是倾斜的，那就不满足naive bayes的假设了

其公式如下：


$
\begin{equation}
x属于某一类的概率 = \frac{x在某一类中出现的概率}{\sum{x在所有类中出现的概率}}
\end{equation}
$

上式中分母是不变的，所以其实就只和分子有关。
$
\begin{equation}
\textbf{估计结果} = 分子 = x属于某一类的概率*这一类出现的概率
\end{equation}
$

那由于有naive bayesian的假设在，
$
\begin{equation}
x属于某一类的概率 = \prod其各个feature成员属于某一类的概率
\end{equation}
$

上式中的连乘实际上不采用，而是采用log的连加。即：
$
\begin{equation}
x属于某一类的概率 = log(某一类出现的概率)+\sum log(各个feature属于某一类的概率)
\end{equation}
$

> 问题进一步简化为：怎么把已有的一类东西（**不要忘了这是有监督的学习**）用一个归属度函数表达？
>
>-  我们用高斯的正态分布估算。
>
> 要计算正态分布，只需要两项指标：各个feature的平均值和标准差
> 
> 新点对于一个正态分布的归属度公式如下：
> $
\begin{equation}
P(x|c) = \frac{1}{SD\sqrt{2\pi}}exp \left(-\frac{1}{2} \left(\frac{x-mean}{SD}\right)^2 \right)
\end{equation}
$
> **此处注意，老师的PDF是错的，PDF里的根号没画到$\pi$上头，但是实际上是用$\sqrt{2\pi}$算的结果。**


例如，对于以下的例子：

![image.png](attachment:image.png)

我们有一个新数据点$x=(5,2)$需要被归类，现计算其对class0的归属度作为例子：

In [38]:
import math
import numpy as np

'''
description: 计算一个feature值对给定分布的隶属度的函数
return {隶属度}
'''
def normal_distribution(feature_value, mean, sd):
    return math.log(1/sd/math.sqrt(2*math.pi)*math.exp(-0.5*((feature_value-mean)/sd)**2))

# feature1:
print("featre1:Petal Length:" + str(normal_distribution(5,1.5,0.14)))

# feature2: feature2的计算会报错，因为exp部分太小，exp函数返回了一个0.0，log(0)是非法的
#print("featre2:Petal Width:" + str(normal_distribution(2.0,0.22,0.04)))

featre1:Petal Length:-311.4528256768317


总结：
> 给每个class建构一个概率分布
> 
> 用隶属概率给新点分配标签
> 
> 假设：**feature空间中的一切都是独立的**
> 
> 虽然此处用的是高斯牌正态分布，但也可以换成别的你想要的。都可以