# 感知机

## 内容回顾

在上一次课程我们学习了：

- numpy、pandas以及matplotlib的常见方法

- 损失函数：损失函数（loss function）或者代价函数（cost function）来度量预测错误的程度。

- 模型的训练误差和测试误差

- 模型的过拟合

- 正则化

- 交叉验证

以及相关代码的实现

## 补充：监督学习模型评价标准

对于监督学习，我们在模型完成训练后，如何评价模型的训练效果？

打个比方：

1.损失函数下降类似于学生的学习和练习效果，学生使用某种学习方法，比如题海战术，（这就是**算法**的选择）尽到最大努力学习了，整体的做题错误率在不断降低（**loss**在降低），学生的知识水平在不断提高。

2.但是对于期末考试，看的是本次考试的表现（test），而不是平时学生的表现（train）。比如某次考试有一百道判断题，每题一分，学生做对了80道题，得分80分。

3.学生平时做题表现很好，错得很少。但是考试时候拿到试卷，发现试卷上的题目都是平时没有学过的知识点，或者超纲题目，这叫**数据分布不均匀**，或者叫train set和test set不是**同分布**的。

4.如果考试的时候发现，怎么遇到之前练习的原题了？原题相当于送分题，放在机器学习方法中就叫数据集不是**独立**的。我们在机器学习中要求，训练集和测试集最好是独立同分布的，就是这个意思。

而今天我们来讲讲模型的评价标准，也就是“老师的打分方式”。

### 准确率、精准率、召回率与 $F_1$ 值

- 模型的评价指标一般是分类**准确率**，其定义是：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

> 借用上面的例子，如某次考试有一百道判断题，每题做对得一分，做错得零分，学生做对了80道题，得分80分，学生的正确率就是80%。

- 对于二分类问题，常用的评价指标是精确率（precision）和召回率（recall）。以关注的类为正类（positive），其他类为负类（negative），分类器在测试数据集上的预测或正确或者不正确，4种情况出现的总数分别记做：

> TP —— True Positive，将正类预测为正类数
>
> FN —— False Negative，将正类预测为负类数
>
> FP —— False Positive，将负类预测为正类数
>
> TN —— True Negative，将负类预测为负类数

- 精确率又叫查准率，定义为$$ P = \frac{\rm TP}{\rm TP + \rm FP} $$

- 召回率又叫查全率，定义为$$ R = \frac{\rm TP}{\rm TP + \rm FN} $$

- 此外还有 $ F_1 $ 值，是精确率和召回率的调和平均值，即$$ \frac{2}{F_1} = \frac{1}{P}+ \frac{1}{R} $$

查准率和查全率可以类比医院看病。比如有一种罕见病，据统计全球发病率为百万分之三，医院要开发一种机器学习诊断系统去为广大患者诊断这种病。

预计有一千万人使用该系统，如果：

- 我用准确率（越高越好）作为这个诊断系统的评价指标，会怎么样？

> Hint：全部判断为健康人

- 我用精确率（越高越好）作为这个诊断系统的评价指标，会怎么样？

> Hint：病入膏肓再下诊断

- 我用召回率（越高越好）作为这个诊断系统的评价指标，会怎么样？

> Hint：全部判断为病人

- 我用 $ F_1 $ 值（越高越好）作为这个诊断系统的评价指标，会怎么样？

> 结合了精确率和召回率的优点（希望既不漏诊也不误诊）。

### 代码实现

在 SKlearn 包中，我们也有上述指标的函数实现.

#### 数据集

先导入相关包，建立一个仿真的数据集。假设数字1表示正样本（positive，例如：患病阳性），如下：

In [15]:
from sklearn import metrics

y_pred = [0, 1, 1, 0, 0, 0, 0, 0, 0, 0]
y_true = [0, 0, 1, 0, 0, 0, 0, 0, 1, 1]

#### 准确率（accuracy）

文档：[sklearn.metrics.accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html#sklearn.metrics.accuracy_score)

```Python
sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)
```

In [17]:
accuracy = metrics.accuracy_score(y_true, y_pred)
print(accuracy)

0.7


#### 精确度（precision）

文档：[sklearn.metrics.precision_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.precision_score.html#sklearn.metrics.precision_score)

```Python
sklearn.metrics.precision_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
```

In [18]:
precision = metrics.precision_score(y_true, y_pred)
print(precision)

0.5


#### 召回率（recall）

文档：[sklearn.metrics.recall_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.recall_score.html#sklearn.metrics.recall_score)

```Python
sklearn.metrics.recall_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
```

In [19]:
recall = metrics.recall_score(y_true, y_pred)
print(recall)

0.333333333333


#### $F_1$值

文档：[sklearn.metrics.f1_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html#sklearn.metrics.f1_score)

```Python
sklearn.metrics.f1_score(y_true, y_pred, labels=None, pos_label=1, average=’binary’, sample_weight=None)
```

In [20]:
f1 = metrics.f1_score(y_true, y_pred)
print(f1)

0.4


### 其他常用指标 - AUC与ROC

什么是AUC，什么是ROC






# 感知机

## 感知机原理

## 手写代码实现

## SKlearn中的感知机

[利用sklearn实现感知机（perceptron）算法](https://blog.csdn.net/u011630575/article/details/79396135)