# 2.1 模式特征分类概述

## 2.1.1 数学描述

 问题：给定一组有类别标记的训练样本集𝐷 = {x1,…, xN} 或 𝐷 = {(x1,c1) ,…, (xN,cN)}<br>
 
 如何使用一个算法给独立同分布的新观测样本x 分配准确的类别？<br>

 解法：学习一个最优分类器或其参数（损失函数𝐿 𝛼 𝑦 , 𝑐 、分类规则𝑧 = 𝛼 𝑦 和判别函数𝑦 = 𝑓(𝑥) ），以极小化类别分配的风险：<br>
 
![](Picture/figure_2-0.png)

## 2.1.2 贝叶斯决策论

 贝叶斯决策论（Bayesian decision theory）是在概率框架下实施决策的基本方法。<br>
 
 在分类问题情况中，在所有相关概率都已知的理想情形下，贝叶斯决策就是寻找一个判定准则𝛼∗以最小化总体风险。
 
![](Picture/figure_2-01.png)

## 2.1.3 分类过程

 最近邻法分类： 两类样本最近距离  + min(距离) <br>
 
 线性判别分析:  变换后的值      + 与阈值的大小关系 <br>
 
 朴素贝叶斯  ： 后验概率       + max(概率) <br>


# 2.2 实验要求

（1）利用所有训练样本以缺省参数学习分类器参数。<br>

（2）随机选取离散化特征空间中的每个点（256 * 256个点）进行分类（2次）（通过进度条展示渐变过程）。<br>

（3）绘制离散化的特征空间每个点分别是正类、负类的判别依据。<br>

（4）绘制离散化的特征空间每个点基于选择规则的选择后的判别依据。<br> 


# 2.3 思考探索

（1）对比不同分类器结果的差异，为什么？<br>

（2）对比同一分类器两次结果的差异，回答为什么？<br>

（3）分类器是什么？（映射函数？分类规则？分类边界？空间剖分？）<br>

（4）如何构建分类器？（知识、学习？）<br>

（5）机器学习的目标是什么？分类器学习学什么？什么是好的分类器？（错误率低、误差小）<br>


# 2.4 案例展示

## 2.4.1 示例数据集
示例数据集以Jupyter Notebook为基本工具。每个特征的取值范围为[0,255]，橙色表示+1类样本；蓝色表示-1类样本。

（1）数据集一：
```python
    from sklearn import datasets
    X,Y=datasets.make_blobs(n_samples=n, centers=2, n_features=2, cluster_std=2, random_state=1)
    cm_bright = ListedColormap(['Blue', 'Orange'])
    plt.scatter(X[:,0], X[:,1], s=1, c=Y, cmap=cm_bright)
```  
![](Picture/figure_1-1.png)

（2）数据集二：
```python
    x= np.random.rand(n, 2); X=255*x
    Y=[]
    for i in range(0, n): 
        if (X[:,0][i]<=128 and X[:,1][i]<=128) or (X[:,0][i]>128 and X[:,1][i]>128):
        Y.append(-1)
        else:
        Y.append(1)
```       
![](Picture/figure_1-2.png)


（3）数据集三：
```python
    x,y= datasets.make_circles(n_samples=n, factor=0.05, noise=.2)
```
![](Picture/figure_1-3.png)

（4）数据集四：
```python
    t = 1 * np.pi * (0 + 4 * np.random.rand(1, n))
    x0 = -t * np.cos(t); x2 = t * np.cos(t); x=np.concatenate((x0, x2), axis=1);
    y0 = -t * np.sin(t); y2 = t * np.sin(t); y=np.concatenate((y0, y2), axis=1);
    X = np.concatenate((x, y));
    X += .3 * np.random.randn(2, 2*n);X = X.T;
    X=255*MaxMinNormalization(X);
    cs1=-1*np.ones(n); cs2=np.zeros(n); 
    Y=np.concatenate((cs1, cs2));
```
![](Picture/figure_1-4.png)

## 2.4.2 模式分类   

（1）离散化特征空间，当测试点数量增加，分类结果是否有差异？

![](Picture/figure_2-1.png)

利用所有训练样本以缺省参数学习分类器参数。<br>
随机选取离散化特征空间中的每个点（256 * 256个点）进行分类。<br>
图中第一列为不同数据集，第二到第五列分别代表从测试占整个特征空间的比例（0.01、0.05、0.1、1）。<br>
当特征空间中用于测试的点数逐渐增加，可观察到在同种分类方法下（最邻近分类）的分类结果并无差异。<br>

（2）同种分类器，对不同数据集进行两次分类的分类结果是否有差异？

![](Picture/figure_2-2.png)

图中第一列为不同数据集，第二到第三列分别为第一次分类结果和第二次分类结果。<br>
从图中结果可看出同种分类器下，两次分类的结果也并无差异。

（3）不同分类器，对不同数据集进行分类的分类结果会有什么样的差异？

![](Picture/figure_2-30.png)

图中第一列为不同数据集，第二到第五列分别为不同分类器（线性判别，高斯朴素贝叶斯，二次判别，最邻近方法）的分类结果。<br>
从图中结果可看出不同分类器下，特征空间中的分类结果存在明显差异。

（4）为什么不同分类器，分类结果会有差异？

KNN：记住所有的训练样本，计算每个测试点到每个类别的所有训练点的距离，记录一个最近距离，对应的训练点类别，即是测试点的类别。<br>

LDA：如果训练数据集的协方差矩阵一致，训练数据投影到一个维度上，得到决策边界，计算所有测试点到决策边界的距离，找出一个判断阈值，进而将所有测试点分类。<br>

QDA：如果训练数据集的协方差矩阵不一致，得到的决策面是一个二次面。<br>

GNB：根据训练集来估计类先验概率和每个特征的条件概率，然后利用训练出的模型，计算每个样本点的后验概率，求取最大后验概率，其对应的类别就是测试点的类别。

（5）分类器是什么？（映射函数？分类规则？分类边界？空间剖分？）

当分类器的类型、参数给定了之后，分类器就是对特征空间的剖分。<br>
同一分类器，测试点数量增加、两次分类的结果都是相同的。


## 2.4.3 分类过程

（1）最邻近分类：KNeighborsClassifier

```python
    from sklearn.neighbors import  KNeighborsClassifier
    clf =KNeighborsClassifier()
    clf.fit(X, Y)
    P=meshgrid()
    y=clf.predict(P)
    cm_bright = ListedColormap(['Blue', 'Orange'])
    plt.scatter(P[:,0], P[:,1], c=y, cmap=cm_bright)
    
    判别依据：dist=clf.kneighbors(P)[0]
    kneighbors(X=None, n_neighbors=None, return_distance=True)
    Returns indices of and distances to the neighbors of each point
```   
![](Picture/figure_3-1.png)

图中第二列为不同数据集的最邻近分类结果。<br>
第三列为测试样本中相对于正类每个点到训练样本点的最邻近距离。<br>
第四列为测试样本中相对与负类每个点到训练样本点的最邻近距离。

（2）线性判别分析：LDA
```python
    from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
    clf =LinearDiscriminantAnalysis()
   
    判别依据：df=clf.decision_function(X) 
```
![](Picture/figure_3-2.png)
    
图中第二列为不同数据集的线性判别结果。<br>
第三列为测试样本中每个点到分类边界的距离。<br>
距离为正则分类为正类；距离为负则分类为负类。

（3）朴素贝叶斯：naive_bayes.GaussianNB
```python
    from sklearn.naive_bayes import GaussianNB
    clf =GaussianNB()
    clf.fit(X,Y)
    y=clf.predict(P)
    
    判别依据：predict_proba(X)
    Returns the probability of the samples for each class in the model. 
    The columns correspond to the classes in sorted order, as they appear in the attribute classes.
```
![](Picture/figure_3-3.png)

图中第二列为不同数据集的高斯朴素贝叶斯的分类结果。<br>
第三列为测试样本中每个点相对于正类的概率。<br> 
第四列为测试样本中每个点相对于负类的概率。

（4）为什么naive_bayes.GaussianNB在不同数据集分类效果不同？<br>

两类数据集看作两个服从高斯分布的数据集：<br>
当两类数据集的高分分布协方差大致相同，高斯朴素贝叶斯分类边界呈现直线。<br>
当两类数据集的高斯分布协方差不同，此时分类边界会偏向某一类数据集的均值中心。
    
![](Picture/figure_3-4.png)