# 线性判别分析

在这个文件中我将简单简述一下线性判别分析及其在sklearn下的示例使用

导入相关的库

In [1]:
import numpy as np
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

导入数据集

In [2]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

对数据集进行划分，使用留出法,设置7：3的训练样本与测试样本

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

使用LDA模型进行拟合训练数据

好了，上边的其他一切其实相差不多，唯一不同的就是在这里，我们调用sklearn的话很简单，只需要直接fit就好了，但是事实上，LDA真的有这么简单吗？
LDA是处理分类问题的模型，它主要在特征空间中形成一条线或者一个（超）平面，让所有样本的特征点投影到它之上。
以二维特征向量的样本为例，LDA就是找一条线，但是这条线不是随便找的，就是我们要求的东西（不然也不会归类到线性模型），可以确定的是，这条线一定过原点，然后它要使得那些投影在它上边的样本点满足这么几个特点：
1. 同类别的样本点之间的距离都比较小
2. 不同类别的样本点组成的中心点之间的距离要比较大
首先看第1，同类别之间的样本点，既然都投影到上边了，那用什么来反映两点在投影上的距离呢？
    首先先计算出来每个类别在投影上的中心点，使用协方差矩阵，对同一类中的所有点的各个属性都计算一下协方差，用协方差来表示偏离中心点的程度，所以我们的目标只是让这个协方差更小，在这里用类内散度矩阵Sw来记录
其次看第2，不同点之间的距离要大，也就是让中心点之间的距离要大，用中心点直接求出L2范数即可来比大小即可。这里用类内散度矩阵Sb记录
接着我们是想要同时满足1，2这两个条件，想到让他们做除法，使得2的公式作为分子，而1的公式作为分母，那么现在这个问题就转化为了求新的分式的最大值。
这也就是极大似然估计的原理，我们将新的分式视为似然函数，来最大化的话还有几个问题，我们可以发现，现在待确定的参数只是w，也就是二维中的斜率，可以想到，我们要找直线只是为了确定一个直线的方向，所以w我们不关注其大小，而在类内散度矩阵的计算中，我们可以通过数理计算发现其分母只是一个与w二次方有关的数，所以我们不妨设分母项等于常数c>0，现在这个分式（Fisher判别函数）就转化为了一个有限制条件的有理式。

下边采用引入laplace乘子，来求新式对w的导数，我们还发现投影中心点的差其实就是w的方向，可以代入，得到w的极大似然估计值
w=Sw(μ0-μ1)^(-1)

In [4]:
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

In [5]:
y_pred = lda.predict(X_test)

进行性能评估

In [6]:
accuracy = accuracy_score(y_test, y_pred)
print('LDA预测准确率：', accuracy)

LDA预测准确率： 1.0
