In [2]:
import numpy as np
from sklearn.linear_model import LinearRegression

In [3]:
X = np.array([6, 8, 10, 14, 18]).reshape(-1, 1)
y = np.array([7, 9, 13, 17.5, 18])
model=LinearRegression()
model.fit(X,y)

LinearRegression()

### 残差平方和代价函数(损失函数)  
$$RSS=\sum\limits_{i=1}^n(y_i-f(x_i))^2$$

In [3]:
RSS=np.mean((y-model.predict(X))**2)
RSS

1.7495689655172406

### 方差  
方差用来衡量一组值的偏离程度,方差小意味着这组值都很接近总体的均值  
n-1称为贝塞尔校正 : 纠正了对样本中总体方差估计的偏差  
$$var(x)=\frac{\sum\limits_{i=1}^n(x_i-\overline{x})^2}{n-1}$$

In [4]:
variance=((X-X.mean())**2).sum() / (X.shape[0]-1)
print(variance)
np.var(X,ddof=1)

23.2


23.2

### 协方差  
协方差用来衡量两个变量如何变化  
变量一起增加,它们的协方差为正  
一个变量增加,另一个变量减少,它们的协方差为负  
两个变量之间没有线性关系,它们的协方差为0 (线性无关,不一定是相对独立的)  
$$cov(x,y)=\frac{\sum\limits_{i=1}^n(x_i-\overline{x})(y_i-\overline{y})}{n-1}$$

In [5]:
covariance=np.multiply((X-X.mean()).transpose(),y-y.mean()).sum() / (X.shape[0]-1)
print(covariance)
np.cov(X.transpose(),y)[0][1]

22.65


22.650000000000002

### 普通最小二乘OLS(Ordinary Lease Squares)  
$$y=\alpha+\beta x$$

$$\beta=\frac{cov(x,y)}{var(x)}$$

In [6]:
beta=covariance/variance
beta

0.9762931034482758

$$\alpha=\overline{y}-\beta\overline{x}$$

In [7]:
y.mean()-beta*X.mean()

1.9655172413793114

### R方(决定系数)  
用来衡量数据和回归线的贴近程度  
$$SS_{tot}=\sum\limits_{i=1}^n(y_i-\overline{y})^2$$  
$$SS_{res}=\sum\limits_{i=1}^n(y_i-f(x_i))^2$$  
$$R^2=1-\frac{SS_{res}}{SS_{tot}}$$

In [8]:
SS_tot=((y-y.mean())**2).sum()
SS_res=((y-model.predict(X))**2).sum()
R_2=1-SS_res/SS_tot
R_2

0.9100015964240102

In [4]:
from sklearn.metrics import r2_score

### 欧氏距离  
$$d(p,q)=d(q,p)=\sqrt{(q_1-p_1)^2+(q_2-p_2)^2}$$

### 准确率 精准率 召回率
TP : 真阳性的数量  
FP : 假阳性的数量  
TN : 真阴性的数量  
FN : 假阴性的数量  
准确率 : 衡量了分类器的整体正确性,但并不能区分假阳性错误,假阴性错误    
$$ACC=\frac{TP+TN}{TP+TN+FP+FN}$$  
精准率 : 分类为阳性的真阳性的比例    
$$P=\frac{TP}{TP+FP}$$  
召回率 : 真阳性被分类器辨认的比例    
$$R=\frac{TP}{TP+FN}$$

In [9]:
from sklearn.metrics import accuracy_score,
                            precision_score,
                            recall_score

IndentationError: unexpected indent (<ipython-input-9-20c4bbb26899>, line 2)

### F1得分(F1度量) 二元分类器性能衡量  
F1得分 : 精准率和召回率的调和平均值  
精准率与召回率的算数平均值是F1得分的上界  
F1值会对精准率和召回率不平衡的分类器进行惩罚

In [None]:
from sklearn.metrics import f1_score

### MCC马修斯相关系数  
完美分类器的MCC=1  
随机进行预测的分类器MCC=0  
完全预测错误的分类器MCC=-1  
测试数据类别比例非常不均衡时,MCC得分也非常有用

In [None]:
from sklearn.metrics import matthews_corrcoef

### MAE&MSE  
MSE MAE分别通过对误差求平方和求绝对值避免了回归模型中误差的方向导致的正负方向误差相互抵消的问题  
MSE比MAE对异常值的惩罚程度要高 : 对一个较大的误差值求平方会加大它对整体误差的贡献比例  

#### 平均绝对误差MAE  
预测结果误差绝对值的均值  
$$MAE=\frac{1}{n}\sum\limits_{i=0}^{n-1}|y_i-\hat{y_i}|$$  

In [2]:
from sklearn.metrics import mean_absolute_error

#### 均方偏差MSE  
$$MSE=\frac{1}{n}\sum\limits_{i=0}^{n-1}(y_i-\hat{y_i})^2$$

In [3]:
from sklearn.metrics import mean_squared_error

### one-hot编码  
类别变量 : 取值范围是一组固定的值  
使用二进制特征表示解释变量的所有可能  
将一个类别变量表示为多个二元特征

In [2]:
from sklearn.feature_extraction import DictVectorizer # 对类别特征进行one-hot编码的转换器
from sklearn.preprocessing import LabelBinarizer

### 特征标准化  
标准化数据 : 零平均值和单位方差  
零平均值解释变量相对于原点居中,其平均值为0  
当特征向量所有特征的方差处于相同量级,则拥有单位方差

In [2]:
from sklearn.preprocessing import scale

### 欧几里得范数  
两个向量之间的欧几里得距离等于两个向量差值的$L^2$范数  
$$d=||x_0-x_1||$$  
范数 : 为向量赋予正值尺寸的函数  
一个向量的欧几里得范数等于这个向量的量级  
$$||x||=\sqrt{x_1^2+x_2^2+\cdots+x_n^2}$$

In [3]:
from sklearn.metrics.pairwise import euclidean_distances

### 多元线性回归  
$$Y=X\beta$$  
$$\beta=(X^TX)^{-1}X^TY$$  

In [4]:
from numpy.linalg import lstsq

### 多项式回归  
解释变量和响应变量并不是线性关系  
多项式回归 : 一种多元线性回归的特殊方式,用于对响应变量和多项式特征之间的关系进行建模  
真实世界的曲线关系通过对特征做变换获得,而这些特征与多元线性回归的特征一致  
$$y=\alpha+\beta_1 x+\beta_2 x^2$$

In [5]:
from sklearn.preprocessing import PolynomialFeatures # 转换器 为一个特征表示增加多项式特征

### 正则化  
用于防止过拟合的技巧的集合  
正则化为一个问题增加信息,通常是用一个对抗复杂度惩罚项的形式  

#### 提克洛夫规范化(岭回归)  
可以惩罚变大的模型参数  
岭回归通过增加系数的$L^2$范数来修改RSS代价函数  
$$RSS_{ridge}=\sum\limits_{i=1}^n(y_i-x_i^T\beta)^2+\lambda \sum\limits_{j=1}^p\beta_j^2$$  
$\lambda$ : 控制惩罚力度的超参数

In [6]:
from sklearn.linear_model import Ridge

#### LASSO(最小绝对收缩和选择算子)  
LASSO : 通过对代价函数增加$L^1$范数来惩罚系数  
$$RSS_{lasso}=\sum\limits_{i=1}^n(y_i-x_i^T\beta)^2+\lambda \sum\limits_{j=1}^p|\beta_j|$$

In [7]:
from sklearn.linear_model import Lasso

#### 弹性网络正则化  
是LASSO回归的$L^1$惩罚项和岭回归的$L^2$惩罚项的线性组合  
也就是说,LASSO回归和岭回归都是弹性网络的特殊形式,其中$L^1$或$L^2$惩罚项对应的超参数分别等于0

In [8]:
from sklearn.linear_model import ElasticNet

### 梯度下降法  
一种能有效估计模型参数最优值的方法  
梯度下降法根据每次训练迭代中用来更新模型参数的训练实例的数量不同  
区分出3种变体:  
批次梯度下降法 : 每次迭代中使用全部训练实例来更新模型参数  
随机梯度下降法 : 每次迭代中仅仅使用一个训练实例来更新参数  
小批次随机梯度下降法 : 每次迭代中使用包含数量b的小批次训练实例来跟新参数

当有更多的训练实例时,小批次随机梯度下降法或随机梯度下降法会比批次梯度下降法收敛更快  
批次梯度下降法是一种确定性算法,对于相同的训练数据集总产出同样的参数  
随机梯度下降法可以在每次运行时产出不同的参数估计  

In [9]:
from sklearn.linear_model import SGDRegressor,SGDClassifier

### 正态分布  
普通的线性回归假设响应变量符合正态分布  
高斯分布 : 描述任何一个观测值对应一个位于两个实数之间值的概率的函数  
正太分布数据是对称的,一半值大于均值,另一半值小于均值  
正太分布数据的均值,中位数,众数相等

### 伯努利分布  
描述了一个只能取概率为P的正向情况或者概率为1-P的负向情况的随机变量的概率分布  

### 逻辑回归  
响应变量描述了结果是正向情况的概率  
如果响应变量等于或者超出了一个区分阈值,则被预测为正向类,否则将被预测为负向类  
响应变量使用逻辑函数建模为一个特征的线性组合函数  
$$F(t)=\frac{1}{1+e^{-t}}$$  
对于逻辑回归,t等于解释变量的线性组合  
$$F(x)=\frac{1}{1+e{-(\beta_0+\beta x)}}$$

#### 效用函数  
效用函数 : 逻辑函数的逆,它将$F(x)$反连接到特征的一个线性组合  
$$g(x)=\ln\frac{F(x)}{1-F(x)}=\beta_0+\beta x$$  

### 混淆矩阵  
用来对真假阴阳性可视化  
矩阵的行是实例的真实类  
矩阵的列是实例的预测类

In [2]:
from sklearn.metrics import confusion_matrix

### ROC&AUC  
受试者操作特征曲线(ROC) : 描绘了分类器召回率和衰退之间的关系,对类别分布不平衡的数据不敏感,表明了对所有阈值的性能    
衰退(假阳性率) : 假阳性数量除以所有阴性数量的值  
$$F=\frac{FP}{FP+TN}$$  
AUC : 将ROC曲线归纳为一个用来表示分类器预计性能的值,其值为ROC曲线下部分的面积

In [3]:
from sklearn.metrics import roc_curve,auc

### 网格搜索  
产出最优模型超参数值的方法  
接受一个包含所有应该被微调的超参数的可能的集合,并评估在该集合的卡氏积的每一个元素上训练的模型的性能(穷举搜索)  
耗费算力,但可并行解决,进程间没有阻塞

In [4]:
from sklearn.model_selection import GridSearchCV

### 多类别分类  
多类别分类问题的目标是将一个实例分配到类集合中的某一个  
scikit-learn库使用  
一对全 : 对每一个可能的类使用一个二元分类器    
一对剩余 : 

### 汉明损失&杰卡德相似系数  
多标签分类性能衡量指标  
汉明损失 : 不正确标签的平均比例(损失函数,完美得分是0)  
杰卡德指数 : 预测标签和真实标签交集的数量除以预测标签和真实标签并集的数量(取值0~1,1是完美得分)  
$$J(Predict,True)=\frac{Predict\bigcap True}{Predict\bigcup True}$$

In [2]:
from sklearn.metrics import hamming_loss,jaccard_score

### 判别模型&生成模型  
判别模型 : 学习一个决策边界对类进行判别  
概率判别模型 : 如逻辑回归,会学习去估计条件概率P(y|x),就是说会根据给定的输入值去估计最有可能的类  
非概率判别模型 : 如KNN,会直接把特征映射到类  
生成模型 : 对特征和类的联合概率分布P(y,x)进行建模,就是说对类的概率和给定类的情况下特征的概率进行建模,生成概率对类如何生成特征进行建模  
生成模型 : 如贝叶斯,估计给定特征的情况下,一个类的条件概率  
生成模型比判别模型有更大的偏差

### 独立同分布(.i.i.d)  
训练实例相互独立,并且来源于同一个概率分布

### 朴素贝叶斯  
朴素假设 : 所有特征都相互 条件独立于其他给定的响应变量  
贝叶斯定理 :   
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$
特异性 : 衡量真阴性的比例,真正的阴性实例被预测为阴性的比例  
$$\frac{TN}{TN+FP}$$  
一个阳性检验结果的概率等于真阳性和假阳性概率结果之和  
$P(阳性)=P(阳性|患病)P(患病)+P(阳性|未患病)P(未患病)$  
$$P(患病|阳性)=\frac{P(阳性|患病)P(患病)}{P(阳性|患病)P(患病)+P(阳性|未患病)P(未患病)}$$

分类任务中  
将解释变量的特征映射到一个离散的响应变量上,对于给定特征B,必须找出最有可能的标签A  
$$P(y|x_1,\cdots,x_n)=\frac{P(x_1,\cdots,x_n|y)P(y)}{P(x_1,\cdots,x_n)}$$  
y : 正向类  
x : 特征  
n : 特征数量  
P(y) : 先验类概率(训练数据中每个类出现的频率)  
$$\hat{y}=arg\max_yP(y)\prod\limits_{i=1}^nP(x_i|y)$$
$P(x_1,\cdots,x_n|y)$ : 条件概率(属于该类的训练实例特征的频率)
$$\hat{P}(x_i|y_i)=\frac{N_{x_i,y_i}}{N_{y_i}}$$  
分子 : 特征出现在y类训练实例中的次数  
分母 : y类中所有特征出现的总频率  
朴素贝叶斯通过极大化一个后验估计来估计先验概率与条件概率

In [3]:
from sklearn.naive_bayes import GaussianNB,BernoulliNB,MultinomialNB
#高斯朴素贝叶斯 : 适合连续特征,假设每个特征对于每个类都符合正太分布
#伯努利朴素贝叶斯 : 适合二元值特征
#多项式朴素贝叶斯 : 适合类别特征

### 熵  
熵的衡量方式来量化不确定性的程度,熵可以将一个变量中的不确定进行量化,并以比特为单位  
$$H(X)=-\sum\limits_{i=1}^nP(x_i)\log_bP(x_i)$$  
n : 是结果的数量  
$P(x_i)$ : 输出i的概率  
b : 常见取值2,e,10  
由于一个小于1的数值的对数为负数

### 信息增益  
信息增益的指标来衡量熵的减少(表示父节点的熵和子节点的加权平均熵之间的差别)  
$$IG(T,a)=H(T)-\sum\limits_{v\in vals(a)}\frac{|\{x\in T|x_a=v\}|}{|T|}H(\{x\in T|x_a=v\})$$  
H(T) : 父节点的熵  
T : 实例的集合  
a : 检测中使用的特征  
$X_a\in vals(a)$ : 实例x对应的特征a的值  
$X\in T|X_a=v$ : 特征a的值等于v的实例数量  
$H(X\in T|X_a=v)$ : 特征a的值等于v的实例的子集的熵  
父节点熵:0.9852 第一个子节点熵:0.7642 第二个子节点熵:0.7218 加权平均:0.7642*9/14+0.7219*5/14=0.7491 信息增益:0.9852-0.7491=0.2361

### 基尼不纯度(启发式算法)  
衡量一个集合中类的比例  
$$Gini(t)=1-\sum\limits_{i=1}^jP(i|t)^2$$  
j : 类的数量  
t : 节点对应的实例子集  
P(i|t) : 从节点的子集中选择一个属于类i元素的概率  
当集合中所有元素都属于同一类时,由于选择一个元素属于这个类的概率都等于1,因此基尼不纯度等于0  
和熵一样 : 当每个被选择的类概率都相等时基尼不纯度达到最大值  
基尼不纯度的最大值依赖于其依赖的可能类的数量  
$$Gini_{max}=1-\frac{1}{n}$$

### 决策树(勤奋学习模型)  
高方差,低偏差  
决策树学习算法可以从非均衡类比例的数据中产生有偏树  
决策树容易过拟合 : 决策树学习算法会产出完美拟合每一个训练实例的巨型复杂的决策树模型,而无法对真实的关系进行泛化  
剪枝 : 缓和决策树中的过拟合问题,它会移除决策树中一些过深的节点和叶子  
预剪枝 : 通过设置决策树的最大深度,或者只在训练实例数量超出某个阈值时才创建子节点  
集成 : 用于减少过拟合  
ID3(贪婪算法) : 通过做出局部最优决策来高效地学习,但并不保证产出全局最优树  
ID3算法通过选择一个特征序列进行测试来构造一颗树,每一个特征因其在一个节点中相比其他变量更能减少不确定性而被选择,为了找出全局最优树很有可能需要局部次优检测  

In [1]:
from sklearn.tree import DecisionTreeClassifier,DecisionTreeRegressor

### 集成算法  
集成 : 指的是估计器的组合  
套袋法  
推进法  
堆叠法

#### 套袋法(自发聚集)  
是一种能减少一个估计器方差的集成元算法  
用于分类任务和回归任务 : 当组件估计器为回归器时,集成将平均他们的预测结果,当组件估计器为分类器时,集成将返回模类  
套袋法能在训练数据的变体上拟合多个模型(训练数据的变体使用一种称为自发重采样的流程来创建)  
统计数值 : 通常来说,仅仅使用分布的一个样本来估计一个未知概率分布的参数是很有必要的,我们可以使用这个样本来计算一个统计数值,但是这个统计数值将会随我们恰巧取到的样本而变化  
自发重采样 : 一种估计统计数值不确定性的方法,当且仅当样本中的观测值被独立地选取时,该方法才能被使用  
通过重复地对原采样进行替换进行采样来产出采样的多个变体

In [2]:
import numpy as np

In [9]:
#随机重采样
sample=np.random.randint(1,100,10)
sample

array([31, 23, 66, 67, 24, 52, 66, 35, 19, 10])

In [7]:
resample=[np.random.choice(sample,size=sample.shape) for i in range(100)]

In [8]:
print(len(resample))
resample_mean=np.array([x.mean() for x in resample])
resample_mean.mean()

100


56.301000000000016

In [1]:
from sklearn.ensemble import BaggingClassifier,RandomForestClassifier,RandomForestRegressor

#### 推进法  
用于减少一个估计器偏差的集成方法  
AdaBoost

In [11]:
from sklearn.ensemble import AdaBoostClassifier,AdaBoostRegressor,GradientBoostingClassifier,GradientBoostingRegressor

#### 堆叠法(混合法)  
创建集成的方法,使用一个元估计器去合并基础估计器的预测结果  
基础估计器的预测结果和真实情况会作为元估计器的训练集  
元估计器必须训练去使用基础估计器的预测结果来预测响应变量的值

In [12]:
from sklearn.base import clone,BaseEstimator,TransformerMixin,ClassifierMixin

### 激活函数  
感知机通过激活函数处理特征和模型参数的线性组合来对实例进行分类  
特征和模型参数的线性组合也被称作预激活  
$$y=\Phi(\sum\limits_{i=1}^nw_ix_i+b)$$  
$\Phi$ : 激活函数  
$w_i$ : 模型参数  
b : 误差项常数

#### 单元阶跃函数(海维赛德阶跃函数)  
$$g(x)=\begin{cases} 1,& x>0\\0,& 其他\end{cases}$$

#### 逻辑S型曲线(可导函数)  
阶跃函数的光滑版本,它在极值区间内逼近一个阶跃函数,但是可以输出0~1之间的任何值
$$g(x)=\frac{1}{1+e^{-x}}$$  
x : 输入项的权重求和结果  

### 感知机(误差驱动学习算法)  
权重更新公式  
$$w_i(t+1)=w_i(t)+\alpha(true_j-predict_j(t))x_{j,i}$$  
$\alpha$ : 超参数学习率  
j : 实例j  
i : 实例j的第i个特征  
权重参数向实例正确分类的方向进行调整  
epoch : 每遍历一遍所有的训练实例称之为一个训练周期  
收敛 : 如果学习算法在一个训练周期内对所有的训练实例分类正确,则达到收敛状态  
学习算法并非一定能保证能够收敛,所以学习算法需要一个超参数来指定算法终止前能够完成的最大训练周期数  
感知机通过处理实例特征和权重系数的线性组合,并根据激活函数的输出结果来对实例进行分类  
使用逻辑S型曲线激活函数的感知机模型和逻辑回归模型相同,但感知机在学习其权重系数时使用了一种在线的,误差驱动算法  

In [1]:
from sklearn.linear_model import Perceptron

### 支持向量机SVM(判别模型)  
使用线性模型逼近非线性模型时,增加特征空间的维度虽然是一种有效的技巧  
计算问题 : 计算映射特征和计算更大的向量会需要更多的算力  
模型泛化能力 : 增加特征表示的维度会加剧维度诅咒的程度(为了避免拟合,从高维度特征表示中学习需要的训练数据将会呈指数增加)  
使用SVM时对特征缩放是很重要的  

#### 对偶形式  
$$f(x)=<w,x>+b=\sum\alpha_iy_i<x_i,x>+b$$  
原始形式计算了模型参数和测试实例特征向量的内积  
对偶形式计算了训练实例和测试实例特征向量的内积  

#### 核  
核是这样一个函数 : 只要给定了原始特征向量,就能返回和其相关的映射特征向量相同的点积值  
$$K(x,z)=<\phi(x),\phi(z)>$$  
$$x=(x_1,x_2)$$  
$$z=(z_1,z_2)$$  
$$<\phi(x),\phi(z)>=<(x_1^2,x_2^2\sqrt{2}x_1x_2),(z_1^2,z_2^2\sqrt{2}z_1z_2)>$$  
$$K(x,z)=<x,z>^2=(x_1z_1+x_2z_2)^2=x_1^2z_1^2+2x_1z_1x_2z_2+x_2^2z_2^2$$  
常用的核函数 : 多项式核 S型核 高斯核 线性核  
多项式核 : $K(x,x')=(\gamma<x-x'>+r)^k$(k=2平方核,常被用于自然语言处理)  
S型核 : $K(x,x')=\tanh(\gamma<x-x'>+r)$  
高斯核(径向基函数) : $K(x,x')=\exp(-\gamma|x-x'|^2)$ (高斯核产出的特征空间可以拥有无限维度)  
核函数能和任何能够被表示为两个特征向量点积的模型一起使用(逻辑回归 感知机 主成分分析)

#### 函数间隔  
评估预测的可信度 : 实例越靠近决策边界被预测为正向类的概率机会越低  
$$funct=\min y_if(x_i)$$  
$$f(x)=<w,x>+b$$  
函数间隔等于1的实例称为支持向量  

#### 几何间隔  
几何间隔等于函数间隔的标准化  
函数间隔能通过w进行缩放  
当w是一个单位向量时,几何间隔等于函数间隔  
最佳决策边界 : 具有最大几何间隔的决策边界(约束优化问题)  
$$\min\frac{1}{2}<w,w>$$  
$$s.t.  y_i(<w_i,x_i>+b)\geq 1$$  
凸优化问题,它的局部最小值也是全局最小值  
表示为模型的对偶形式以适应核函数  
$$W(\alpha)=\sum\limits_i\alpha_i-\frac{1}{2}\sum\limits_{i,j}\alpha_i\alpha_jy_iy_jK(x_i,x_j)$$  
$$s.t.   \sum\limits_{i=1}^ny_i\alpha_i=0$$  
$$s.t.   \alpha_i\leq 0$$  
找出使几何间隔最大化的参数是一个二次规划问题,该问题通常使用序列最小优化算法(SMO)  
SMO : 将优化问题分解成为一系列尽可能小的子问题,可以被分析解决

In [1]:
from sklearn.svm import SVC,SVR

### 人工神经网络(ANN)  
ANN : 可用于监督学习和非监督任务(非线性模型)  
ANN : 由人工神经元组成的有向图,图的边代表权重,这些权重都是模型需要学习的参数  
模型的架构(拓扑) : 描述了神经元的类型和神经元之间的连接结构  
激活函数  
权重最优值的学习方法  

#### 前馈神经网络  
通过有向非循环图来定义  
信息只在一个方向上朝着输出层进行传递  
用于学习一个将输入映射到输出的函数  

#### 反馈神经网络(递归神经网络)  
包含循环,表示网络的一种内部状态,它会导致网络的行为基于本身的输入随着时间变化而发生变化  
用于处理输入序列

#### 反向传播  
计算一个神经网络的代价函数针对其每一个权重的梯度  
反向传播算法是一种迭代算法,每次迭代包含两个阶段    
第一阶段 : 向前传播(向前传递),输入通过网络的神经元层向前传播直到到达输出层,然后,损失函数可以用来计算预测的误差  
第二阶段 : 向后传播阶段,误差从代价函数向输入传播以便每个神经元对于误差的贡献能够被估计

#### 链式法则  
用于计算两个或更多函数组合的导数  
假设变量z依赖于y,y依赖于x,z针对x的导数  
$$\frac{dz}{dx}=\frac{dz}{dy}\cdot\frac{dy}{dx}$$

In [1]:
from sklearn.neural_network import MLPClassifier,MLPRegressor # 多层感知机

### 主成分分析(PCA)  
PCA(卡尔胡宁-勒夫转换KLT) : 在高维空间中发现模式的技术  
降维可以压缩数据,将丢失的数据最小化  


In [1]:
from sklearn.decomposition import PCA