基本概念

一、机器学习(Machine Learning)定义

学习：针对经验E（Experience）和一系列的任务T（tasks）和一定表现的衡量P，随着经验E的积累，针对定义好的任务T,可以提高表现P，就说计算机具有学习能力。

训练集（training set）：用来进行训练，产生模型或者算法的数据集。

测试集（testing set）：用来专门测试已经学习好的模型或者算法的数据集。

特征向量（features）：实例的属性（特征）的集合通常用一个向量表示，成为特征向量。

标记（label）：实例类别的标记。

正例：positive example

反例：negative example

误差：学习器（训练模型）实际预测输出与样本的真实输出之间的差异。

训练误差(经验误差)：学习器在训练集上产生的误差。

泛化误差：学习器在新样本上产生的误差。

分类（classification）:目标标记（label）为类别型数据。（离散）

　　1. 决策树Decision Tree（ID3决策树归纳算法）

　　2. 临近取样Nearest Neighbor（KNN）

　　3. 支持向量机Support Vector Machine（SVM）

　　4. 神经网络算法Neural Network

回归（regression）：目标标记为连续型数值。（连续）

机器学习步骤：