- 多领域交叉学科,涉及概率论,统计学,逼近论,凸分析算法复杂度理论等多门学科
- 专门研究机器怎么模拟或实现人类的学习行为,以获得新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
学习:针对经验E(Experience)和一系列的任务T(tasks)和一定表现的衡量P,随着经验E的积累,针对定义好的任务T,可以提高表现P,就说计算机具有学习能力。
训练集(training set):用来进行训练,产生模型或者算法的数据集。
测试集(testing set):用来专门测试已经学习好的模型或者算法的数据集。
特征向量(features):实例的属性(特征)的集合通常用一个向量表示,成为特征向量。
标记(label):实例类别的标记。
正例:positive example
反例:negative example
误差:学习器(训练模型)实际预测输出与样本的真实输出之间的差异。
训练误差(经验误差):学习器在训练集上产生的误差。
泛化误差:学习器在新样本上产生的误差。
分类(classification):目标标记(label)为类别型数据。(离散)
1. 决策树Decision Tree(ID3决策树归纳算法)
2. 临近取样Nearest Neighbor(KNN)
3. 支持向量机Support Vector Machine(SVM)
4. 神经网络算法Neural Network
回归(regression):目标标记为连续型数值。(连续)
-
有监督学习(supervised learning):训练集有类别标记。(分类,回归)
-
无监督学习(unsupervised learning):训练集无类别标记。(聚类,关联规则)
-
半监督学习。
机器学习步骤:
-
把数据拆分成训练集和测试集。
-
用训练集和训练集的特征向量来训练算法。
-
用学习来的算法运用在测试集上来评估算法。