Skip to content

Latest commit

 

History

History
52 lines (31 loc) · 2.1 KB

机器学习笔记一--基本概念.md

File metadata and controls

52 lines (31 loc) · 2.1 KB

基本概念

一、机器学习(Machine Learning)定义

  • 多领域交叉学科,涉及概率论,统计学,逼近论,凸分析算法复杂度理论等多门学科
  • 专门研究机器怎么模拟或实现人类的学习行为,以获得新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

学习:针对经验E(Experience)和一系列的任务T(tasks)和一定表现的衡量P,随着经验E的积累,针对定义好的任务T,可以提高表现P,就说计算机具有学习能力。

二、术语

训练集(training set):用来进行训练,产生模型或者算法的数据集。

测试集(testing set):用来专门测试已经学习好的模型或者算法的数据集。

特征向量(features):实例的属性(特征)的集合通常用一个向量表示,成为特征向量。

标记(label):实例类别的标记。

正例:positive example

反例:negative example

误差:学习器(训练模型)实际预测输出与样本的真实输出之间的差异。

训练误差(经验误差):学习器在训练集上产生的误差。

泛化误差:学习器在新样本上产生的误差。

分类(classification):目标标记(label)为类别型数据。(离散)

  1. 决策树Decision Tree(ID3决策树归纳算法)

  2. 临近取样Nearest Neighbor(KNN)

  3. 支持向量机Support Vector Machine(SVM)

  4. 神经网络算法Neural Network

回归(regression):目标标记为连续型数值。(连续)

三、机器学习分类

  1. 有监督学习(supervised learning):训练集有类别标记。(分类,回归)

  2. 无监督学习(unsupervised learning):训练集无类别标记。(聚类,关联规则)

  3. 半监督学习。

四、机器学习步骤

机器学习步骤:

  1. 把数据拆分成训练集和测试集。

  2. 用训练集和训练集的特征向量来训练算法。

  3. 用学习来的算法运用在测试集上来评估算法。