## 1.1 人工智能、机器学习与深度学习
计算机可以利用其巨大的存储空间和超高的计算速度，完成一些对于人类非常困难的问题，例如计算书本不同单词出现次数，复杂的数学公式等等。然而，对于一些人类能够通过直觉很快解决的问题，目前却很难通过计算机解决。这其中包括自然语言处理，图像识别和语音识别等。这也是人工智能需要解决的问题。<br/>
早期的人工智能是通过相对特定的环境(specific domain)，在这些特定的环境下计算机需要了解的知识很容易被严格并完整地定义。例如：IBM的深蓝(Deep Blue)在1997年打败国际象棋冠军。<br/>
为了使计算机掌握更多的开放环境(open domain)下的知识，研究人员有很多尝试，最有影响力的领域是知识图库(Ontology)，其中最著名的就是WordNet，将155287个单词正例为117659个近义词集。除了WordNet，也有不少研究人员尝试将Wikipedia中的知识整理成知识图库。<br/>
知识图库虽然可以通过定义掌握知识，但是需要耗费大量人力物力，另一方面并不是所有的知识都可以通过固定格式让计算机理解。因此这就是机器学习需要解决的问题。<br/>
卡内基梅隆大学的Tom Michael Mitchell在1997年出版的Machine Learning书中对机器学习进行专业的定义，这个定义在学术界也被多次引用。<br/>
> 如果一个程序可以在任务T上，随着经验E的增加，效果P也可以随之增加，则称这个程序可以从经验中学习。<br/>

在大部分情况下，训练数据达到一定数量之前，越多的训练数据可以是机器学习算法有更高的准性。但是，机器学习算法除了依赖训练数据的数量之外，也依赖于从数据中提取的特征。但是对于许多机器学习问题来说，提取特征不是一件简单的事情。在一些复杂问题上，需要通过人工的方式设计有效的特征集合，需要花费很多的精力和时间。因此这也是很多传统机器学习算法的一个共同的问题。<br/>
因此深度学习解决的核心问题之一就是实现算法对特征的自动提取。深度学习算法自动将简单的特征组合成更加复杂的特征，并利用这些组合特征解决问题。深度学习是机器学习的一个分支，除了可以学习特征和任务之间的关联，还能自动从简单特征中特区更加复杂的特征。
![image.png](attachment:image.png)
早期的深度学习受神经科学的启发，但是现代的深度学习的发展并不拘泥与模拟人脑神经元和人脑的工作机理。模拟人类大脑也不再是深度学习研究的主导方向。而有一个领域的研究者试图从算法层理解大脑的工作机制，不同于深度学习的领域，被称为"计算神经学"(computational neuroscience)。深度学习领域主要关注如何搭建智能的计算机系统，解决人工智能中遇到的问题。计算神经学则主要关注如何建立更准确的模型来模拟人类大脑的工作。<br/>
总的来说，人工智能、机器学习和深度学习的关系图如下：
![image.png](attachment:image.png)

## 1.2 深度学习的发展历程
深度学习基本上是神经网络的代名词，而神经网络技术可以追溯到1943年。神经网络的发展史大致可以分为三个阶段。
- 仿生机器学习<br/>
试图模拟大脑的学习机理。最早的神经网络数学模型由Warren McCulloch和Walter Pitts在1943年的论文`A logical calculus of the ideas immanent in nervous activity`中提出。该结构大致模拟人类神经元的工作原理，将一些输入使用简单的线性加权和的方式，在经过一些变换后，得到一个0或1的输出。<br/>
McCulloch-Pitts Neuron结构中的权重需要进行特殊的设置，手动设置这些权重是一种选择，但通过人类经验设置权重的方式既麻烦又很难达到最优的效果。因此Frank Rosenblatt在1958年提出感知机模型(perceptron)。感知机是首个根据样例数据来学习特征权重的模型。<br/>
1969年Marvin Minsky和Seymour Papert出版的`Perceptrons: An Introduction to Computational Geometry`一书中，证明感知机模型只能解决线性可分问题，并明确指出感知机无法解决异或问题。并且在当时的计算能力下，也无法实现多层的神经网络。这导致神经网络进入第一次低潮期。<br/>
- 分布式知识表达和反向传播算法<br/>
分布式的知识表达的核心思想是现实世界中的知识和概念应该通过多个神经元来表达，而模型中的每一个神经也应该参与表达多个概念。分布式知识表达大大加强了模型的表达能力，让神经网络从宽度的方向走向深度的方向。为之后深度学习奠定了基础。<br/>
在20世纪80年代末，研究人员在降低训练神经网络的计算复杂度上也取得了突破性成果。David Everett Rumelhart、Geoffrey Everest Hinton和Ronald J. Williams发表了`Learning Representations by Back-propagating erros`。文章首次提出了反向传播算法，此算法大大降低了神经网络训练时间。直到今天，反向传播算法依然是训练神经网络的主要方法。Sepp Hochreiter和Jurgen Schmidhuber于1991年提出LSTM模型。由于训练数据量比较小，当时的计算资源以及支持向量机算法的出现，导致神经网络陷入二次低潮。<br/>
- 深度学习<br/>
随着计算机性能的进一步提升，云计算、GPU的出现，以及深度学习算法的创新，深度学习的发展开启了AI的一个新时代。

## 1.3 深度学习的应用

- 计算机视觉<br/>
- 语音识别<br/>
- 自然语言处理<br/>
- 人机博弈<br/>