# 输出层的设计

## 3.5.0 基础知识

神经网络主要用在：
- 分类问题：**区分**数据属于哪一个类别的问题，如：图像中的人是男人还是女人
- 回归问题：根据已有的某个输入数据来**预测**一个（连续的）数值问题，如：根据图像预测该人的体重

要依据实际情况改变输出层的激活函数：
- 分类问题——**恒等函数**
- 回归问题——**softmax函数**

## 3.5.1 恒等函数和softmax函数

- **恒等函数：**将输入原封不动的输出
- softmax函数：

In [1]:
import numpy as np

a = np.array([0.3, 2.9, 4.0])
exp_a = np.exp(a)  # 指数函数
print(exp_a)

[ 1.34985881 18.17414537 54.59815003]


In [2]:
sum_exp_a = np.sum(exp_a)
print(sum_exp_a)

74.1221542101633


In [3]:
y = exp_a / sum_exp_a
print(y)

[0.01821127 0.24519181 0.73659691]


### 封装softmax函数(3.10)

In [4]:
def softmax_310(a):
    exp_a = np.exp(a)
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

## 3.5.2 实现softmax函数时的注意事项

尽管上述定义的softmax函数可以正确描述softmax函数的公式，但是因为表示的数值是有限的，故而存在**溢出问题**，即当指数函数的值比较大时，计算结果存在“不确定”的情况。

解决方案如下：

In [5]:
import numpy as np
a = np.array([1010, 1000, 990])
np.exp(a) / np.sum(np.exp(a))

  This is separate from the ipykernel package so we can avoid doing imports until


array([nan, nan, nan])

In [6]:
c = np.max(a)

In [7]:
a- c 

array([  0, -10, -20])

In [8]:
np.exp(a - c) / np.sum(np.exp(a - c))

array([9.99954600e-01, 4.53978686e-05, 2.06106005e-09])

### 封装softmax进阶函数(3.11)

In [11]:
def softmax_311(a):
    c = np.max(a)
    exp_a = np.exp(a - c)  # 溢出对策
    sum_exp_a = np.sum(exp_a)
    y = exp_a / sum_exp_a
    
    return y

## 3.5.3 softmax函数的特征
使用softmax()函数，可以按如下方式计算神经网络的输出：

In [12]:
a = np.array([0.3, 2.9, 4.0])
y = softmax_311(a)
print(y)

[0.01821127 0.24519181 0.73659691]


- softmax函数输出的是0.0—1.0之间的实数
- softmax函数的输出值总和是1
- 将softmax函数的输出解释为“概率”

一般而言神经网络只把输出值最大的神经元所对应的类别作为识别结果。而且即便是使用softmax函数，输出值最大的神经元的位置也不会改变，因此**输出层的softmax函数一般会省略**

> 求解机器学习问题可分为“学习” 和 “推理”两个阶段

> 学习阶段：进行模型的学习，本阶段输出层会使用softmax函数

> 推理阶段：利用学到的模型对未知数据进行推理（分类），本阶段输出层会省略softmax函数
