# 二分类神经网络的理论基础

![image.png](attachment:image.png)

![image.png](attachment:image.png)

从图像上就可以看出，这个函数的性质相当特别。当自变量趋近正无穷时，因变量σ趋近于1，而当2趋近负无穷时，σ趋近于0，这使得sigmoid函数能够将任何实数映射到(0,1)区间。同时，sigmoid的导数在z = 0点时最大 (这一点的斜率最大)，所以它可以快速将数据从z = 0的附近排开，让数据点到远离自变量取0的地方去。<b>这样的性质，让sigmoid函数拥有将连续性变量z转化为离散型变量σ的力量，这也就是化回归算法为分类算法的力量。

只要将线性回归方程的结果作为自变量带入sigmoid函数，得出的数据就定是(0,1)之间的值。此时，只要我们设定一个阈值(比如0.5) ，规定大于0.5时，预测结果为1类，o小于0.5时，预测结果为0类，则可以顺利将回归算法转化为分类算法。此时，我们的标签就是类别0和1了。这个阈值可以自己调整，在没有调整之前，一般默认0.5

![image-2.png](attachment:image-2.png)

![image-2.png](attachment:image-2.png)

不难发现，让σ取对数几率后所得到的值就是我们线性回归的z! 因为这个性质，在等号两边加sigmoid的算法被称为“对数几率回归”，在英文中就是Logistic Regression，就是逻辑归。逻辑回归可能是广义线性回归中最广为人知的算法，它是一个叫做“回归“实际上却总是被用来做分类的算法，对机器学习和深度学习都有重大的意义。在面试中，如果我们希望了解一个人对机器学习的理解程度，第一个问题可能就会从sigmoid函数以及逻辑回归是如何来的开始。

![image.png](attachment:image.png)

#  tensor实现二分类神经网络的正向传播

我们可以在PyTorch中非常简单地实现逻辑回归的预测过程，让我们来看下面这一组数据。很容易注意到，这组数据和上面的回归数据的特征 (1,t2)是完全一致的，只不过标签y由连续型结果转变为了分类型的0和1。这一组分类的规律是这样的: 当两个特征都为1的时候标签就为1，否则标签就为0。这一组特殊的数据被我们称之为“与门”(AND GATE)这里的“与”正是表示“特征一与特征二都是1”的含义。

![image.png](attachment:image.png)

In [9]:
import torch

In [10]:
X = torch.tensor([[1,0,0],[1,1,0],[1,0,1],[1,1,1]],dtype = torch.float32)
X

tensor([[1., 0., 0.],
        [1., 1., 0.],
        [1., 0., 1.],
        [1., 1., 1.]])

In [11]:
andgate = torch.tensor([0,0,0,1],dtype = torch.float32).reshape(4,1)
andgate

tensor([[0.],
        [0.],
        [0.],
        [1.]])

In [12]:
w = torch.tensor([-0.2,0.15,0.15],dtype = torch.float32 ).reshape(3,1)
w

tensor([[-0.2000],
        [ 0.1500],
        [ 0.1500]])

In [20]:
def LogisticR(X,w):
    zhat = torch.mm(X,w)
    sigma = 1/(1+torch.exp(-zhat))
    # sigma = torch.sigmoid(zhat)  torch内置sigmoid函数
    # 0.5 为设置的阈值
    andhat = torch.tensor([int(x) for x in sigma >= 0.5],dtype = torch.float32).reshape(4,1)
    return sigma,andhat

In [24]:
sigma,andhat = LogisticR(X,w)

In [25]:
sigma

tensor([[0.4502],
        [0.4875],
        [0.4875],
        [0.5250]])

In [26]:
andhat

tensor([[0.],
        [0.],
        [0.],
        [1.]])

In [27]:
andgate == andhat

tensor([[True],
        [True],
        [True],
        [True]])

# 符号函数sign, ReLU, Tanh 

<li> 符号函数sign

![image.png](attachment:image.png)

由于函数的取值是间断的，<b>符号函数也被称为“阶跃函数”，</b>表示在0的两端，函数的结果y是从-1直接阶跃到了1。在这里，我们使用y而不是来表示输出的结果，是因为输出结果直接是0、1、-1这样的类别，就相当于标签了。对于sigmoid函数而言，o返回的是0~1之间的概率值，如果我们希望获取最终预测出的类别，还需要将概率转变成0或1这样的数字才可以。但符号函数可以直接返回类别，因此我们可以认为符号函数输出的结果就是最终的预测结果y。在二分类中，符号函数也可以忽略中间z = 0的时候，直接分为0和1两类，用如下式子表示:

![image.png](attachment:image.png)

等号被并在上方或下方都可以。这个式子可以很容易被转化为下面的式子

![image-2.png](attachment:image-2.png)

此时，-b就是一个阙值，我们可以使用任意字母来替代它，比较常见的是字母0。当然，不把它当做闯值，依然保留wl21 + w222 +6与进行比较的关系也没有任何问题。和sigmoid一样，我们也可以使用阶跃函数来处理”与门“的数据:

![image.png](attachment:image.png)

阶跃函数和sigmoid都可以完成二分类的任务。在神经网络的二分类中，o的默认取值一般都是sigmoid函数，少用阶跃函数，这是由神经网络的解法决定的，我们将在第三部分来详细讲解。

<li>ReLU

ReLU(Rectified Linear Unit)函数又名整流线型单元函数，英文发音为/rel-you/，是现在神经网络领域中的宠儿，应用甚至比sigmoid更广泛。ReLU提供了一个很简单的非线性变换: 当输入的自变量大于0时，直接输出该值，当输入的自变量小于等于0时，输出0。这个过程可以用以下公式表示出来:

![image.png](attachment:image.png)

ReLU函数是一个非常简单的函数，本质就是max(0,z)。max函数会从输入的数值中选择较大的那个值进行输出，以达到保留正数元素，将负元素清零的作用。ReLU的图像如下所示:

![image.png](attachment:image.png)

![image.png](attachment:image.png)

当输入z为正数时，ReLU函数的导数为1，当z为负数时，ReLU函数的导数为0，当输入为时，ReLU函数不可导。因此，ReLU函数的导数图像看起来就是阶跃函数，这是一个美好的巧合。

<li>tanh

tanh (hyperbolic tangent) 是双曲正切函数，英文发音/taent//或者/aen/ (两者均来源于柯林斯简明词典，p1520) 。双曲正切函数的性质与sigmoid相似，它能够将数值压缩到(-1,1)区间内。

![image.png](attachment:image.png)

![image.png](attachment:image.png)

可以看出，tanh的图像和sigmoid函数很像，不过sigmoid函数的范围是在(0,1)之间，tanh却
是在坐标系的原点(0,0)点上中心对称。

对tanh求导后可以得到如下公式和导数图像:

![image.png](attachment:image.png)

可以看出，当输入的2约接近于0，tanh函数导数也越接近最大值1，当输入越偏离0时tanh函数的导数越接近于0。这些函数是最常见的二分类转化函数，他们在神经网络的结构中有着不可替代的作用。在单层神经网络中，这种作用是无法被体现的，因此关于这一点我们可以之后再进行说明。到这里，我们只需要知道这些函数都可以将连续型数据转化为二分类就足够了。