##  前馈神经网络 

### 神经元
![](img/NN.png)

假设一个神经元接受d个输入 $X_1,X_2,..,X_d$,令向量 $X = [X_1;X_2;...;X_d]$来
表示这组输入，并用净输入（Net Input）$z \in R $表示一个神经元所获得的输入信号x的加权和，
$$ Z = \sum_{i =1}^d w_ix_i + b 
\\ = W^TX+b$$

其中 $ w = [w_1;w_2;...;w_d] \in R^d$ 是 d维 的权重向量 $ b \in R$ 是偏置
净输入 z 在经过一个非线性函数 $f(x)$ 后，得到神经元的活性值(Activation) a
$$ a = f(z) $$
其中非线性函数$f(x)$称为激活函数（Activation Function）。
### 激活函数 
激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能
力，激活函数需要具备以下几点性质：
1. 连续并可导（允许少数点上不可导）的非线性函数。可导的激活函数可以
直接利用数值优化的方法来学习网络参数。
2. 激活函数及其导函数要尽可能的简单，有利于提高网络计算效率。
3. 激活函数的导函数的值域要在一个合适的区间内，不能太大也不能太小，
否则会影响训练的效率和稳定性。

#### Sigmoid型激活函数
Sigmoid型函数是指一类S型曲线函数，为两端饱和函数。常用的Sigmoid
型函数有Logistic函数和Tanh函数。
Logistic 型 
$$f(x) = \frac {1}{1+exp(-x)}$$
Tanh 型
$$ tanh(x) = \frac {exp(x) - exp(-x)} {exp(x) + exp(-x)}$$
![](img/sigmoid.png)

#### ReLU
修正线性单元（Rectified Linear Unit，ReLU）[Nair and Hinton, 2010]，也
叫rectifier函数[Glorot et al., 2011]，是目前深层神经网络中经常使用的激活函
数。ReLU实际上是一个斜坡（ramp）函数，定义为
$$ ReLU(x) = max(0,x)$$
带泄露的ReLU（Leaky ReLU）在输入 x < 0时，保持一个很小的梯度$\lambda$。
这样当神经元非激活时也能有一个非零的梯度可以更新参数，避免永远不能被
激活[Maas et al., 2013]。带泄露的ReLU的定义如下：
$$LeakyReLU(x) = max(x,\lambda x)$$
带参数的ReLU（Parametric ReLU，PReLU）引入一个可学习的参数，不
同神经元可以有不同的参数[He et al., 2015]。对于第i个神经元，其PReLU的
定义为
$$PReLU(x) = max(0,x) + \lambda_i min(0,x) $$
指数线性单元（Exponential Linear Unit，ELU）[Clevert et al., 2015]是一
个近似的零中心化的非线性函数，其定义为
$$ELU(x) = max(0,x) + min(0,\lambda(exp(x) -1))$$
Softplus函数[Dugas et al., 2001]可以看作是rectifier函数的平滑版本，其
定义为
$$Softplus(x) = log(1+exp(x))$$
![](img/ReLU.png)

#### 前馈神经网络 
![](img/FN.png)
• L：表示神经网络的层数；

• $m^{(l)}$：表示第l 层神经元的个数；

• $f_l(x)$：表示l 层神经元的激活函数；

• $W^{(l)} \in R^{m^l * m^{l-1}}$：表示l − 1层到第l 层的权重矩阵；

• $b^{(l)} \in R^{m^l}$：表示l − 1层到第l 层的偏置；

• $z^{(l)} \in R^{m^l}$：表示l 层神经元的净输入（净活性值）；

• $a^{(l)} \in R^{m^l}$：表示l 层神经元的输出（活性值）。

传播方式
$$ z^{(l)} = W^{(l)} a^{(l-1)} + b^{(l)}$$
$$ a^{(l)} = f_l(z^{(l)})$$

#### 反向传播
![](img/BP.png)
#### 优化
![](img/batch.png)
![](img/learning_rate.png)
![](img/GD.png)
![](img/center.png)
![](img/Mnist.png)
#### 参数初始化
![](img/Init.png)
#### 网络正则化
![](img/Regularization1.png)
![](img/Regularization2.png)
#### 超参数优化
![](img/Super.png)
#### 归一化
![](img/Normalization1.png)
![](img/Normalization2.png)

In [None]:
#DEMO
#!/usr/bin/env python 
# -*- coding:utf-8 -*-
import  tensorflow as tf
from numpy.random import RandomState
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
#定义训练数据batch的大小
batch_size = 8

#定义参数
w1 = tf.Variable(tf.random_normal((2,3),stddev=2,seed = 1))
w2 = tf.Variable(tf.random_normal((3,1),stddev=2,seed = 1))

x = tf.placeholder(tf.float32,shape = (None,2),name='x-input')
y_ =  tf.placeholder(tf.float32,shape = (None,1),name='y-input')

#定义前向传播

a = tf.matmul(x,w1)
y = tf.matmul(a,w2)

#定义损失函数 和 反向传播
y = tf.sigmoid(y)
cross_entropy = -tf.reduce_mean(
    y_ * tf.log(tf.clip_by_value(y,1e-10,1.0))
    + (1-y_)* tf.log(tf.clip_by_value(1-y,1e-10,1.0))
)
train_step = tf.train.AdamOptimizer(0.001).minimize(cross_entropy)

#随机数生成模拟数据集
rdm = RandomState(1)
dataset_size = 128
X = rdm.rand(dataset_size,2)

#定义样本标签 所有x1+x2< 1 的样本都被认为是正样本
#其他为负样本  正样本为 1 负样本为 0

Y= [[int (x1+x2 <1)]for (x1,x2) in X]

#创建Session()
with tf.device('/gpu:0'):
    with tf.Session() as sess:
        init_op = tf.global_variables_initializer()
        sess.run(init_op)
        print(sess.run(w1))
        print(sess.run(w2))
        #设定训练的轮数
        STEPS = 5000
        for i in range(STEPS ) :
            #每次选取 batch 个样本进行训练
            start = ( i* batch_size) % dataset_size
            end = min(start+batch_size,dataset_size)

            #通过选区的样本训练神经网络并更新参数

            sess.run(train_step,
                     feed_dict = {x:X[start:end],y_:Y[start:end]})
            if i % 1000 == 0 :
                #每隔一段时间计算在素有数据上的交叉熵并输出
                total_cross_entropy = sess.run(
                    cross_entropy,feed_dict ={x:X,y_:Y})

                print("After %d training step(s),cross entropy on all data is %g"%(i,total_cross_entropy))
            print(sess.run(w1))
            print(sess.run(w2))



## fasttext 
### 架构
fastText算法是一种有监督的模型，CBOW，通过上下文预测中间词，而fastText则是通过上下文预测标签（这个标签就是文本的类别，是训练模型之前通过人工标注等方法事先确定下来的）。

fastText模型的输入是一个词的序列（一段文本或者一句话)，输出是这个词序列属于不同类别的概率。在序列中的词和词组构成特征向量，特征向量通过线性变换映射到中间层，再由中间层映射到标签。fastText在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。
![](img/fasttext.png)
第一个权重矩阵w_1可以被视作某个句子的词查找表。词表征被平均成一个文本表征，然后其会被馈送入一个线性分类器。

这个构架和CBOW模型相似，只是中间词（middle word）被替换成了标签（label）。该模型将一系列单词作为输入并产生一个预定义类的概率分布。

我们使用一个softmax方程来计算这些概率。当数据量巨大时，线性分类器的计算十分昂贵，所以fastText使用了一个基于霍夫曼编码树的分层softmax方法。常用的文本特征表示方法是词袋模型，然而词袋（BoW）中的词顺序是不变的，但是明确考虑该顺序的计算成本通常十分高昂。

作为替代，fastText使用n-gram获取额外特征来得到关于局部词顺序的部分信息
### 层次Softmax
分层softmax的目的是降低softmax层的计算复杂度。 

二叉树。Hierarchical softmax本质上是用层级关系替代了扁平化的softmax层，如图1所示，每个叶子节点表示一个词语（即霍夫曼树的结构）

我们可以把原来的softmax看做深度为1的树，词表V中的每一个词语表示一个叶子节点。如果把softmax改为二叉树结构，每个word表示叶子节点，那么只需要沿着通向该词语的叶子节点的路径搜索，而不需要考虑其它的节点。这就是为什么fastText可以解决不平衡分类问题，因为在对某个节点进行计算时，完全不依赖于它的上一层的叶子节点（即权重大于它的叶结点），也就是数目较大的label不能影响数目较小的label（即图5中B无法影响A和C）。

平衡二叉树的深度是log2(|V|)，因此，最多只需要计算log2(|V|)个节点就能得到目标词语的概率值。hierarchical softmax定义了词表V中所有词语的标准化概率分布。

此方法只是加速了训练过程，因为我们可以提前知道将要预测的词语（以及其搜索路径）。在测试过程中，被预测词语是未知的，仍然无法避免计算所有词语的概率值。 
### N-gram
fastText 还加入了 N-gram 特征。“我爱你”的特征应当是“我”、“爱”、“你”。那么“你爱我”这句话的特征和“我爱你”是一样的，因为“我爱你”的bag（词袋）中也是只包含“你”、“爱”、“我”。

还是那句话——“我爱你”：如果使用2-gram，这句话的特征还有 “我-爱”和“爱-你”，这两句话“我爱你”和“你爱我”就能区别开来了，因为“你爱我”的2-gram的特征还包括“你-爱”和“爱-我”，这样就可以区分“你爱我”和“我爱你”了。为了提高效率，实务中会过滤掉低频的 N-gram。否则将会严重影响速度。 

在fastText 中一个低维度向量与每个单词都相关。隐藏表征在不同类别所有分类器中进行共享，使得文本信息在不同类别中能够共同使用。这类表征被称为词袋（bag of words）（此处忽视词序）。在 fastText中也使用向量表征单词 n-gram来将局部词序考虑在内，这对很多文本分类问题来说十分重要。

参考 ： https://blog.csdn.net/weixin_36604953/article/details/78324834

In [None]:
import fasttext
classfier = fasttext.supervised("E:/NLP/Task6/news_fasttext_train.txt","E:/NLP/Task6/news_fasttext.model",label_prefix = "__label__")