# WEEK1      
> ## 数学符号     

$x^{<t>},y^{<t>}$代表输入输出的序列第$t$个时刻的位置    
$x^{(i)<t>},y^{(i)<t>}$代表输入输出的序列第$i$个样本第$t$个时刻位置的值      
$T_x,T_y$输入输出序列的长度    
$T_x^{(i)},T_x^{(i)}$代表第$i$个训练样本输入/输出序列的长度

> ## NLP      

NLP的做法：      
变量的每个维度代表一个句子的一个词：     
1. 做一张词表/词典，包含你需要使用的词语（常用词）    
2. 对输入序列One-hot编码（词典长度\*序列长度）    
3. 如果遇到不在词典中的词语——创作一个虚拟词汇（UNK,Unknown）     
<img style="float: center;" src="course_5_pics/WEEK_1_1.PNG" width=600 height=600>     

> ## 循环神经网络    

### 传统神经网络面对序列识别的问题
1. 输入序列非定长，填充不是一个好办法(pad会假设一个最大的文本长度)    
2. 没有学习到不同位置的输入(比如文本不同位置的意思)的意义             
    假设$x^{<1>}$处学到一个词的意思(比如断句),但当该词汇出现在$x^{<t>}$处，那么没办法识别到    
    
### 循环神经网络的基本工作    

- 初始时刻输入一个激活值（通常是0）    
从左到右读取一个句子（序列），那么这个第一个词的结构是$x^{<1>}$，当再读取$x^{<2>}$时会引入$x^{<1>}$的信息             
<img style="float: center;" src="course_5_pics/WEEK_1_2.PNG" width=600 height=600>  
$W_{ax}$代表$x$到隐藏层的连接的一系列参数,循环连接/水平链接$W_{aa}$，输出链接$W_{ya}$    

**从左到右扫描序列，所有的参数也是共享的**    

**问题**：只考虑到之前的信息，没有考虑到之后的信息，$x^{<t>}$只考虑了$\cdots,x^{<t-1>}$，没有考虑$x^{<t+1>}\cdots$       

### 循环神经网络前向传播       
1. **初始化激活向量$a^{<0>}= \vec{0}$**    


2. **$a^{<t>} = g(w_{aa}a^{<t-1>}+w_{ax}x^{<t>}+b_a)=g(w_{a}[a^{<t-1>},x^{<t>}]^{T}+b_a)$**  
    
    其中$w_a = [w_{aa},w_{ax}]$

<img style="float: center;" src="course_5_pics/WEEK_1_3.PNG" width=600 height=600> 
3. $\hat y^{<t>} = g(w_{ya}a^{<t>}+b_y)$      

    - 对于输出函数    
        二分类——Sigmoid    
        多分类——Softmax     
        
> ## 循环神经网络的反向传播          

**单个时间步上的Lost function**：
$$L^{<t>}(\hat y^{<t>},y^{<t>}) = -y^{<t>}log\hat y^{<t>}-(1-y^{<t>})log(1-\hat y^{<t>})$$     
**总的损失函数：所有单个时间步损失函数的求和**
$$L(\hat y,y) = \sum ^{T_x}_{t=1}L^{<t>}(\hat y^{<t>},y^{<t>})$$     

<img style="float: center;" src="course_5_pics/WEEK_1_4.PNG" width=600 height=600>      

> ## 不同类型的循环神经网络    

**RNN的类型：**   
- 每个时间节点输入输出——多对多（或者全部输入结束后输出多个）    
- 最后一个时间节点，每个时间节点输入——多对一    
- 第一个时间节点输入，每个时间节点输出——一对多      

对于机器翻译,输入或者输出的长度$T_x,T_y$可能不同     
做法：读完句子以后在开始逐个输出（encoder，decoder）     

<img style="float: center;" src="course_5_pics/WEEK_1_5.PNG" width=600 height=600>      

> ## 语言模型和序列生成     

假设在做一个语音识别系统，识别出两句非常相似的话，要判断那句话是正确的，在这里需要一个语言模型来判断两句话的出现概率。

### 语言模型     
- 训练集：一个语料库         
- 得到一个句子，首先把句子进行Tokenize（切分）后进行one-hot编码；    
- 判断句子结束时通常添加一个额外的标记```<EOS>```      
- 句子中的未知词替换成```<UNK>```未知词     
    
1. 第一个时间步:RNN读取零向量，输出$\hat y^{<1>}$。      
2. 下一个时间步:读取第一个词的正确结果(读取上一个时间步的结果,$x^{<t>}=y^{<t-1>}$)后在第一个词的条件概率下计算第二个词的概率；   
3. 在前继词语的条件下预测第三个词的概率
4. 最终建立一个**条件概率分布**判断序列的可能性     

<img style="float: center;" src="course_5_pics/WEEK_1_6.PNG" width=600 height=600> 

> ## 新序列采样     
         
训练出一个序列模型后，当需要确认该模型学到了什么，可以使用**新序列采样**的方法        

1. 已有一个训练好的语言模型/序列模型
2. 在第一个时间步输入$a^{<0>}=0$与$x^{<0>}=0$，得到一个softmax层的结果    
3. 在softmax层的结果中根据每个单词的概率随机采样(```np.random.choice```)，输入下一个时间步    
4. 下一个时间步输出的结果输入下下个时间步，重复直到出现```<EOS>```    
5. 当遇到```<UNK>```时可以在此进行一次采样，直到不是```<UNK>```为止

> ## 梯度消失    
```
例子:
1. The cats ,which already ate......,was full
2. The cats ,which already ate......,were full
如何判断was和were
```

**基本RNN的缺点**：    
RNN难以学习长期依赖的结果——前向传播以及反向传播时，前后端很难相互影响(长句子中，前端时间步的输入结果很难影响到后端，后端时间步词语的反向传播很难影响到前端时间步神经元的权重)      

大型**深度**神经网络会在参数前后传播的过程中出现**指数级增长或减小**。                          

- RNN出现梯度爆炸——Gradient clipping解决
- 出现梯度消失——GRU，LSTM等



> ## GRU(Gate Recurrent Unit)——门控循环单元       
### 简单的GRU
- $t$时间的激活函数输出：$a^{<t>}$       
- 有一个memory cell，提供记忆的功能——在时间t时的记忆:$c^{<t>}=a^{<t>}$           
- $c^{<t>}$的估计值：$\tilde{c}^{<t>} = \tanh(w_u[c^{<t-1>},x^{<t>}]+b_c)$         
- 有一个Gate(0-1之间):$\Gamma u = \sigma(w_u[c^{<t-1>},x^{<t>}])$作用就是什么时候更新cell的值 ($\tilde{c}^{<t>}$代替$c^{<t>}$)        
- $c^{<t>} = \Gamma u * \tilde{c}^{<t>}+(1-\Gamma u)*c^{<t-1>}$

（$c^{<t>}$和$\Gamma u$的维度一样）

```假设一个句子：    
The cat,which already ate...,was full.
```
Gate会在```cat```处更新cell为1，代表谓语应该是单数形式，维持cell的值直到```was full```，即在```was```之前所有地方，Gate应该维持关闭。     

### 完整的GRU         
- $t$时间的激活函数输出：$a^{<t>}$       
- 有一个memory cell，提供记忆的功能——在时间t时的记忆:$c^{<t>}=a^{<t>}$           
- $c^{<t>}$的估计值：$\tilde{c}^{<t>} = \tanh(w_u[\Gamma_r c^{<t-1>},x^{<t>}]+b_c)$     
- $\Gamma_r = \sigma(w_u[c^{<t-1>},x^{<t>}]+b_r)$(相关性)
- 有一个Gate(0-1之间):$\Gamma u = \sigma(w_u[c^{<t-1>},x^{<t>}]+b_u)$作用就是什么时候更新cell的值 ($\tilde{c}^{<t>}$代替$c^{<t>}$)        
- $c^{<t>} = \Gamma u * \tilde{c}^{<t>}+(1-\Gamma u)*c^{<t-1>}$

（$c^{<t>}$和$\Gamma u$的维度一样）



> ## LSTM   

相比于GRU，LSTM中$c^{<t>}\neq a^{<t>}$ 且增加了两个门    
- $t$时间的激活函数输出：$a^{<t>}$       
- memory cell:$c^{<t>}=a^{<t>}$           
- $c^{<t>}$的估计值：$\tilde{c}^{<t>} = \tanh(w_u[a^{<t-1>},x^{<t>}]+b_c)$     
- update gate:$\Gamma u = \sigma(w_u[a^{<t-1>},x^{<t>}]+b_u)$
- forget gate:$\Gamma f = \sigma(w_f[a^{<t-1>},x^{<t>}]+b_f)$
- output gate:$\Gamma o = \sigma(w_o[a^{<t-1>},x^{<t>}]+b_o)$       
- $c^{<t>} = \Gamma u * \tilde{c}^{<t>}+\Gamma f*c^{<t-1>}$  
- $a^{<t>} = \Gamma o*c^{<t>}$ 
<img style="float: center;" src="course_5_pics/WEEK_1_7.PNG" width=600 height=600> 

常用版本
peehole connect（偷窥孔连接）——门值也可能受到$c^{<t-1>}$的影响   


> ## Bidirectional RNN（BRNN）     
```
He said,"Teddy bears are on sale"
在上述句子中，无法根据前三个单词判断Teddy是否是个人名
```      
无论是DNN,RNN,CNN都是单向传播的。   
<img style="float: center;" src="course_5_pics/WEEK_1_8.PNG" width=600 height=600>   
如图所示，BRNN的前向传播过程是由1-2-3-4，$x^{<4>}$输入时计算反向的$a^{<4>}$同时输出$\hat y^{<4>}$最后往回计算一直到$\hat y^{<1>}$      

> ## DRNN     

符号:$a^{[l]}{<t>}$代表第$l$层的第$t$个时间步的激活值    
<img style="float: center;" src="course_5_pics/WEEK_1_9.PNG" width=600 height=600> 

# WEEK2           
> ## 词汇表征(Word representation)                  

One-hot编码的缺陷:模型的泛化能力会因为One-hot编码后各类词的内积都为0所以**认为同类词毫无关联**，比如apple与orange     

**解决方法——词嵌入(word embeddings)**:利用特征化的方式表示各个词语     
列索引为特征，行索引为词语，值表示词语在与这个特征的关联度     
<img style="float: center;" src="course_5_pics/WEEK_2_1.PNG" width=600 height=600>

> ## 使用词嵌入   

1. 利用网络上或等等渠道获得的大量文本学习词嵌入(下载预训练过的词嵌入模型)    
2. 将词嵌入模型迁移到具有少量标记数据的网络模型中  
3. 可选择的：利用已有的数据微调已获得的词嵌入模型     

> ## 词嵌入的特性     

词嵌入能够实现词语间的类比推理     
<img style="float: center;" src="course_5_pics/WEEK_2_2.PNG" width=600 height=600>       
```
需要推理Man-Woman&King-Queen
```
在词嵌入模型中，将Man与Woman的嵌入向量命名为$e_{Man}$与$e_{Woman}$，那么有向量运算:
$$e_{Man}-e_{Woman}=e_{King}-e_{Queen}$$
两对词语的词嵌入向量在Gender维度上距离相同。    

类比推理可以理解为(实际应用中，该方法准确性不高):        
$$Find\ \ word\ \ w:arg\underset{{w}}{max}\ \ similarity(e_w,e_{Woman}-e_{Man}+e_{King})$$    

一种相似度函数——余弦相似度:$sim(u,v)=\cfrac{u^Tv}{||u||_2||v||_2}$      

> ## 嵌入矩阵   

当学习词嵌入模型时，实际上是在学习一个**嵌入矩阵**       
<img style="float: center;" src="course_5_pics/WEEK_2_3.PNG" width=600 height=600>      
一个词嵌入矩阵$E$与一个词$j$的One-hot编码相乘实际上得到的是词嵌入矩阵中关于$j$的那一列$e_j$，在实际操作中，通常直接提取。

> ## 学习词嵌入     

通过建立一个语言模型的方法将嵌入矩阵与词One-hot编码相乘传入神经网络进行训练来训练词嵌入模型       
网络会学到将类似词语的特征向量相似的时候结果会最优化
<img style="float: center;" src="course_5_pics/WEEK_2_4.PNG" width=600 height=600>     

不同的选择上下文的方法:     
1. 前四个单词   
2. 前四个与后四个单词  
3. 上一个单词   
4. 邻近的一个单词(skip grams)    

当学习语言模型时——方法1，学习词嵌入时——方法1、2、3
<img style="float: center;" src="course_5_pics/WEEK_2_4.PNG" width=600 height=600>     

> ## Word2Vec    

Word2Vec模型中，主要有Skip-Gram和CBOW两种模型，从直观上理解，Skip-Grams是**给定input word来预测上下文**。而CBOW是给定上下文，来预测input word。   
```
例:i want a glass of orange juice to go along with my cereal
context   target

orange    juice
orange    glass
orange    my
```
这是一个监督学习模型，但不是为了学习这个模型，而是利用这个监督学习来学习词嵌入模型    

### Word2Vec目标
Word2Vec模型实际上分为了两个部分。第一部分为建立模型，第二部分是通过模型获取嵌入词向量。      
Word2Vec的整个建模过程实际上与自编码器（auto-encoder）的思想很相似，即先基于训练数据构建一个神经网络，当这个模型训练好以后，并不会用这个训练好的模型处理新的任务，真正需要的是这个模型通过训练数据所学得的参数，例如**隐层的权重矩阵——这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”**。    
### Word2Vec过程     
```
例:i want a glass of orange juice to go along with my cereal
```

1. 首先在一个句子中选择一个input word，定义一个**窗口大小**(左右侧几个单词作为选择输出单词的界限)与一个**选择个数**(在窗口中选择的单词个数).组成**单词对(input_word,ouput_word)**   
<img style="float: center;" src="course_5_pics/WEEK_2_6.PNG" width=600 height=600>     

2. 对每个**输入单词与输出单词进行One-hot编码**，输入单词输入隐层神经元(没有激活函数，线性相乘)——参数即**嵌入矩阵**，最后输入softmax得出结果，利用输出单词进行参数训练。   
<img style="float: center;" src="course_5_pics/WEEK_2_7.PNG" width=600 height=600>

3. 具体如下:    
context:$c$     
target:$t$    
将输入单词context$c$进行one-hot编码得到$O_c$     
$O_c$乘以嵌入矩阵$E$,得到$e_c=EO_c$    
$e_c$输入softmax层得到目标单词的预测向量$\hat y$      

其中:Softmax结果——$p(t|c)=\cfrac{e^{\theta_t^Te_c}}{\sum_j^v\theta_j^Te_c}$,$v$为词汇表长度，$\theta_t$为单词$t$有关一个参数         
该方法主要的难点在于，语料库过长，最后在求softmax层时需要很大的算例，所以通常使用分级softmax。
### 直觉上的理解

如果两个不同的单词有着非常相似的“上下文”（也就是**窗口单词**很相似，比如“Kitty climbed the tree”和“Cat climbed the tree”），那么通过模型训练，这两个单词的**嵌入向量将非常相似**。       

这种方法实际上也可以帮助你进行词干化(stemming)(词干化(stemming)就是去除词缀得到词根的过程。)，例如，神经网络对”ant“和”ants”两个单词会习得相似的词向量。

> ## 负采样     

```
例:i want a glass of orange juice to go along with my cereal
```

### 负采样的训练流程

1. 首先选取一个词语与其上下文，该例子中选择```orange-juice```，作为一个**正样本**，目标值为**1**。然后从词汇表中随机选择$k$(小数据集：k=5-20；大数据集:k=2-5)个词语与在样本中选择的词语```orange```组成**负样本**，目标值为**0**(随机选择的词语在上下文中也标记为负样本)     

<img style="float: center;" src="course_5_pics/WEEK_2_8.PNG" width=200 height=200>    

```
x(c,t)             y

(orange,juice)     1
(orange,king)      0
(orange,book)      0
(orange,the)       0
(orange,of)        0

```

2. 利用Logistics回归训练，$P(1|c,t)=\sigma(\theta_t^Te_c)$,神经网络图如下:    
<img style="float: center;" src="course_5_pics/WEEK_2_9.PNG" width=500 height=500>     
先将词语$c$进行one-hot编码，然后乘以嵌入矩阵$E$得到$e_c$，最后输入到宽度为**单词列表长度**的二分类层当中，每个逻辑回归(神经元)输出一个结果。这样每批样本只需要训练$k+1$个词语对应的神经元的二元分类问题(**k个负样本和1个正样本**)

### 如何进行负采样     
1. 通过词频(单词的经验频率)$P(w_i)=f(w_i)$进行采样(某些词的词频特别高,比如一些代词，介词等等)   
2. 通过词汇表的均匀分布进行随机采样(缺乏代表性)    

**解决方法**:$P(w_i) = \cfrac{f(w_i)^{\frac{3}{4}}}{\sum_j^vf(w_j)^{\frac{3}{4}}}$     

> ## Glove算法(Glove:Global vector for word representation)     

$c,t$是上下文中的词语与目标词汇    
设$x_{ij}$是词语$i$在词语$j$的上下文出现的次数($i-t,j-c$)    
$x_{ij}=x_{ji}$在某些上下文定义中不成立，例如$c$是$t$的上一个单词    

在Glove算法中，上下文的定义是一个左右长度相等的窗口，因此$x_{ij}=x_{ji}$

### Glove算法模型:    
$$minimize\ \ \sum_i^v\sum_j^vf(x_{ij})(\theta_i^Te_j+b_i+b_j-Log(x_{ij}))$$       

**权重项$f(x_{ij})$的作用**:         

1. $f(x_{ij})=0,if\ \ x_{ij}=0(log(x_{ij})\rightarrow \infty)$，这里认为$0log0=0$    
2. $f(x_{ij})$函数的选择可以令词频较高的词语不会获得那么大的权重(the,of,a一类的代词以及介词)，也让一些词频低的词不会获得那么小的权重(durion等)     

### 注意事项     
嵌入矩阵所代表的轴可能无法理解，甚至相互之间不正交     

>## 情绪分类     

例子:    
<img style="float: center;" src="course_5_pics/WEEK_2_10.PNG" width=500 height=500>      
给定一个句子为输入值，输出值为评价星级。     

### DNN方法:     
<img style="float: center;" src="course_5_pics/WEEK_2_11.PNG" width=500 height=500>        
将每个词语进行One-hot编码后于嵌入矩阵相乘得到词嵌入向量，然后输入一个平均值运算，最后输入一个星级的softmax分类器。     

平均值运算会将所有词的评价程度平均后得出每个星级评价的概率值。但存在一个缺陷——没有考虑语序，当遇到左下角的句子出现了很多个good时会存在偏差。     

### RNN方法     
<img style="float: center;" src="course_5_pics/WEEK_2_12.PNG" width=500 height=500>      

> ## 词嵌入除偏(性别、种族的偏见而不是bias)    

<img style="float: center;" src="course_5_pics/WEEK_2_13.PNG" width=500 height=500>      
训练过的词嵌入模型可能会显示出性别、种族等的歧视(如上图)     

### 减少偏见的程序(以性别为例):   
**1. 鉴定我们需要减少的偏见**     
$e_{man}-e_{female}$          
$e_{boy}-e_{girl}$    
$\vdots$    
$求出以上差的平均值$

<img style="float: center;" src="course_5_pics/WEEK_2_14.PNG" width=200 height=200>    
横轴是偏见趋势，纵轴是无偏见趋势(实际情况一般大于一维)      

**2. 中和步骤:对于每一个非定义性的单词，消除偏见**     
比如babysister,computer programmer等没有明确的性别含义，向非偏见轴零点移动

**3. 均衡步骤**        
让grandmother-grandfather等词语于非偏见轴保持等距离


# WEEK3
## Seq2Seq
机器翻译任务——将一串法语翻译成英语     
<img style="float: center;" src="course_5_pics/WEEK_3_1.PNG" width=500 height=500>     

**定义两个网络:Encoder与Decoder**    
**Encoder**:接受输入序列，输出一个向量表征这个序列(编码)     
**Decoer**:将Encoder的输出做为输入，每步输出一个值——直到输出序列的结尾。    
<img style="float: center;" src="course_5_pics/WEEK_3_2.PNG" width=500 height=500>       

语言模型与机器翻译的差别:     
- 语言模型使用是个随机输入与**随机采样**来形成一个文本序列。
<img style="float: center;" src="course_5_pics/WEEK_3_3.PNG" width=500 height=500>
- 机器翻译的输出部分接受的**不是随机输入**，而是一个**编码向量**。并且与语言模型不同的是，机器翻译追求$P(y^{<1>},y^{<2>}...y^{<T_y>}|x)$的最优值，因此在每次输出后不是采用**随机采样**，而是**集束搜索**       
<img style="float: center;" src="course_5_pics/WEEK_3_4.PNG" width=500 height=500>              

## Beam Search（集束搜索）                

1. 第一步:集束搜索在Decoder每次输出时会考虑可能性最大的$n$个单词，$n$是集束宽度($Beam \ width$)
2. 第二步:由于第一步搜索出了$n$个词语，得到第一个输出的概率$P(y^{<1>}|x)$;根据第一步$n$个输出，继续估计下一个词语，得到概率值$P(y^{<1>},y^{<2>}|x)$，这样一共会有$Beam\ width*Number\ of\ words$个词语，再根据条件概率选出其中最大的$n$个词语。        

<img style="float: center;" src="course_5_pics/WEEK_3_5.JPG" width=500 height=500>

### 改进集束搜索的技巧       

1. 集束搜索中，每个词语的概率值都是小于1，因此连乘可能导致数值下溢——解决方法:取对数   

$$P(y^{<1>},y^{<2>}...y^{<T_y>}|x) = P(y^{<1>}|x)P(y^{<2>}|x,y^{<1>})....P(y^{<T_y>}|x,y^{<1>},...y^{<T_y-1>})$$            

$$argmaxP(y^{<1>},y^{<2>}...y^{<T_y>}|x)$$    

$$\Rightarrow \underset{y}{arg\ max}\prod P(y^{<t>}|x,y^{<1>}...y^{<t-1>})$$    

$$\Rightarrow \underset{y}{arg\ max}\sum log(P(y^{<t>}|x,y^{<1>}...y^{<t-1>}))$$       

2. 集束搜索中，最优化函数倾向于更短的句子——解决方法:归一化(除以句子长度或句子长度的$\alpha(=0.7,usually)$ 次幂)      

$$\frac{1}{T_y^\alpha} P(y^{<1>},y^{<2>}...y^{<T_y>}|x)$$    


### 集束搜索的误差分析

机器翻译句子:@@jane is a pussy boy@@@@@@—— $\hat y$              
人类翻译句子:##jane is a bad boy######—— $y^*$ 

利用RNN计算两个句子的概率$P(y\hat|x)$与$P(y^* |x)$     
那么存在两种情况    
1.$P(y\hat|x)>P(y^* |x)$     
网络结构出问题    
2. $P(y\hat|x)<P(y^* |x)$    
$Beam\ Search$出问题

## BLEU   
```
翻译一个法语句子，有两个参考的人工翻译  

Reference 1: The cat is on the mat.
Reference 2:There is a cat on the mat.
```

Bleu的原理:机器翻译的结果接近人工的参考翻译结果——看生成的词是否出现在参考翻译中。    

```
percision:机器翻译中的单词出现在参考翻译中的个数/总单词个数   
modified:机器翻译中的单词出现在参考翻译中的个数/总单词个数，
      每个单词有个计分上限，比如"the"，在翻译1中出现2次，翻译2中出现1次，计分上限为2
```


### n-grams的Bleu   
```
Example: 
Reference 1: The cat is on the mat.
Reference 2: There is a cat on the mat.
MT output: The cat the cat on the mat.
         count   count_clip
the cat    2       1
cat the    1       0
cat on     1       1
on the     1       1
the mat    1       1

BLEU = 4/6
```

对于**n-grams**而言:   

$$P_n = \cfrac{\sum_{n-grams\in \hat y }Content_{clip} (n-grams)}{\sum_{n-grams\in \hat y}Content(n-grams)}$$

### Combined Bleu Scores      

$$(BP)exp(\frac{1}{4}\sum_{n=1}^4P_n),BP-brief\ penalty(简短惩罚)$$    

$$
BP =\begin{cases}  
1&,if MT_{output\ length} > reference_{output\ length}\\
exp(1 — MT_{output\ length}/reference_{output\ length})&,otherwise
\end{cases} 
$$    


## 注意力模型     
    

当人在翻译句子的时候，不会一次性翻译一页，而是一段一段翻译。    
在Encoder-Decoder模型当中，长段落会导致编码在压缩向量时产生损失，相比于短段落BLEU分值低。    

考虑下面这样的一个模型    

<img style="float: center;" src="course_5_pics/WEEK_3_6.png" width=500 height=500>    

<img style="float: center;" src="course_5_pics/WEEK_3_7.png" width=500 height=500>


## 语音辨识    
<img style="float: center;" src="course_5_pics/WEEK_3_8.png" width=500 height=500>    

## Trigger word     
不平衡数据集的解决方法——听到trigger word之后持续输出一段时间的1    

<img style="float: center;" src="course_5_pics/WEEK_3_9.png" width=500 height=500>  