# Self-supervised learning

- **supervised**       
    需要有feature，有label
    
    
- **self-supervised**     
    假设有无标注的资料，则将资料的一部分作为***label***($x''$),一部分是***feature***($x''$)            
    将$x'$输入模型当中，模型计算出$y$，令$y$尽量与$x''$相等

# Bert

## Masking Input

***Bert***是***Transformer***的编码器的架构——输入一个序列，输出一个序列

1. 输入序列时，随机产生掩码遮住一部分***token(Randomly masking some token)***

- 具体做法:
    - 掩码盖住的部分加上***mask***修改为***special token***
    - 掩码盖住的部分修改为随机的向量(随机的字符等)
    
2. ***Bert***输出一列向量，最后将掩码遮盖的部分的输出做一个***Linear Transform***(乘以一个矩阵)，最后经过***softmax***输出一个***vocabulary的distribution***


3. 训练目标——掩码遮盖的部分的交叉熵最小(遮盖住的部分就是**标签**)


<img style="float: center;" src="resource_pic/Bert/Bert_1.PNG" width=450 height=450>


## Next Sentence Prediction(useless)     

1. 在数据中选取两个句子，在两个句子中间插入一个特殊符号`[SEP]`作为分隔符，并在第一个句子前加入符号`[CLS]`组成一个序列


2. 将该序列输入***Bert***，并输出一个序列，此时仅关注`[CLS]`的输出，将该输出经过一个***Linear Transform***后进行二分类(1/0)，该二分类问题判断两个句子是否相连接


<img style="float: center;" src="resource_pic/Bert/Bert_2.PNG" width=450 height=450>

### 其余方法

由于***Next Sentence Prediction***任务可能较为简单，因此有其他方法    

- ***SOP(Sentence order prediction)***        
将两个连接的句子输入后，判断句子的顺序

## Bert的用处    

***Bert***通常被用在下游的任务中(***DownStream Tasks***),即实际上关注的任务，该模型可以通过***Fine-tune***(把***Bert***做微调)


生成***Bert***的过程——***Pre-train***

## GLUE(General Language Understanding Evaluation)       

一个***NLP***的任务集，一共有九个任务，***Bert***模型在九个任务上进行***Fine-tune***测试性能

# How to use Bert

## Case 1
```
Input:sequence
output:class
Example:sentiment analysis

It is good——>positive
```

1. 将`[CLS]`的***token***与句子输入***Bert***，`[CLS]`对应的输出经过一个***Linear Transform***后进行分类(此时需要有下游任务的标注数据)


2. ***Linear Transform***进行随机初始化


3. ***Bert***的初始化采用***pre-train***的参数    

<img style="float: center;" src="resource_pic/Bert/Bert_3.PNG" width=450 height=450>

## Case 2
```
Input:sequence
output:same length as input
Example:POS tagging

I——>N
saw——>V
a——>DET
saw——>N
```

将`[CLS]`的***token***与句子输入***Bert***，句子中的每个***token***对应输出经过一个***Linear Transform***后进行***softmax***分类

<img style="float: center;" src="resource_pic/Bert/Bert_4.PNG" width=300 height=300>

## Case 3
```
Input:two sequence
output:a class
Example:NLI

(前提)premise: A person on a horse jumps over a broken down airplane
(假设)hypothesis: A person is at a diner
```
- **NLI(Natural Language Inference)**,自然语言推理。它主要用来判断两个句子在语义上的关系，一般可以分为：***Entailment(蕴含),Contradiction(矛盾),Neutral(中立)***


<img style="float: center;" src="resource_pic/Bert/Bert_5.PNG" width=300 height=300>

## Case 3
`Input :`

$Document:D = {d_1,d_2,...d_N}$,每个$d_i$代表一个文章中的词/字

$Query:Q = {q_1,q_2,...q_N}$,每个$q_i$代表一个问题中的词/字

`Output:`

将$D,Q$输入模型中,输出两个正整数$s,e$,代表文章中的答案的序号区间,则答案是$A={d_s,...,d_e}$


1. 首先初始化两个矩阵(橙色与蓝色部分),分别是答案开始位置和答案结束位置的$Query$,这两个矩阵需要学习。


2. 将两个矩阵分别乘以不同的词/字通过***Bert***产生的$Key$,即***Bert***的输出，输出长度等于输入的文章长度。


3. 将$Query$与$Key$经过***inner product***产生的向量输入***softmax***,输出一个答案开始与结束序号概率值分布。

结构如下图:

<img style="float: center;" src="resource_pic/Bert/Bert_6.PNG" width=300 height=300>

# Why does Bert work?

***Bert***输出的是一个词的***Embedding***,并且考虑了上下文,一词多义的情况会被避免         

***Bert***通过遮盖一个词，经过**上下文的训练**得到一个词语的词义(Contextualized word embedding)

## Multi-lingual BERT
