# [작성중...]Bidirectional LSTM-CRF Models for Sequences Tagging


## 1. Introduction


### 1) Sequence tagging(=Sequence labeling)

&nbsp;길이가 $n$인 sequence, $x=[x_{1}, x_{2},...,x_{n}]$에 대해서, 같은 길이의 $y=[y_{1}, y_{2},...,y_{n}]$를 출력해야 하는 Task를 Sequence tagging(=Sequence labeling)이라고 합니다. 

1. NLP Sequence labeling task
    - speech tagging (POS)
    - chunking
    - named entity recognition (NER)
    ![POS](./images/NB001/pos.png)
    
    
2. 다른 분야의 Sequence labeling task
    - DNA 염기서열 분석
    - 동작 인식, 이미지 레이블링, 물체 인식
    - 음석 인식, POS 태깅, 개체 인식, 정보 추출 
    - Sequence로 해석될 수 있는 다양한 종류의 데이터 처리

### 2) Exsisting sequence tagging models
1. Linear statistical models 
    1. Hidden-Markov Models 
    2. Maximum entropy Markov models
    3. Conditional Random Fields (CRF)
    
2. Neural network based models
    1. Convolutional-CRF
    2. Convolutional-RNN,LSTM 
    3. Bidirectoinal-RNN,LSTM

### 3) Proposed models in paper
&nbsp;논문에서 제시한 최종 모델은 BiLSTM-CRM 모델인데, Word Embedding에 덜 의존적이면서, POS, Chunking, NER에서 State of the art 성능을 내었다고 합니다. 

1. LSTM
2. Bi-LSTM
3. LSTM-CRM
4. bi-LSTM-CRM 


## 2. Models
&nbsp;논문을 읽으면서 가장 좋았던 점은 RNN, LSTM 모델들의 정의를 한번더 정리할 수 있었던 점입니다. 

### 2.0 RNN Networks
&nbsp;RNN 모델은 언어모델, 음성인식 분야에서 보장된 결과를 많이 만들어 왔습니다. RNN의 특징은 history information을 저장하는 Memory 학습하고, 이용해서 현재의 알맞는 예측, 분류 Output을 출력합니다. 

&nbsp;논문에서 제시된 문제는 named entity recognition (NER)니다. 아래 문장이 입력 시퀀스로 주어졌을때, 각각에 맞는 Named entity를 출력하는 문제입니다. 

입력문장은 "EU rejects German call to boycott British lamb." 이고<br>
Named entity tags는 O(Other) 혹은 Person(PER), Location(LOC), Organization(ORG) 그리고 Miscellaneus (MISC)입니다. 추가로, tag앞에 B-, I-가 붙는데 개체의 위치가 중간인지 처음인지를 나타내는 지표라고 합니다. 

![Figure1 A simple RNN model.](./images/NB001/figure1_RNN.png)

그림과 같이 RNN은 입력층 x, 은닉층 h, 출력층 y로 구성되어 있습니다. 입력부터 출력까지의 연산의 정의는 아래와 같습니다. 

$h(t) = f(U*x(t)+W*h(t-1))$<br>
$y(h) = g(V*h(t))$<br>

여기서 $U$, $W$, $V$는 Connection weights이며, $f()$는 sigmoid, $g()$는 softmat 함수 입니다.


### 2.1 LSTM Networks 


### 2.2 Bidirectional LSTM Networks 
### 2.3 CRF networks 
### 2.4 LSTM-CRF networks 
### 2.5 BI-LSTM-CRF networks 


## 4. Experiments 
### 4.1 Data
- [Penn TreeBank(PTB)](https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html) POS tagging 
- [CoNLL-2000 Shared Task Chunking](https://www.aclweb.org/anthology/W00-0726/)
- [CoNLL-2003 Language-Independent Named Entity Recognition (II)](https://www.clips.uantwerpen.be/conll2003/ner/)

### 4.2 Features
#### 4.2.1 Spelling features
#### 4.2.2 Context features
#### 4.2.3 Word embedding 
#### 4.2.4 Features connections tricks 

### 4.3 Resutls
#### 4.3.1 Comparison with Cov-CRF networks
#### 4.3.2 Model robustness
#### 4.4.4 Comparison with existing systems 

### 5 Discussions 

### 6 Conclusions 

### Reference
[1] [Bidirectional LSTM-CRF Models for Sequence Tagging](https://arxiv.org/abs/1508.01991)<br>
[2] [김영민 Sequence Labeling을
위한 기계학습.pdf](http://www.hansung.ac.kr/web/sdkim/kcc2014-nlp-workshop?p_p_id=EXT_BBS&p_p_lifecycle=1&p_p_state=exclusive&p_p_mode=view&p_p_col_id=column-1&p_p_col_count=1&_EXT_BBS_struts_action=%2Fext%2Fbbs%2Fget_file&_EXT_BBS_extFileId=635976)<br>
[3] [Conditional Random Field (CRF) 기반 품사 판별기의 원리와 HMM 기반 품사 판별기와의 차이점](https://lovit.github.io/nlp/2018/09/13/crf_based_tagger/)<br>