# 06. 파이썬을 이용한 RNN for NER (Using Keras)

* 싸이그래머 / 어바웃 파이썬
* 김무성

# 차례
* NER / CRF for NER / CRF-LSTM for NER  
* anaGo를 이용한 NER - 간단 사용법
* anaGo를 이용한 NER - 영어 데이터 학습 적용
* anaGo를 이용한 NER - 한국어 데이터 학습 적용

#### 참고
* [1] Lecture 10: Recurrent Neural Networks - http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf
* [2] CRF기반 개채명 인식기(Named Entitiy Recognizer) 만들기 - https://github.com/biospin/biopy/blob/gh-pages/notebook/Part3/Week7/python-crfsuite-NER.ipynb
* [3] LSTM-CRF for NER
    - (원 논문) Bidirectional LSTM-CRF Models for Sequence Tagging - https://arxiv.org/abs/1508.01991
    - (슬라이드) Bi-directional LSTM-CNNs-CRF for Italian Sequence Labeling - https://www.slideshare.net/basilepp/bidirectional-lstmcnnscrf-for-italian-sequence-labeling-84065298
    - (슬라이드) 論文紹介：「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」 - https://www.slideshare.net/NaonoriNagano/endtoend-sequence-labeling-via-bidirectional-lstmcnnscrf
    - (슬라이드 일부) Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 - https://www.slideshare.net/healess/python-tensorflow-ai-chatbot
    - (슬라이드 일부) 20170227 파이썬으로 챗봇_만들기 - https://www.slideshare.net/KimSungdong1/20170227-72644192
    - (슬라이드 일부) Deep Learning for Chatbot (2/4) - https://www.slideshare.net/JaeminCho6/dl-chatbot-seminar-day-02

# NER / CRF for NER / CRF-LSTM for NER

<img src="http://imanage.com/wp-content/uploads/2014/10/NER1.png" width=600/>

<img src="https://www.codeproject.com/KB/recipes/559535/gerative-discriminative.png" width=600 />

<img src="http://www.cs.cmu.edu/~ssandeep/images/lstm-crf.png" width=600 />

---------------------------------

# anaGo를 이용한 NER - 간단 사용법
* 설치
* 실습을 위한 환경구성
* pre-trained models을 사용하기

#### 참고
* [4] anaGo - https://github.com/Hironsan/anago

## 설치

In [None]:
# 설치
#pip install anago

## 실습을 위한 환경구성

In [None]:
import anago

In [None]:
# 아래와 같은 폴더가 만들어져 있어야 한다.

In [None]:
%ls 07_data/*

## pre-trained models을 사용하기

In [None]:
# Downloading pre-trained models - 해당 패키지가 좀 준비해놓은 것이 있다.
from anago.utils import download

dir_path = '07_data/models/defult'
url = 'https://storage.googleapis.com/chakki/datasets/public/models.zip'
download(url, dir_path)

In [None]:
%ls 07_data/models/defult

In [None]:
# 모델 로드
model = anago.Sequence.load(dir_path)

In [None]:
# 분석할 문장 준비
words = 'President Obama is speaking at the White House.'.split()
words

In [None]:
# NER 탐지
model.analyze(words)

---------------------------

# anaGo를 이용한 NER - 영어 데이터 학습 적용
* 나만의 학습 데이터로 모델 만들기
    - 학습 / 평가
    - 예측
* pre-trained word embeddings 사용하기 (gensim)

## 나만의 학습 데이터로 모델 만들기

#### 아래와 같은 형식으로 태깅된 파일을 준비하면 된다.
* Training data takes a tsv format. The following text is an example of training data:

```
EU	B-ORG
rejects	O
German	B-MISC
call	O
to	O
boycott	O
British	B-MISC
lamb	O
.	O

Peter	B-PER
Blackburn	I-PER
```

#### 학습용 데이터가 들어갈 폴더에 train.txt, valid.txt, test.txt 파일을 만들어 넣는다.

In [None]:
%ls 07_data/data/en

In [None]:
import anago
from anago.reader import load_data_and_labels

In [None]:
train_data_dir = "07_data/data/en/train.txt"
valid_data_dir = "07_data/data/en/valid.txt"
test_data_dir = "07_data/data/en/test.txt"

In [None]:
x_train, y_train = load_data_and_labels(train_data_dir)
x_valid, y_valid = load_data_and_labels(valid_data_dir)
x_test, y_test = load_data_and_labels(test_data_dir)

In [None]:
x_train

In [None]:
y_train

In [None]:
x_valid

In [None]:
y_valid

In [None]:
x_test

In [None]:
y_test

In [None]:
model = anago.Sequence(max_epoch=1)
model.train(x_train, y_train, x_valid, y_valid)

In [None]:
model.eval(x_test, y_test)

In [None]:
words = 'President Obama is speaking at the White House.'.split()
model.analyze(words)

## pre-trained word embeddings 사용하기 (gensim)

#### 참고
* [5] ner_word2vec exmaple -  https://github.com/Hironsan/anago/blob/master/examples/ner_word2vec.py
* [6] The List of Pretrained Word Embeddings - http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/

In [None]:
# 해보자

--------------------------

# anaGo를 이용한 NER - 한국어 데이터 학습 적용

* 나만의 학습 데이터로 모델 만들기
    - 학습 / 평가
    - 예측
* pre-trained word embeddings 사용하기 (gensim)

## 나만의 학습 데이터로 모델 만들기

In [None]:
import anago
from anago.reader import load_data_and_labels

In [None]:
%ls 07_data/data/kr

In [None]:
train_data_dir = "07_data/data/kr/train.txt"
valid_data_dir = "07_data/data/kr/valid.txt"
test_data_dir = "07_data/data/kr/test.txt"

In [None]:
x_train, y_train = load_data_and_labels(train_data_dir)
x_valid, y_valid = load_data_and_labels(valid_data_dir)
x_test, y_test = load_data_and_labels(test_data_dir)

In [None]:
x_train

In [None]:
y_train

In [None]:
x_valid

In [None]:
y_valid

In [None]:
x_test

In [None]:
y_test

In [None]:
model = anago.Sequence(max_epoch=1)
model.train(x_train, y_train, x_valid, y_valid)

In [None]:
model.eval(x_test, y_test)

In [None]:
words = '하지만 한국 은 끝내 마지막 김은정 의 샷이 점수가 되며 감격의 승리를 거뒀다'.split()
#words = '김은정 은 자신의 실수를 만회하며 한국 의 승리를 이끌었다.'.split()
#words = '김은정 스킵과 리드 김영미, 세컨드 김선영, 서드 김경애, 후보 김초희로 이뤄진 한국 여자 컬링 대표팀은 5엔드까지 홀수 엔드에서는 일본을 눌렀다.'.split()
model.analyze(words)

## pre-trained word embeddings 사용하기 (gensim)

#### 참고
* [7] Pre-trained word vectors of 30+ languages -https://github.com/Kyubyong/wordvectors
* [8] kor2vec - https://github.com/dongjun-Lee/kor2vec

In [None]:
# 해보자

# 참고자료 
* [1] Lecture 10: Recurrent Neural Networks - http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf
* [2] CRF기반 개채명 인식기(Named Entitiy Recognizer) 만들기 - https://github.com/biospin/biopy/blob/gh-pages/notebook/Part3/Week7/python-crfsuite-NER.ipynb
* [3] LSTM-CRF for NER
    - (원 논문) Bidirectional LSTM-CRF Models for Sequence Tagging - https://arxiv.org/abs/1508.01991
    - (슬라이드) Bi-directional LSTM-CNNs-CRF for Italian Sequence Labeling - https://www.slideshare.net/basilepp/bidirectional-lstmcnnscrf-for-italian-sequence-labeling-84065298
    - (슬라이드) 論文紹介：「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」 - https://www.slideshare.net/NaonoriNagano/endtoend-sequence-labeling-via-bidirectional-lstmcnnscrf
    - (슬라이드 일부) Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 - https://www.slideshare.net/healess/python-tensorflow-ai-chatbot
    - (슬라이드 일부) 20170227 파이썬으로 챗봇_만들기 - https://www.slideshare.net/KimSungdong1/20170227-72644192
    - (슬라이드 일부) Deep Learning for Chatbot (2/4) - https://www.slideshare.net/JaeminCho6/dl-chatbot-seminar-day-02
* [4] anaGo - https://github.com/Hironsan/anago
* [5] ner_word2vec exmaple -  https://github.com/Hironsan/anago/blob/master/examples/ner_word2vec.py
* [6] The List of Pretrained Word Embeddings - http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/
* [7] Pre-trained word vectors of 30+ languages -https://github.com/Kyubyong/wordvectors
* [8] kor2vec - https://github.com/dongjun-Lee/kor2vec