# 06. 파이썬을 이용한 RNN for NER (Using Keras)

* 싸이그래머 / 어바웃 파이썬
* 김무성

# 차례
* NER / CRF for NER / CRF-LSTM for NER  
* anaGo를 이용한 NER - 간단 사용법
* anaGo를 이용한 NER - 영어 데이터 학습 적용
* anaGo를 이용한 NER - 한국어 데이터 학습 적용

#### 참고
* [1] Lecture 10: Recurrent Neural Networks - http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf
* [2] CRF기반 개채명 인식기(Named Entitiy Recognizer) 만들기 - https://github.com/biospin/biopy/blob/gh-pages/notebook/Part3/Week7/python-crfsuite-NER.ipynb
* [3] LSTM-CRF for NER
    - (원 논문) Bidirectional LSTM-CRF Models for Sequence Tagging - https://arxiv.org/abs/1508.01991
    - (슬라이드) Bi-directional LSTM-CNNs-CRF for Italian Sequence Labeling - https://www.slideshare.net/basilepp/bidirectional-lstmcnnscrf-for-italian-sequence-labeling-84065298
    - (슬라이드) 論文紹介：「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」 - https://www.slideshare.net/NaonoriNagano/endtoend-sequence-labeling-via-bidirectional-lstmcnnscrf
    - (슬라이드 일부) Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 - https://www.slideshare.net/healess/python-tensorflow-ai-chatbot
    - (슬라이드 일부) 20170227 파이썬으로 챗봇_만들기 - https://www.slideshare.net/KimSungdong1/20170227-72644192
    - (슬라이드 일부) Deep Learning for Chatbot (2/4) - https://www.slideshare.net/JaeminCho6/dl-chatbot-seminar-day-02

# NER / CRF for NER / CRF-LSTM for NER

<img src="http://imanage.com/wp-content/uploads/2014/10/NER1.png" width=600/>

<img src="https://www.codeproject.com/KB/recipes/559535/gerative-discriminative.png" width=600 />

<img src="http://www.cs.cmu.edu/~ssandeep/images/lstm-crf.png" width=600 />

---------------------------------

# anaGo를 이용한 NER - 간단 사용법
* 설치
* 실습을 위한 환경구성
* pre-trained models을 사용하기

#### 참고
* [4] anaGo - https://github.com/Hironsan/anago

## 설치

In [1]:
# 설치
#pip install anago

## 실습을 위한 환경구성

In [2]:
import anago

Using TensorFlow backend.


In [None]:
# 아래와 같은 폴더가 만들어져 있어야 한다.

In [3]:
%ls 07_data/*

07_data/data:
[0m[01;34men[0m/  [01;34mkr[0m/

07_data/models:
[01;34mdefult[0m/  [01;34men[0m/  [01;34mkr[0m/


## pre-trained models을 사용하기

In [5]:
# Downloading pre-trained models - 해당 패키지가 좀 준비해놓은 것이 있다.
from anago.utils import download

dir_path = '07_data/models/defult'
url = 'https://storage.googleapis.com/chakki/datasets/public/models.zip'
download(url, dir_path)

Downloading...
Complete!


In [68]:
%ls 07_data/models/defult

config.json  model_weights.h5  preprocessor.pkl


In [7]:
# 모델 로드
model = anago.Sequence.load(dir_path)

In [8]:
# 분석할 문장 준비
words = 'President Obama is speaking at the White House.'.split()
words

['President', 'Obama', 'is', 'speaking', 'at', 'the', 'White', 'House.']

In [9]:
# NER 탐지
model.analyze(words)

{'entities': [{'beginOffset': 1,
   'endOffset': 2,
   'score': 1.0,
   'text': 'Obama',
   'type': 'PER'},
  {'beginOffset': 6,
   'endOffset': 8,
   'score': 1.0,
   'text': 'White House.',
   'type': 'LOC'}],
 'words': ['President',
  'Obama',
  'is',
  'speaking',
  'at',
  'the',
  'White',
  'House.']}

---------------------------

# anaGo를 이용한 NER - 영어 데이터 학습 적용
* 나만의 학습 데이터로 모델 만들기
    - 학습 / 평가
    - 예측
* pre-trained word embeddings 사용하기 (gensim)

## 나만의 학습 데이터로 모델 만들기

#### 아래와 같은 형식으로 태깅된 파일을 준비하면 된다.
* Training data takes a tsv format. The following text is an example of training data:

```
EU	B-ORG
rejects	O
German	B-MISC
call	O
to	O
boycott	O
British	B-MISC
lamb	O
.	O

Peter	B-PER
Blackburn	I-PER
```

#### 학습용 데이터가 들어갈 폴더에 train.txt, valid.txt, test.txt 파일을 만들어 넣는다.

In [74]:
%ls 07_data/data/en

In [None]:
import anago
from anago.reader import load_data_and_labels

In [None]:
train_data_dir = "07_data/data/en/train.txt"
valid_data_dir = "07_data/data/en/valid.txt"
test_data_dir = "07_data/data/en/test.txt"

In [None]:
x_train, y_train = load_data_and_labels(train_data_dir)
x_valid, y_valid = load_data_and_labels(valid_data_dir)
x_test, y_test = load_data_and_labels(test_data_dir)

In [None]:
x_train

In [None]:
y_train

In [None]:
x_valid

In [None]:
y_valid

In [None]:
x_test

In [None]:
y_test

In [None]:
model = anago.Sequence(max_epoch=1)
model.train(x_train, y_train, x_valid, y_valid)

In [None]:
model.eval(x_test, y_test)

In [None]:
words = 'President Obama is speaking at the White House.'.split()
model.analyze(words)

## pre-trained word embeddings 사용하기 (gensim)

#### 참고
* [5] ner_word2vec exmaple -  https://github.com/Hironsan/anago/blob/master/examples/ner_word2vec.py
* [6] The List of Pretrained Word Embeddings - http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/

In [1]:
# 해보자

--------------------------

# anaGo를 이용한 NER - 한국어 데이터 학습 적용

* 나만의 학습 데이터로 모델 만들기
    - 학습 / 평가
    - 예측
* pre-trained word embeddings 사용하기 (gensim)

## 나만의 학습 데이터로 모델 만들기

In [10]:
import anago
from anago.reader import load_data_and_labels

In [11]:
%ls 07_data/data/kr

07_data/data/en:

07_data/data/kr:
test.txt  train.txt  valid.txt

07_data/models/defult:
config.json  model_weights.h5  preprocessor.pkl

07_data/models/en:

07_data/models/kr:


In [34]:
train_data_dir = "07_data/data/kr/train.txt"
valid_data_dir = "07_data/data/kr/valid.txt"
test_data_dir = "07_data/data/kr/test.txt"

In [35]:
x_train, y_train = load_data_and_labels(train_data_dir)
x_valid, y_valid = load_data_and_labels(valid_data_dir)
x_test, y_test = load_data_and_labels(test_data_dir)

In [36]:
x_train

array([ list(['하지만', '한국', '은', '끝내', '마지막', '김은정', '의', '샷이', '점수가', '되며', '감격의', '승리를', '거뒀다', '.']),
       list(['김은정', '의', '눈물에', '팀원들도', '모두', '울었다', '.']),
       list(['늘', '이겨도', '냉철한', '모습만', '보이던', '김은정', '역시', '눈물을', '쏟을', '정도로', '마음고생이', '심한', '경기였다', '.']),
       list(['가히', '평창', '올림픽', '한국', '최고의', '장면', '중', '하나일', '수밖에', '없다', '.']),
       list(['이상화', '의', '은메달', '이후', '고다이라', '나오', '에게', '안겨', '우는', '모습', ',']),
       list(['윤성빈', '의', '금메달', '등']),
       list(['최고의', '장면에', '꼭', '뽑힐', '만한', '멋지고', '감격적인', '김은정', '의', '눈물이었다', '.']),
       list(['한국', '여자', '컬링', '대표팀은', '23일', '오후', '8시5분부터', '강릉', '컬링', '센터에서', '열린', '2018', '평창', '동계', '올림픽', '.']),
       list(['1엔드부터', '3점을', '따내며', '기선을', '제압한', '한국', '은', '3엔드에', '1점을', '추가', ',', '4-2로', '앞서나갔다', '.']),
       list(['승리가', '확실해보였으나', '일본', '의', '저력도', '매서웠다', '.']),
       list(['주장', '김은정', '(', '스킵', ')', ',', '김영미', '(', '리드', ')', ',', '김선영', '(', '세컨드', ')', ',', '김경애', '(', '서드', ')', '로', '이뤄진',

In [37]:
y_train

array([ list(['O', 'B-LOC', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'B-LOC', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'O', 'O', 'B-PER', 'I-PER', 'O', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O']),
       list(['B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'B-LOC', 'O', 'O', 'O', 'O']),
       list(['O', 'B-PER', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O',

In [38]:
x_valid

array([ list(['감격적인', '마지막', '샷을', '성공시킨', '후', '김은정', '의', '표정', '변화와', '눈물은', '가히', '평창', '동계', '올림픽', '최고의', '장면', '중', '하나라고', '하기에', '손색', '없었다', '.']),
       list(['그동안', '냉철하고', '무표정한', '모습으로', '화제를', '모았던', '안경', '선배', '김은정', '이', '울었다', '.']),
       list(['승리', '확정', '후', '그동안', '냉철한', '모습과', '무표정한', '모습으로', '국민적', '인기를', '끌었던', "'", '안경', '선배', "'", '김은정', '은', '왈칵', '눈물을', '쏟았다', '.']),
       list(['한국', '은', '25일', '오전', '9시5분', '열리는', '결승전에서', '예선에서', '7-6으로', '이겼던', '난적', '스웨덴', '과', '맞붙게', '됐다', '.']),
       list(['김은정', '은', '컬링', '을', '시작한지', '이제', '막', '10년이', '넘었다', '.']),
       list(['고등학교', '친구', '김영미', '에', '이끌려', '입문한', '뒤', '꾸준한', '발전', '속에', '지금의', '스킵으로', '성장했다', '.']),
       list(['반면', '후지사와', '는', '6세', '때', '아버지', '의', '손에', '이끌려', '컬링', '스톤', '을', '잡았다', '.']),
       list(['컬링', '경력만', '놓고', '보면', '후지사와', '가', '더', '길다', '.']),
       list(['일본', '홋카이도', '출신인', '후지사와', '는', '컬링', '집안의', '막내딸', '이라', '어릴적부터', '얼음이', '익숙했다', '.']),
       list(['하지만'

In [39]:
y_valid

array([ list(['O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O']),
       list(['B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O']),
       list(['B-LOC', 'B-LOC', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O

In [40]:
x_test

array([ list(['지난', '15일', '예선', '2차전에서', '일본', '에', '5-7로', '역전패했던', '한국', '은', '이날', '승리로', '지난', '패배를', '설욕하고', '최소한', '은메달', '을', '확보했다', '.']),
       list(['4엔드에는', '일본', '에', '1점을', '내줬지만', '5엔드', '2점', ',', '8엔드', '1점을', '내며', '7-4까지', '벌렸다', '.']),
       list(['그러나', '연장으로', '접어든', '11엔드에서', '스킵', '김은정', '이', '정확한', '샷으로', '1점을', '내며', '짜릿한', '승리에', '마침표를', '찍었다', '.']),
       list(['김영미', '와', '김경애', '(', '24', ')', '는', '친자매', '사이고', ',', '김은정', '과', '김선영', '(', '25', ')', '은', '각각', '자매의', '친구들이기', '때문이다', '.']),
       list(['영미', '는', '이제', '‘', '국민', '영미', '’', '가', '됐다', '.'])], dtype=object)

In [41]:
y_test

array([ list(['O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'B-PER', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']),
       list(['B-PER', 'O', 'O', 'O', 'O', 'B-PER', 'O', 'O', 'O', 'O'])], dtype=object)

In [61]:
model = anago.Sequence(max_epoch=1)
model.train(x_train, y_train, x_valid, y_valid)

Epoch 1/1


In [62]:
model.eval(x_test, y_test)

 - f1: 11.49


In [67]:
words = '하지만 한국 은 끝내 마지막 김은정 의 샷이 점수가 되며 감격의 승리를 거뒀다'.split()
#words = '김은정 은 자신의 실수를 만회하며 한국 의 승리를 이끌었다.'.split()
#words = '김은정 스킵과 리드 김영미, 세컨드 김선영, 서드 김경애, 후보 김초희로 이뤄진 한국 여자 컬링 대표팀은 5엔드까지 홀수 엔드에서는 일본을 눌렀다.'.split()
model.analyze(words)

{'entities': [{'beginOffset': 1,
   'endOffset': 2,
   'score': 1.0,
   'text': '한국',
   'type': 'PER'},
  {'beginOffset': 2, 'endOffset': 3, 'score': 1.0, 'text': '은', 'type': 'PER'},
  {'beginOffset': 3,
   'endOffset': 4,
   'score': 1.0,
   'text': '끝내',
   'type': 'PER'},
  {'beginOffset': 4,
   'endOffset': 5,
   'score': 1.0,
   'text': '마지막',
   'type': 'PER'},
  {'beginOffset': 5,
   'endOffset': 6,
   'score': 1.0,
   'text': '김은정',
   'type': 'PER'},
  {'beginOffset': 6, 'endOffset': 7, 'score': 1.0, 'text': '의', 'type': 'PER'},
  {'beginOffset': 7,
   'endOffset': 8,
   'score': 1.0,
   'text': '샷이',
   'type': 'PER'},
  {'beginOffset': 8,
   'endOffset': 9,
   'score': 1.0,
   'text': '점수가',
   'type': 'PER'},
  {'beginOffset': 9,
   'endOffset': 10,
   'score': 1.0,
   'text': '되며',
   'type': 'PER'},
  {'beginOffset': 10,
   'endOffset': 11,
   'score': 1.0,
   'text': '감격의',
   'type': 'PER'},
  {'beginOffset': 11,
   'endOffset': 12,
   'score': 1.0,
   'text': '승리를',


## pre-trained word embeddings 사용하기 (gensim)

#### 참고
* [7] Pre-trained word vectors of 30+ languages -https://github.com/Kyubyong/wordvectors
* [8] kor2vec - https://github.com/dongjun-Lee/kor2vec

In [2]:
# 해보자

# 참고자료 
* [1] Lecture 10: Recurrent Neural Networks - http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf
* [2] CRF기반 개채명 인식기(Named Entitiy Recognizer) 만들기 - https://github.com/biospin/biopy/blob/gh-pages/notebook/Part3/Week7/python-crfsuite-NER.ipynb
* [3] LSTM-CRF for NER
    - (원 논문) Bidirectional LSTM-CRF Models for Sequence Tagging - https://arxiv.org/abs/1508.01991
    - (슬라이드) Bi-directional LSTM-CNNs-CRF for Italian Sequence Labeling - https://www.slideshare.net/basilepp/bidirectional-lstmcnnscrf-for-italian-sequence-labeling-84065298
    - (슬라이드) 論文紹介：「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」 - https://www.slideshare.net/NaonoriNagano/endtoend-sequence-labeling-via-bidirectional-lstmcnnscrf
    - (슬라이드 일부) Python과 Tensorflow를 활용한 AI Chatbot 개발 및 실무 적용 - https://www.slideshare.net/healess/python-tensorflow-ai-chatbot
    - (슬라이드 일부) 20170227 파이썬으로 챗봇_만들기 - https://www.slideshare.net/KimSungdong1/20170227-72644192
    - (슬라이드 일부) Deep Learning for Chatbot (2/4) - https://www.slideshare.net/JaeminCho6/dl-chatbot-seminar-day-02
* [4] anaGo - https://github.com/Hironsan/anago
* [5] ner_word2vec exmaple -  https://github.com/Hironsan/anago/blob/master/examples/ner_word2vec.py
* [6] The List of Pretrained Word Embeddings - http://ahogrammer.com/2017/01/20/the-list-of-pretrained-word-embeddings/
* [7] Pre-trained word vectors of 30+ languages -https://github.com/Kyubyong/wordvectors
* [8] kor2vec - https://github.com/dongjun-Lee/kor2vec