# Pre-trained NER models for Korean corpus

## monologg/KoELECTRA

In [None]:
!git clone https://github.com/monologg/KoELECTRA-Pipeline KoelectraPipeline

In [1]:
import torch
from transformers import ElectraTokenizer, ElectraForTokenClassification
from KoelectraPipeline.ner_pipeline import NerPipeline
from pprint import pprint

device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
device_no = 0 if torch.cuda.is_available() else -1
query = "현대자동차가 사우디아라비아에 반조립(CKD) 공장 설립을 검토한다. 현대차(005380)의 첫 중동 생산기지로 사우디가 확정되면 성장 가능성이 큰 현지 시장 공략에도 속도가 붙을 것으로 전망된다."
queries = [
    '"반토막" 마이크론 주가…아거스 "매수할 타이밍 아니다"',
    '애플 아이폰14 프로 생산 속도 회복 중…"생산 능력 70%로 회복"',
    '모건스탠리 "테슬라, EV 시장서 격차 벌릴 것"…테슬라 주가 8% 이상 상승 반전',
    '뉴욕증시 상승출발…테슬라 등 기술주들 일제 반등',
    '기술분석가들 "애플, 130달러 깨져 추가 하락 가능성 높아"',
    'CFRA, 넷플릭스 매도→매수로 두단계 상향',
    'GE 헬스케어, 1월 4일부터 별도 주식으로 거래',
    '올해 美증시 "인플레이션, 기업실적·파월 발언이 폭탄"',
    '머스크 "연말까지 테슬라 배송 도와달라" 직원에 이메일',
    '씨티그룹 "올해 유망 바이오주 TOP3...73% 상승 여력”',
    'TSMC, 대만남부공장에서 3나노칩 양산 시작',
    '디즈니, 2014년 10월 이후 주가 가장 낮아',
    '전문가도 "미쳤다"…17세기 가짜 "모나리자" 39억원에 낙찰',
    '삼성 ‘더 프레임’으로 모나리자 감상',
    '모나리자, ‘알쏭달쏭 캐치! 티니핑’ 캐릭터 콜라보 미용티슈·물티슈 선봬',
    '한편, 모나리자는 MSS 홀딩스(대표 정회훈)를 지주회사로 두고 있는 생활위생 전문 그룹인 MSS 그룹산하의 회사로, 각종 티슈 제품과 물티슈, 마스크, 유아용 및 성인용 기저귀 등 다양한 위생 용품을 출시하며 위생 용품 기업으로 입지를 강화하고 있다. ',
]

### [monologg/koelectra-small-finetuned-naver-ner](https://huggingface.co/monologg/koelectra-small-finetuned-naver-ner)

In [2]:
tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-small-finetuned-naver-ner")
model = ElectraForTokenClassification.from_pretrained("monologg/koelectra-small-finetuned-naver-ner").to(device)

- It seems `NerPipeline` is not available in `transformers` latest version

In [3]:
ner = NerPipeline(
    model=model,
    tokenizer=tokenizer,
    ignore_labels=[],
    ignore_special_tokens=True,
    device=device_no
)

- Showing how the NER pipeline works

In [4]:
pprint(ner(query))



[{'entity': 'ORG-B', 'score': 0.9996711611747742, 'word': '현대자동차가'},
 {'entity': 'LOC-B', 'score': 0.9993993639945984, 'word': '사우디아라비아에'},
 {'entity': 'TRM-B', 'score': 0.9200928807258606, 'word': '반조립(CKD)'},
 {'entity': 'O', 'score': 0.9994731545448303, 'word': '공장'},
 {'entity': 'O', 'score': 0.99997478723526, 'word': '설립을'},
 {'entity': 'O', 'score': 0.9999741911888123, 'word': '검토한다.'},
 {'entity': 'ORG-B', 'score': 0.999255895614624, 'word': '현대차(005380)의'},
 {'entity': 'NUM-B', 'score': 0.9716644287109375, 'word': '첫'},
 {'entity': 'LOC-B', 'score': 0.6237317323684692, 'word': '중동'},
 {'entity': 'O', 'score': 0.9186286330223083, 'word': '생산기지로'},
 {'entity': 'LOC-B', 'score': 0.9993852972984314, 'word': '사우디가'},
 {'entity': 'O', 'score': 0.9999492764472961, 'word': '확정되면'},
 {'entity': 'O', 'score': 0.9999668598175049, 'word': '성장'},
 {'entity': 'O', 'score': 0.9999701976776123, 'word': '가능성이'},
 {'entity': 'O', 'score': 0.9999551773071289, 'word': '큰'},
 {'entity': 'O', 'score

- Elapsed time

In [5]:
start = torch.cuda.Event(enable_timing=True)
end = torch.cuda.Event(enable_timing=True)

start.record()
ner(query)
end.record()

torch.cuda.synchronize()

print('Elapsed time: {} ms'.format(start.elapsed_time(end)))

Elapsed time: 19.2761287689209 ms


- Showing other NER results

In [6]:
for query in queries: 
    pprint(ner(query))
    print('\n')

[{'entity': 'O', 'score': 0.7511236071586609, 'word': '"반토막"'},
 {'entity': 'ORG-B', 'score': 0.9995559453964233, 'word': '마이크론'},
 {'entity': 'O', 'score': 0.8277828693389893, 'word': '주가…아거스'},
 {'entity': 'O', 'score': 0.9992302060127258, 'word': '"매수할'},
 {'entity': 'O', 'score': 0.9999534487724304, 'word': '타이밍'},
 {'entity': 'O', 'score': 0.9999535083770752, 'word': '아니다"'}]


[{'entity': 'ORG-B', 'score': 0.9981120824813843, 'word': '애플'},
 {'entity': 'TRM-B', 'score': 0.9973036646842957, 'word': '아이폰14'},
 {'entity': 'O', 'score': 0.8423691987991333, 'word': '프로'},
 {'entity': 'O', 'score': 0.9999445676803589, 'word': '생산'},
 {'entity': 'O', 'score': 0.9998543858528137, 'word': '속도'},
 {'entity': 'O', 'score': 0.9992532730102539, 'word': '회복'},
 {'entity': 'O', 'score': 0.999006450176239, 'word': '중…"생산'},
 {'entity': 'O', 'score': 0.9994794130325317, 'word': '능력'},
 {'entity': 'NUM-B', 'score': 0.9899680018424988, 'word': '70%로'},
 {'entity': 'O', 'score': 0.9998534917831421, 

### [monologg/koelectra-base-v3-naver-ner](https://huggingface.co/monologg/koelectra-base-v3-naver-ner)

- `transformers==3.3.1` can't find `monologg/koelectra-base-v3-naver-ner`

```
OSError: Model name 'monologg/koelectra-base-v3-naver-ner' was not found in tokenizers model name list (google/electra-small-generator, google/electra-base-generator, google/electra-large-generator, google/electra-small-discriminator, google/electra-base-discriminator, google/electra-large-discriminator). We assumed 'monologg/koelectra-base-v3-naver-ner' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url.
```

In [7]:
tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-base-v3-naver-ner")
model = ElectraForTokenClassification.from_pretrained("monologg/koelectra-base-v3-naver-ner")

OSError: Model name 'monologg/koelectra-base-v3-naver-ner' was not found in tokenizers model name list (google/electra-small-generator, google/electra-base-generator, google/electra-large-generator, google/electra-small-discriminator, google/electra-base-discriminator, google/electra-large-discriminator). We assumed 'monologg/koelectra-base-v3-naver-ner' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url.

- So I cloned it directly

In [None]:
!git clone https://huggingface.co/monologg/koelectra-base-v3-naver-ner

In [8]:
tokenizer = ElectraTokenizer.from_pretrained("koelectra-base-v3-naver-ner")
model = ElectraForTokenClassification.from_pretrained("koelectra-base-v3-naver-ner").to(device)

In [9]:
ner = NerPipeline(
    model=model,
    tokenizer=tokenizer,
    ignore_labels=[],
    ignore_special_tokens=True,
    device=device_no
)

In [10]:
pprint(ner(query))

[{'entity': 'O', 'score': 0.9999983906745911, 'word': '한편,'},
 {'entity': 'ORG-B', 'score': 0.9999523758888245, 'word': '모나리자는'},
 {'entity': 'ORG-B', 'score': 0.9999857544898987, 'word': 'MSS'},
 {'entity': 'ORG-I', 'score': 0.9990755319595337, 'word': '홀딩스(대표'},
 {'entity': 'PER-B', 'score': 0.9999769926071167, 'word': '정회훈)를'},
 {'entity': 'O', 'score': 0.9999976754188538, 'word': '지주회사로'},
 {'entity': 'O', 'score': 0.9999949932098389, 'word': '두고'},
 {'entity': 'O', 'score': 0.999997079372406, 'word': '있는'},
 {'entity': 'O', 'score': 0.999990701675415, 'word': '생활위생'},
 {'entity': 'O', 'score': 0.9999984502792358, 'word': '전문'},
 {'entity': 'O', 'score': 0.9999976754188538, 'word': '그룹인'},
 {'entity': 'ORG-B', 'score': 0.9999130368232727, 'word': 'MSS'},
 {'entity': 'O', 'score': 0.9973904490470886, 'word': '그룹산하의'},
 {'entity': 'O', 'score': 0.9999976754188538, 'word': '회사로,'},
 {'entity': 'O', 'score': 0.9999988079071045, 'word': '각종'},
 {'entity': 'O', 'score': 0.865473091602325

In [11]:
start = torch.cuda.Event(enable_timing=True)
end = torch.cuda.Event(enable_timing=True)

start.record()
ner(query)
end.record()

torch.cuda.synchronize()

print('Elapsed time: {} ms'.format(start.elapsed_time(end)))

Elapsed time: 18.635711669921875 ms


- Showing other NER results

In [12]:
for query in queries: 
    pprint(ner(query))
    print('\n')

[{'entity': 'O', 'score': 0.9579496383666992, 'word': '"반토막"'},
 {'entity': 'ORG-B', 'score': 0.9999145269393921, 'word': '마이크론'},
 {'entity': 'O', 'score': 0.8285893201828003, 'word': '주가…아거스'},
 {'entity': 'O', 'score': 0.9999950528144836, 'word': '"매수할'},
 {'entity': 'O', 'score': 0.999996542930603, 'word': '타이밍'},
 {'entity': 'O', 'score': 0.9999969005584717, 'word': '아니다"'}]


[{'entity': 'ORG-B', 'score': 0.9999739527702332, 'word': '애플'},
 {'entity': 'TRM-B', 'score': 0.9998205900192261, 'word': '아이폰14'},
 {'entity': 'TRM-I', 'score': 0.9996592998504639, 'word': '프로'},
 {'entity': 'O', 'score': 0.999998927116394, 'word': '생산'},
 {'entity': 'O', 'score': 0.9999986290931702, 'word': '속도'},
 {'entity': 'O', 'score': 0.9999985098838806, 'word': '회복'},
 {'entity': 'O', 'score': 0.9998188018798828, 'word': '중…"생산'},
 {'entity': 'O', 'score': 0.9999990463256836, 'word': '능력'},
 {'entity': 'O', 'score': 0.5029545426368713, 'word': '70%로'},
 {'entity': 'O', 'score': 0.9999988079071045, '

In [None]:
pprint(ner('서울시가 15조원을 투입해 "아이 키우기 좋은 서울"을 만들겠다는 구상을 밝히면서 모나리자에 반사이익 기대감이 반영되고 있다.'))

In [None]:
pprint(ner('미세먼지 테마주에 이어 코로나19 사태 때 마스크 대장주였던 모나리자 주가가 3분의 1 수준에서 머무르고 있다.'))

In [None]:
pprint(ner('한편, 모나리자는 MSS 홀딩스(대표 정회훈)를 지주회사로 두고 있는 생활위생 전문 그룹인 MSS 그룹산하의 회사로, 각종 티슈 제품과 물티슈, 마스크, 유아용 및 성인용 기저귀 등 다양한 위생 용품을 출시하며 위생 용품 기업으로 입지를 강화하고 있다.'))