BERT multilingual (Google) |
|
위키피디아 (100개 언어 이상) |
119,547 |
WordPiece |
KoBERT (SKTBrain) |
SKTBrain에서 배포한 한국어 BERT 모델 |
한국어위키 (문장 5M, 단어 54M) |
8,002 |
Sentencepiece |
KorBERT (ETRI) |
ETRI 엑소브레인 연구진이 배포하는 한국어 BERT 모델로 Korean_BERT_Morphology(형태소분석 기반), Korean_BERT_WordPiece(어절 기반) 모델 제공 |
신문기사와 백과사전 등 23GB (47억개 형태소) |
morphology : 30,349 / wordpiece : 30.797 |
OpenAPI 형태소분석 API |
DistilKoBERT |
SKTBrain KoBERT의 경량화 모델로 기존 12 layer에서 3 layer로 줄임 |
한국어 위키, 나무위키, 뉴스 등 10GB |
|
Sentencepiece |
KcBERT |
한국어 댓글 선학습 BERT 모델 |
네이버 뉴스 댓글 및 대댓글(2019.01.01 ~ 2020.06.15) 약 15.4GB (1억 1천만개 이상 문장) |
30,000 |
WordPiece |
KR-BERT |
KR-BERT character, KR-BERT sub-character 모델 제공 |
2.47GB (20M 문장, 233M 단어) |
KR-BERT character : 16,424 / KR-BERT sub-character : 12,367 |
BidirectionalWordPiece |
KorPatBERT |
한국특허정보원이 배포한 특허 데이터 특화 BERT 모델, 특허문헌에서 약 666만개 주요 명사 및 복합명사 추출하여 형태소분석기 Mecab-ko 사용자 사전에 추가 후 sentencepiece를 통해 subword로 분할하는 방식 활용 (Mecab-ko Sentencepiece Patent Tokenizer) |
국내 특허문헌 약 406만건, 4억 6천장 문장, 266억 토큰 (120GB) |
21,400 |
Mecab-ko Sentencepiece |
KB-ALBERT |
한국어 경제 및 금융 도메인 특화 ALBERT 모델 |
일반 도메인(위키, 뉴스 등) + 금융 도메인(경제 및 금융 특화 뉴스, 리포트 등) 총 100GB (KB-ALBERT-CHAR-v2 기준) |
9,607 |
음절단위 한글 토크나이저 ( BERTWordPieceTokenizer에서 음절만 있는 형태와 비슷하며 띄어쓰기를 제외한 음절 앞에 “##” prefix 추가) |
KoELECTRA |
KoELECTRA-Base, KoELECTRA-Small 제공 |
v1, v2 : 뉴스, 위키, 나무위키 등 34GB / v3 : 모두의 말뭉치 신문, 문어, 구어, 메신저, 웹 약 20GB 추가 사용 |
v1, v2 : 32,200 / v3 : 35000 |
WordPiece |
KcELECTRA |
tokenizer는 huggingface의 Tokenizers 라이브러리 활용 |
뉴스 댓글 및 대댓글(2019.01.01 ~ 2021.03.09) 약 17.3GB (1억 8천만 개 이상의 문장) |
30,000 |
WordPiece |
Dialog-KoELECTRA |
ELECTRA기반 한국어 대화체 언어모델 |
대화체(AIHub 한국어 대화 말뭉치, 모두의말뭉치 구어 , 챗봇 데이터, KcBERT) 7GB + 문어체(모두의말뭉치 신문, 나무위키) 15GB |
40,000 |
형태소분석 기반 |