Skip to content

Latest commit

 

History

History
59 lines (42 loc) · 6.36 KB

korean_pretrained_lm.md

File metadata and controls

59 lines (42 loc) · 6.36 KB

🗒️ 한국어 선학습 언어모델(Korean Pre-trained Language Model)

✔️ Last Update : 2022.02.05

🔢 Index

1️⃣ Transformer Encoder 기반

Model Description Dataset Vocab Size Tokenizer
BERT multilingual (Google) 위키피디아 (100개 언어 이상) 119,547 WordPiece
KoBERT (SKTBrain) SKTBrain에서 배포한 한국어 BERT 모델 한국어위키 (문장 5M, 단어 54M) 8,002 Sentencepiece
KorBERT (ETRI) ETRI 엑소브레인 연구진이 배포하는 한국어 BERT 모델로 Korean_BERT_Morphology(형태소분석 기반), Korean_BERT_WordPiece(어절 기반) 모델 제공 신문기사와 백과사전 등 23GB (47억개 형태소) morphology : 30,349 / wordpiece : 30.797 OpenAPI 형태소분석 API
DistilKoBERT SKTBrain KoBERT의 경량화 모델로 기존 12 layer에서 3 layer로 줄임 한국어 위키, 나무위키, 뉴스 등 10GB Sentencepiece
KcBERT 한국어 댓글 선학습 BERT 모델 네이버 뉴스 댓글 및 대댓글(2019.01.01 ~ 2020.06.15) 약 15.4GB (1억 1천만개 이상 문장) 30,000 WordPiece
KR-BERT KR-BERT character, KR-BERT sub-character 모델 제공 2.47GB (20M 문장, 233M 단어) KR-BERT character : 16,424 / KR-BERT sub-character : 12,367 BidirectionalWordPiece
KorPatBERT 한국특허정보원이 배포한 특허 데이터 특화 BERT 모델, 특허문헌에서 약 666만개 주요 명사 및 복합명사 추출하여 형태소분석기 Mecab-ko 사용자 사전에 추가 후 sentencepiece를 통해 subword로 분할하는 방식 활용 (Mecab-ko Sentencepiece Patent Tokenizer) 국내 특허문헌 약 406만건, 4억 6천장 문장, 266억 토큰 (120GB) 21,400 Mecab-ko Sentencepiece
KB-ALBERT 한국어 경제 및 금융 도메인 특화 ALBERT 모델 일반 도메인(위키, 뉴스 등) + 금융 도메인(경제 및 금융 특화 뉴스, 리포트 등) 총 100GB (KB-ALBERT-CHAR-v2 기준) 9,607 음절단위 한글 토크나이저 ( BERTWordPieceTokenizer에서 음절만 있는 형태와 비슷하며 띄어쓰기를 제외한 음절 앞에 “##” prefix 추가)
KoELECTRA KoELECTRA-Base, KoELECTRA-Small 제공 v1, v2 : 뉴스, 위키, 나무위키 등 34GB / v3 : 모두의 말뭉치 신문, 문어, 구어, 메신저, 웹 약 20GB 추가 사용 v1, v2 : 32,200 / v3 : 35000 WordPiece
KcELECTRA tokenizer는 huggingface의 Tokenizers 라이브러리 활용 뉴스 댓글 및 대댓글(2019.01.01 ~ 2021.03.09) 약 17.3GB (1억 8천만 개 이상의 문장) 30,000 WordPiece
Dialog-KoELECTRA ELECTRA기반 한국어 대화체 언어모델 대화체(AIHub 한국어 대화 말뭉치, 모두의말뭉치 구어 , 챗봇 데이터, KcBERT) 7GB + 문어체(모두의말뭉치 신문, 나무위키) 15GB 40,000 형태소분석 기반

2️⃣ Transformer Decoder 기반

Model Description Dataset Vocab Size Tokenizer
KoGPT2 (SKT-AI) 한국어 위키백과, 뉴스, 모두의 말뭉치 v1.0, 청와대 국민청원 등 51,200 Character BPE
KoGPT (Kakaobrain) 카카오브레인에서 배포한 초거대 GPT-3 언어모델로 KoGPT6B-ryan1.5b, KoGPT6B-ryan1.5b-float16 모델 제공

3️⃣ Transformer Encoder-Decoder 기반

Model Description Dataset Vocab Size Tokenizer
KoBART (SKT-AI) 한국어 위키백과, 뉴스, 모두의 말뭉치 v1.0, 청와대 국민청원 등 30,000 Character BPE
AsianBART 한국어/영어/중국어/일본어 모델 제공 8,000
T5 multilingual (Google) mC4 코퍼스 (101개 언어) 250,114 Sentencepiece
ET5, 한국어 이해생성 언어모델(ETRI) ETRI 엑소브레인 연구진이 배포한 한국어 이해생성 언어모델(ET5) Common Crawl, 위키백과, 신문기사, 방송 대본, 영화/드라마 대본, 문어/구어 등 약 136GB(12억 9천만 문장, 139억개 단어, 643억 글자) 45,100 Sentencepiece
KE-T5 (KETI) 한국어의 경우 센터에서 확보하고 있는 비정형 코퍼스+모두의 말뭉치 일부, 영어의 경우 RealNews 데이터셋 사용 64,000 Sentencepiece
kolang-t5-base 네이버 뉴스, 위키, 모두의 말뭉치 총 20GB 35,100 (special token 100개 포함) Sentencepiece

4️⃣ 기타

Model Description Dataset Vocab Size Tokenizer
LMKor 한국어로 학습된 최신 언어모델 제공(BERT, ALBERT, ELECTRA, Funnel, GPT3, BERTShared) 국내 주요 커머스 리뷰 1억개 + 블로그 형 웹사이트 2000만개 (75GB) + 모두의 말뭉치(18GB) + 위키피디아 나무위키 (6GB) 42,000 (2,000개 unused token) WordPiece
KoBigBird 최대 512개의 토큰을 다룰 수 있는 BERT의 8배인 최대 4096개의 token을 다룸 모두의 말뭉치, 한국어 위키, Common Crawl, 뉴스 데이터 등 BertTokenizer 활용