## 1. 한글모델 tokenizer

#### - 토크나이저 훈련
1. 어떤 기법을 사용할지
2. vocab_size 설정 >> 작으면 메모리 이득, 크면 의미를 잘 표현할 수 있다. 
3. corpus >> 통계적으로 분석, vocab

- tokenizer에 vocab 수동으로 직접 추가
- vocab 300 ~ 350 [UNK1], [UNK2], [UNK3], ...
- 한국어 Pretrained model: koelectra, klue-roberta, korbert

In [1]:
!pip install transformers



In [2]:
import transformers

In [3]:
from transformers import ElectraTokenizer

tokenizer = ElectraTokenizer.from_pretrained("monologg/koelectra-base-v3-discriminator")
tokenizer.tokenize("[CLS] 한국어 ELECTRA를 공유합니다. [SEP]")

['[CLS]', '한국어', 'EL', '##EC', '##TRA', '##를', '공유', '##합니다', '.', '[SEP]']

In [4]:
tokenizer('안녕하세요')

{'input_ids': [2, 11655, 4279, 8553, 3], 'token_type_ids': [0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1]}

In [5]:
tokenizer.tokenize('안녕하세요. 제 이름은 여익수입니다.')

['안녕', '##하', '##세요', '.', '제', '이름', '##은', '여', '##익', '##수', '##입니다', '.']

In [6]:
tokenizer.convert_tokens_to_ids('안녕')

11655

In [7]:
tokenizer.convert_ids_to_tokens([0,1,2,3,155,156,30000,30001,35001]) # vocab 사이즈가 35000개임

['[PAD]', '[UNK]', '[CLS]', '[SEP]', '※', '‼', '킬로그램', '태백산', '[UNK]']

## 2. 영어모델 tokenizer

In [8]:
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [9]:
tokenizer

PreTrainedTokenizer(name_or_path='bert-base-uncased', vocab_size=30522, model_max_len=512, is_fast=False, padding_side='right', truncation_side='right', special_tokens={'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

In [10]:
tokenizer.tokenize('Hello. My name is Iksu Yeo')

['hello', '.', 'my', 'name', 'is', 'ik', '##su', 'ye', '##o']

In [11]:
tokenizer.vocab_size

30522

In [12]:
tokenizer.convert_tokens_to_ids('Hello')

100

In [13]:
multi_tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased')

In [14]:
multi_tokenizer.tokenize('안녕하세요')

['안', '##녕', '##하', '##세', '##요']

In [15]:
multi_tokenizer.vocab_size

119547


- multi : 안녕 << vocab에 포함이 안되어있음
- electra : 안녕 << vocab에 포함이 되어있음

In [16]:
from transformers import RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained('roberta-base')

In [17]:
tokenizer.convert_ids_to_tokens([11,22,33])

['Ġin', 'Ġ"', 'Ġhave']

In [18]:
tokenizer.convert_tokens_to_ids('hahah')

3