# Warming Up - BERT Tokenizer 소개

- BERT 의 Tokenizer 방식에 대해서 이해를 합니다. 참조의 링크를 통해서 자세히 알아 볼 수 있습니다.

---

### 참조
- [자연어처리_BERT 기초개념(완전 초보용)](https://han-py.tistory.com/252)
- 4. BERT의 서브워드 토크나이저 : WordPiece
    - https://wikidocs.net/115055

# 1. 사전 지식 (BERT 구조)

![BERT_Structure.png](img/BERT_Structure.png)

# 2. BERT Tokenization 방식
출처: [02) 버트(Bidirectional Encoder Representations from Transformers, BERT)](https://wikidocs.net/115055)
![BERT_How_to_Token.png](img/BERT_How_to_Token.png)

In [14]:
import pandas as pd
from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # Bert-base의 토크나이저

In [2]:
result = tokenizer.tokenize('Here is the sentence I want embeddings for.')
print(result)

['here', 'is', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', '##s', 'for', '.']


In [3]:
print(tokenizer.vocab['here'])

2182


In [4]:
print(tokenizer.vocab['embeddings'])

KeyError: 'embeddings'

In [5]:
print(tokenizer.vocab['em'])

7861


In [6]:
print(tokenizer.vocab['##bed'])

8270


In [7]:
print(tokenizer.vocab['##ding'])

4667


In [8]:
print(tokenizer.vocab['##s'])

2015


In [9]:
# BERT의 단어 집합을 vocabulary.txt에 저장
with open('vocabulary.txt', 'w') as f:
  for token in tokenizer.vocab.keys():
    f.write(token + '\n')

In [10]:
df = pd.read_fwf('vocabulary.txt', header=None)
df

Unnamed: 0,0
0,[PAD]
1,[unused0]
2,[unused1]
3,[unused2]
4,[unused3]
...,...
30517,##．
30518,##／
30519,##：
30520,##？


In [11]:
print('단어 집합의 크기 :',len(df))

단어 집합의 크기 : 30522


In [12]:
df.loc[4667].values[0]

'##ding'

In [13]:
df.loc[102].values[0]

'[SEP]'

# 한글 ( 모델: monologg/koelectra-small-v3-discriminator)
참조
- [KoELECTRA v3 (Base Discriminator)](https://huggingface.co/monologg/koelectra-base-v3-discriminator)

In [15]:
# from datasets import load_dataset
from transformers import (
    ElectraModel, 
    ElectraTokenizer, 
    ElectraForSequenceClassification, 
    Trainer, 
    TrainingArguments, 
    set_seed
)

In [16]:
tokenizer_id = 'monologg/koelectra-small-v3-discriminator'
tokenizer = ElectraTokenizer.from_pretrained(tokenizer_id)

In [17]:
tokenizer.tokenize(('아 배고픈데 짜장면 먹고싶다'))

['아', '배고픈', '##데', '짜장면', '먹', '##고', '##싶', '##다']

In [20]:

review = '주꾸미 오징어 문어 요런거 느므느므 좋아하는데 혼자 사는 싱글족이라 주꾸미 땡겨도 막상 근처에 갈데가 없고,\
       볶음류가 은근 2인분 이상 주문해야되는곳도 많아서ㅠㅠ 요즘 한끼 먹기 좋게 포장된 주꾸미를 열심히 섭렵 중에 있답니닷! ^^ \
       한끼용이지만 마치 두끼인것처럼 든든하게 먹기 위해서 좋아하는거 맘껏 다 준비해서 만들었어요ㅎㅎㅎ\
       1. 중국식 넓적 당면 불려 두고 2. 함께 주문한 왕통통 새우도 넣고 \
       3. 볶음류에 깻잎 또 필수 중에 필수죠ㅋㅋ 4. 거기다가 매운고추 더 뿌려서 \
       5. 고소함 띠드 한장 싸악 올려서 먹음 채고!!! 채고!!! 오늘 받자마자 저녁으로 만들어 먹어보니 \
       홍대주꾸미가 다른 주꾸미 보다 좋았던게 익는 순간 쪼그라 들면서 반토막나는데가 진짜 너무 많았거든요? ㅠㅠ \
       실망 실망 대실망ㅠㅠ 근데 여긴 사이즈가 변함없이 통통하니 쫄깃쫄깃 씹는 재미,식감을 즐기기도 너무 좋더라구요. >.< \
       딱 좋아요! 맘에 들었어요! 쟁여두고 사먹을 아이템으로 등극했어요~*^^*'

tokenizer.tokenize(review)

['주',
 '##꾸미',
 '오징어',
 '문어',
 '요런',
 '##거',
 '느',
 '##므',
 '##느',
 '##므',
 '좋',
 '##아',
 '##하',
 '##는데',
 '혼자',
 '사',
 '##는',
 '싱글',
 '##족',
 '##이',
 '##라',
 '주',
 '##꾸미',
 '땡',
 '##겨',
 '##도',
 '막상',
 '근처',
 '##에',
 '갈',
 '##데',
 '##가',
 '없',
 '##고',
 ',',
 '볶음',
 '##류',
 '##가',
 '은근',
 '2',
 '##인',
 '##분',
 '이상',
 '주문',
 '##해야',
 '##되',
 '##는',
 '##곳',
 '##도',
 '많',
 '##아',
 '##서',
 '##ㅠㅠ',
 '요즘',
 '한',
 '##끼',
 '먹',
 '##기',
 '좋',
 '##게',
 '포장',
 '##된',
 '주',
 '##꾸미',
 '##를',
 '열심히',
 '섭',
 '##렵',
 '중',
 '##에',
 '있',
 '##답',
 '##니',
 '##닷',
 '!',
 '^',
 '^',
 '한',
 '##끼',
 '##용',
 '##이지',
 '##만',
 '마치',
 '두',
 '##끼',
 '##인',
 '##것',
 '##처럼',
 '든든',
 '##하',
 '##게',
 '먹',
 '##기',
 '위해서',
 '좋',
 '##아',
 '##하',
 '##는',
 '##거',
 '맘껏',
 '다',
 '준비',
 '##해서',
 '만들',
 '##었',
 '##어요',
 '##ㅎ',
 '##ㅎ',
 '##ㅎ',
 '1',
 '.',
 '중국',
 '##식',
 '넓',
 '##적',
 '당면',
 '불려',
 '두고',
 '2',
 '.',
 '함께',
 '주문',
 '##한',
 '왕',
 '##통',
 '##통',
 '새우',
 '##도',
 '넣',
 '##고',
 '3',
 '.',
 '볶음',
 '##류',
 '##에',
 '깻잎'