In [7]:
from transformers import BertTokenizer
# bert-base-uncased & bert-base-cased
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

# 영어
print(tokenizer.tokenize("I have a new GPU!"))
# 한글
print(tokenizer.tokenize("나 GPU 있다!!!"))
# “##”는 해당 심볼을 지닌 토큰은 해당 토큰 이전에 등장한 토큰과 공백 없이 합친다는 의미
# subword tokenization : 
# 해당 어휘집(vocabulary)에 존재하는 토큰들을 얻을 수 있을 때까지 단어 분할

['i', 'have', 'a', 'new', 'gp', '##u', '!']
['ᄂ', '##ᅡ', 'gp', '##u', '[UNK]', '!', '!', '!']


In [2]:
# 영어
print(tokenizer.tokenize("I have a new GPU!"))
# 한글
print(tokenizer.tokenize("나 GPU 있다!!!"))
#  “##”는 해당 심볼을 지닌 토큰은 해당 토큰 이전에 등장한 토큰과 공백 없이 합쳐져야 한다는 의미입니다.

['i', 'have', 'a', 'new', 'gp', '##u', '!']
['ᄂ', '##ᅡ', 'gp', '##u', '[UNK]', '!', '!', '!']


In [5]:
#!pip install sentencepiece
# https://github.com/google/sentencepiece#installation
# 혹시 install 하고 None 뜨면 노트북 restart 한번 해주셔야되네요

In [6]:
from transformers import XLNetTokenizer
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")
print(tokenizer.tokenize("I have a new GPU!"))
print(tokenizer.tokenize("나 GPU 있다!!!"))
# sentencepiece에서 입력 문장을 Raw Stream으로 취급해 공백을 포함한 모든 캐릭터를 활용해, BPE 혹은 Unigram을 적용하며 사전을 구축하게 됩니다.

['▁I', '▁have', '▁a', '▁new', '▁G', 'PU', '!']
['▁', '나', '▁G', 'PU', '▁', '있다', '!!!']


### 토크나이저 중간과정 확인하기

In [103]:
tokenizer = BertTokenizer.from_pretrained("bert-base-cased")
sequence = "Now I am doing Boostcamp AI Tech competition!!"

# tokenize: vocabulary에 존재하는 토큰을 얻을 수 있을 때까지 단어 분리
tokens = tokenizer.tokenize(sequence)
print('tokenize sentence : ',tokens)

# 토큰들의 입력 식별자로 변환! 텐서로 변환되면 모델 입력으로 사용 가능
ids = tokenizer.convert_tokens_to_ids(tokens)
print('give ids to token : ',ids)

# decoding: 인덱스를 다시 토큰으로 변환,하위 단어(subword)로 분할된 토큰을 병합
# 원래의 읽을 수 있는 원본 문장으로 변환
decoded_string = tokenizer.decode(ids)
print(decoded_string)

print('--')

# encoding 은 tokenize, convert to ids 두 과정으로 구성되며,
# 시작을 표시하는 [CLS], 끝인 [SEP] 를 같이 표기해해서 줌
enc_ids = tokenizer.encode(sequence)
print(enc_ids)
additionals = []
for enc in enc_ids:
    if enc not in ids:
        additionals.append(enc)
add_string = tokenizer.decode(additionals)      
print(*additionals, '->', add_string)

enc_string = tokenizer.decode(enc_ids)
print(enc_string)

tokenize sentence :  ['Now', 'I', 'am', 'doing', 'Bo', '##ost', '##cam', '##p', 'AI', 'Tech', 'competition', '!', '!']
give ids to token :  [1986, 146, 1821, 1833, 9326, 15540, 24282, 1643, 19016, 7882, 2208, 106, 106]
Now I am doing Boostcamp AI Tech competition!!
--
[101, 1986, 146, 1821, 1833, 9326, 15540, 24282, 1643, 19016, 7882, 2208, 106, 106, 102]
101 102 -> [CLS] [SEP]
[CLS] Now I am doing Boostcamp AI Tech competition!! [SEP]


In [105]:
# output = tokenizer.encode_batch(
#    [["Hello, y'all!", "How are you 😁 ?"], ["Hello to you too!", "I'm fine, thank you!"]]
#)

In [44]:
import os
# pretrained BertWordPieceTokenizer에는 어떤 단어들이 있을까요?
# 참고: https://huggingface.co/docs/tokenizers/python/latest/quicktour.html#pretrained
# 위의 예시처럼 간단히 from_pretrained 를 불러올 수도 있고
from transformers import BertTokenizer
sequences = ["I really want to understand all!!",
            "진짜로 다 이해하고 싶다!!"]
tokenizer_base = BertTokenizer.from_pretrained("bert-base-uncased")
# tokenizer(sequences, return_tensors="pt")
# print(tokenizer.tokenize(sequences))

In [45]:
# tokenizer.tokenize 가 string list 바로 먹혀지진 않네요. (!?)
print([tokenizer_base.tokenize(seq) for seq in sequences])

[['i', 'really', 'want', 'to', 'understand', 'all', '!', '!'], ['[UNK]', 'ᄃ', '##ᅡ', 'ᄋ', '##ᅵ', '##ᄒ', '##ᅢ', '##ᄒ', '##ᅡ', '##ᄀ', '##ᅩ', '[UNK]', '!', '!']]


In [47]:
import pandas as pd
bert_uncased_vocab = pd.Series({k:v for k,v in tokenizer_base.get_vocab().items()})
bert_uncased_vocab.head(20)

[PAD]          0
[unused0]      1
[unused1]      2
[unused2]      3
[unused3]      4
[unused4]      5
[unused5]      6
[unused6]      7
[unused7]      8
[unused8]      9
[unused9]     10
[unused10]    11
[unused11]    12
[unused12]    13
[unused13]    14
[unused14]    15
[unused15]    16
[unused16]    17
[unused17]    18
[unused18]    19
dtype: int64

In [48]:
from tokenizers import BertWordPieceTokenizer
# !apt-get update; apt-get install wget
# !wget https://s3.amazonaws.com/models.huggingface.co/bert/bert-base-uncased-vocab.txt
# 해당 토크나이저가 갖는 vocabulary파일을 가지고 불러올 수도 있음
tokenizer = BertWordPieceTokenizer("bert-base-uncased-vocab.txt", lowercase=True)

In [None]:
# BertTokenizer와 BertWordPieceTokenizer 차이
# https://stackoverflow.com/questions/62405155/bertwordpiecetokenizer-vs-berttokenizer-from-huggingface

In [51]:
output2 = [tokenizer_base.encode(seq) for seq in sequences]
for o in output2:
    print(o)

[101, 1045, 2428, 2215, 2000, 3305, 2035, 999, 999, 102]
[101, 100, 1457, 30006, 1463, 30019, 30005, 30007, 30005, 30006, 29991, 30011, 100, 999, 999, 102]


In [81]:
# get pretrained
# https://github.com/huggingface/tokenizers/issues/507
# https://github.com/huggingface/transformers/issues/6186
new_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')

### word piece vocab 만들어보기
* BertWordPieceTokenizer, BertTokenizerFast
* 디테일한 argumnets 설명은 달지 않음

In [123]:
# 실습에서 사용한 작은 wiki 로 사용
import os
from tokenizers import BertWordPieceTokenizer

tokenizer = BertWordPieceTokenizer(strip_accents=False, lowercase=False)

corpus_file   = './data/wiki_20190620_small.txt' # data path
vocab_size    = 32000   #vocab의 크기. 보통 32,000이 좋다고 알려짐.
limit_alphabet= 6000    #merge 수행 전 initial tokens이 유지되는 숫자 제한 (?!)
output_path   = 'hugging_%d'%(vocab_size)
min_frequency = 5  # 단어의 최소 발생 빈도


# BertTokenizer는 .train이 안된다..흠
tokenizer.train(files=corpus_file,
               vocab_size=vocab_size,
               min_frequency=min_frequency,
               limit_alphabet=limit_alphabet, 
               show_progress=True)


In [128]:
# vocab으로 불러오는 방법! BertWordPieceTokenizer 는 config.json이 저장이 안된다.
tokenizer.save_model(
                    directory = './'
                    )
# import os
# if os.path.exists('./wiki-bert'):
#     pass
# else:
#     os.mkdir('./wiki-bert')
# tokenizer.save_model(
#                     './wiki-bert','wiki-bert'
#                     )
wiki_bert = BertWordPieceTokenizer('./vocab.txt')

In [125]:
# BertWordPieceTokenizer from_pretrained 메소드도 없다
wiki_bert2 = BertWordPieceTokenizer.from_pretrained('./wiki-bert') # 

AttributeError: type object 'BertWordPieceTokenizer' has no attribute 'from_pretrained'

In [129]:
from tokenizers import (ByteLevelBPETokenizer,
                        CharBPETokenizer,
                        SentencePieceBPETokenizer,
                        BertWordPieceTokenizer)
                            
tokenizer = SentencePieceBPETokenizer()
tokenizer.train(["./data/wiki_20190620_small.txt"], vocab_size=500, min_frequency=2)

output = tokenizer.encode("This is a test")
print(output.tokens)

['▁', 'T', 'h', 'i', 's', '▁', 'i', 's', '▁', 'a', '▁', 't', 'e', 's', 't']


In [132]:
tokenizer.save('sentence-vocab.txt')
import os
if os.path.exists('sentence-test'):
    pass
else:
    os.mkdir('sentence-test')
tokenizer.save_model("sentence-test", "sentence")

['sentence-test/sentence-vocab.json', 'sentence-test/sentence-merges.txt']

In [140]:
# https://github.com/huggingface/tokenizers/blob/master/bindings/python/py_src/tokenizers/implementations/sentencepiece_bpe.py
wiki_bert = SentencePieceBPETokenizer(
    vocab = './sentence-test/sentence-vocab.json',
    merges = './sentence-test/sentence-merges.txt') # config file이 있어줘야한다

In [141]:
# BertTokenizer, BertWordPieceTokenizer
# BertWordPieceTokenizer, BertTokenizerFast의 차이
from transformers import BertTokenizerFast
# https://github.com/huggingface/transformers/blob/v4.17.0/src/transformers/models/bert/tokenization_bert_fast.py#L117
# Construct a "fast" BERT tokenizer (backed by HuggingFace's *tokenizers* library). Based on WordPiece.
#    This tokenizer inherits from [`PreTrainedTokenizerFast`] which contains most of the main methods. Users should
#    refer to this superclass for more information regarding those methods.
tokenizer = BertTokenizerFast("./vocab.txt",
                             strip_accents=False,
                             lowercase=False)
print([tokenizer(seq) for seq in sequences])

[{'input_ids': [2, 76, 85, 5599, 1896, 1896, 1865, 90, 8657, 87, 1749, 88, 6376, 3246, 1866, 1962, 4115, 1898, 68, 1896, 1896, 5, 5, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}, {'input_ids': [2, 1190, 2091, 1575, 493, 3345, 2704, 967, 1586, 5, 5, 3], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}]


In [145]:
# BertTokenizerFast -> train, save model 다 안됨. 그냥 불러오는 것만 되는듯

### pipeline 사용하기
* 간단한 예제 : `senteiment-analysis`