# OpenAI의 tiktoken을 사용한 tokenizer 개념 이해

- tiktoken은 OpenAI에서 개발한 빠르고 효율적인 BPE(Byte Pair Encoding) 기반 토크나이저입니다.  
- GPT 모델들이 사용하는 것과 동일한 토크나이징 방식을 제공합니다.

```
    "cl100k_base": "GPT-4, GPT-3.5-turbo, text-embedding-ada-002에서 사용",
    "p50k_base": "GPT-3, Codex에서 사용", 
    "r50k_base": "GPT-3, GPT-2에서 사용"
```

- tiktoken은 BPE(Byte Pair Encoding) 방식을 사용합니다. 가장 자주 등장하는 문자 쌍을 하나의 토큰으로 병합하는 방식입니다.

In [4]:
import tiktoken
import pandas as pd
import numpy as np

# 연습용 텍스트 데이터
sentences_E = [
    'I love my dog',
    'I love my cat',
    'You love my dog!',
    'I was born in Korea and graduated University in USA.',
]

sentences_K = [
    "코로나가 심하다",
    "코비드-19가 심하다",
    '아버지가방에들어가신다',
    '아버지가 방에 들어가신다',
    '너무너무너무는 나카무라세이코가 불러 크게 히트한 노래입니다'
]

### cl100k_base 인코더로 영어 텍스트 토크나이징

In [2]:
# cl100k_base 인코더 사용 (GPT-4와 동일)
encoding = tiktoken.get_encoding("cl100k_base")

for i, sentence in enumerate(sentences_E):
    print(f"\n문장 {i+1}: {sentence}")
    
    # 텍스트를 토큰으로 변환
    tokens = encoding.encode(sentence)
    print(f"토큰 ID: {tokens}")
    
    # 토큰을 다시 텍스트로 변환
    decoded_text = encoding.decode(tokens)
    print(f"디코딩 결과: {decoded_text}")
    
    # 토큰 개수
    token_count = len(tokens)
    print(f"토큰 개수: {token_count}")


문장 1: I love my dog
토큰 ID: [40, 3021, 856, 5679]
디코딩 결과: I love my dog
토큰 개수: 4

문장 2: I love my cat
토큰 ID: [40, 3021, 856, 8415]
디코딩 결과: I love my cat
토큰 개수: 4

문장 3: You love my dog!
토큰 ID: [2675, 3021, 856, 5679, 0]
디코딩 결과: You love my dog!
토큰 개수: 5

문장 4: I was born in Korea and graduated University in USA.
토큰 ID: [40, 574, 9405, 304, 12126, 323, 33109, 3907, 304, 7427, 13]
디코딩 결과: I was born in Korea and graduated University in USA.
토큰 개수: 11


### 한글 텍스트 토크나이징 
- 한글은 영어와 달리 띄어쓰기가 없어도 의미가 통하는 언어입니다.  

In [3]:
for i, sentence in enumerate(sentences_K):
    print(f"\n한글 문장 {i+1}: {sentence}")
    
    # 텍스트를 토큰으로 변환
    tokens = encoding.encode(sentence)
    print(f"토큰 ID: {tokens}")
    
    # 토큰을 다시 텍스트로 변환
    decoded_text = encoding.decode(tokens)
    print(f"디코딩 결과: {decoded_text}")
    
    # 토큰 개수
    token_count = len(tokens)
    print(f"토큰 개수: {token_count}")


한글 문장 1: 코로나가 심하다
토큰 ID: [168, 66391, 17835, 61415, 20565, 30027, 105, 16582, 13447]
디코딩 결과: 코로나가 심하다
토큰 개수: 9

한글 문장 2: 코비드-19가 심하다
토큰 ID: [168, 66391, 71682, 30446, 12, 777, 20565, 30027, 105, 16582, 13447]
디코딩 결과: 코비드-19가 심하다
토큰 개수: 11

한글 문장 3: 아버지가방에들어가신다
토큰 ID: [54059, 80104, 22035, 20565, 39277, 102, 19954, 65950, 32179, 20565, 83628, 13447]
디코딩 결과: 아버지가방에들어가신다
토큰 개수: 12

한글 문장 4: 아버지가 방에 들어가신다
토큰 ID: [54059, 80104, 22035, 20565, 75908, 19954, 56938, 97, 32179, 20565, 83628, 13447]
디코딩 결과: 아버지가 방에 들어가신다
토큰 개수: 12

한글 문장 5: 너무너무너무는 나카무라세이코가 불러 크게 히트한 노래입니다
토큰 ID: [76242, 230, 167, 91834, 76242, 230, 167, 91834, 76242, 230, 167, 91834, 16969, 74618, 49072, 112, 167, 91834, 51440, 42529, 13094, 168, 66391, 20565, 5251, 28857, 61394, 46413, 105, 58901, 10997, 252, 230, 29726, 24486, 5251, 227, 116, 54542, 80052]
디코딩 결과: 너무너무너무는 나카무라세이코가 불러 크게 히트한 노래입니다
토큰 개수: 40
