<a href="https://colab.research.google.com/github/nkyc-no-name/Llama3_Korean/blob/main/tokenizer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [63]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from tokenizers import Tokenizer

In [None]:
fourbit_models = [
    "unsloth/mistral-7b-v0.3-bnb-4bit",      # New Mistral v3 2x faster!
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",
    "unsloth/llama-3-8b-bnb-4bit",           # Llama-3 15 trillion tokens model 2x faster!
    "unsloth/llama-3-8b-Instruct-bnb-4bit",
    "unsloth/llama-3-70b-bnb-4bit",
    "unsloth/Phi-3-mini-4k-instruct",        # Phi-3 2x faster!
    "unsloth/Phi-3-medium-4k-instruct",
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",             # Gemma 2.2x faster!
    "meta-llama/Meta-Llama-3-8B",
    "meta-llama/Meta-Llama-3-8B-Instruct",
] # More models at https://huggingface.co/unsloth

In [116]:
print(tokenizer.encode("안내판"))
tokenizer.decode([113698])

[113698, 103079]


'안내'

In [115]:
n = tokenizer.vocab_size
tokens = [tokenizer.decode(i) for i in range(n)]
tokens[-100:]


[' 바빠서',
 ' 별관',
 ' 택한',
 ' 확인서',
 ' 안내판',
 ' 발돋움',
 ' 강기',
 ' 선입',
 ' 챕터',
 ' 수양',
 '레지스트',
 '메스',
 ' 연사',
 ' 요것',
 ' 낙후',
 ' 이월',
 ' 당량',
 ' 가했',
 '보우',
 ' 메틸렌',
 ' 쉴드',
 ' 쓰러',
 ' 타이트',
 ' 뉴스룸',
 ' 발렌시아',
 ' 잡아먹',
 ' 진원',
 ' 흑색',
 ' 자며',
 ' 스테아',
 ' 포토레지스트',
 ' 판재',
 '세척기',
 '공개',
 '다음',
 ' 산전',
 ' 겨루',
 ' 어지럽',
 ' 알약',
 ' 맘껏',
 ' 차감',
 ' 이토',
 ' 굵직',
 ' 패소',
 ' 사교',
 '퉁이',
 ' 여객기',
 ' 복종',
 ' 회신',
 ' 톱스타',
 ' 활기찬',
 ' 시에',
 ' 돌려서',
 ' 플렉서블',
 ' 김종민',
 '스턴트',
 ' 연주회',
 ' 신다는',
 ' 피막',
 ' 장타',
 ' 당진시',
 ' 잠복',
 ' 방석',
 ' 김두',
 ' 태권도',
 ' 심의회',
 '댔',
 ' 물통',
 ' 사나이',
 ' 한솔',
 ' 스케줄링',
 ' 돌아온다',
 ' 눌러서',
 ' 주워',
 '섹',
 ' 잡초',
 ' 윌리엄스',
 ' 명나라',
 ' 컴팩트',
 ' 고해상도',
 ' 거처',
 '더슨',
 ' 나만',
 ' 후원자',
 ' 맨투맨',
 ' 고함',
 ' 로렌',
 ' 하객',
 '이상',
 ' 이음',
 ' 오산시',
 ' 익힌',
 ' 신축성',
 ' 곰탕',
 ' 참여연대',
 '존스',
 ' 모하',
 ' 식기세척기',
 ' 연합군',
 ' 짭짤']

In [76]:
print(tokenizer.encode(" 안내판"))

[145695]


In [None]:
base_model = "saltlux/Ko-Llama3-Luxia-8B"
tokenizer = AutoTokenizer.from_pretrained(base_model)
[tokenizer.decode([id]) for id in tokenizer.encode("본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다.")]

In [None]:
base_model = "meta-llama/Meta-Llama-3-8B"
tokenizer = AutoTokenizer.from_pretrained(base_model)
[tokenizer.decode([id]) for id in tokenizer.encode("본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다.")]

In [81]:
base_model = "meta-llama/Meta-Llama-3-8B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(base_model)
[tokenizer.decode([id]) for id in tokenizer.encode("본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다.")]

In [135]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 2048 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit", # Choose ANY! eg teknium/OpenHermes-2.5-Mistral-7B
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
    # token = "hf_...", # use one if using gated models like meta-llama/Llama-2-7b-hf
)

text = "안녕하세요, 네네. 저는 인공지능입니다."

# Tokenize text
inputs = tokenizer(text, return_tensors="pt")

with torch.no_grad():  # Disable gradient calculations for inference
    outputs = model(**inputs)
    embeddings = outputs

==((====))==  Unsloth: Fast Llama patching release 2024.6
   \\   /|    GPU: NVIDIA RTX A6000. Max memory: 47.536 GB. Platform = Linux.
O^O/ \_/ \    Pytorch: 2.3.0+cu121. CUDA = 8.6. CUDA Toolkit = 12.1.
\        /    Bfloat16 = TRUE. Xformers = 0.0.26.post1. FA = False.
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [137]:
print(inputs)
outputs.logits.shape

{'input_ids': tensor([[128000, 101193, 124409,     11, 103315, 101886,     13, 102678,  16969,
          59777, 103896,  67119,  80052,     13]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}


torch.Size([1, 14, 128256])