# Tokenizery

W tej sesji Colab przyjrzymy się światu Tokenizerów

Możesz uruchomić ten notebook na wolnym procesorze lub lokalnie na swoim komputerze, jeśli wolisz.

In [1]:
# Importowanie modułu userdata z biblioteki google.colab
from google.colab import userdata  # Umożliwia dostęp do funkcji związanych z danymi użytkownika w Google Colab

# Importowanie funkcji login z biblioteki huggingface_hub
from huggingface_hub import login  # Funkcja login służy do logowania się do Hugging Face Hub, aby uzyskać dostęp do modeli

# Importowanie AutoTokenizer z biblioteki transformers
from transformers import AutoTokenizer  # AutoTokenizer to funkcja, która automatycznie wybiera odpowiedni tokenizer na podstawie modelu

# Sign in to Hugging Face

1. If you haven't already done so, create a free HuggingFace account at https://huggingface.co and navigate to Settings, then Create a new API token, giving yourself write permissions

**IMPORTANT** when you create your HuggingFace API key, please be sure to select read/write permissions for your key by clicking on the WRITE tab, otherwise you may get problems later.

2. Press the "key" icon on the side panel to the left, and add a new secret:
`HF_TOKEN = your_token`

3. Execute the cell below to log in.

In [2]:
hf_token = userdata.get('HF_TOKEN')
login(hf_token, add_to_git_credential=True)

# Dostęp do Llama 3.1 z Meta

Aby korzystać z fantastycznej Llama 3.1, Meta wymaga podpisania warunków korzystania z usługi.

Odwiedź stronę z instrukcjami dotyczącymi modelu w Hugging Face:
https://huggingface.co/meta-llama/Meta-Llama-3.1-8B

Na górze strony znajdują się instrukcje dotyczące akceptacji warunków. Jeśli to możliwe, należy użyć tego samego adresu e-mail, co konto huggingface.

Z mojego doświadczenia wynika, że ​​zatwierdzenie następuje w ciągu kilku minut. Po zatwierdzeniu dowolnego modelu 3.1 dotyczy ono całej rodziny modeli.

Jeśli następna komórka wyświetla błąd, sprawdź:
1. Czy jesteś zalogowany w HuggingFace? Spróbuj uruchomić `login()`, aby sprawdzić, czy klucz działa
2. Czy skonfigurowałeś klucz API z pełnymi uprawnieniami do odczytu i zapisu?
3. Jeśli odwiedzisz stronę Llama3.1 z linkiem powyżej, czy pokazuje się, że masz dostęp do modelu w pobliżu góry?

Skonfigurowałem również ten colab rozwiązywania problemów, aby spróbować zdiagnozować wszelkie problemy z łącznością HuggingFace:
https://colab.research.google.com/drive/1deJO03YZTXUwcq2vzxWbiBhrRuI29Vo8?usp=sharing

In [6]:
# Tworzenie obiektu tokenizer na podstawie wytrenowanego modelu z Hugging Face
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B', trust_remote_code=True)
# AutoTokenizer automatycznie dobiera odpowiedni tokenizer dla modelu, który został określony w argumencie ('meta-llama/Meta-Llama-3.1-8B')
# Model 'meta-llama/Meta-Llama-3.1-8B' to konkretna wersja modelu Meta Llama 3.1 o wielkości 8B parametrów (od Meta)
# 'trust_remote_code=True' pozwala na zaufanie zewnętrznemu kodowi, który może być użyty do załadowania tokenizer'a

tokenizer_config.json:   0%|          | 0.00/50.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

In [7]:
# Definiowanie tekstu, który ma zostać przekonwertowany na tokeny
text = "I am excited to show Tokenizers in action to my LLM engineers"

# Tokenizacja tekstu - przekształcenie tekstu na tokeny za pomocą wcześniej załadowanego tokenizer'a
tokens = tokenizer.encode(text)
# Funkcja tokenizer.encode() zamienia tekst na tokeny (listę liczb), które są zrozumiałe dla modelu
# Wynikiem jest lista tokenów, które są reprezentacjami słów lub fragmentów słów w formie numerycznej

# Zwrócenie wynikowych tokenów
tokens
# Zmienna 'tokens' zawiera teraz tokeny, które odpowiadają słowom lub fragmentom słów w danym tekście

[128000,
 40,
 1097,
 12304,
 311,
 1501,
 9857,
 12509,
 304,
 1957,
 311,
 856,
 445,
 11237,
 25175]

In [8]:
len(tokens)

15

In [9]:
tokenizer.decode(tokens)

'<|begin_of_text|>I am excited to show Tokenizers in action to my LLM engineers'

In [None]:
# Dekodowanie tokenów z powrotem na tekst za pomocą tokenizer'a
decoded_text = tokenizer.decode(tokens)
# Funkcja tokenizer.decode() zamienia tokeny (liczby) z powrotem na tekst
# Tokeny, które zostały wcześniej zakodowane (przekształcone w liczby), są teraz konwertowane z powrotem na słowa,
# tworząc spójny tekst, który można przeczytać lub dalej przetwarzać

# Zwrócenie wynikowego tekstu
decoded_text
# Zmienna 'decoded_text' zawiera teraz oryginalny tekst, który został przekonwertowany z tokenów

In [10]:
tokenizer.batch_decode(tokens)

['<|begin_of_text|>',
 'I',
 ' am',
 ' excited',
 ' to',
 ' show',
 ' Token',
 'izers',
 ' in',
 ' action',
 ' to',
 ' my',
 ' L',
 'LM',
 ' engineers']

In [None]:
# Dekodowanie partii tokenów z powrotem na tekst za pomocą tokenizer'a
decoded_text_batch = tokenizer.batch_decode(tokens)
# Funkcja tokenizer.batch_decode() działa podobnie jak decode(), ale obsługuje całą partię tokenów na raz.
# Zamiast pojedynczego ciągu tokenów, przyjmuje listę (partię) tokenów i zwraca listę wynikowych tekstów.
# Jest to przydatne, gdy chcemy przetworzyć więcej niż jeden tekst jednocześnie.

# Zwrócenie wynikowego tekstu (partii)
decoded_text_batch
# Zmienna 'decoded_text_batch' zawiera teraz listę tekstów, które odpowiadają tokenom w partii.
# Każdy element tej listy to tekst dekodowany z odpowiednich tokenów.

In [11]:
# tokenizer.vocab
tokenizer.get_added_vocab()

{'<|begin_of_text|>': 128000,
 '<|end_of_text|>': 128001,
 '<|reserved_special_token_0|>': 128002,
 '<|reserved_special_token_1|>': 128003,
 '<|finetune_right_pad_id|>': 128004,
 '<|reserved_special_token_2|>': 128005,
 '<|start_header_id|>': 128006,
 '<|end_header_id|>': 128007,
 '<|eom_id|>': 128008,
 '<|eot_id|>': 128009,
 '<|python_tag|>': 128010,
 '<|reserved_special_token_3|>': 128011,
 '<|reserved_special_token_4|>': 128012,
 '<|reserved_special_token_5|>': 128013,
 '<|reserved_special_token_6|>': 128014,
 '<|reserved_special_token_7|>': 128015,
 '<|reserved_special_token_8|>': 128016,
 '<|reserved_special_token_9|>': 128017,
 '<|reserved_special_token_10|>': 128018,
 '<|reserved_special_token_11|>': 128019,
 '<|reserved_special_token_12|>': 128020,
 '<|reserved_special_token_13|>': 128021,
 '<|reserved_special_token_14|>': 128022,
 '<|reserved_special_token_15|>': 128023,
 '<|reserved_special_token_16|>': 128024,
 '<|reserved_special_token_17|>': 128025,
 '<|reserved_special_to

In [12]:
# Zwrócenie słownika tokenów (vocab) tokenizer'a
vocab = tokenizer.vocab
# 'tokenizer.vocab' zawiera słownik, który mapuje tokeny (liczby) na odpowiadające im fragmenty tekstu (części słów, słowa itp.)
# Jest to wewnętrzna reprezentacja słów, fragmentów słów lub innych tokenów, które tokenizer rozumie.
# Słownik ten jest wykorzystywany do kodowania (tokenizacji) tekstu oraz dekodowania (odtwarzania tekstu z tokenów).

# Zwrócenie słownika dodanych tokenów (vocab, które zostały dodane do tokenizer'a)
added_vocab = tokenizer.get_added_vocab()
# 'get_added_vocab()' zwraca dodatkowe tokeny, które zostały ręcznie dodane do tokenizer'a po jego początkowej konfiguracji.
# Możliwe jest rozszerzenie vocab o tokeny, które są specyficzne dla danej dziedziny, aplikacji lub języka.
# Jest to przydatne w przypadku, gdy model potrzebuje obsługiwać dodatkowe słowa, które nie są standardowo w vocab.

# Wyświetlenie zawartości obu zmiennych
vocab, added_vocab
# Zmienna 'vocab' zawiera pełny słownik tokenów (odpowiadający wszystkim tokenom tokenizer'a),
# a zmienna 'added_vocab' zawiera dodatkowe tokeny, które zostały ręcznie dodane.

({'å°¼': 103420,
  'çĨ': 102448,
  '.setColor': 27902,
  '@RunWith': 54665,
  'ĠOwned': 86193,
  'rement': 55755,
  '_fn': 15604,
  'Ġconsoles': 51193,
  'ä¼į': 119116,
  'Ġrepayment': 71118,
  'ĠGIR': 86109,
  '())[': 67700,
  'Ġrhythms': 81821,
  'ngÃ¶r': 123760,
  'å¥ĸ': 105887,
  '_EMP': 69884,
  'Ġaspiring': 60213,
  'Ġ"\\<': 24328,
  'ĠAph': 98408,
  'IndexOf': 28476,
  'oplast': 92335,
  'phem': 61041,
  'Ġnick': 16370,
  '_own': 83200,
  'ĠproductId': 43948,
  'ĠtakÅ¼e': 64954,
  'ĠLover': 90590,
  'ĠÎ²ÏģÎ¯': 120838,
  'ĠstartDate': 30786,
  '/mainwindow': 82998,
  'Ġgiá»': 100756,
  'ĠDL': 34075,
  'Ġà¤®à¤¹à¤¤': 110475,
  'imple': 6592,
  'ĠØ¢ÙħØ±ÛĮÚ©Ø§': 108260,
  '.mm': 38108,
  'selling': 38837,
  'Ø±ÙĪØ´': 103834,
  'ĠIPv': 32660,
  'ÑĤÐ°Ð±': 116004,
  'Ġpy': 4611,
  'amento': 10628,
  'Ġviet': 85459,
  'íĥĪ': 110517,
  'ĠREAL': 26339,
  'Ġtrials': 19622,
  'Ġarreglo': 81681,
  'Phill': 92777,
  'Ġprz': 21951,
  'Ġè»Ĭ': 127167,
  'åħµ': 104443,
  'ĠØ§Ø±Ø²ÛĮ': 122147,
  'Ð»

# Warianty modeli Instruct

Wiele modeli ma wariant, który został wytrenowany do użycia w Chats.
Zazwyczaj są one oznaczone słowem „Instruct” na końcu.
Zostały wytrenowane, aby oczekiwać monitów o określonym formacie, który obejmuje monity systemowe, użytkownika i asystenta.

Istnieje metoda narzędziowa `apply_chat_template`, która konwertuje znany nam format listy wiadomości na odpowiedni monit wejściowy dla tego modelu.

In [13]:
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B-Instruct', trust_remote_code=True)

tokenizer_config.json:   0%|          | 0.00/55.4k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [14]:
messages = [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Tell a light-hearted joke for a room of Data Scientists"}
  ]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(prompt)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|>

Tell a light-hearted joke for a room of Data Scientists<|eot_id|><|start_header_id|>assistant<|end_header_id|>




# Trying new models

We will now work with 3 models:

Phi3 from Microsoft
Qwen2 from Alibaba Cloud
Starcoder2 from BigCode (ServiceNow + HuggingFace + NVidia)

In [15]:
PHI3_MODEL_NAME = "microsoft/Phi-3-mini-4k-instruct"
QWEN2_MODEL_NAME = "Qwen/Qwen2-7B-Instruct"
STARCODER2_MODEL_NAME = "bigcode/starcoder2-3b"

In [16]:
phi3_tokenizer = AutoTokenizer.from_pretrained(PHI3_MODEL_NAME)

text = "I am excited to show Tokenizers in action to my LLM engineers"
print(tokenizer.encode(text))
print()
tokens = phi3_tokenizer.encode(text)
print(phi3_tokenizer.batch_decode(tokens))


tokenizer_config.json:   0%|          | 0.00/3.44k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.94M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

[128000, 40, 1097, 12304, 311, 1501, 9857, 12509, 304, 1957, 311, 856, 445, 11237, 25175]

['I', 'am', 'excited', 'to', 'show', 'Token', 'izers', 'in', 'action', 'to', 'my', 'L', 'LM', 'engine', 'ers']


In [17]:
print(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(phi3_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|>

Tell a light-hearted joke for a room of Data Scientists<|eot_id|><|start_header_id|>assistant<|end_header_id|>



<|system|>
You are a helpful assistant<|end|>
<|user|>
Tell a light-hearted joke for a room of Data Scientists<|end|>
<|assistant|>



In [18]:
qwen2_tokenizer = AutoTokenizer.from_pretrained(QWEN2_MODEL_NAME)

text = "I am excited to show Tokenizers in action to my LLM engineers"
print(tokenizer.encode(text))
print()
print(phi3_tokenizer.encode(text))
print()
print(qwen2_tokenizer.encode(text))

tokenizer_config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

[128000, 40, 1097, 12304, 311, 1501, 9857, 12509, 304, 1957, 311, 856, 445, 11237, 25175]

[306, 626, 24173, 304, 1510, 25159, 19427, 297, 3158, 304, 590, 365, 26369, 6012, 414]

[40, 1079, 12035, 311, 1473, 9660, 12230, 304, 1917, 311, 847, 444, 10994, 24198]


In [19]:
print(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(phi3_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(qwen2_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

You are a helpful assistant<|eot_id|><|start_header_id|>user<|end_header_id|>

Tell a light-hearted joke for a room of Data Scientists<|eot_id|><|start_header_id|>assistant<|end_header_id|>



<|system|>
You are a helpful assistant<|end|>
<|user|>
Tell a light-hearted joke for a room of Data Scientists<|end|>
<|assistant|>


<|im_start|>system
You are a helpful assistant<|im_end|>
<|im_start|>user
Tell a light-hearted joke for a room of Data Scientists<|im_end|>
<|im_start|>assistant



In [20]:
starcoder2_tokenizer = AutoTokenizer.from_pretrained(STARCODER2_MODEL_NAME, trust_remote_code=True)
code = """
def hello_world(person):
  print("Hello", person)
"""
tokens = starcoder2_tokenizer.encode(code)
for token in tokens:
  print(f"{token}={starcoder2_tokenizer.decode(token)}")

tokenizer_config.json:   0%|          | 0.00/7.88k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/777k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/442k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.06M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/958 [00:00<?, ?B/s]

222=

610=def
17966= hello
100=_
5879=world
45=(
6427=person
731=):
353=
 
1489= print
459=("
8302=Hello
411=",
4944= person
46=)
222=

