# Обоснование выбора модели для математических вычислений

В статье "Goat: Fine-tuned LLaMA Outperforms GPT-4 on Arithmetic Tasks" (https://arxiv.org/abs/2305.14201) авторы отметили, что лучше всего с арифметическими задачами справляются языковые модели, которые при токенизации чисел разбивают каждую цифру в числе на отдельный токен. 

Я хотела посмотреть, у каких моделей так настроена токенизация и выбрать ту модель, которая потенциально лучше будет работать с цифрами. 

Посмотрю модели обученные для русского языка, как и для английского.

In [1]:
number_list = [74815, 7481, 748,74,7]

In [2]:
from transformers import AutoTokenizer

tokenizer_1 = AutoTokenizer.from_pretrained("ai-forever/FRED-T5-large")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [3]:
for num in number_list:
    print(f"{num}: token {tokenizer_1(str(num))['input_ids']}")

74815: token [27, 8725, 3114]
7481: token [27, 8725, 21]
748: token [27, 8725]
74: token [12281]
7: token [27]


In [4]:
tokenizer_2 = AutoTokenizer.from_pretrained("ai-forever/ruT5-base")
for num in number_list:
    print(f"{num}: token {tokenizer_2(str(num))['input_ids']}")

74815: token [539, 3472, 1695, 2]
7481: token [8, 3514, 3775, 2]
748: token [539, 3472, 2]
74: token [8, 3514, 2]
7: token [539, 2]


In [5]:
tokenizer_3 = AutoTokenizer.from_pretrained("ai-forever/rugpt3large_based_on_gpt2")
for num in number_list:
    print(f"{num}: token {tokenizer_3(str(num))['input_ids']}")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


74815: token [27, 8725, 3114]
7481: token [27, 8725, 21]
748: token [27, 8725]
74: token [12281]
7: token [27]


In [6]:
from huggingface_hub import notebook_login
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [7]:
tokenizer_4 = AutoTokenizer.from_pretrained("ai-forever/ruGPT-3.5-13B")
for num in number_list:
    print(f"{num}: token {tokenizer_4(str(num))['input_ids']}")

74815: token [28, 6356, 2794]
7481: token [28, 6356, 22]
748: token [28, 6356]
74: token [11707]
7: token [28]


In [8]:
tokenizer_5 = AutoTokenizer.from_pretrained("ai-forever/mGPT-13B")
for num in number_list:
    print(f"{num}: token {tokenizer_5(str(num))['input_ids']}")

74815: token [29, 6570, 1935]
7481: token [29, 6570, 23]
748: token [29, 6570]
74: token [9506]
7: token [29]


In [9]:
tokenizer_6 = AutoTokenizer.from_pretrained("THUDM/chatglm3-6b", trust_remote_code=True)
for num in number_list:
    print(f"{num}: token {tokenizer_6(str(num))['input_ids']}")

74815: token [64790, 64792, 30910, 30981, 30972, 30973, 30939, 30970]
7481: token [64790, 64792, 30910, 30981, 30972, 30973, 30939]
748: token [64790, 64792, 30910, 30981, 30972, 30973]
74: token [64790, 64792, 30910, 30981, 30972]
7: token [64790, 64792, 30910, 30981]


In [2]:
from transformers import AutoTokenizer
tokenizer_7 = AutoTokenizer.from_pretrained("baffo32/decapoda-research-llama-7B-hf")
for num in number_list:
    print(f"{num}: token {tokenizer_7(str(num))['input_ids']}")

Downloading (…)okenizer_config.json:   0%|          | 0.00/142 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


Downloading tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

74815: token [0, 29871, 29955, 29946, 29947, 29896, 29945]
7481: token [0, 29871, 29955, 29946, 29947, 29896]
748: token [0, 29871, 29955, 29946, 29947]
74: token [0, 29871, 29955, 29946]
7: token [0, 29871, 29955]


# Вывод:

В приниципе подтвердились выводы авторов статьи - такая токенизация настроена у Llama 2 и ChatGLM. К сожалению, у "русскоговорящих" моделей такого не нашлось, поэтому обучать в следующих ноутбуках я буду Llama 2 и на английском языке.