In [1]:
!nvidia-smi

Thu Jan 23 10:05:04 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 565.57.02              Driver Version: 566.03         CUDA Version: 12.7     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA GeForce RTX 4060 Ti     On  |   00000000:01:00.0  On |                  N/A |
|  0%   39C    P8              5W /  165W |     593MiB /  16380MiB |     10%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [1]:
import os
import torch
import transformers
import peft
import datasets
import evaluate
import time
assert torch.cuda.is_available(), "you need cuda for this part"
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
device

device(type='cuda', index=0)

In [3]:
dataset_path = "/app/datasets/oberon/qa/bb_ru/questions-qwen2.5-coder_7b-2025-21-1--09-23-51.json"
model_name = 'bb_ru_Cotype-Nano_20250123-100550'
model_path = f'/app/models/{model_name}'

EPOCHS = 7
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=torch.bfloat16
)

In [4]:
tokenizer = transformers.AutoTokenizer.from_pretrained(model_path)


In [5]:
peft_config = peft.PeftConfig.from_pretrained(model_path)
model = transformers.AutoModelForCausalLM.from_pretrained(model_path, device_map=device,quantization_config=bnb_config,)
model = peft.PeftModel.from_pretrained(model, model_path, is_trainable=True)
model.print_trainable_parameters()

trainable params: 18,464,768 || all params: 1,562,179,072 || trainable%: 1.1820


In [20]:
qa_dataset = datasets.load_dataset("json", data_files=dataset_path)['train']
qa_dataset

Dataset({
    features: ['Source', 'Question', 'Answer'],
    num_rows: 5126
})

In [21]:
def format_chat(example):
    # Create a chat-like format using the tokenizer's chat template
    chat = [
        {"role": "user", "content": example["Question"]},
        {"role": "assistant", "content": example["Answer"]}
    ]
    # Apply the chat template
    formatted_chat = tokenizer.apply_chat_template(chat, tokenize=False)
    return {"formatted_chat": formatted_chat}

# Apply the formatting function to the dataset
qa_dataset = qa_dataset.map(format_chat)

# Print the first few examples to verify

print(qa_dataset[0]['formatted_chat'])
print('-' * 40)

Map: 100%|██████████| 5126/5126 [00:00<00:00, 13304.70 examples/s]

<|im_start|>user
Что такое Component Pascal?<|im_end|>
<|im_start|>assistant
Component Pascal - это язык программирования, который был разработан для создания многокомпонентных программ на системе BlackBox. Он является диалектом языка Pascal и расширяет его функциональность, добавляя поддержку компонентов.<|im_end|>

----------------------------------------





In [22]:
def tokenize_function(examples):
    res = tokenizer(examples["formatted_chat"], truncation=True, padding="max_length", max_length=512)
    res["labels"] = res["input_ids"].copy()
    return res

qa_dataset = qa_dataset.map(tokenize_function, batched=True)

Map: 100%|██████████| 5126/5126 [00:00<00:00, 5607.38 examples/s]


In [23]:
qa_dataset = qa_dataset.train_test_split(test_size=0.1).remove_columns(['Source', 'Question', 'Answer', 'formatted_chat'])
qa_dataset

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 4613
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 513
    })
})

In [24]:
print(tokenizer.decode(qa_dataset["train"][99]["input_ids"]))

<|im_start|>user
Что делает команда `single[w] := TRUE;` внутри цикла?<|im_end|>
<|im_start|>assistant
Эта команда устанавливает значение элемента массива `single[w]` в `TRUE`. Массив `single` вероятно используется для отслеживания, какие люди уже были обработаны.<|im_end|>
<|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftext|><|endoftex

In [25]:
timestr = time.strftime("%Y%m%d-%H%M%S")
data_collator = transformers.DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
training_args = transformers.TrainingArguments(
    output_dir=f"./results_stage2/{model_name}/{timestr}/",
    eval_strategy="epoch",
    save_strategy="epoch",
    learning_rate=5e-5,
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    bf16=torch.cuda.get_device_capability(torch.cuda.current_device())[0] >= 8,  
    gradient_accumulation_steps=4,
    num_train_epochs=EPOCHS,
    weight_decay=0.01,
    #save_total_limit=2,
    logging_dir='./logs',
    logging_steps=32,
    warmup_steps=100, 
    #eval_steps=32, 
    #max_steps=512,
    
    #load_best_model_at_end=True,
)
trainer = transformers.Trainer(
    model=model,
    args=training_args,
    train_dataset=qa_dataset["train"],
    eval_dataset=qa_dataset["test"],
    data_collator=data_collator,
    #compute_metrics=compute_metrics,
)

In [None]:
trainer.train()
#trainer.evaluate()

Epoch,Training Loss,Validation Loss


In [None]:
trainer.state.log_history. There is a parse_log_history

In [125]:
import math
eval_results = trainer.evaluate()
print(f"Perplexity: {math.exp(eval_results['eval_loss']):.2f}")

Perplexity: 5.12


In [18]:
final_path = sft_model_path + f"_{timestr}"
model.save_pretrained(final_path)
tokenizer.save_pretrained(final_path)

2025-01-23 14:16:24,142 Resetting dropped connection: huggingface.co
2025-01-23 14:16:24,795 https://huggingface.co:443 "HEAD /MTSAIR/Cotype-Nano/resolve/main/config.json HTTP/11" 200 0
2025-01-23 14:16:24,982 https://huggingface.co:443 "HEAD /MTSAIR/Cotype-Nano/resolve/main/config.json HTTP/11" 200 0


('/app/models/bb_ru_Cotype-Nano_20250123-100550/tokenizer_config.json',
 '/app/models/bb_ru_Cotype-Nano_20250123-100550/special_tokens_map.json',
 '/app/models/bb_ru_Cotype-Nano_20250123-100550/vocab.json',
 '/app/models/bb_ru_Cotype-Nano_20250123-100550/merges.txt',
 '/app/models/bb_ru_Cotype-Nano_20250123-100550/added_tokens.json',
 '/app/models/bb_ru_Cotype-Nano_20250123-100550/tokenizer.json')

In [19]:
reference_model = transformers.AutoModelForCausalLM.from_pretrained(model_name, device_map=device,quantization_config=bnb_config,)

2025-01-23 14:16:45,953 https://huggingface.co:443 "HEAD /MTSAIR/Cotype-Nano/resolve/main/config.json HTTP/11" 200 0
2025-01-23 14:17:10,883 https://huggingface.co:443 "HEAD /MTSAIR/Cotype-Nano/resolve/main/generation_config.json HTTP/11" 200 0


In [20]:
from IPython.display import HTML, display
table_template = """<table style="border:1px solid black" >
  <tr>
    <th style="text-align: center; border:1px solid black">PROMPT</th>
    <th style="text-align: center; border:1px solid black">BEFORE</th>
    <th style="text-align: center; border:1px solid black">AFTER</th>
  </tr>
{}
</table>"""

row_template = '''  <tr>
    <td style="width:20%; border:1px solid black"><pre align="left">`{}`</pre></td>
    <td style="width:40%; border:1px solid black"><pre align="left">{}</pre></td>
    <td style="width:40%; border:1px solid black"><pre align="left">{}</pre></td>
  </tr>'''

def prompt_to_chat(prompt):
    messages = [
        {"role": "user", "content": prompt}
    ]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    return text

def infer(model, prompt, l=100, use_chat = True, temperature=0.4, top_p = 0.8):
    if use_chat:
        prompt = prompt_to_chat(prompt)
    model_inputs = tokenizer([prompt], return_tensors="pt").to(model.device)

    generated_ids = model.generate(
        **model_inputs,
        max_new_tokens=l,
        temperature=temperature, 
        top_p=top_p,
        do_sample=True ,  
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
    return response


prompts =  [
    'Как в BlackBox можно вывести данные на консоль?', 
    'Какой тип данных в Component Pascal используется для хранения целых чисел?', 
    'МОДУЛЬ i21егэDemo2010C4ru;', 
    'Component Pascal is Oberon microsystems refinement of?', 
    'Log.String(', 
    'Типом целой константы является'
]  # feel free to add a few more that are not 100% assiciated with Python

In [21]:
def draw_diff(use_chat,l):
    print(f"USING CHAT TEMPLATE = {use_chat}")
        
    baseline = [infer(reference_model, p, l = l, use_chat=use_chat) for p in prompts]
    check = [infer(model, p, l = l, use_chat=use_chat) for p in prompts]
    rows = []
    for i, prompt in enumerate(prompts):
        # replace placeholders in the format() arguments
        rows.append(row_template.format(prompt, baseline[i], check[i]))
    display(HTML(table_template.format('\n'.join(rows))))

In [22]:
draw_diff(True, 39)

USING CHAT TEMPLATE = True


PROMPT,BEFORE,AFTER
`Как в BlackBox можно вывести данные на консоль?`,"В BlackBox, который является инструментом для тестирования интерфейсов с использованием браузера и эмулятора устройств, вывод данных на кон","Чтобы вывести данные на консоль в BlackBox, используйте процедуры StdLog. Например, чтобы вывести строку ""Hello World"", выполните следующее"
`Какой тип данных в Component Pascal используется для хранения целых чисел?`,"В Pascal, как и во многих других языках программирования, для хранения целых чисел обычно используется тип данных `integer`. Этот тип поддерживает ноль, одно,","В языке программирования Component Pascal целые числа могут быть представлены с использованием различных типов. Например, 32-битные целые числа могут быть представлен"
`МОДУЛЬ i21егэDemo2010C4ru;`,"Ваш запрос ""MODUль i21egэDemo2010C4ru"" кажется неполным или содержит опечатки. Возможно, вы имели в","Этот модуль предназначен для демонстрации работы с модулем i21eduЧерепашка. Он не является обязательным к использованию, но может быть пол"
`Component Pascal is Oberon microsystems refinement of?`,"Oberon-MicroSystems is a company that specializes in the development of microsystem components for industrial applications. It appears there might be some confusion, as ""Pascal"" could refer to different","Oberon Microsystems, Inc. was a small company that specialized in the development of software for microcomputers. It was founded by Wirth and his colleagues at ETH Zurich (Eid"
`Log.String(`,"It seems like you're asking about the `String` method in a logging framework, but your question is incomplete. The `String` method typically refers to converting an object to a string representation in","String(""log""); Log.Ln String(""log"") + Log.Ln String(""log"") + String(""log"") + Log.Ln String(""log"") + String(""log"
`Типом целой константы является`,"Вопрос о ""типом целой константы"" может быть немного неоднозначным, так как термин ""константа"" в контексте программирования обычно","тип INTEGER. Константа может быть объявлена как CONSTANT, например: 	CONST a = 10; Константам назначаются значения, которые не могут измен"


In [23]:
draw_diff(False, 39)

USING CHAT TEMPLATE = False


PROMPT,BEFORE,AFTER
`Как в BlackBox можно вывести данные на консоль?`,"In the BlackBox framework, how can I output data to the console? To achieve this in BlackBox, you can use the `ConsoleLogger` class which provides a convenient way to log messages","Как это делается? В каких случаях не следует использовать консоль для вывода данных? Команды, которые позволяют работать с данными в консоли, наход"
`Какой тип данных в Component Pascal используется для хранения целых чисел?`,"В компоненте Pascal, для хранения целых чисел обычно используется тип `Int`. Этот тип представляет собой 32-битное беззнаковое целое число. Если",Это 32-битное или 64-битное целое? В языке программирования Компонентный Паскаль целые числа могут быть представлены
`МОДУЛЬ i21егэDemo2010C4ru;`,2010C4ru;2010C4ru;2010C4ru;2010C4ru;2010C4ru,"(* info21, 2010-03-18 *) 	ПОДКЛЮЧИТЬ Вывод := i21eduВыв"
`Component Pascal is Oberon microsystems refinement of?`,"Oberon is a high-level, multi-paradigm object-oriented programming language. It was developed by the National Research Council of Canada (NRC) and has been used for various applications",1993. The following table gives a brief overview of the differences between Component Pascal and Oberon. The differences are marked with an asterisk (*).  Oberon Component Pascal Object
`Log.String(`,1024)  .SetMaxSize(stringLen + 5) // Set the maximum size to the sum of the current length and a buffer size  .Build(); ```,s );  Log.Ln; 	END Do; END ObxViews15. Листинг 1-15. Объявление и использование процедуры В этом пример
`Типом целой константы является`,"число 0. Which is correct? The statement ""The type of the whole number 0 is a constant"" is not entirely accurate because while 0 is indeed a whole number, it does","INTEGER. Стандартные типы, которые являются дочерними к INTEGER, это BYTE, SHORTINT, LONGINT и REAL. Другие типы могут быть объ"


In [24]:
print(infer(model, 'Ты помошник по среде Component Pascal. Ответь на вопрос: Как мне вывести строку hello в окно лога?', 256, use_chat = True))

Для вывода строки в окно лога нужно использовать процедуру StdLog.String, которая принимает параметр типа String и помещает его содержимое в окно лога. Следующий пример демонстрирует эту процедуру:

MODULE  i21примЛог;

	IMPORT  Log := StdLog;
	
	PROCEDURE Показать* ( s: ARRAY OF CHAR );
	BEGIN
		Log.String( s ); (* или просто Log.out *)
	END Показать;
	
END  i21примЛог.

Выводится следующее:
	i21примЛог.Показать("hello")

См. также модуль Log для более подробной информации о работе с логом.



In [8]:
checkpoint = transformers.AutoModelForCausalLM.from_pretrained("./results/20250122-220441/checkpoint-1220/", device_map=device)

In [14]:
print(infer(checkpoint, 'Какой тип использовать для хранения целых чисел?', 256, use_chat = True))

Для целых чисел обычно используют тип INTEGER. Однако, если значения могут быть только некоторым предопределенным количеством значений, следует использовать тип SHORTINT, чтобы избежать возможных потерь точности, которые могут возникнуть при делении на 2. В некоторых случаях лучше использовать LONGINT.

Все последующие примеры использует LONGINT в качестве основного типа. Если результаты вычислений становятся непредсказуемыми, если используется другой тип.

Пример:
	
	PROCEDURE Ddouble* (a, b: LONGINT);
	BEGIN
		DIAGNOSTIC;
		StdLog.Nl;
		StdLog.String("Ddouble "); StdLog.Int(a + b, 0); StdLog.Ln;
		StdLog.String(DefaCT(a + b)); StdLog.Ln
	END Ddouble;

В этом примере использовано значение эффекта (defacto) стандартного модуля Math, который включает в себя итоговое значение.
После применения команд DIAGNOSTIC (см. ниже), он будет выровнен по левому краю, а не
