# Iteration 1

In [1]:
!pip install -q -U transformers bitsandbytes

In [2]:
import json
import torch
import pandas as pd
from tqdm import tqdm
from transformers import AutoModelForCausalLM, AutoTokenizer
import re

In [9]:
DEBUG_LIMIT = None
MODEL_ID = "Qwen/Qwen2.5-32B-Instruct"
INPUT_FILE = "zno.test.jsonl"
OUTPUT_FILE = "submission.csv"

In [4]:
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_ID,
    device_map="auto",
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    trust_remote_code=True
)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 17 files:   0%|          | 0/17 [00:00<?, ?it/s]

model-00004-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00006-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00003-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00002-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00005-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00001-of-00017.safetensors:   0%|          | 0.00/3.92G [00:00<?, ?B/s]

model-00007-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00008-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00009-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00010-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00011-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00012-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00013-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00014-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00015-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00016-of-00017.safetensors:   0%|          | 0.00/3.90G [00:00<?, ?B/s]

model-00017-of-00017.safetensors:   0%|          | 0.00/3.10G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/17 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/242 [00:00<?, ?B/s]

In [16]:
data = []
with open(INPUT_FILE, 'r', encoding='utf-8') as f:
    for line in f:
        data.append(json.loads(line))

In [None]:
if DEBUG_LIMIT:
    data = data[:DEBUG_LIMIT]
    print(f"Running only first {DEBUG_LIMIT} samples!")

In [None]:
def format_prompt(item):
    question = item['question']
    options_text = ""
    valid_markers = []

    for ans in item['answers']:
        options_text += f"{ans['marker']}) {ans['text']}\n"
        valid_markers.append(ans['marker'])

    messages = [
        {
            "role": "system",
            "content": "Ви екзаменатор. Ваше завдання визначити правильну відповідь. Виведіть ТІЛЬКИ одну букву (А, Б, В, Г або Д) без пояснень і без крапок."
        },
        {
            "role": "user",
            "content": f"{question}\n\nВаріанти:\n{options_text}\nВідповідь:"
        }
    ]

    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    return text, valid_markers

In [17]:
results = []

for i, item in enumerate(tqdm(data)):
    prompt, valid_markers = format_prompt(item)

    inputs = tokenizer([prompt], return_tensors="pt").to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=5,
            temperature=0.1,
            do_sample=False,
            pad_token_id=tokenizer.eos_token_id
        )

    full_response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    raw_answer = full_response.split("Відповідь:")[-1].strip()

    predicted_letter = "А"

    clean = re.sub(r"[^А-Яа-яA-Za-z]", "", raw_answer)

    if clean and clean in valid_markers:
        predicted_letter = clean
    else:
        match = re.search(r'\b([АБВГД])\b', raw_answer)
        if match:
            predicted_letter = match.group(1)

    results.append({"id": item['id'], "correct_answers": predicted_letter})

    if i < 5 or i % 50 == 0:
        tqdm.write(f"\n[DEBUG ID {item['id']}]")
        tqdm.write(f"Question: {item['question']}")
        tqdm.write(f"Raw Output: '{raw_answer}' -> Parsed: {predicted_letter}")
        tqdm.write("-" * 30)

  0%|          | 1/751 [00:00<03:48,  3.28it/s]


[DEBUG ID 0]
Question: «Сміхом крізь сльози» можна схарактеризувати зображене в обох творах рядка
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


  0%|          | 2/751 [00:00<03:40,  3.40it/s]


[DEBUG ID 1]
Question: Удовин син, мати, сестра, кохана – ключові образи твору
Raw Output: 'assistant
В' -> Parsed: В
------------------------------


  0%|          | 3/751 [00:00<03:56,  3.16it/s]


[DEBUG ID 2]
Question: В уривку з історичного джерела «*Створивши банки, акціонерні товариства, синдикати, концерни, іноземні підприємці заволоділи основними галузями промисловості, насамперед нафтовою та озокеритною… На початку ХХ ст. налічували близько 100 фабрично-заводських, переважно дрібних підприємств, де працювало 62–63 тис. з 300 тис. робітників, зайнятих різними видами промислової діяльності. Решта – близько 240 тис. – працювали в кустарних промислах*…» відображено економічний розвиток на початку ХХ ст.
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


  1%|          | 4/751 [00:01<03:47,  3.28it/s]


[DEBUG ID 3]
Question: В уривку


*Доки буде жити Україна

В теплім хлібі, в барвних снах дітей –

Йтиме білим полем Катерина

З немовлям, притнутим до грудей*


згадано образи з твору
Raw Output: 'assistant
Д' -> Parsed: Д
------------------------------


  1%|          | 5/751 [00:01<03:40,  3.38it/s]


[DEBUG ID 4]
Question: Букву ***и*** на місці пропуску треба писати в усіх словах рядка
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


  7%|▋         | 51/751 [00:15<03:46,  3.09it/s]


[DEBUG ID 50]
Question: **Проаналізуйте фрагмент історичного документа**


«Відозва Загальної української ради.*


*За всяку ціну завзялася російська імперія загарбати українські землі Австро-Угорщини...

[...]*


*Уже другий раз у часи цієї війни насувається на українські землі Австро-Угорщини російський наступ. Другий раз українське населення Галичини, Буковини й північно-східної Угорщини попадає в огонь національного й релігійного переслідування з боку Росії.*


*Під час першого наступу Росія з найбільшою брутальністю прагнула до повного знищення українського життя...*


*І тепер в часи другого наступу всі ті вчинки повторюються!»


У роки Першої світової війни Загальна українська рада
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


 13%|█▎        | 101/751 [00:33<03:06,  3.49it/s]


[DEBUG ID 100]
Question: *Слухай-но, __________, чи не міг би ти купити мені __________ гуаш?*
Raw Output: 'assistant
Б' -> Parsed: Б
------------------------------


 20%|██        | 151/751 [00:49<05:08,  1.95it/s]


[DEBUG ID 150]
Question: **Читання й аналіз тексту**


**Проаналізуйте текст (***цифри в дужках позначають номери абзаців***)

і виконайте завдання до нього**


**Текст А**


**Відходи**


(1) Використання сміття як вторинної сировини в розвинених країнах уже давно стало нормою. Там практично всі відходи є цінним ресурсом, а кількість непотребу на звалищах і переробних заводах мінімальна. Наприклад, багато європейських організацій веде документацію на аркушах, виготовлених з макулатури. Якість їх дещо гірша та й вартість поки що вища, ніж звичайних, однак так можна зберегти чимало деревини. Якщо ж з’явиться тенденція до зростання попиту на цю продукцію, то такий папір стане дешевшим.


(2) Як свідчить практика європейських країн, єдиний раціональний шлях подолання проблем, пов’язаних з накопиченням відходів, – розподіл і подальше використання їх. Обов’язковою умовою ефективної переробки сміття є його сортування, що підвищує продуктивність застосування вторинної сировини: за роздільног

 27%|██▋       | 201/751 [01:05<03:05,  2.96it/s]


[DEBUG ID 200]
Question: Проаналізуйте уривок зі спогадів лідера кримських татар, народного депутата України Мустафи Джемілєва: «До речі, "статистика", що на "референдумі" було 83 % кримчан, із яких 96 % або 98 % висловилися за приєднання до Російської Федерації – абсолютна брехня. Ніколи такої активної участі в голосуванні не було й бути не може, там люди працюють у різних регіонах, а голосувати треба за місцем проживання. Зі 180 тис. кримських татар на "дільниці" прийшло тільки 900, до того ж більшість із них наївно думала, що потрібно сказати про своє бажання бути в складі України. І ми маємо секретне донесення ФСБ Криму своєму начальству в Москві. Реальна участь була 34,2 %, і не всі голосували за приєднання до РФ».*


Події якого року описано в ньому?
Raw Output: 'assistant
Б' -> Parsed: Б
------------------------------


 33%|███▎      | 251/751 [01:21<02:36,  3.19it/s]


[DEBUG ID 250]
Question: **Проаналізуйте фрагмент історичного документа й виконайте завдання 40–42.**


«Через рік після [битви] під Берестечком повністю загинуло польське військо від козаків і татар. Ні гетьман, ні старшина, ні жодна душа пішого війська польського не врятувалася. Того ж року господарю Василю довелося влаштувати весілля своєї дочки Розанди з Тимошем, сином козацького гетьмана Хмеля...»


Про яку переможну битву козаків і татар ідеться в уривку історичного джерела?
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


 40%|████      | 301/751 [01:38<02:31,  2.98it/s]


[DEBUG ID 300]
Question: Проаналізуйте уривок з історичного джерела:


«...Партійні організації не завжди враховують ту обставину, що останнім часом повернулося з місць ув’язнення значне число осіб реабілітованих або відбувших термін покарання. Серед них є особи, особливо із числа буржуазних націоналістів, які ідейно не роззброїлися. ЦК КПРС вимагає від партійних та радянських органів уживати рішучих заходів до тих, які намагаються відновити свою минулу антирадянську діяльність…»


Що стало передумовою появи цитованого документа?
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


 47%|████▋     | 351/751 [01:53<01:55,  3.45it/s]


[DEBUG ID 350]
Question: Прочитайте речення *(цифра позначає наступне слово).*


***(1)****Відг**о**мін перелітних птахів, глибокі **(2)**к**о**лії на розмитому дощами **(3)**чорноз**е**мі, перший **(4)**пр**и**морозок, **(5)**бурштин**о**ве й багряне листя, струшене **(6)**листоп**а**дом, – усе це **(7)о**знаки **(8)**чарівн**о**ї осені.*


НЕПРАВИЛЬНО підкреслено букви на позначення наголошених голосних у всіх словах, позначених цифрами
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


 53%|█████▎    | 401/751 [02:10<02:35,  2.25it/s]


[DEBUG ID 400]
Question: Прочитайте уривок джерела.


«Давно вони вже відвернулися від тої живої Русі, що говорила, співала, страждала.., а знайшли другу, мертву, той кам’яний істукан – Русь, що виписана була в документах!..»


Про критику представників якої течії в українському суспільно-політичному русі другої половини ХІХ ст. ідеться?
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


 60%|██████    | 451/751 [02:25<01:35,  3.13it/s]


[DEBUG ID 450]
Question: Низькі темпи розвитку легкої промисловості та сфери послуг в Україні в період післявоєнної відбудови спричинені
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


 67%|██████▋   | 501/751 [02:41<01:17,  3.22it/s]


[DEBUG ID 500]
Question: **Прочитайте текст із пронумерованими пропусками. Завдання стосується пропуску, номер якого виділено жирним шрифтом. Доберіть для цього пропуску правильний варіант з-поміж запропонованих.**


*Американський бізнесмен і новатор у (34) __________ прикладних (35) __________ технологій Стів Джобс разом зі Стівеном Возняком заснували компанію «Apple» для (36) __________ комп'ютерів власної конструкції. Автором більшості розробок був Возняк, а Джобс став маркетологом і **(37)** **__________** «Apple» на одну з найприбутковіших корпорацій світу, ринкову вартість якої можна (38) __________ з валовим внутрішнім продуктом Аргентини або Нідерландів.*
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


 73%|███████▎  | 551/751 [02:56<01:00,  3.32it/s]


[DEBUG ID 550]
Question: *________ Чарльза Дарвіна, головною рушійною силою еволюції є _____ добір.*
Raw Output: 'assistant
А' -> Parsed: А
------------------------------


 80%|████████  | 601/751 [03:11<00:45,  3.30it/s]


[DEBUG ID 600]
Question: У рядках


*Весною я Вас бачив. Бриз морський

Вам чуба колошматив й серце ревне,

І майстер корабля, немов Сашко який,

Вам нахвалявся точеним форштевнем*


ліричний герой веде уявну розмову з
Raw Output: 'assistant
Д' -> Parsed: Д
------------------------------


 87%|████████▋ | 651/751 [03:27<00:41,  2.43it/s]


[DEBUG ID 650]
Question: Ознаки постмодернізму притаманні рядкам
Raw Output: 'assistant
В' -> Parsed: В
------------------------------


 93%|█████████▎| 701/751 [03:44<00:15,  3.17it/s]


[DEBUG ID 700]
Question: **Проаналізуйте художній твір і виконайте завдання до нього.**


***О панно Інно! Липень. Спека.***


***Ви тут. Але Ви так далеко.***


***Десь мерехтить дівоча мрія,***


***Як білий сон на темних віях.***


***В цей білий сон, як в танець білий,***


***Прийде хтось несказанно милий***


***І поведе у світ любові,***


***Як заполоч на рушникові,***


***Як ружі цвіт – на білосніжність,***


***Зійде враз невимовна ніжність.***


***Цей липень. Липи. Білопінно.***


***І тихий шепіт:***


***— Інно, Інно…***


Образи в поезії є алюзією на твір з такими рядками
Raw Output: 'assistant
Г' -> Parsed: Г
------------------------------


100%|██████████| 751/751 [03:59<00:00,  3.14it/s]


[DEBUG ID 750]
Question: Прочитайте уривок джерела.


«*У Московщині панує найогидніше рабство. Там немає і бути не може нічого власного, бо все є власністю царя. Московські бояри титулують себе “рабами царськими”. Увесь народ московський є рабом. У Московії продають людей на базарі, як у нас худобу. Приєднатися до такого народу – це гірше, як скочити живим у вогонь…*»


Такими словами аргументував полковник Іван Богун свою позицію щодо недоцільності укладання
Raw Output: 'assistant
А' -> Parsed: А
------------------------------





In [None]:
df = pd.DataFrame(results)
df.to_csv(OUTPUT_FILE, index=False)
print(f"\nFinished! Saved to {OUTPUT_FILE}")
print(df.head())


✅ Finished! Saved to submission.csv
   id correct_answers
0   0               А
1   1               В
2   2               Г
3   3               Д
4   4               А
