<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"></ul></div>

In [1]:
#!/usr/bin/env python
# coding: utf-8

# <h1>Table of Contents<span class="tocSkip"></span></h1>
# <div class="toc"><ul class="toc-item"></ul></div>

import sys
import torch, torch.nn.functional as F
from transformers import AutoTokenizer, AutoModelForCausalLM  # === (изменено) убран pipeline, чтобы гарантированно не вызывался

import pandas as pd
from IPython.display import display

import time as tm
t1_itogo = tm.time()

pd.set_option("display.max_rows", None) #убрали ограничение на число строк при отображении датафрейма
# ограничение на 20 строк
# pd.set_option("display.max_rows", 20)
from pathlib import Path




# убрала все предупреждения, потому что не смоогла вырубить предупреждения для модификации summary для коротких промптов
import logging
logging.getLogger("transformers").setLevel(logging.ERROR)

# === BUILD STAMP (изменено) ===
print("BUILD: Qwen3 switch, SUMMARY hard-off | 2025-08-06")
try:
    import transformers, sys
    print("versions:", "torch=", torch.__version__, "transformers=", transformers.__version__, "python=", sys.version.split()[0])
except Exception as _e:
    print("version print failed:", _e)

if 'pipeline' in globals():
    print("⚠️ WARNING: found 'pipeline' symbol in globals(); ensure no 'from transformers import pipeline' left.")

"""
Скрипт сравнения распределений P(next_token) с поддержкой:
----------------------------------------------------------------
1. **Внутренних промптов** (список в коде) **или**
2. **Промптов из текстового файла** в той же директории.

Флаг `USE_FILE_PROMPTS` выбирает источник.
Если `True`, файл `PROMPT_FILE` читается целиком и используется как **один** длинный prompt.

Модификация «summary + слова» печатает краткое summary исходного prompt‑а.
Добавлена **безопасная токенизация**: если длиннее лимита модели (1024 для GPT‑2),
текст автоматически усечётся, а в консоль выведется предупреждение.
""";

  from .autonotebook import tqdm as notebook_tqdm


BUILD: Qwen3 switch, SUMMARY hard-off | 2025-08-06
versions: torch= 2.6.0+cpu transformers= 4.55.0 python= 3.10.18


In [2]:
# ---------- ПАРАМЕТРЫ ----------
# === QWEN3 SWITCH  ===
MODEL_NAME   = "Qwen/Qwen3-0.6B-Base"  # публичный идентификатор на HF; базовая (не чат) версия  # <-- укажите точный ID вашей Qwen3 модели, если другой (напр., локальное имя/путь)
TRUST_REMOTE_CODE = True      # для семейств Qwen обычно требуется
STEPS        = 50
DEVICE       = "cuda" if torch.cuda.is_available() else "cpu"

# Флаг, управляющий включением суммаризации как отдельной модификации.
# === QWEN3 SWITCH (изменено) === — теперь реально управляет созданием пайплайна
# === (изменено пользователем) — summary временно отключён
SUMMARY_ENABLED = False

# Суммаризация
SUMM_MODEL   = "sshleifer/distilbart-cnn-12-6"
CUSTOM_WORDS = "Сводка:"

# Выбор источника промптов
USE_FILE_PROMPTS = True
PROMPT_FILE      = "prompt.txt"


In [3]:
# ---------- 1. Модели ----------
# (изменено) — для Qwen добавлен trust_remote_code
_tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=TRUST_REMOTE_CODE)
# (изменено) — для Qwen добавлен trust_remote_code
_model     = AutoModelForCausalLM.from_pretrained(MODEL_NAME, trust_remote_code=TRUST_REMOTE_CODE).to(DEVICE).eval()

# === DISABLE SUMMARY HARD (изменено) ===
# Полностью отключаем создание summarizer: никакого pipeline() вообще
_summarizer = None
if SUMMARY_ENABLED:
    print("⚠️ SUMMARY_ENABLED=True, но summarizer временно принудительно отключён."
          "Переключите SUMMARY_ENABLED=False или обновите torch>=2.6/выберите safetensors-модель.")
    SUMMARY_ENABLED = False

# (изменено) — более надёжное определение лимита контекста для разных архитектур
CTX_LIMIT = (
    getattr(_model.config, "max_position_embeddings", None)
    or getattr(_model.config, "n_positions", None)
    or getattr(_tokenizer, "model_max_length", 1024)
)

In [4]:
# ---------- 2. Вспомогательные функции ----------
def _next_token_probs(ids):
    with torch.no_grad():
        logits = _model(ids).logits[0, -1]
    return torch.softmax(logits, dim=-1).cpu()

def _kl(p, q, eps=0):  # нормально работает при eps=1e-8
    p = p + eps
    q = q + eps
    return torch.sum(p * torch.log(p / q)).item()

def _cos(p, q):
    return F.cosine_similarity(p, q, dim=0).item()

def _multi_step(prompt: str, n: int):
    token_ids = _tokenizer.encode(prompt)
    if len(token_ids) > CTX_LIMIT:
        print(f"⚠️ Промпт содержит {len(token_ids)} токенов и будет усечён до {CTX_LIMIT}.")
    ids = _tokenizer(
        prompt,
        return_tensors="pt",
        truncation=True,
        max_length=CTX_LIMIT
    )["input_ids"].to(DEVICE)

    dists = []
    for _ in range(n):
        probs = _next_token_probs(ids)
        dists.append(probs)
        next_id = probs.argmax().unsqueeze(0).unsqueeze(0).to(DEVICE)
        ids = torch.cat([ids, next_id], dim=1)
    return dists


In [5]:
# ---------- 3. Источник промптов и модификаций ----------

USE_FILE_PROMPTS = False           # или False
PROMPT_FILE = "prompt.txt"        # имя файла

if USE_FILE_PROMPTS:
    path = Path(PROMPT_FILE)  # 'prompt.txt' по-умолчанию
    if not path.is_file():
        raise FileNotFoundError(f"Файл {PROMPT_FILE} не найден")

    # читаем файл целиком → одна строка
    PROMPTS = [path.read_text(encoding="utf-8").strip()]
else:
    PROMPTS = [
        "write a quicksort function in Python",
        "The future of artificial intelligence depends on",
    ]


# (изменено) — строим список модификаций без summary; добавим её условно ниже
MODS = [
    ("original", lambda p: p),
#    ("typo first e", lambda p: p.replace("e", "3", 1)),
#    ("add salutation", lambda p: "Dear user, " + p),
    ("префикс ======", lambda p: "="*10 + p),
#    ("префикс вопрос", lambda p: "I have a question. " + p),
#    ("суффикс 10 лет?", lambda p: p + " in the next decade?"),
]

if SUMMARY_ENABLED and _summarizer is not None:
    MODS.append(
        ("summary", lambda p: CUSTOM_WORDS + _summarizer(p, max_length=60, min_length=10, do_sample=False)[0]['summary_text'])
    )


In [6]:
PROMPTS


['write a quicksort function in Python',
 'The future of artificial intelligence depends on']

In [7]:

title = "Печатаем для каждого промпта сам промпт и все его модификации"

print("\n" + "=" * 80)                       # верхняя рамка
print(title.center(80))                     # центрируем на 80 символов
print("=" * 80 + "\n")     
# печатаем все ориганилы промптов и для них все их модификации, промпт за промптом
for i, base_prompt in enumerate(PROMPTS, 1):
    # 🔹 Печатаем исходный текст промпта (можно обрезать при необходимости)
    print(f"🔹 PROMPT #{i}")
    print(f"📝 {base_prompt}")
    print()

    # 🔹 Перебираем *все* модификации, кроме 'original'
    for mod_name, mod_fn in MODS:
        if mod_name == "original":
            continue  # исходник уже выше

        mod_text = mod_fn(base_prompt)

        # Убираем служебный префикс, если это summary
        if mod_name == "summary":
            mod_text = mod_text[len(CUSTOM_WORDS):]

        # Красивый вывод модификации
        print(f"   ➡️ [{mod_name}] {mod_text}")






         Печатаем для каждого промпта сам промпт и все его модификации          

🔹 PROMPT #1
📝 write a quicksort function in Python

🔹 PROMPT #2
📝 The future of artificial intelligence depends on



In [8]:
if USE_FILE_PROMPTS == False:
    TRUNC = 60
else:
    TRUNC = 100   
TOP_K  = 5       # сколько токенов берём на шаг
records = []                              # ← единый список словарей

for prompt in PROMPTS:                    # внешний цикл по промптам
    for mod_name, mod_fn in MODS:         # цикл по модификациям
        mod_prompt = mod_fn(prompt)
        dists      = _multi_step(mod_prompt, STEPS)

        for step_idx, probs in enumerate(dists, start=1):
            topk = torch.topk(probs, TOP_K)

            # перебираем одновременно id токенов и их вероятности
            for rank, (tok_id, prob) in enumerate(
                    zip(topk.indices.tolist(),
                        topk.values.tolist()), start=1):

                records.append({
                    "Prompt": prompt[:TRUNC] + ('…' if len(prompt) > TRUNC else ''),
                    "Step":   step_idx,
                    "Mod":    mod_name,
                    "Rank":   rank,
                    "Token":  _tokenizer.decode([tok_id]),
                    "Prob":   float(prob),
                })

# ─── диагностика ───
for i, rec in enumerate(records):
    if not isinstance(rec, dict):
        print(f"❌ records[{i}] имеет тип {type(rec).__name__}: {rec}")
        break
else:
    print("✅ Все элементы records — dict")

# создаём DataFrame
topk_df = pd.DataFrame(records)
print(topk_df.head())
print(topk_df.columns)


✅ Все элементы records — dict
                                 Prompt  Step       Mod  Rank  Token      Prob
0  write a quicksort function in Python     1  original     1   that  0.293942
1  write a quicksort function in Python     1  original     2     \n  0.092164
2  write a quicksort function in Python     1  original     3      .  0.055051
3  write a quicksort function in Python     1  original     4   \n\n  0.055033
4  write a quicksort function in Python     1  original     5      ,  0.048819
Index(['Prompt', 'Step', 'Mod', 'Rank', 'Token', 'Prob'], dtype='object')


In [9]:

# ---------- A. Сбор топ‑K для каждого prompt × mod × step ----------
# ──────────── А. Подготовка ────────────
for prompt in PROMPTS:
    for mod_name, mod_fn in MODS:
        mod_prompt = mod_fn(prompt)
        dists = _multi_step(mod_prompt, STEPS)

        best_tokens = []                # здесь будем копить «лучшие» токены

        for step_idx, probs in enumerate(dists, start=1):
            topk = torch.topk(probs, TOP_K)

            # — (1) подробные записи, если они всё ещё нужны —
            for rank, (tok_id, prob) in enumerate(zip(topk.indices, topk.values), start=1):
                records.append({ ... })  # оставляю как было

            # — (2) берём самый вероятный токен для текста —
            best_tok = _tokenizer.decode([ topk.indices[0] ])  # rank-1
            best_tokens.append(best_tok)

        # ──────────── Б. Получилось нужное количество шагов ────────────
        best_text = ''.join(best_tokens)      # или ' '.join(...) при необходимости

        # Печатаем сразу:
        short = prompt[:TRUNC] + ('…' if len(prompt) > TRUNC else '')
        print(f"\n=== Prompt: «{short}» | Mod: {mod_name} ===")
        print(best_text)


 


=== Prompt: «write a quicksort function in Python» | Mod: original ===
 that takes a list of integers as input and returns the sorted list. The function should have a time complexity of O(n log n) and should not use any built-in sorting functions. The function should also have a space complexity of O(n) and

def quicksort(arr):
    if len(arr) <= 1:
        return arr
    pivot = arr[len(arr) // 2]
    left = [x for x in arr if x < pivot]
    middle = [x for

=== Prompt: «The future of artificial intelligence depends on» | Mod: original ===
 the ability of humans to develop new technologies that can help us solve the world's most pressing problems. One such technology is the development of AI-powered robots that can assist in the production of renewable energy. These robots can be used to collect and process renewable

 the ability to create a system that can learn from data and improve its performance over time. This is where machine learning comes into play. Machine learning is a su

In [10]:

pd.set_option("display.max_columns", None)
pd.set_option("display.max_colwidth", None)


# ──────────── тe же DataFrame, плюс новый ────────────


expected = {'Prompt', 'Step', 'Mod', 'Rank', 'Token', 'Prob'}
missing  = expected - set(topk_df.columns)
assert not missing, f"Нет колонок: {missing}"


# длинный формат, как у вас
long_df  = topk_df.melt(
    id_vars    = ["Prompt", "Step", "Rank", "Mod"],
    value_vars = ["Token", "Prob"],
    var_name   = "Metric",
    value_name = "Val"
)


# --- C. Pivot -------------------------------------------
pivot_df = long_df.pivot_table(
    index   = ["Prompt", "Step", "Rank"],
    columns = ["Mod", "Metric"],
    values  = "Val",
    aggfunc = "first",
    sort    = False        # ← сохраняем порядок Token, Prob
)

# 1️⃣ Сортируем ТОЛЬКО строки → (Prompt → Step → Rank)
pivot_df = pivot_df.sort_index()

# 2️⃣ Доп. гарантия: явная перестановка колонок внутри MultiIndex
from itertools import chain
mods = [mod for mod in pivot_df.columns.levels[0]]          # все модификации в порядке level‑0
ordered_pairs = list(chain.from_iterable(
    ((m, "Token"), (m, "Prob")) for m in mods
))

pivot_df = pivot_df[ordered_pairs]  # ← теперь точно Token, Prob, Token, Prob …

# ---------- D. Вывод по каждому промпту отдельно ----------
for prompt_text, grp in pivot_df.groupby(level=0):      # группируем по Prompt
    print("🔹 PROMPT:\n", prompt_text, "\n")
    display(grp.droplevel(0))                           # оставляем Step, Rank
    print("-"*100 + "\n")


# In[11]:




🔹 PROMPT:
 The future of artificial intelligence depends on 



Unnamed: 0_level_0,Mod,original,original,префикс ======,префикс ======
Unnamed: 0_level_1,Metric,Token,Prob,Token,Prob
Step,Rank,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,1,the,0.220675,the,0.18411
1,2,how,0.104061,how,0.069739
1,3,its,0.042343,a,0.042836
1,4,our,0.040421,its,0.023548
1,5,a,0.040402,our,0.023389
2,1,ability,0.110883,ability,0.098567
2,2,development,0.032065,development,0.037428
2,3,way,0.024823,future,0.034306
2,4,success,0.017974,availability,0.023693
2,5,availability,0.017271,way,0.019967


----------------------------------------------------------------------------------------------------

🔹 PROMPT:
 write a quicksort function in Python 



Unnamed: 0_level_0,Mod,original,original,префикс ======,префикс ======
Unnamed: 0_level_1,Metric,Token,Prob,Token,Prob
Step,Rank,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
1,1,that,0.293942,==========\n,0.096563
1,2,\n,0.092164,================,0.077588
1,3,.,0.055051,===========,0.072209
1,4,\n\n,0.055033,===========\n,0.054733
1,5,",",0.048819,==========,0.050665
2,1,takes,0.364026,def,0.362687
2,2,sorts,0.254923,#,0.148835
2,3,uses,0.038306,import,0.05811
2,4,accepts,0.037878,from,0.04878
2,5,will,0.033828,"""""""\n",0.030551


----------------------------------------------------------------------------------------------------



In [11]:
TRUNC = 60
dist_records = []          # ← сюда попадут KL и Cos для merge

for prompt in PROMPTS:                           # базовый prompt
    base_dists = _multi_step(prompt, STEPS)      # список из STEPS тензоров

    for mod_name, mod_fn in MODS:                # перебираем модификации
        if mod_name == "original":               # «original» оставляем как ref
            continue

        mod_prompt = mod_fn(prompt)
        mod_dists  = _multi_step(mod_prompt, STEPS)

        for step_idx, (p_base, p_mod) in enumerate(zip(base_dists, mod_dists), start=1):
            dist_records.append({
                "Prompt": prompt[:TRUNC] + ('…' if len(prompt) > TRUNC else ''),
                "Step":   step_idx,
                "Mod":    mod_name,
                "KL":     _kl (p_base, p_mod),
                "Cos":    _cos(p_base, p_mod),
            })
dist_df = pd.DataFrame(dist_records)
#print(dist_df.head())

In [12]:
# In[13]:


# (1) глобальная настройка вывода -----------------
pd.set_option("display.max_columns", None)   # показывать все колонки
# ----- 1. Cosine ------------------------------------------------
cos_df = dist_df.pivot_table(
    index   = ["Prompt", "Step"],     # мульти‑индекс: промпт → шаг
    columns = "Mod",                  # колонки — модификации
    values  = "Cos"                   # берём только Cos
).sort_index()




In [13]:
# ----- 2. KL ----------------------------------------------------
kl_df = dist_df.pivot_table(
    index   = ["Prompt", "Step"],
    columns = "Mod",
    values  = "KL"
).sort_index()


In [14]:
# ----- 3. Печать ------------------------------------------------


print("◾️ Cosine similarity")
display(cos_df)

print("\n◾️ KL divergence")
display(kl_df)


# In[14]:



◾️ Cosine similarity


Unnamed: 0_level_0,Mod,префикс ======
Prompt,Step,Unnamed: 2_level_1
The future of artificial intelligence depends on,1,0.9832327
The future of artificial intelligence depends on,2,0.9694961
The future of artificial intelligence depends on,3,0.9947702
The future of artificial intelligence depends on,4,0.004591209
The future of artificial intelligence depends on,5,0.03581264
The future of artificial intelligence depends on,6,0.02355575
The future of artificial intelligence depends on,7,0.00521988
The future of artificial intelligence depends on,8,0.002988299
The future of artificial intelligence depends on,9,0.005283432
The future of artificial intelligence depends on,10,0.001475611



◾️ KL divergence


Unnamed: 0_level_0,Mod,префикс ======
Prompt,Step,Unnamed: 2_level_1
The future of artificial intelligence depends on,1,0.119426
The future of artificial intelligence depends on,2,0.067063
The future of artificial intelligence depends on,3,0.013519
The future of artificial intelligence depends on,4,7.167924
The future of artificial intelligence depends on,5,8.810108
The future of artificial intelligence depends on,6,7.617817
The future of artificial intelligence depends on,7,6.268603
The future of artificial intelligence depends on,8,8.006652
The future of artificial intelligence depends on,9,7.283546
The future of artificial intelligence depends on,10,9.315948


In [15]:

# --- TOP‑5 по шагам в компактном виде (то есть представление ячейки 7 в более компактном виде)
# не очень понятно, нужно ли, выше то же самое более детально
topk_dfs = []

for prompt, g in topk_df.groupby("Prompt"):
    # g: строки для одного промпта
    # соберём список 5 токенов строкой "tok1, tok2, …"
    g_sorted = g.sort_values(["Step", "Mod", "Rank"])
    g_sorted["TokList"] = g_sorted.groupby(["Step", "Mod"]) ["Token"]  .transform(lambda s: ", ".join(s))
    tidy = (g_sorted.drop_duplicates(subset=["Step", "Mod"])
                    .pivot(index="Step", columns="Mod", values="TokList"))
    tidy.index = [f"Step\u00A0{i}" for i in tidy.index]
    topk_dfs.append((prompt, tidy))

# Печатаем

show_prompt=100 #показываем, сколько символов из промпта мы выводим перед таблицей

for i, (prompt, tidy) in enumerate(topk_dfs, 1):
    prev = prompt.replace("\n", " ")[:show_prompt] + ("…" if len(prompt) > show_prompt else "")
    print(f"\n\n📌 PROMPT {i}: {prev}")
    display(tidy)


# In[ ]:
t2_itogo = tm.time()
print("при количестве шагов", STEPS ,'до этого места прошло', round(t2_itogo - t1_itogo)//60,'минут', 
      round(t2_itogo - t1_itogo)%60,'секунд')



📌 PROMPT 1: The future of artificial intelligence depends on


Mod,original,префикс ======
Step 1,"the, how, its, our, a","the, how, a, its, our"
Step 2,"ability, development, way, success, availability","ability, development, future, availability, way"
Step 3,"of, to, for, and, not","to, of, for, and, \n"
Step 4,"humans, AI, machines, machine, the","create, understand, learn, make, develop"
Step 5,"to, and, ,, ., in","a, intelligent, and, machines, new"
Step 6,"develop, create, learn, harness, adapt","system, more, model, new, language"
Step 7,"new, and, a, the, an","that, capable, with, of, which"
Step 8,"technologies, ways, and, skills, tools","can, is, learns, will, has"
Step 9,"that, and, to, ., ,","learn, understand, be, make, reason"
Step 10,"can, will, are, allow, enable","from, and, ,, without, to"




📌 PROMPT 2: write a quicksort function in Python


Mod,original,префикс ======
Step 1,"that, \n, ., \n\n, ,","==========\n, ================, ===========, ===========\n, =========="
Step 2,"takes, sorts, uses, accepts, will","def, #, import, from, """"""\n"
Step 3,"a, in, an, two, as","quick, q, sort, Quick, partition"
Step 4,"list, sorted, sequence, un, single","sort, _sort, Sort, s, _select"
Step 5,"of, as, and, ,, (","(arr, (array, (lst, (list, (data"
Step 6,"integers, numbers, elements, items, strings","):\n, ):, ,, :, ):\n\n"
Step 7,"as, and, ,, (, or",", , \tif, \n,"
Step 8,"input, an, its, a, argument","if, #, n, def, """""""
Step 9,"and, ., ,, \n, .\n","len, (len, not, (, arr"
Step 10,"returns, sorts, outputs, rearr, prints","(arr, (, (, (array, (\n"


при количестве шагов 50 до этого места прошло 4 минут 23 секунд
