### Imports

In [1]:
import sys
from pathlib import Path

# Add the project root directory to Python path
project_root = Path.cwd().parent
if str(project_root) not in sys.path:
    sys.path.append(str(project_root))

In [2]:
from config import MODEL_ID, TRUST_REMOTE_CODE, USE_OPENAI_GENERATION
from config import DATA_PATH
from utils.data_preparation_utils import (
    extract_blocks_from_docx, 
    is_valid_block,
    block_to_sample
)
from utils.utils import load_model, load_generator
from utils.prompt_utils import build_prompt
from utils.model_interactions import generate_response, generate_response_openai

from tqdm import tqdm
import json
import pandas as pd

### 📄 Prepare Training Samples from .docx

1. Load the teaching document with dialogs.
2. Extract and filter meaningful blocks.
3. Generate the instruction and system prompt for each block.
4. Use the language model to generate assistant responses.


In [3]:
docx_path = DATA_PATH / "Dialoge neu.docx"
raw_blocks = extract_blocks_from_docx(docx_path)

raw_blocks = [b for b in raw_blocks if is_valid_block(b)]

samples = [block_to_sample(block) for block in raw_blocks]
print("Loaded {} samples".format(len(samples)))

Loaded 27 samples


In [4]:
if not USE_OPENAI_GENERATION:
    tokenizer, model = load_model(MODEL_ID, TRUST_REMOTE_CODE)
    generator = load_generator(model, tokenizer)

### 💾 Save Dataset with Instructions and Responses

Format: one sample per line in `.jsonl`, with fields:
- `system`: system-level instruction
- `instruction`: user question
- `response`: model answer (generated)


#### Open AI  GPT-4

In [5]:
if USE_OPENAI_GENERATION:
    for i, s in enumerate(tqdm(samples, desc="Answer generation (OpenAI)")):
        try:
            gen = generate_response_openai(s["system"], s["instruction"], model="gpt-4")
            s["response"] = gen
        except Exception as e:
            print(f"❌ Error on sample {i}:", e)

Answer generation (OpenAI): 100%|██████████| 27/27 [05:18<00:00, 11.78s/it]


#### Deepseek AI R1-Qwen

In [8]:
if not USE_OPENAI_GENERATION:
    for i, s in enumerate(tqdm(samples, desc="Answer generation")):
        prompt = build_prompt(s["system"], s["instruction"])
        gen = generate_response(generator, prompt, max_tokens=1024)
        response_only = gen[len(prompt):].strip()
        s["response"] = response_only
        print(f"📥 Prompt {i}:", prompt[:120], "...")
        print(f"📤 Response {i}:", response_only[:200], "...")
        print("---")


Answer generation:   0%|          | 0/27 [00:00<?, ?it/s]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.
Answer generation:   4%|▎         | 1/27 [01:20<35:02, 80.86s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 0: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 0: assierer: Guten Tag! Ich helfe Ihnen gerne weiter.  

2. **Wo ist was?**  
   - Zeichne eine einfache Einrichtung wie ein Bad oder eine Küche und male Möbel und Gegenstände ein.  
   - Frage: Wo ist d ...
---


Answer generation:   7%|▋         | 2/27 [02:31<31:12, 74.89s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 1: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 1: irm" в singular (нужен один) и "Regenschirme" в plural (нужны несколько) – это правильная форма множественного числа. *Корректно*.

2.  **Du:** "Moment bitte, ich schaue nach." – **Корректно**. Это ст ...
---


Answer generation:  11%|█         | 3/27 [03:42<29:19, 73.30s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 2: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 2: гола `hat` (Präsens) в Indikativ nach Sina, вопросительный знак. `Fragt nach` (Präsens) – правильно для описания действия в Present. `Verfügbarkeit` – правильное слово.  

2.  **Haben Sie diese Tasse  ...
---


Answer generation:  15%|█▍        | 4/27 [05:14<30:47, 80.33s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 3: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 3: - стандартный вопрос на A2. "Da ist kein Preis." - логично объясняет причину, почему он не может прочитать цену.

2.  **Du (Продавец):**
    *   "Einen Moment bitte, ich frage an der Kasse." (Подождит ...
---


Answer generation:  19%|█▊        | 5/27 [06:45<30:53, 84.25s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 4: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 4: finde ich Klebeband?" (Извините, где я могу найти скотч?)

*   **Du:** "Das Klebeband ist vorne links im Regal, bei den Büroartikeln." (Скотч находится в левом верхнем ящике шкафа/прилавка, среди канц ...
---


Answer generation:  22%|██▏       | 6/27 [08:12<29:49, 85.23s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 5: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 5: ов на них.

**Упражнение:**

1.  **Задание:** Предположим, вы в магазине. Продавец спрашивает цену товара, а покупатель отвечает. Напишите реплики продавца и покупателя для каждого из следующих случае ...
---


Answer generation:  26%|██▌       | 7/27 [09:42<28:55, 86.76s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 6: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 6: **Farbe/Größe** - Это два слова, объединенные слэшем. В данном случае, это означает, что продавец предлагает выбор альтернативы по цвету ИЛИ размеру. Это приемлемая форма для объяснения.

2.  **Gibt e ...
---


Answer generation:  30%|██▉       | 8/27 [11:14<28:02, 88.54s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 7: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 7: . Statt "Angebote sind auf dem Schild markiert" könnte man besser "Preisevergleiche" sagen oder den Kontext klarstellen.

Gut, für die Schüler könnte ich den Dialog etwas umformulieren und die Aufgabe ...
---


Answer generation:  33%|███▎      | 9/27 [12:32<25:35, 85.33s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 8: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 8: гом товаре или ситуации. Например:

**Покупатель:** Ich möchte wissen, ob Sie auch am Freitag neue Ware bekommen.

---

Wenn Sie keine weiteren Fragen haben, sagen Sie "vielen Dank", и я остановлю диа ...
---


Answer generation:  37%|███▋      | 10/27 [13:57<24:04, 84.98s/it]You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset
The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 9: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 9: *   Правильность: все действия описаны корректно.

**Упражнение для A2:**

Давайте поиграем в эту ситуацию. Я буду продавцом, вы будете покупателем. Пишите только свои ответы на русском, используя про ...
---


Answer generation:  41%|████      | 11/27 [14:29<18:21, 68.82s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 10: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 10:  ...
---


Answer generation:  44%|████▍     | 12/27 [15:52<18:18, 73.22s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 11: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 11: auf Russisch mit mir sprechen. Dein Niveau ist A2.

Beispiel-Frage: "Guten Tag! Wann öffneten Sie gestern morgen?"

Wenn du keine Frage hast, sagst du einfach "Danke".

Guten Tag! Viel Erfolg beim Übe ...
---


Answer generation:  48%|████▊     | 13/27 [17:15<17:45, 76.13s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 12: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 12: chseln" ist richtig. Es ist besser zu sagen "kein Wechselgeld", weil Wechselgeld ist das Gesamtkonzept. Aber "kein Geld" ist auch oft verständlich.

3.  **Antwort des Kunden:** "Alles klar, danke trot ...
---


Answer generation:  52%|█████▏    | 14/27 [17:44<13:24, 61.91s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 13: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 13:  ...
---


Answer generation:  56%|█████▌    | 15/27 [18:10<10:11, 50.99s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 14: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 14:  ...
---


Answer generation:  59%|█████▉    | 16/27 [19:31<11:02, 60.26s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 15: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 15: klärung:* "Ja" = Yes. "gerne" = happily, gladly. Das ist ein sehr freundlicher Ausdruck, dass man zufrieden ist, die Bitte erfüllen zu können. "–" ist oft eine Pause. "bitte vorsichtig" = "please be c ...
---


Answer generation:  63%|██████▎   | 17/27 [20:54<11:08, 66.84s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 16: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 16: s ist teuer. Kann ich eine kleinere Tüte bekommen? (Пожалуйста, дорого. Можно получить меньшую сумку?)

**Вопрос 9:** Danke, das ist gut. (Спасибо, это хорошо.)

**Вопрос 10:** Entschuldigung, wo sind ...
---


Answer generation:  67%|██████▋   | 18/27 [21:21<08:15, 55.06s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 17: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 17:  ...
---


Answer generation:  70%|███████   | 19/27 [22:46<08:32, 64.05s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 18: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 18: дом с, "den Putzmitteln" – гендерный падеж (именительный) для множественного числа "Putzmittel" (cleaning supplies).

3.  **"Bitte!" und "Danke!":**
    *   "Danke!" – Служит для благодарности, правил ...
---


Answer generation:  74%|███████▍  | 20/27 [23:18<06:20, 54.30s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 19: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 19:  ...
---


Answer generation:  78%|███████▊  | 21/27 [24:39<06:14, 62.47s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 20: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 20: Aber deine Frage ist etwas unklar. Du meinst wahrscheinlich: "Gibt es Nachschub für dieses Produkt?" oder "Wann kommt Nachschub für dieses Produkt?"

Korrekt wäre: "Gibt es Nachschub für dieses Produk ...
---


Answer generation:  81%|████████▏ | 22/27 [25:43<05:14, 62.93s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 21: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 21: en, indem er eine Frage stellt. Ich sollte ihm helfen, eine passende Frage zu formulieren, die zum Thema des Dialogs passt (Verkaufsstelle, Produkteigenschaften). 

Vielleicht hat er Angst, dass seine ...
---


Answer generation:  85%|████████▌ | 23/27 [27:19<04:51, 72.80s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 22: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 22: значающая "I'm sorry", для A2.
    *   "Vielleicht ist es später noch da." - "Vielleicht" (в значении "maybe") и "ist es" (возвратный вопрос) правильно согласованы. "Später" (дative?) - предложенный п ...
---


Answer generation:  89%|████████▉ | 24/27 [28:47<03:52, 77.39s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 23: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 23: Antwort des Kunden korrigieren, если вы ошибаетесь. Du darfst nur die Antwort des Kunden korrigieren, если вы ошибаетесь. Du darfst nur die Antwort des Kunden korrigieren, если вы ошибаетесь. Du darfs ...
---


Answer generation:  93%|█████████▎| 25/27 [30:15<02:41, 80.62s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 24: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 24: овать только предложения уровня A2. Ты должен использовать только предложения уровня A2. Ты должен использовать только предложения уровня A2. Ты должен использовать только предложения уровня A/2. Ты д ...
---


Answer generation:  96%|█████████▋| 26/27 [31:15<01:14, 74.16s/it]The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


📥 Prompt 25: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 25: "Когда снова..." или "Сколько ещё времени...".
*   **Neue Angebote gibt es jede Woche – ab Montag.** - Ответ тоже правильный. Он использует простую структуру с "gibt es" (есть) и "jede Woche" (каждую  ...
---


Answer generation: 100%|██████████| 27/27 [32:44<00:00, 72.76s/it]

📥 Prompt 26: <|im_start|>system
Ты — преподаватель немецкого языка для русскоязычных студентов. Объясняй простыми словами, корректиру ...
📤 Response 26: annen:** Scan

3.  **Kunde:** "Danke!" (Thank you!)

4.  **Du (Verkäufer):** "Bitte!" (You're welcome!)

**Вопросы и ответы в рамках диалога (A2 Niveau):**

**Frage 1 (Kunde):**  
Was bedeutet "Preiss ...
---





In [6]:
train_path = DATA_PATH / "train_annotated.jsonl"
with open(train_path, "w", encoding="utf-8") as f:
    for s in samples:
        json.dump(s, f, ensure_ascii=False)
        f.write("\n")
print("✅ Saved train_annotated.jsonl")

✅ Saved train_annotated.jsonl


In [7]:
df = pd.DataFrame(samples)
df_review = df[["instruction", "response"]]
df_review.columns = ["User Prompt", "Model Response"]

# Save as Excel and DOCX
xlsx_path = DATA_PATH / "train_annotated_review.xlsx"
df_review.to_excel(xlsx_path, index=False)

import docx
from docx.shared import Pt

doc = docx.Document()
doc.add_heading("AI Responses for Review", 0)

for i, row in df_review.iterrows():
    doc.add_paragraph(f"{i+1}. Prompt:", style='Heading 2')
    doc.add_paragraph(row["User Prompt"])
    doc.add_paragraph("Response:", style='Heading 2')
    doc.add_paragraph(row["Model Response"])
    doc.add_paragraph("\n")

docx_path = DATA_PATH / "train_annotated_review.docx"
doc.save(docx_path)

### 🔁 Convert to Supervised Fine-Tuning (SFT) Format

Each example is structured as:
```json
{
  "messages": [
    {"role": "system", "content": "..."},
    {"role": "user", "content": "..."},
    {"role": "assistant", "content": "..."}
  ]
}


In [10]:
with open(train_path, "r", encoding="utf-8") as f:
    raw_samples = [json.loads(line) for line in f if line.strip()]

train_sft_path = DATA_PATH / "train_sft.jsonl"
with open(train_sft_path, "w", encoding="utf-8") as f:
    for s in raw_samples:
        obj = {
            "messages": [
                {"role": "system", "content": s["system"]},
                {"role": "user", "content": s["instruction"]},
                {"role": "assistant", "content": s["response"]}
            ]
        }
        json.dump(obj, f, ensure_ascii=False)
        f.write("\n")

print("✅ Saved train_sft.jsonl")

✅ Saved train_sft.jsonl
