# Урок 8: Black-box Knowledge Distillation

Перенос знаний от большой модели (Teacher) к маленькой (Student), используя только её текстовые ответы. Это ключ к созданию мобильных версий Llama и Mistral.

## 1. Математическая теория

### 1.1. Имитация поведения
Студент минимизирует ошибку предсказания текста, сгенерированного Учителем:
$$\mathcal{L} = -\sum y_{teacher} \log(y_{student})$$

### 1.2. Методы из обзора:
*   **Chain-of-Thought (CoT) Distillation:**
    *   **Distilling Step-by-Step (Hsieh et al., 2023):** Учитель выдает не только ответ, но и «рассуждение» (Rationale). Студент учится предсказывать обе части, что дает маленькой модели 770M качество, сравнимое с 540B на сложных задачах.
    *   **SCOTT (Wang et al., 2023a):** Исследует состязательную дистилляцию рассуждений.
*   **Instruction Following:**
    *   **SELF-INSTRUCT (Wang et al., 2023d):** Процесс, когда LLM сама генерирует для себя задачи и ответы, превращая «сырой» текст в обучающий датасет для инструкций.
    *   **Lion (Jiang et al., 2023):** Использует обратную связь. Учитель критикует ответы студента, исправляет их и отдает обратно для обучения.
*   **In-Context Learning (ICL) Distillation:** Переносит способность модели учиться «на лету» из промптов учителя в саму архитектуру студента.

---

In [None]:
def cross_entropy_raw(student_logits, teacher_target_ids):
    return torch.nn.functional.cross_entropy(student_logits.view(-1, 65), teacher_target_ids.view(-1))

print("nanoGPT Track: Реализована базовая функция потерь для дистилляции ответов.")

## 2. Промышленная реализация: Distilabel & Alignment Handbook
В индустрии для этого используют фреймворки `distilabel` (от Argilla) для генерации данных и `trl` (SFTTrainer) для самого обучения.

In [None]:
"""
from trl import SFTTrainer
# dataset содержит синтетические ответы GPT-4 (Teacher)
trainer = SFTTrainer(model="llama-1b", train_dataset=distilled_dataset)
"""
print("Llama Track: Интеграция дистилляции в SFT пайплайн — стандарт де-факто.")