Концепция "smeared keys" и induction heads из статьи "In-context Learning and Induction Heads"
Сравнение эффективности моделей Conv-Attn и Attn-Attn в:
- Аппроксимации "smeared keys"
- Формировании induction heads
- Качестве next-token prediction
| Компонент | Conv-Attn | Attn-Attn |
|---|---|---|
| Эмбеддинг | nn.Embedding | nn.Embedding |
| Основной слой | Conv1d(k=3) + MultiheadAttention | 2x MultiheadAttention |
| Гиперпараметры | lr=1e-3, 4 heads | lr=2e-3, 4 heads |
- Датасет: Wikitext-2 (36718 примеров)
- Токенизация: GPT-2 tokenizer (max_length=128)
- Критерий: CrossEntropyLoss
- Эпох: 25
- Батч: 32
| Модель | Start Loss | Final Loss | Start Acc | Final Acc |
|---|---|---|---|---|
| Conv-Attn | 1.3955 | 0.0070 | 81.94% | 99.81% |
| Attn-Attn | 2.5709 | 1.2687 | 67.60% | 75.10% |
Особенности внимания:
- Сильная вертикальная структура
- Доминирование последнего токена
- Слабые диагональные элементы
Вес свертки:
- Диапазон: [-0.04, 0.04]
- Локальные паттерны, соответствующие smeared keys
- Локальная свертка (kernel_size=3) → идеально для предсказания next-token в локальном контексте
- Causal padding → сохраняет позиционную информацию
- Меньше параметров → стабильнее обучение
Слой 1:
- Четкие диагонали (до 0.6)
- Классические induction heads
- Паттерны "A→B→A"
Слой 2:
- Пик самовнимания (0.6 в позиции 6-6)
- Хаотичный фон (<0.05)
- Признаки коллапса внимания
-
Эффективность архитектур:
- Conv-Attn показала лучшие результаты
- Attn-Attn демонстрирует более теоретически правильные механизмы внимания
-
Паттерны внимания:
- Conv-Attn: вертикальные структуры + позиционный bias
- Attn-Attn: Layer1 - диагонали, Layer2 - самовнимание
-
Проблемы и решения:
| Проблема | Возможное решение |
|---|---|
| Коллапс внимания | Добавить masked_fill диагонали |
| Позиционный bias | Causal padding в свертке |
| Низкая точность Attn | Оптимизировать lr второго слоя |