# Урок 5: Unstructured Pruning

Удаление (зануление) отдельных весов матрицы. Это позволяет достичь экстремальной разреженности (до 80-90%), но требует эффективных алгоритмов выбора весов.

## 1. Математическая теория

### 1.1. Критерии важности
Мы хотим занулить $W_{i,j}$ так, чтобы минимизировать ошибку выхода. 

### 1.2. Методы из обзора:
*   **SparseGPT (Frantar and Alistarh, 2023):** Математический «тяжеловес». Использует информацию о кривизне поверхности потерь (обратный Гессиан), чтобы после удаления веса скорректировать остальные для сохранения сигнала.
*   **Wanda (Sun et al., 2024):** Прунинг «без обучения» (Zero-shot). 
    $$Score = |W| \cdot \|X\|_2$$
    Формула учитывает как магнитуду веса, так и энергию активаций. Это крайне популярный метод сегодня.
*   **DSnoT (Zhang et al., 2024):** Исследует динамический прунинг в процессе инференса.
*   **Flash-LLM (Xia et al., 2023):** Фокусируется на аппаратной части: создание ядер для GPU (Triton/CUDA), которые могут реально ускорять расчеты при неструктурированной разреженности.

---

In [None]:
import torch

def wanda_score_raw(W, X_norm):
    # Чистая формула Wanda: |W| * L2_norm(X)
    return W.abs() * X_norm.view(1, -1)

print("nanoGPT Track: Реализован расчет Score по методу Wanda.")

## 2. Промышленная реализация: SparseML
Библиотека `sparseml` от Neural Magic позволяет применять сложные стратегии прунинга через декларативные рецепты (YAML).

In [None]:
"""
from sparseml.pytorch.optim import PlannedModifierManager
manager = PlannedModifierManager.from_yaml('recipe.yaml') # Рецепт с Wanda/SparseGPT
manager.apply(model, optimizer)
"""
print("Llama Track: SparseML является золотым стандартом для разреженных вычислений.")