# Прореживание нейронных сетей

В этой лабораторной мы попробуем уменьшить размер нейронной сети за счет удаления из нее части весов. 

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.utils.data
from torch.autograd import Variable

from sklearn.model_selection import train_test_split

In [None]:
SEED=9876
torch.manual_seed(SEED)

В качестве данных будем использовать стандартный mnist

In [None]:
df = pd.read_csv('/data/mnist_784.csv')
df.head()

In [None]:
y = df['class'].values
X = df.drop(['class'],axis=1).values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=100)

In [None]:
plt.imshow(X_train[0].reshape(28, 28))


Первое, что мы попробуем сделать - это собрать какую-то несложную архитектуру нейронной сети и просто обучить ее на данных. 

После этого мы замерим ее размер, а также качество, которое она выдает. Все дальнейшие полученные модели будем сравнивать с этими результатами, как с базовыми и понимать - получилось лучше или хуже.

Вначале просто подготовим данные для обучения.

In [None]:
BATCH_SIZE = 32

torch_X_train = torch.from_numpy(X_train).type(torch.LongTensor)
torch_y_train = torch.from_numpy(y_train).type(torch.LongTensor)
torch_X_test = torch.from_numpy(X_test).type(torch.LongTensor)
torch_y_test = torch.from_numpy(y_test).type(torch.LongTensor)

train = torch.utils.data.TensorDataset(torch_X_train,torch_y_train)
test = torch.utils.data.TensorDataset(torch_X_test,torch_y_test)

train_loader = torch.utils.data.DataLoader(train, batch_size = BATCH_SIZE, shuffle = False)
test_loader = torch.utils.data.DataLoader(test, batch_size = BATCH_SIZE, shuffle = False)

В реальной жизни для задачи распознавания числа на картинке мы бы скорее всего использовали более продвинутую архитектуру сети, однако для наглядности мы возьмем простую сеть, которая при этом имеет много параметров. В ней будут просто три полносвязных слоя: 784 - 250 - 100 - 10

In [None]:
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.linear1 = nn.Linear(784,250)
        self.linear2 = nn.Linear(250,100)
        self.linear3 = nn.Linear(100,10)
    
    def forward(self,X):
        X = F.relu(self.linear1(X))
        X = F.relu(self.linear2(X))
        X = self.linear3(X)
        return F.log_softmax(X, dim=1)

mlp = MLP()
print(mlp)

Обучаем самым обычным способом, используя кросс-энтропию в качестве меры ошибки и используя 5 эпох

In [None]:
def fit(model, train_loader, epoch_number=5):
    optimizer = torch.optim.Adam(model.parameters())
    error = nn.CrossEntropyLoss()
    model.train()
    for epoch in range(epoch_number):
        correct = 0
        for batch_idx, (X_batch, y_batch) in enumerate(train_loader):
            var_X_batch = Variable(X_batch).float()
            var_y_batch = Variable(y_batch)
            optimizer.zero_grad()
            output = model(var_X_batch)
            loss = error(output, var_y_batch)
            loss.backward()
            optimizer.step()

            predicted = torch.max(output.data, 1)[1] 
            correct += (predicted == var_y_batch).sum()
            if batch_idx % 50 == 0:
                print('Epoch : {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}\t Accuracy:{:.3f}%'.format(
                    epoch, batch_idx*len(X_batch), len(train_loader.dataset), 100.*batch_idx / len(train_loader), loss.data, float(correct*100) / float(BATCH_SIZE*(batch_idx+1))))

In [None]:
torch.manual_seed(SEED)
fit(mlp, train_loader)

В качестве метрики качества возьмем обычный accuracy

In [None]:
def evaluate(model):
    correct = 0 
    for test_imgs, test_labels in test_loader:
        test_imgs = Variable(test_imgs).float()
        output = model(test_imgs)
        predicted = torch.max(output,1)[1]
        correct += (predicted == test_labels).sum()
    print("Test accuracy:{:.3f}% ".format( float(correct) / (len(test_loader)*BATCH_SIZE)))

evaluate(mlp)

Весьма неплохое качество, учитывая, что мы почти ничего не придумывали с сетью.

Посмотрим, сколько параметров нам потребовалось, чтобы получить это качество.

In [None]:
def calc_weights(model):
    result = 0
    for layer in model.children():
        result += len(layer.weight.reshape(-1))
    return result

In [None]:
calc_weights(mlp)

Видно, что полносвязные слои достаточно тяжелые и всего три слоя дали нам больше чем 200 000 параметров. Попробуем ужать это число, не сильно уменьшим при этом качество.

# Удаляем связи внутри сети

Для того, чтобы начать оптимизировать размер сети, нам нужен инструментарий для удаления связей внутри нашей модели.

Нам потребуется особый полносвязный слой, в котором мы можем отключать конкретные веса. Используя такие слои, соберем такую же архитектруру с тремя полносвязными.

Отключать сами веса мы будем исходя из их абсолютного значения - задавая пороговое значение, мы будем занулять только те веса, которые меньше этого значения.

In [None]:
class MaskedLinear(nn.Module):
    def __init__(self, in_size, out_size):
        super(MaskedLinear, self).__init__()
        # Обычный полносвязный слой
        self._linear = nn.Linear(in_size, out_size) 
        # Маска для слоя. Для связи из оригинального слоя, здесь будут хранится 0 и 1. 
        # 1 - связь действует, 0 - связь не действует.
        self._mask = nn.Linear(in_size, out_size)
        # Изначально все числа в маске - 1. То есть изначально мы не выключаем вообще никакие веса
        self._mask.weight.data = torch.ones(self._mask.weight.size())
    
    def forward(self, x):
        # Чтобы применить этот слой, нужно вначале умножить веса на маску. 
        # Тогда те веса, которые мы выключили, занулятся, что и будет означать, что мы их просто выкинули
        self._linear.weight.data = torch.mul(self._linear.weight, self._mask.weight)
        return self._linear(x)
    
    def prune(self, threshold):
        # Для того, чтобы выключить часть связей задается threshold
        # Если значение веса по модулю в сети меньше, чем threshold, то мы его выключаем, а значит выставляем 0 в маске.
        self._mask.weight.data = torch.mul(torch.gt(torch.abs(self._linear.weight), threshold).float(), self._mask.weight)

Составляем точно такую же архитектуру, но используя наши особенные полносвязные слои, в которых мы можем отключать веса

In [None]:
class AutoCompressMLP(nn.Module):
    def __init__(self):
        super(AutoCompressMLP, self).__init__()
        self.linear1 = MaskedLinear(784,250)
        self.linear2 = MaskedLinear(250,100)
        self.linear3 = MaskedLinear(100,10)
    
    def forward(self,X):
        X = F.relu(self.linear1(X))
        X = F.relu(self.linear2(X))
        X = self.linear3(X)
        return F.log_softmax(X, dim=1)
    
    def prune(self, threshold):
        self.linear1.prune(threshold)
        self.linear2.prune(threshold)
        self.linear3.prune(threshold)

Чтобы удалить какую-то долю связей из сети, необходимо вначале подсчитать необходимое пороговое значение. 

Так, чтобы удалить N% связей по этой схеме, необходимо найти такое число, чтобы ровно N% связей имело вес меньше этого числа по модулю. Другими словами найти N-перцентиль.

Напишем функцию, которая будет искать такое пороговое значение.

In [None]:
def calc_threshhold(model, rate):
    all_weights = torch.Tensor()
    for layer in model.children():
        all_weights = torch.cat( (layer._linear.weight.view(-1), all_weights.view(-1)) )
    abs_weight = torch.abs(all_weights)
    
    return np.percentile(abs_weight.detach().cpu().numpy(), rate)

In [None]:
acmlp = AutoCompressMLP()
t = calc_threshhold(acmlp, 50.0)
t

Чтобы следить за тем, сколько параметров осталось внури нашей сети, нам потребуется немного другая функция подсчета активных весов, учитываящая маску.

In [None]:
def calc_pruned_weights(model):
    result = 0
    for layer in model.children():
        result += torch.sum(layer._mask.weight.reshape(-1))
    return int(result.item())

In [None]:
acmlp.prune(t)
calc_pruned_weights(acmlp)

# Итеративное прореживание

Идин из способов сжатия нейронных сетей - итеративное прореживание (Incremental Magnitude Pruning). Он достаточно ресурсоемкий, однако позволяет достаточно несложными методами добиться неплохого результата.

In [None]:
acmlp = AutoCompressMLP()

Вначале просто обучим нашу модель, никаким образом ее не модифицируя.

In [None]:
torch.manual_seed(SEED)
fit(acmlp, train_loader)

In [None]:
evaluate(acmlp)

Отлично, получили примерно такую же модель, как и в самом начале. 

Сейчас модель уже имеет хорошие веса для предсказаний. Теперь попробуем убрать из нее 50% связей и посмотрим, насколько ей удастся сохранить качество.

Как уже отмечалось, отключим 50% наиболее слабых связей в сети.

In [None]:
import copy

acmlp_test1 = copy.deepcopy(acmlp)

In [None]:
t_50 = calc_threshhold(acmlp_test1, 50.0)
acmlp_test1.prune(t_50)

In [None]:
evaluate(acmlp_test1)

Можно заметить, что таким образом выкинутые веса почти не повлияли на качество сети. При этом мы выкинули половину всех коэффициентов! Весьма неплохой результат.

Давайте посмотрим, можем ли мы с таким же успехом выкинуть 90% сети?

In [None]:
acmlp_test2 = copy.deepcopy(acmlp)

t_90 = calc_threshhold(acmlp_test2, 90.0)
acmlp_test2.prune(t_90)

In [None]:
evaluate(acmlp_test2)

Увы, так просто выкинуть 90% и оставить качество не получается. Будем использовать более хитрый подход.

Будет идти с шагом в 10%. Каждый раз будет отключать внутри сети 10% связей. После отключения, оставшиеся веса дообучим на всех данных используя всего одну эпоху. Ожидается, что так как мы выкинули за один раз не очень много, то оставшиеся связи "перехватят" ответственность тех слабых, которые мы только что отключили.

Таким образом за P таких итераций мы выкинем 10P% всей сети и не должны при этом потерять сильно в качестве.

In [None]:
def smart_prune(model, train_loader, compress_rate):
    # Создаем именно новую модель, старую не трогаем
    model = copy.deepcopy(model)
    optimizer = torch.optim.Adam(model.parameters())
    error = nn.CrossEntropyLoss()
    model.train()
    
    for rate in range(0, compress_rate+1, 10):  # Идем с шагом в 10%
        t = calc_threshhold(model, float(rate))  # Считаем очередное пороговое значение
        model.prune(t)  # Отключаем слабые связи
        correct = 0
        for batch_idx, (X_batch, y_batch) in enumerate(train_loader):  # Далее дообучаем модель как обычно в течение одной эпохи
            var_X_batch = Variable(X_batch).float()
            var_y_batch = Variable(y_batch)
            optimizer.zero_grad()
            output = model(var_X_batch)
            loss = error(output, var_y_batch)
            loss.backward()
            optimizer.step()

            predicted = torch.max(output.data, 1)[1] 
            correct += (predicted == var_y_batch).sum()
            if batch_idx % 20 == 0:
                print('Rate : {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}\t Accuracy:{:.3f}%'.format(
                    rate, batch_idx*len(X_batch), len(train_loader.dataset), 100.*batch_idx / len(train_loader), loss.data, float(correct*100) / float(BATCH_SIZE*(batch_idx+1))))
    return model

Попробуем для начала выкинуть 70% таким образом

In [None]:
torch.manual_seed(SEED)
pruned_model = smart_prune(acmlp, train_loader, 70)

In [None]:
evaluate(pruned_model)

На моем компьютере получилось качество около 0.97. Формально это даже чуточку лучше, чем оригинальная модель! Получается, что лишние веса в оригинальной модели могли мешали выявить зависимость в данных. 

Давайте посчитаем количество ненулевых весов в модели

In [None]:
calc_pruned_weights(acmlp)

In [None]:
calc_pruned_weights(pruned_model)

Оставили около 60 000 весов, мы получили почти такое же качество для модели!

Можем ли мы таким же образом выкинуть 90%?

In [None]:
torch.manual_seed(SEED)
pruned_model_90 = smart_prune(acmlp, train_loader, 90)

In [None]:
evaluate(pruned_model_90)

In [None]:
calc_pruned_weights(pruned_model_90)

Выкинув большую часть сети, мы все еще имеем относительно неплохое качество, хоть и меньше, чем изначально. 

Вполне возможно проблема в том, что мы слишком агрессивно удаляем связи, когда их остается совсем мало. Давайте попробуем более аккуратные шаги.


In [None]:
def smart_prune_shed(model, train_loader, schedule):
    # Создаем именно новую модель, старую не трогаем
    model = copy.deepcopy(model)
    optimizer = torch.optim.Adam(model.parameters())
    error = nn.CrossEntropyLoss()
    model.train()
    
    for rate, epochs in schedule:  # Идем шагами, согласно тому расписанию, которое передали в функцию
        t = calc_threshhold(model, float(rate))  # Считаем очередное пороговое значение
        model.prune(t)  # Отключаем слабые связи
        for i in range(epochs):
            correct = 0
            for batch_idx, (X_batch, y_batch) in enumerate(train_loader):  # Далее дообучаем модель как обычно в течение указанного количества эпох
                var_X_batch = Variable(X_batch).float()
                var_y_batch = Variable(y_batch)
                optimizer.zero_grad()
                output = model(var_X_batch)
                loss = error(output, var_y_batch)
                loss.backward()
                optimizer.step()

                predicted = torch.max(output.data, 1)[1] 
                correct += (predicted == var_y_batch).sum()
                if batch_idx % 20 == 0:
                    print('Rate : {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}\t Accuracy:{:.3f}%'.format(
                        rate, batch_idx*len(X_batch), len(train_loader.dataset), 100.*batch_idx / len(train_loader), loss.data, float(correct*100) / float(BATCH_SIZE*(batch_idx+1))))
    return model

In [None]:
torch.manual_seed(SEED)
pruned_model_90 = smart_prune_shed(acmlp, train_loader, [
    (0, 1), 
    (20, 1), 
    (40, 1), 
    (50, 1), 
    (60, 1), 
    (70, 1), 
    (75, 1), 
    (80, 2), 
    (83, 2), 
    (85, 2), 
    (86, 2), 
    (87, 2), 
    (88, 2), 
    (89, 2), 
    (90, 2)
])

In [None]:
evaluate(pruned_model_90)

In [None]:
calc_pruned_weights(pruned_model_90)

Чтож, это оригинальное качество за всего 10% сети.

Ради интереса попробуем "дожать до победы" и удалим 99%.

In [None]:
torch.manual_seed(SEED)
pruned_model_99 = smart_prune_shed(pruned_model_90, train_loader, [
    (90, 2),
    (92, 2),
    (94, 2),
    (95, 2),
    (96, 2),
    (97, 2),
    (98, 2),
    (99, 2)
])

In [None]:
evaluate(pruned_model_99)

In [None]:
calc_pruned_weights(pruned_model_99)

Видно, что метод все таки имеет свои ограничения. По логу видно, что где-то в районе 94% мы видимо задели какой-то очень важный участок сети, после удаления которого она уже не смогла восстановится.

Однако результат в 90% - это тоже вполне неплохо!

# Готовые реализации

Сама техника достаточно популярна и часто имеет уже готовые реализации. В Pytorch имеется отдельный модуль для проведения прореживания сети.

In [None]:
import torch.nn.utils.prune as prune

In [None]:
class PytorchPrunedMLP(nn.Module):
    def __init__(self):
        super(PytorchPrunedMLP, self).__init__()
        self.linear1 = nn.Linear(784,250)
        self.linear2 = nn.Linear(250,100)
        self.linear3 = nn.Linear(100,10)
    
    def forward(self,X):
        X = F.relu(self.linear1(X))
        X = F.relu(self.linear2(X))
        X = self.linear3(X)
        return F.log_softmax(X, dim=1)
    
    def prune(self, rate):
        # Используем l1_unstructured вместо нашего подхода
        # unstructured говорит о том, что нет ограничений на удаляемые веса
        # l1 говорит о том, что нужно смотреть на модуль веса
        prune.l1_unstructured(self.linear1, 'weight', amount=rate)
        prune.l1_unstructured(self.linear2, 'weight', amount=rate)
        prune.l1_unstructured(self.linear3, 'weight', amount=rate)

In [None]:
torch.manual_seed(SEED)
ppmlp = PytorchPrunedMLP()
fit(ppmlp, train_loader)

In [None]:
evaluate(ppmlp)

In [None]:
ppmlp.prune(0.5)

In [None]:
evaluate(ppmlp)

In [None]:
def calc_pytorch_weights(model):
    result = 0
    for layer in model.children():
        if hasattr(layer, 'weight_mask'):
            result += int(torch.sum(layer.weight_mask.reshape(-1)).item())
        else:
            result += len(layer.weight.reshape(-1))
    return result

In [None]:
calc_pytorch_weights(ppmlp) 

Точно таким же образом мы только что выкинули 50% самых слабый весов из сети.

# Групповое (структурированное) прореживание

В библиотеке реализованы также и более продвинутые версии этого алгоритма. Например мы можем делать более структурированное прореживание, удаляя не единичные связи, а целиком нейроны из сети. 

Для того, чтобы понять, насколько тот или иной нейрон важен для работы сети, будем смотреть на все веса, связанные с ним. Если веса значительно отличаются от нуля, значит нейрон важный, если близки к нулю - значит скорее всего его можно удалить.

Понимать, насколько группа нейронов близка к нулю можно разными способами. Наиболее популярный - L-нормы. Так например при L1 мы будем смотреть на сумму по модулю все весов для нейрона, а при L2 - на корень из суммы квадратов весов.

In [None]:
class StructuredPrunedMLP(nn.Module):
    def __init__(self):
        super(StructuredPrunedMLP, self).__init__()
        self.linear1 = nn.Linear(784,250)
        self.linear2 = nn.Linear(250,100)
        self.linear3 = nn.Linear(100,10)
    
    def forward(self,X):
        X = F.relu(self.linear1(X))
        X = F.relu(self.linear2(X))
        X = self.linear3(X)
        return F.log_softmax(X, dim=1)
    
    def prune(self, rate):
        # Используем ln_structured для удаления нейронов целиком
        # Для оценивания значимости нейрона будем использовать L2, поэтому указываем n=2
        # Указываем dim=1 - это укажет, как именно нужно групировать веса. Для dim=1 - это группировка по нейронам
        prune.ln_structured(self.linear1, 'weight', amount=rate, n=2, dim=1)
        prune.ln_structured(self.linear2, 'weight', amount=rate, n=2, dim=1)
        # В последнем слое удалять нейроны нельзя, потому как они отвечают за ответ сети

In [None]:
torch.manual_seed(SEED)
spmlp = StructuredPrunedMLP()
fit(spmlp, train_loader)

In [None]:
evaluate(spmlp)

In [None]:
spmlp.prune(0.5)

In [None]:
evaluate(spmlp)

In [None]:
calc_pytorch_weights(spmlp)

Можно посмотреть на устройство весов в наших последних двух моделях

У модели, которую прореживали по весам, у каждого нейрона отключены какие-то элементы

In [None]:
ppmlp.linear1.weight_mask.T[0]

У модели, которую прореживали по нейронам, нейрон или отключен совсем

In [None]:
spmlp.linear1.weight_mask.T[0]

Или работает целиком

In [None]:
spmlp.linear1.weight_mask.T[100]