In [1]:
import torchvision
from research_task_utils_for_autosearch import *
from models_autosearch import *
from torchsummary import summary
import numpy as np
import json

In [2]:
batchsize = 512
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')

transform = torchvision.transforms.Compose(
    [
        torchvision.transforms.ToTensor()
    ]
)
traindata = torchvision.datasets.CIFAR100(root="../dataset", train=True, download=True, transform=transform)
testdata = torchvision.datasets.CIFAR100(root="../dataset", train=False, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(traindata, batch_size=batchsize, shuffle=True)
testloader = torch.utils.data.DataLoader(testdata, batch_size=batchsize, shuffle=True)

Files already downloaded and verified
Files already downloaded and verified


In [3]:
# architecture_params = Architecture_params(k1=1, c_out1=32, c_inner1=128,
#                                          k2=1, c_out2=32, c_inner2=128,
#                                          k3=1, c_out3=64, c_inner3=128,
#                                         k4=1, c_out4=100, c_inner4=256)
# model = Model(architecture_params)
# model = model.to(device)
# optimizer = torch.optim.Adam(model.parameters())
# loss_function = torch.nn.CrossEntropyLoss()
# statistics_dict = init_statistics(model, device, trainloader, testloader, loss_function)

In [4]:
# statistics_dict

In [5]:
# num_of_params(model)

## Подпстранство для поиска архитектур ("Space_1")

Поищем более хороший набор количества каналов для архитектуры из 4-х MBConv слоев

При этом положим c_inner{i}=2*c_out{i}

Т.е. пространство четырехмерное, координаты:
q{i} = c_out{i}

In [42]:
def generate_architecture_params(q1, q2, q3, q4):
    return Architecture_params(k1=1, c_out1=q1, c_inner1=2*q1,
                               k2=1, c_out2=q2, c_inner2=2*q2,
                               k3=1, c_out3=q3, c_inner3=2*q3,
                               k4=1, c_out4=q4, c_inner4=2*q4)


# Функция для пля обучения одной модели и сохранения всех логов и чекпоинтов в файлы
def perform_experiment(q, epochs_n=80, name=""):
    q1, q2, q3, q4 = q
    architecture_params = generate_architecture_params(q1, q2, q3, q4)
    model = Model(architecture_params)
    model = model.to(device)
    optimizer = torch.optim.Adam(model.parameters())
    loss_function = torch.nn.CrossEntropyLoss()
    statistics_dict = init_statistics(model, device, trainloader, testloader, loss_function)
    train(model, device, optimizer, loss_function, trainloader, testloader, statistics_dict, epochs_n=epochs_n,
          augmenter=None,
          checkpoints_dir=f"../tmp_checkpoints/architecture_search_v2/checkpoints/space_1/q{q1}_{q2}_{q3}_{q4}_"+name,
          checkpoints_per=25)
    add_statistics_to_json(model_info={"name": "Space_1"+name, "configuration": q,
                                       "comment": "", "num_of_params": num_of_params(model),
                                       "acc": statistics_dict["testacc"][-1]},
                           statistics_dict=statistics_dict,
                           path_dir="../tmp_checkpoints/architecture_search_v2/statistics",
                           filename="Space_1_statistics.json")
    print(f"Обучение для q={q} завершено, testacc=",statistics_dict["testacc"][-1])

In [19]:
perform_experiment(q=(5,5,5,5), epochs_n=1, name="func_test")

100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.42s/it]


In [43]:

# Страшная функция, которая из полных логов вытаскивает только гиперпараметры модели, кол-во параметров и accuracy.
def get_short_data(json_statistics_path="../tmp_checkpoints/architecture_search_v2/statistics/Space_1_statistics.json",
                   exp_name=""):
    short_data = dict()
    with open(json_statistics_path) as f:
        json_data = json.load(f)
        for log in json_data:
            if log["model_info"]["name"] == "Space_1"+exp_name:
                short_data[tuple(log["model_info"]["configuration"])] = {"N": log["model_info"]["num_of_params"],
                                                                  "acc": log["model_info"]["acc"]}
    return short_data
        

In [44]:
def get_grads(q: tuple, short_data):
    grad_N = []
    grad_acc = []
    for i in range(len(q)):
        q2 = list(q)
        q2[i] += 1
        q2 = tuple(q2)
        grad_N.append(short_data[q2]["N"] - short_data[q]["N"])
        grad_acc.append(short_data[q2]["acc"] - short_data[q]["acc"])
    return np.array(grad_N), np.array(grad_acc)

In [12]:
q1, q2, q3, q4 = 32, 32, 64, 128
architecture_params = generate_architecture_params(q1, q2, q3, q4)
model = Model(architecture_params)
print(num_of_params(model))

99684


In [29]:
tuple(np.array((3, 4)))

(3, 4)

In [46]:
# Поиск архитектуры


name = "exx2"
q = (5,5,5,5)
# q = (32, 32, 64, 128)
K = 5.
epochs_n = 1


story = []
while True:
    print(f"q = {q}, начало измерений в окрестности q")
    perform_experiment(q, epochs_n=epochs_n, name=name)
    for i in range(len(q)):
        q2 = list(q)
        q2[i] += 1
        q2 = tuple(q2)
        perform_experiment(q2, epochs_n=epochs_n, name=name)
    short_data = get_short_data(exp_name=name)
    grad_N, grad_acc = get_grads(q, short_data)
    
    story.append((q, short_data[q]["N"], short_data[q]["acc"]))# сохраняем историю изменения моделей
    
    q_prev = tuple(q) # нужно только для принтов
    
    direction_to_change_params = grad_acc - np.dot(grad_N, grad_acc) / np.dot(grad_N, grad_N) * grad_N
    direction_to_change_params /= np.linalg.norm(direction_to_change_params)
        
    new_hyperparams = np.array(q) + K*direction_to_change_params
    new_hyperparams = np.rint(new_hyperparams).astype(int)
    
    
    # !!! WARNING, поменять это на другое условие, если буду работать с k{i} -- в другом пр-ве!
    for i in range(len(new_hyperparams)):
        if new_hyperparams[i] < 1:
            new_hyperparams[i] = 1
            
    q = tuple(new_hyperparams.tolist())
    
    
    print("Конец измерений в окрестности q, some results:")
    print("acc(q): ", short_data[q_prev]["acc"])
    
    print(short_data)
    print("grad N:")
    print(grad_N)
    print("grad acc:")
    print(grad_acc)
    print("Новое значение q:", q)
    print("Предсказываемые значения N и acc для нового q: ",
          int(short_data[q_prev]["N"] + np.dot(grad_N, K*direction_to_change_params)),
          short_data[q_prev]["acc"] + np.dot(grad_acc, K*direction_to_change_params))

q = (5, 5, 5, 5), начало измерений в окрестности q


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.58s/it]


Обучение для q=(5, 5, 5, 5) завершено, testacc= 0.0192


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.33s/it]


Обучение для q=(6, 5, 5, 5) завершено, testacc= 0.0177


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.72s/it]


Обучение для q=(5, 6, 5, 5) завершено, testacc= 0.0155


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.68s/it]


Обучение для q=(5, 5, 6, 5) завершено, testacc= 0.0247


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.51s/it]


Обучение для q=(5, 5, 5, 6) завершено, testacc= 0.0138
Конец измерений в окрестности q, some results:
acc(q):  0.0192
{(5, 5, 5, 5): {'N': 1660, 'acc': 0.0192}, (6, 5, 5, 5): {'N': 1770, 'acc': 0.0177}, (5, 6, 5, 5): {'N': 1806, 'acc': 0.0155}, (5, 5, 6, 5): {'N': 1806, 'acc': 0.0247}, (5, 5, 5, 6): {'N': 1861, 'acc': 0.0138}}
grad N:
[110 146 146 201]
grad acc:
[-0.0015 -0.0037  0.0055 -0.0054]
Новое значение q: (5, 4, 9, 3)
Предсказываемые значения N и acc для нового q:  1660 0.059541502158196896
q = (5, 4, 9, 3), начало измерений в окрестности q


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.76s/it]


Обучение для q=(5, 4, 9, 3) завершено, testacc= 0.0172


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.32s/it]


Обучение для q=(6, 4, 9, 3) завершено, testacc= 0.0152


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.65s/it]


Обучение для q=(5, 5, 9, 3) завершено, testacc= 0.0212


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.92s/it]


Обучение для q=(5, 4, 10, 3) завершено, testacc= 0.0145


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.55s/it]


Обучение для q=(5, 4, 9, 4) завершено, testacc= 0.0183
Конец измерений в окрестности q, some results:
acc(q):  0.0172
{(5, 5, 5, 5): {'N': 1660, 'acc': 0.0192}, (6, 5, 5, 5): {'N': 1770, 'acc': 0.0177}, (5, 6, 5, 5): {'N': 1806, 'acc': 0.0155}, (5, 5, 6, 5): {'N': 1806, 'acc': 0.0247}, (5, 5, 5, 6): {'N': 1861, 'acc': 0.0138}, (5, 4, 9, 3): {'N': 1670, 'acc': 0.0172}, (6, 4, 9, 3): {'N': 1747, 'acc': 0.0152}, (5, 5, 9, 3): {'N': 1734, 'acc': 0.0212}, (5, 4, 10, 3): {'N': 1763, 'acc': 0.0145}, (5, 4, 9, 4): {'N': 1845, 'acc': 0.0183}}
grad N:
[ 77  64  93 175]
grad acc:
[-0.002   0.004  -0.0027  0.0011]
Новое значение q: (3, 8, 6, 4)
Предсказываемые значения N и acc для нового q:  1670 0.043874797628014106
q = (3, 8, 6, 4), начало измерений в окрестности q


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]


Обучение для q=(3, 8, 6, 4) завершено, testacc= 0.0201


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.09s/it]


Обучение для q=(4, 8, 6, 4) завершено, testacc= 0.0104


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.38s/it]


Обучение для q=(3, 9, 6, 4) завершено, testacc= 0.0145


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.12s/it]


Обучение для q=(3, 8, 7, 4) завершено, testacc= 0.0196


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.63s/it]


Обучение для q=(3, 8, 6, 5) завершено, testacc= 0.0137
Конец измерений в окрестности q, some results:
acc(q):  0.0201
{(5, 5, 5, 5): {'N': 1660, 'acc': 0.0192}, (6, 5, 5, 5): {'N': 1770, 'acc': 0.0177}, (5, 6, 5, 5): {'N': 1806, 'acc': 0.0155}, (5, 5, 6, 5): {'N': 1806, 'acc': 0.0247}, (5, 5, 5, 6): {'N': 1861, 'acc': 0.0138}, (5, 4, 9, 3): {'N': 1670, 'acc': 0.0172}, (6, 4, 9, 3): {'N': 1747, 'acc': 0.0152}, (5, 5, 9, 3): {'N': 1734, 'acc': 0.0212}, (5, 4, 10, 3): {'N': 1763, 'acc': 0.0145}, (5, 4, 9, 4): {'N': 1845, 'acc': 0.0183}, (3, 8, 6, 4): {'N': 1767, 'acc': 0.0201}, (4, 8, 6, 4): {'N': 1860, 'acc': 0.0104}, (3, 9, 6, 4): {'N': 1862, 'acc': 0.0145}, (3, 8, 7, 4): {'N': 1863, 'acc': 0.0196}, (3, 8, 6, 5): {'N': 1937, 'acc': 0.0137}}
grad N:
[ 93  95  96 170]
grad acc:
[-0.0097 -0.0056 -0.0005 -0.0064]
Новое значение q: (1, 7, 9, 5)
Предсказываемые значения N и acc для нового q:  1767 0.054835495747354496
q = (1, 7, 9, 5), начало измерений в окрестности q


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.89s/it]


Обучение для q=(1, 7, 9, 5) завершено, testacc= 0.016


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.55s/it]


Обучение для q=(2, 7, 9, 5) завершено, testacc= 0.0183


  0%|                                                                                                                                 | 0/1 [00:07<?, ?it/s]


KeyboardInterrupt: 