https://github.com/yunjey/pytorch-tutorial/blob/master/tutorials/01-basics/pytorch_basics/main.py

# Basic pytorch

## Необходимые библиотеки

In [1]:
import torch 
import torchvision
import torch.nn as nn
import numpy as np
import torchvision.transforms as transforms

## Table of Contents

1. Basic autograd example 1        
2. Basic autograd example 2              
3. Loading data from numpy                
4. Input pipline                         
5. Input pipline for custom dataset    
6. Pretrained model       
7. Save and load model                   

## 1. Basic autograd example 1

In [None]:
# ================================================================== #
#                     1. Basic autograd example 1                    #
# ================================================================== #

# Create tensors.
x = torch.tensor(1., requires_grad=True)
w = torch.tensor(2., requires_grad=True)
b = torch.tensor(3., requires_grad=True)

# Build a computational graph.
y = w * x + b    # y = 2 * x + 3

# Compute gradients.
y.backward()

# Print out the gradients.
print(x.grad)    # x.grad = 2 
print(w.grad)    # w.grad = 1 
print(b.grad)    # b.grad = 1 

**Create tensors**

`requires_grad=True` говорит, что мы хотим вычислить градиент относительно тензора

In [2]:
x = torch.tensor(1., requires_grad=True)
w = torch.tensor(2., requires_grad=True)
b = torch.tensor(3., requires_grad=True)

**Build a computational graph**

$y = 2x + 3$

In [3]:
y = w * x + b

**Compute gradients**

Запускается процесс обратного распространения ошибки (backpropagation) для вычисления градиентов

In [4]:
y.backward()

**Print out the gradients**

Градиенты хранятся в атрибуте .grad каждого тензора

In [5]:
print(x.grad)    # x.grad = 2 
print(w.grad)    # w.grad = 1 
print(b.grad)    # b.grad = 1

tensor(2.)
tensor(1.)
tensor(1.)


## 2. Basic autograd example 2

In [None]:
# ================================================================== #
#                    2. Basic autograd example 2                     #
# ================================================================== #

# Create tensors of shape (10, 3) and (10, 2).
x = torch.randn(10, 3)
y = torch.randn(10, 2)

# Build a fully connected layer.
linear = nn.Linear(3, 2)
print ('w: ', linear.weight)
print ('b: ', linear.bias)

# Build loss function and optimizer.
criterion = nn.MSELoss()
optimizer = torch.optim.SGD(linear.parameters(), lr=0.01)

for i in range(100):
    # Forward pass.
    pred = linear(x)

    # Compute loss.
    loss = criterion(pred, y)
    print(i, 'loss: ', loss.item())

    # Backward pass.
    loss.backward()

    # Print out the gradients.
    #print ('dL/dw: ', linear.weight.grad) 
    #print ('dL/db: ', linear.bias.grad)

    # 1-step gradient descent.
    optimizer.step()
    optimizer.zero_grad()

# You can also perform gradient descent at the low level.
# linear.weight.data.sub_(0.01 * linear.weight.grad.data)
# linear.bias.data.sub_(0.01 * linear.bias.grad.data)

# Print out the loss after 1-step gradient descent.
pred = linear(x)
loss = criterion(pred, y)
print('loss after 1 step optimization: ', loss.item())

**1. ДАННЫЕ, ПРЕОБРАБОТКА ДАННЫХ**

Create tensors of shape (10, 3) and (10, 2)

Создаются два случайных тензора. Они будут использоваться как входные данные (функции) и целевые значения для обучения модели

In [6]:
x = torch.randn(10, 3)
y = torch.randn(10, 2)

**2. НЕЙРОСЕТЬ**

Build a fully connected layer

Создается полносвязный слой. Это означает, что слой принимает входные данные размерности 3 и возвращает выходные данные размерности 2. Этот слой будет использоваться для предсказания целевых значений на основе входных данных x.

In [7]:
linear = nn.Linear(3, 2)
print ('w: ', linear.weight)
print ('b: ', linear.bias)

w:  Parameter containing:
tensor([[-0.5238, -0.5095, -0.5385],
        [-0.4251,  0.2229, -0.5677]], requires_grad=True)
b:  Parameter containing:
tensor([ 0.5173, -0.3859], requires_grad=True)


**3. LOSS & OPTIM**

Build loss function and optimizer

Создается функция потерь (MSE - Mean Squared Error) и оптимизатор (SGD - Stochastic Gradient Descent) с коэффициентом скорости обучения (learning rate) 0.01. Оптимизатор будет использоваться для обновления весов и смещения (bias) слоя linear

In [8]:
criterion = nn.MSELoss()
optimizer = torch.optim.SGD(linear.parameters(), lr=0.01)

**4. ОБУЧЕНИЕ МОДЕЛИ**

Цикл выполняется 100 раз, что означает, что модель обучается на данных в течение 100 эпох

**1. Forward pass**

Прямой проход (Forward Pass): Вычисляются прогнозы модели, передавая входные данные x через слой linear

**2. Compute loss**

Вычисление функции потерь: Сравниваются прогнозы с целевыми значениями y, и вычисляется средняя квадратичная ошибка (MSE)

**3. Backward pass**

Обратное распространение (Backward Pass): Вычисляются градиенты функции потерь по отношению к весам и смещению слоя linear

**4. 1-step gradient descent**

Шаг оптимизации: Выполняется один шаг градиентного спуска с помощью `optimizer.step()` для обновления параметров слоя linear

Обнуление градиентов: Градиенты обнуляются с помощью `optimizer.zero_grad()`, чтобы гарантировать, что они не накапливаются при каждой итерации цикла

In [9]:
for i in range(100):
    # Forward pass.
    pred = linear(x)

    # Compute loss.
    loss = criterion(pred, y)
    print(i, 'loss: ', loss.item())

    # Backward pass.
    loss.backward()

    # Print out the gradients.
    #print ('dL/dw: ', linear.weight.grad) 
    #print ('dL/db: ', linear.bias.grad)

    # 1-step gradient descent.
    optimizer.step()
    optimizer.zero_grad()

0 loss:  2.3026278018951416
1 loss:  2.236931324005127
2 loss:  2.174152374267578
3 loss:  2.11415433883667
4 loss:  2.0568082332611084
5 loss:  2.001991033554077
6 loss:  1.9495846033096313
7 loss:  1.8994779586791992
8 loss:  1.8515640497207642
9 loss:  1.8057419061660767
10 loss:  1.7619149684906006
11 loss:  1.7199913263320923
12 loss:  1.679883599281311
13 loss:  1.6415084600448608
14 loss:  1.6047859191894531
15 loss:  1.569641351699829
16 loss:  1.5360019207000732
17 loss:  1.5037992000579834
18 loss:  1.4729678630828857
19 loss:  1.4434459209442139
20 loss:  1.4151737689971924
21 loss:  1.388094425201416
22 loss:  1.3621547222137451
23 loss:  1.337302803993225
24 loss:  1.3134897947311401
25 loss:  1.2906692028045654
26 loss:  1.268796443939209
27 loss:  1.2478290796279907
28 loss:  1.2277265787124634
29 loss:  1.2084505558013916
30 loss:  1.1899641752243042
31 loss:  1.1722326278686523
32 loss:  1.1552221775054932
33 loss:  1.1389011144638062
34 loss:  1.1232391595840454
35 lo

**Опциональный шаг оптимизации на низком уровне** (you can also perform gradient descent at the low level)

Комментарии демонстрируют, как можно выполнить шаг оптимизации на низком уровне, обновив параметры модели вручную с использованием градиентов

In [10]:
# linear.weight.data.sub_(0.01 * linear.weight.grad.data)
# linear.bias.data.sub_(0.01 * linear.bias.grad.data)

**Вывод значения функции потерь после 1 шага оптимизации** (print out the loss after 1-step gradient descent)

После обучения циклом 100 раз, выполняется дополнительный прямой проход, и выводится значение функции потерь для оценки эффективности модели после обучения

In [11]:
pred = linear(x)
loss = criterion(pred, y)
print('loss after 1 step optimization: ', loss.item())

loss after 1 step optimization:  0.7514860033988953


## 3. Loading data from numpy 

In [None]:
# ================================================================== #
#                     3. Loading data from numpy                     #
# ================================================================== #

# Create a numpy array.
x = np.array([[1, 2], [3, 4]])

# Convert the numpy array to a torch tensor.
y = torch.from_numpy(x)
#y = torch.tensor(x)

# Convert the torch tensor to a numpy array.
z = y.numpy()

**Create a numpy array.** Создается двумерный массив NumPy x:

In [12]:
x = np.array([[1, 2], [3, 4]])

**Convert the numpy array to a torch tensor.** Массив NumPy x преобразуется в тензор PyTorch y:

In [13]:
y = torch.from_numpy(x)
#y = torch.tensor(x)

Закомментированная строка `#y = torch.tensor(x)` предоставляет альтернативный способ преобразования массива NumPy x в тензор PyTorch. Вместо использования torch.from_numpy(x), вы можете просто создать тензор PyTorch напрямую с помощью `torch.tensor(x)`. Оба метода выполняют схожую задачу преобразования данных, но есть небольшая разница в поведении.

Основное различие заключается в том, что `torch.from_numpy(x)` создает тензор, который разделяет данные с массивом NumPy x. Это означает, что изменения в тензоре PyTorch будут отражаться в массиве NumPy и наоборот, так как они совместно используют память. С другой стороны, `torch.tensor(x)` создает копию данных, поэтому изменения в тензоре PyTorch не влияют на исходный массив NumPy и наоборот.

Зависит от ваших потребностей и требований к управлению данными, какой метод использовать. Если вам нужно разделять данные между NumPy и PyTorch без дополнительной копии, то используйте `torch.from_numpy(x)`. Если вам нужна независимая копия данных для тензора PyTorch, используйте `torch.tensor(x)`.

**Convert the torch tensor to a numpy array.** Тензор PyTorch преобразуется в массив NumPy z:

In [14]:
z = y.numpy()

Проверяется доступность вычислений на графическом процессоре (GPU):

In [15]:
torch.cuda.is_available()

False

Генерируются два массива NumPy x и y, каждый из которых содержит 100 000 случайных значений из стандартного нормального распределения (нормальное распределение с средним значением равным 0 и стандартным отклонениемравным 1). Измеряется время выполнения операции скалярного произведения (dot product) массивов NumPy x и y:

In [16]:
x = np.random.randn(100000)
y = np.random.randn(100000)
%timeit x.dot(y)

The slowest run took 7.48 times longer than the fastest. This could mean that an intermediate result is being cached.
200 µs ± 169 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Создаются тензоры PyTorch x и y, и оба они находятся на центральном процессоре (CPU). Измеряется время выполнения операции скалярного произведения тензоров PyTorch на CPU:

In [17]:
x = torch.tensor(np.random.randn(100000)).to('cpu')
y = torch.tensor(np.random.randn(100000)).to('cpu')
%timeit x.dot(y)

The slowest run took 5.43 times longer than the fastest. This could mean that an intermediate result is being cached.
223 µs ± 125 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Создаются тензоры PyTorch x и y, и оба они находятся на графическом процессоре (CUDA). Измеряется время выполнения операции скалярного произведения тензоров PyTorch на GPU (CUDA):

In [None]:
x = torch.tensor(np.random.randn(100000)).to('cuda')
y = torch.tensor(np.random.randn(100000)).cuda()
%timeit x.dot(y)

## 4. Input pipeline   

In [None]:
# ================================================================== #
#                         4. Input pipeline                          #
# ================================================================== #

# Download and construct CIFAR-10 dataset.
train_dataset = torchvision.datasets.CIFAR10(root='../../data/',
                                             train=True, 
                                             transform=transforms.ToTensor(),
                                             download=True)

# Fetch one data pair (read data from disk).
image, label = train_dataset[0]
print (image.size())
print (label)

# Data loader (this provides queues and threads in a very simple way).
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=64, 
                                           shuffle=True)

# When iteration starts, queue and thread start to load data from files.
data_iter = iter(train_loader)

# Mini-batch images and labels.
images, labels = data_iter.next()

# Actual usage of the data loader is as below.
for images, labels in train_loader:
    # Training code should be written here.
    pass

Этот код представляет собой пример загрузки и использования датасета CIFAR-10 с использованием библиотеки PyTorch. CIFAR-10 - это популярный набор данных, который содержит 60 000 цветных изображений размером 32x32, разделенных на 10 классов (по 6 000 изображений на класс). 

**Download and construct CIFAR-10 dataset.** Загрузка и создание датасета CIFAR-10:

`root` - указывает директорию, в которой будут сохранены данные (если они еще не загружены).

`train=True` - указывает, что мы загружаем тренировочный набор данных (вместо тестового).

`transform=transforms.ToTensor()` - определяет преобразование данных в тензоры PyTorch.

`download=True` - указывает библиотеке загрузить данные, если они еще не скачаны.

In [18]:
train_dataset = torchvision.datasets.CIFAR10(root='../../data/',
                                             train=True, 
                                             transform=transforms.ToTensor(),
                                             download=True)

Files already downloaded and verified


**Fetch one data pair (read data from disk).** Получение одной пары данных:

Здесь мы получаем первую пару данных из тренировочного набора. image представляет изображение в формате тензора, а label - метку класса. Мы выводим размер изображения и метку на экран.

In [19]:
image, label = train_dataset[0]
print (image.size())
print (label)

torch.Size([3, 32, 32])
6


**Data loader (this provides queues and threads in a very simple way).** Создание загрузчика данных (Data Loader):

Здесь мы создаем загрузчик данных, который управляет пакетами данных для обучения. `batch_size` определяет количество примеров данных в каждом пакете, и `shuffle=True` означает, что данные будут случайно перемешаны перед каждой эпохой обучения.

In [20]:
train_loader = torch.utils.data.DataLoader(dataset=train_dataset,
                                           batch_size=64, 
                                           shuffle=True)

**When iteration starts, queue and thread start to load data from files.** Получение итератора для загрузчика данных:

Итератор позволяет перебирать данные по мере необходимости.

In [21]:
data_iter = iter(train_loader)

**Mini-batch images and labels.**

Эта строка извлекает следующий пакет данных (первый пакет) из data_iter, который был создан для загрузчика данных train_loader. images содержит изображения, а labels содержит метки для этого пакета данных. Это полезно, если вы хотите быстро посмотреть на данные или выполнить какие-либо предварительные анализы перед началом обучения модели.

p.s. в контексте библиотеки PyTorch и машинного обучения, "batch" (пакет) - это группа примеров данных, которые обрабатываются одновременно в ходе обучения модели. Обычно во время обучения модели в PyTorch происходит циклическая обработка всех данных путем разделения их на пакеты. Модель вычисляет градиенты для каждого пакета, и затем эти градиенты используются для обновления параметров модели в процессе градиентного спуска или других методов оптимизации. Пакетный подход делает обучение более эффективным и масштабируемым, особенно при работе с большими объемами данных.

In [22]:
images, labels = next(data_iter)

**Actual usage of the data loader is as below.** Использование загрузчика данных для обучения:

В этом цикле мы перебираем пакеты данных, предоставляемые загрузчиком, и обычно обучаем модель машинного обучения на этих данных. Вместо комментария pass вы должны добавить свой собственный код обучения модели. 

In [23]:
for images, labels in train_loader:
    # Training code should be written here.
    pass

1. Создаётся два тензора PyTorch x и y, заполненныых случайными числами из нормального распределения со средним значением 0 и дисперсией 1 (стандартное нормальное распределение). 
2. Создается объект dataset, который объединяет тензоры x и y в один датасет. Теперь каждая пара (x[i], y[i]) представляет собой один обучающий пример. 
3. Создается объект loader. Этот DataLoader предоставляет удобный способ загрузки данных в обучающий процесс. 

    `batch_size`: данные разделяются на мини-пакеты размером 10
    
    `shuffle=False`: порядок примеров не перемешивается

    Этот DataLoader автоматически разделяет данные на мини-пакеты размером 10 и предоставит их в итерируемой форме. Это полезно при обучении моделей на больших наборах данных, когда невозможно загрузить все данные в память сразу.

In [38]:
x = torch.randn(100, 5) # 100 примеров, каждый имеет 5 признаков
y = torch.randn(100, 1) # 100 целевых значений (или меток) для этих примеров
dataset = torch.utils.data.TensorDataset(x, y)
loader = torch.utils.data.DataLoader(dataset=dataset,
                                           batch_size=10, 
                                           shuffle=False)

In [39]:
for x_batch, y_batch in loader: # На каждой итерации, x_batch представляет собой мини-пакет входных данных, 
                                # а y_batch представляет мини-пакет соответствующих целевых значений
    print(x_batch)
    print(y_batch)
    break

tensor([[ 0.1084, -0.2851,  1.2174, -0.8970,  0.7005],
        [-1.0344,  1.0966,  0.0292,  0.2165,  0.6746],
        [ 0.6224,  0.7937, -0.9416,  0.1784, -0.4309],
        [ 1.0065,  0.1071, -0.3768,  0.7618, -0.0308],
        [-0.3101, -0.5885,  1.0506, -1.2406,  0.8871],
        [-0.9963,  1.0351,  2.1234,  0.5735, -0.0910],
        [ 1.1783,  0.1793,  0.1165,  0.7647, -0.0882],
        [-0.5113,  0.3593, -0.4507,  0.7896, -1.9649],
        [-0.1998, -0.3947, -0.3703, -2.2381,  0.2017],
        [-2.3404, -0.3899,  0.1733,  2.2053, -0.6725]])
tensor([[-1.1190],
        [ 0.7378],
        [ 0.0999],
        [-1.1138],
        [-0.1022],
        [-0.8227],
        [-0.7476],
        [ 1.4706],
        [-0.0587],
        [ 1.4130]])


In [40]:
dataset[0], x[0], y[0] # первая пара данных

((tensor([ 0.1084, -0.2851,  1.2174, -0.8970,  0.7005]), tensor([-1.1190])),
 tensor([ 0.1084, -0.2851,  1.2174, -0.8970,  0.7005]),
 tensor([-1.1190]))

## 5. Input pipeline for custom dataset  

In [24]:
# ================================================================== #
#                5. Input pipeline for custom dataset                 #
# ================================================================== #
import os
# You should build your custom dataset as below.
class CustomDataset(torch.utils.data.Dataset):
    def __init__(self, folder_name):
        # TODO
        # 1. Initialize file paths or a list of file names. 
        self.folder_name = folder_name
        self.files = os.listdir(self.folder_name)
        
    def __getitem__(self, index):
        # TODO
        # 1. Read one data from file (e.g. using numpy.fromfile, PIL.Image.open).
        # 2. Preprocess the data (e.g. torchvision.Transform).
        # 3. Return a data pair (e.g. image and label).
        return self.files[index]
    
    def __len__(self):
        # You should change 0 to the total size of your dataset.
        return len(self.files)

# You can then use the prebuilt data loader. 
custom_dataset = CustomDataset(folder_name='.')
train_loader = torch.utils.data.DataLoader(dataset=custom_dataset,
                                           batch_size=4, 
                                           shuffle=True)

Этот код представляет собой **шаблон для создания собственного набора данных (custom dataset) в PyTorch**

Разберем, что делает каждый метод в этом классе:

1. `__init__(self, folder_name)`

    Этот метод инициализирует объект класса CustomDataset.
    
    – Принимаем folder_name в качестве аргумента, что предполагает, что мы хотим создать набор данных, используя файлы из определенной папки (параметр folder_name представляет путь к папке, содержащей наши данные)
    
    – Получаем список файлов в указанной папке с помощью `os.listdir()` и сохраняем в атрибут self.files. Это будут наши файлы данных. 
    
    Мы можем настроить этот метод для чтения файлов или создания списка файлов в нашей папке данных.

2. `__getitem__(self, index)`

    Этот метод используется для получения элемента данных из нашего набора данных по указанному индексу.
    
    – Принимаем параметр index, который представляет индекс элемента, который мы хотим получить
    
    – Считываем данные из файла, соответствующего указанному индексу. В текущей реализации этого метода отсутствует код для считывания данных из файла. Мы должны добавить этот код в соответствии с форматом ваших данных (например, с использованием `numpy.fromfile` для бинарных данных или `PIL.Image.open` для изображений)
    
    – Предобрабатываем считанные данные (например, с использованием трансформаций из torchvision)
    
    – Возвращаем пару данных (например, изображение и метку)

3. `__len__(self)`

    Этот метод возвращает общее количество элементов в нашем наборе данных. В текущем шаблоне он возвращает количество файлов в списке self.files

Когда мы создадим экземпляр нашего CustomDataset и передадим его в DataLoader, PyTorch будет использовать методы `__getitem__` и `__len__` для загрузки и итерации по нашим данным во время обучения нашей модели

**You can then use the prebuilt data loader**

После создания нашего пользовательского датасета custom_dataset, мы создали DataLoader, который позволяет нам эффективно загружать данные в процессе обучения модели, со следующими параметрами:

`dataset=custom_dataset`: указали custom_dataset как источник данных для train_loader. Это значит, что train_loader будет загружать данные из нашего пользовательского датасета

`batch_size=4`: установили размер мини-пакета, в каждой итерации train_loader будет предоставлять мини-пакеты данных размером 4 примера

`shuffle=True`: указали, что данные в train_loader будут перемешиваться перед каждой эпохой обучения. Это важно для обеспечения случайного порядка примеров и улучшения обучения модели

In [25]:
custom_dataset = CustomDataset(folder_name='.')
train_loader = torch.utils.data.DataLoader(dataset=custom_dataset,
                                           batch_size=4, 
                                           shuffle=True)

In [26]:
custom_dataset[1]

'0. Pytorch.ipynb'

In [27]:
for names in train_loader:
    print(names)
    break

['.ipynb_checkpoints', '1. Pytorch basics.ipynb', '3. Logistic regression.ipynb', 'deep learning 60min blitz']


`len(a)` и `a.__len__()` возвращают длину списка a. Встроенная функция `len()` является более предпочтительным и читаемым способом получения длины последовательности (списка, кортежа и других), чем явный вызов метода `__len__()`

In [28]:
a = [1,2,3]
len(a), a.__len__()

(3, 3)

Функция dir(a) возвращает список всех атрибутов и методов объекта a, включая встроенные и пользовательские

`a[1]` и `a.__getitem__(1)` выполняют одно и то же действие – получение элемента с индексом 1 из списка a

In [32]:
dir(a)
a[1], a.__getitem__(1)

(2, 2)

## 6. Pretrained model 

In [None]:
# ================================================================== #
#                        6. Pretrained model                         #
# ================================================================== #

'''Этот код показывает, как загрузить предварительно обученную модель, 
настроить её для тонкой настройки и выполнить прямой проход для получения предсказаний'''

# Download and load the pretrained ResNet-18.
resnet = torchvision.models.resnet18(pretrained=True)

# If you want to finetune only the top layer of the model, set as below.
for param in resnet.parameters():
    param.requires_grad = False

# Replace the top layer for finetuning.
resnet.fc = nn.Linear(resnet.fc.in_features, 100)  # 100 is an example.

# Forward pass.
images = torch.randn(64, 3, 224, 224)
outputs = resnet(images)
print (outputs.size())     # (64, 100)

Загружаем предварительно обученную модель ResNet-18, то есть создаём экземпляр модели ResNet-18 с предварительно загруженными весами, которые были обучены на большом наборе данных

In [30]:
resnet = torchvision.models.resnet18(weights=True)

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to C:\Users\iveel/.cache\torch\hub\checkpoints\resnet18-f37072fd.pth
100%|█████████████████████████████████████████████████████████████████████████████| 44.7M/44.7M [00:23<00:00, 2.02MB/s]


Если мы хотим выполнить точную настройку (fine-tuning), но только для верхнего слоя модели, мы проходимся по всем параметрам модели resnet и устанавливаем `requires_grad=False`. Это означает, что градиенты не будут вычисляться для этих параметров во время обратного распространения ошибки. В результате, только верхний слой будет обучаться

In [31]:
for param in resnet.parameters():
    param.requires_grad = False

Затем мы заменяем верхний слой модели (.fc представляет собой атрибут, который обозначает верхний (полносвязанный) слой модели) собственным линейным слоем, представленным как `nn.Linear(resnet.fc.in_features, 100)`. Этот слой принимает признаки, выходящие из предыдущего слоя модели, и преобразует их в 100 классов

In [32]:
resnet.fc = nn.Linear(resnet.fc.in_features, 100)  # 100 is an example

Cоздаём тензор images, представляющий входные изображения размером (64, 3, 224, 224), где 64 – размер мини-пакета, 3 – количество каналов (RGB), 224x224 – размер изображения

Выполняем прямой проход (forward pass) для входных изображений images с использованием модели resnet. Когда вызывается `resnet(images)`, происходит следующее:

1. Входные изображения images, размером (64, 3, 224, 224), передаются через модель resnet

2. Модель выполняет серию сверточных и пулинговых слоев, которые извлекают признаки из изображений

3. Затем, полученные признаки проходят через верхний (полносвязанный) слой, который был заменен в предыдущем коде с использованием `nn.Linear(resnet.fc.in_features, 100)`. Этот слой преобразует признаки в предсказания для 100 классов (в данном случае)

4. Выходные предсказания сохраняются в тензор outputs

Получаем тензор размером (64, 100), где 64 – размер мини-пакета, а 100 – количество классов, предсказываемых моделью после точной настройки

In [33]:
images = torch.randn(64, 3, 224, 224)
outputs = resnet(images)
print (outputs.size())     # (64, 100)

torch.Size([64, 100])


## 7. Save and load the model 

In [None]:
# ================================================================== #
#                      7. Save and load the model                    #
# ================================================================== #

# Save and load the entire model.
torch.save(resnet, 'model.ckpt')
model = torch.load('model.ckpt')

# Save and load only the model parameters (recommended).
torch.save(resnet.state_dict(), 'params.ckpt')
resnet.load_state_dict(torch.load('params.ckpt'))

Существует два основных способа сохранения и загрузки модели в PyTorch:

1. Сохранение и загрузка всей модели:

    С помощью `torch.save(resnet, 'model.ckpt')` мы сохраняем всю модель resnet в файл 'model.ckpt'. Это включает в себя архитектуру модели и значения всех параметров, в том числе веса
    
    С помощью `torch.load('model.ckpt')` мы загружаем модель целиком обратно в переменную model. Это позволяет нам продолжить использовать модель в том виде, в котором она была на момент сохранения

In [34]:
torch.save(resnet, 'model.ckpt')
model = torch.load('model.ckpt')

2. Сохранение и загрузка только параметров модели:

    С помощью `torch.save(resnet.state_dict(), 'params.ckpt')` мы сохраняем только параметры модели (веса) в файл 'params.ckpt'. Архитектура модели не включается в сохранение
    
    С помощью `resnet.load_state_dict(torch.load('params.ckpt'))` мы загружаем параметры обратно в модель resnet. Этот метод полезен, когда мы хотим перенести веса обученной модели на другую модель с аналогичной архитектурой

In [35]:
torch.save(resnet.state_dict(), 'params.ckpt')
resnet.load_state_dict(torch.load('params.ckpt'))

<All keys matched successfully>

Обычно рекомендуется использовать второй способ, сохраняя и загружая только параметры модели. Это делает файлы сохранения более компактными и позволяет более гибко управлять архитектурой модели при необходимости