conda install pytorch torchvision torchaudio pytorch-cuda=11.8 -c pytorch -c nvidia

PyTorch — это популярный открытый фреймворк для машинного обучения, разработанный компанией Facebook (ныне Meta). Он предоставляет гибкую и интуитивно понятную платформу для разработки и обучения моделей глубокого обучения. Благодаря динамической вычислительной графике и простому интерфейсу, PyTorch стал выбором многих исследователей и инженеров в области искусственного интеллекта.

In [3]:
pip install torch torchvision

Note: you may need to restart the kernel to use updated packages.


ERROR: Could not find a version that satisfies the requirement torch (from versions: none)
ERROR: No matching distribution found for torch


In [1]:
import torch

Тензоры — это основная структура данных в PyTorch, аналогичная массивам NumPy, но с возможностью выполнения на GPU для ускорения вычислений.

In [None]:
# создание тензора

In [4]:
x = torch.tensor([[1,2],[3,4]], dtype=torch.float32)
x

tensor([[1., 2.],
        [3., 4.]])

In [5]:
# Автоматическое дифференцирование (Autograd)

In [6]:
# PyTorch автоматически вычисляет градиенты, необходимые для обучения нейронных сетей.

In [1]:
# Тензор с отслеживанием градиента
x = torch.tensor(2.0, requires_grad=True)
y = x ** 2
y.backward()
print(x.grad)

NameError: name 'torch' is not defined

In [9]:
x = torch.Tensor(2, 3)
x

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [10]:
x = torch.rand(2, 3)
x

tensor([[0.2153, 0.0137, 0.8034],
        [0.6197, 0.4880, 0.4337]])

In [11]:
x = torch.ones(2,3)
x

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [12]:
y = torch.ones(2,3) * 2
y

tensor([[2., 2., 2.],
        [2., 2., 2.]])

In [13]:
x + y

tensor([[3., 3., 3.],
        [3., 3., 3.]])

In [15]:
y[:,1] = y[:,1] + 1
y

tensor([[2., 3., 2.],
        [2., 3., 2.]])

In [22]:
import torch

# Создайте тензор размером (2, 2) с requires_grad=True
x = torch.ones((2, 2), requires_grad=True)

# Вычисление
z = 2 * (x * x) + 5 * x

# Применение backward
z.backward(torch.ones(2, 2))

# Вывод градиентов
print(x.grad)


tensor([[9., 9.],
        [9., 9.]])


In [23]:
import torch.nn as nn

In [24]:
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.linear == nn.Linear(10,1)
        
    def forward(self, x):
        return self.linear(x)

Оптимизаторы в PyTorch играют ключевую роль в процессе обучения нейронных сетей. Они определяют, как параметры модели (веса и смещения) обновляются на каждой итерации обучения на основе вычисленных градиентов. Правильный выбор оптимизатора и его гиперпараметров может значительно повлиять на скорость сходимости и качество обучения модели.

1. SGD (Stochastic Gradient Descent)

Описание: Классический стохастический градиентный спуск.

Особенности:
Может использовать моментум (momentum) для ускорения сходимости.

Поддерживает Nesterov momentum.
Простой в реализации, но может быть медленным без моментума.

In [25]:
# optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)


 Adam (Adaptive Moment Estimation)
    
Описание: Адаптивный оптимизатор, который сочетает в себе преимущества AdaGrad и RMSProp.
    
Особенности:
Адаптирует скорость обучения для каждого параметра.

Использует скользящее среднее градиентов и их квадратов.

Хорошо работает на больших и шумных данных.

In [28]:
# optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

RMSprop

Описание: Адаптивный оптимизатор, который поддерживает скорость обучения на оптимальном уровне.
    
Особенности:
    
Подходит для рекуррентных нейронных сетей.

Учитывает среднеквадратичное значение градиента.

In [30]:
# optimizer = torch.optim.RMSprop(model.parameters(), lr=0.001)

Adagrad

Описание: Адаптивный оптимизатор, изменяющий скорость обучения на основе частоты обновлений параметров.
    
Особенности:
    
Хорош для разреженных данных.

Скорость обучения уменьшается со временем, что может быть недостатком.

In [31]:
import torch
import torch.nn as nn
import torch.optim as optim

In [33]:
# Определяем модель
# model = MyModel()

In [34]:
criterion = nn.CrossEntropyLoss() # Выбираем функцию потерь

In [36]:
# Инициализируем оптимизатор
# optimizer = optim.Adam(model.parameters(), lr=0.001)

In [41]:
import torch.nn as nn

# Простая модель
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.linear = nn.Linear(10, 1)
    
    def forward(self, x):
        return self.linear(x)


In [42]:
import torch.optim as optim

model = SimpleModel()
optimizer = optim.SGD(model.parameters(), lr=0.01)

 ## Практический пример: Классификация изображений CIFAR-10

In [43]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms

In [44]:
# Подготовка данных

In [None]:
# Трансформации
transform = transforms.Compose([
    transforms.RandomHorizontalFlip(),
    transforms.RandomCrop(32, padding=4),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

- **`transforms.Compose([...])`**: Эта функция позволяет объединить несколько трансформаций в одну последовательность, которая будет применяться к данным. Все перечисленные трансформации будут выполняться в указанном порядке.
  
- **`transforms.RandomHorizontalFlip()`**: С вероятностью 0.5 выполняет случайное горизонтальное отражение изображений. Это помогает улучшить обобщающую способность модели, добавляя разнообразие в данные.

- **`transforms.RandomCrop(32, padding=4)`**: Изображения случайным образом обрезаются до размера 32x32 пикселя с добавлением отступа в 4 пикселя вокруг каждого изображения перед обрезкой. Это также используется для увеличения разнообразия в обучающем наборе данных.

- **`transforms.ToTensor()`**: Преобразует изображение из формата PIL (или `numpy.ndarray`) в тензор PyTorch. Значения пикселов также нормализуются в диапазон [0, 1].

- **`transforms.Normalize((0.5,), (0.5,))`**: Нормализует данные, изменяя среднее значение пикселов на 0.5 и стандартное отклонение также на 0.5. Здесь подразумевается, что мы работаем с одномерными данными в канале, но в случае RGB изображений было бы три значения (по одному на канал).

In [45]:

# Загрузка данных
train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=100, shuffle=True)


Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data\cifar-10-python.tar.gz


100%|██████████████████████████████████████████████████████████████| 170498071/170498071 [00:11<00:00, 15265143.46it/s]


Extracting ./data\cifar-10-python.tar.gz to ./data


- **`torchvision.datasets.CIFAR10`**: Класс для работы с набором данных CIFAR-10, содержит 60,000 цветных 32x32 изображений в 10 классах. 
  - **`root='./data'`**: Указывает путь, где будет храниться загруженный набор данных.
  - **`train=True`**: Задает загрузку обучающей части набора данных (вместо тестовой, если бы было `False`).
  - **`download=True`**: Набор данных будет автоматически загружен с интернета, если это необходимо.
  - **`transform=transform`**: Применяет созданную ранее последовательность трансформаций к каждому изображению.

- **`torch.utils.data.DataLoader`**: Создает загрузчик данных, который будет эффективно перебирать элементы набора данных.
  - **`train_dataset`**: Ваш набор данных CIFAR-10, к которому будут применяться трансформации.
  - **`batch_size=100`**: Размер пакета (батча), который будет загружаться за одно использование.
  - **`shuffle=True`**: Каждый раз перед началом новой эпохи данные будут перемешаны, чтобы обеспечить высокую обобщающую способность модели за счет разнообразия в порядке поступления данных для обучения.

Шаг 3: Определение модели

In [48]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv_layer = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3),
            nn.BatchNorm2d(32),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(2)
        )
        self.fc_layer = nn.Sequential(
            nn.Linear(32 * 15 * 15, 10)
        )
    
    def forward(self, x):
        x = self.conv_layer(x)
        x = x.view(x.size(0), -1)
        x = self.fc_layer(x)
        return x

model = CNN()


- **Метод `__init__`:** Убедитесь, что используете `__init__`, чтобы определить конструктор.
- **Параметры `nn.Conv2d`:** Это определяет свертку с 3 входными каналами и 32 выходными каналами с ядром `3x3`.
- **Слой подвыборки:** `MaxPool2d(2)` применяет 2x2 подвыборку, поэтому размер карты признаков уменьшится вдвое по каждому измерению.
- **Расчет входа для `nn.Linear`:** Важно, чтобы входной размер для слоя `Linear` совпадал с выровненным размером после сверточных и подвыборочных операций. Если ваши входные изображения имеют размер, отличный от `32x32`, вам нужно будет правильно рассчитать размер после слоев свертки и подвыборки.

In [49]:
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)


In [50]:
# Обучение модели

In [51]:
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
num_epochs = 5

for epoch in range(num_epochs):
    total_loss = 0
    for images, labels in train_loader:
        # Обнуление градиентов
        optimizer.zero_grad()
        
        # Прямой проход
        outputs = model(images)
        
        # Вычисление потерь
        loss = criterion(outputs, labels)
        
        # Обратный проход
        loss.backward()
        
        # Обновление параметров
        optimizer.step()
        
        total_loss += loss.item()
    
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {total_loss/len(train_loader):.4f}')


Epoch [1/5], Loss: 1.7427
Epoch [2/5], Loss: 1.4731
Epoch [3/5], Loss: 1.3740
Epoch [4/5], Loss: 1.3174
Epoch [5/5], Loss: 1.2841
