Импортируем все необходимые библиотеки

In [14]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torchvision.models as models
import torch.nn.functional as F
from tqdm import tqdm



import numpy as np
import matplotlib.pyplot as plt
import cv2
import os
from tqdm import tqdm

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [15]:
import numpy as np
print(np.__version__)


1.26.4


In [16]:
# Трансформации для изображений
transform = transforms.Compose([
    transforms.Grayscale(num_output_channels=1), #преобразование в оттенки серого
    transforms.Resize((14, 14)), #14х14 пикселей
    transforms.ToTensor(), #перевод в тензоры
    transforms.Normalize((0.5,), (0.5,)) #нормализовка изображения
])

# Загрузчики данных
train_data = datasets.ImageFolder(root='final_symbols_split_ttv/train', transform=transform)
val_data = datasets.ImageFolder(root='final_symbols_split_ttv/val', transform=transform)
test_data = datasets.ImageFolder(root='final_symbols_split_ttv/test', transform=transform)

train_loader = DataLoader(train_data, batch_size=32, shuffle=True, drop_last=True) # Создание загрузчика данных с batch size 32, перемешиванием данных и отбрасыванием последнего неполного батча
val_loader = DataLoader(val_data, batch_size=32, shuffle=False, drop_last=True)
test_loader = DataLoader(test_data, batch_size=32, shuffle=False, drop_last=True)

Изначальная модель - была отменена потому, что слишком долго выполнялось обучение

In [4]:
# class SimpleCNN(nn.Module):
#     def __init__(self, num_classes):
#         super(SimpleCNN, self).__init__()
#         self.conv1 = nn.Conv2d(1, 32, kernel_size=3, stride=1, padding=1)
#         self.conv2 = nn.Conv2d(32, 64, kernel_size=3, stride=1, padding=1)
#         self.pool = nn.MaxPool2d(kernel_size=2, stride=2, padding=0) #Макспулинг слой (уменьшает размер изображения вдвое).
#         self.fc1 = nn.Linear(64 * 7 * 7, 128)
#         self.fc2 = nn.Linear(128, num_classes)  # Измените на num_classes

#     def forward(self, x):
#         x = self.pool(F.relu(self.conv1(x)))
#         x = self.pool(F.relu(self.conv2(x)))
#         x = x.view(-1, 64 * 7 * 7)
#         x = F.relu(self.fc1(x))
#         x = self.fc2(x)
#         return x

# # Количество классов
# num_classes = len(train_data.classes)
# model = SimpleCNN(num_classes=num_classes)



Использование предварительно обученной модели ResNet18

In [5]:
num_classes = len(train_data.classes)
print(f'Количество классов: {num_classes}')

# Использование предварительно обученной модели ResNet18
model = models.resnet18(pretrained=True) # Загрузка предобученной модели ResNet18 с предобученными весами
model.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)  # Изменение входного слоя для одноканальных изображений
model.fc = nn.Linear(model.fc.in_features, num_classes) # Изменение последнего полностью связанного слоя для классификации на num_classes классов
model = model.to(device) # Перенос модели на устройство

Количество классов: 17




Сверточные слои используются для извлечения признаков из изображений. Они применяют фильтры (ядра свертки) к входному изображению для создания карт признаков. В первом слое используется 32 фильтра, во втором - 64 фильтра. Размер ядра (kernel size) выбран равным 3x3, что является стандартным выбором для сверточных сетей. stride=1 означает, что фильтр перемещается на один пиксель за раз, а padding=1 добавляет один пиксель со всех сторон изображения для сохранения его размеров после свертки.

Функция активации ReLU (Rectified Linear Unit) используется для введения нелинейности в модель. Она заменяет все отрицательные значения нулями, что помогает модели обучаться сложным зависимостям в данных.

Макспулинг слои уменьшают размер карт признаков, оставляя только наиболее значимые признаки. В данном случае используется слой пулинга с ядром 2x2 и шагом 2, что уменьшает размер входных данных в два раза.

Полносвязные слои используются для окончательной классификации признаков, извлеченных сверточными слоями. В первом полносвязном слое используются 128 нейронов, а во втором - количество нейронов равно количеству классов (num_classes). Размер входа в первый полносвязный слой равен 64 * 7 * 7, что соответствует количеству карт признаков после второго сверточного слоя и двух слоев пулинга.

In [6]:
criterion = nn.CrossEntropyLoss() # Определение функции потерь (кросс-энтропия)
optimizer = optim.Adam(model.parameters(), lr=0.01) # Определение оптимизатора Adam с начальной скоростью обучения 0.01
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=3, gamma=0.1) # Определение планировщика изменения скорости обучения: каждые 3 эпохи уменьшать скорость обучения в 10 раз

In [7]:
num_epochs = 4 # Количество раз, которое мы будем проходиться по папке train и val
for epoch in range(num_epochs):
    model.train() # Перевод модели в режим обучения (активируются слои, такие как Dropout и BatchNorm)
    running_loss = 0.0 # Начальные потери(неудачи)
    with tqdm(train_loader, unit="batch") as tepoch:  # Используем tqdm для отображения прогресса
        for images, labels in tepoch: # 
            tepoch.set_description(f"Epoch {epoch + 1}/{num_epochs}") # Установка описания для текущей эпохи в tqdm
            optimizer.zero_grad() # Обнуление градиентов (частных производных), указывающих направления наибольшего изменения функции потерь
            outputs = model(images) # Прогонка изображений через модель для получения выходных данных
            loss = criterion(outputs, labels) # Вычисление функции потерь (ошибки) между выходными данными модели и истинными метками
            loss.backward() # Обратное распространение ошибки для вычисления градиентов
            optimizer.step() # Обновление параметров модели на основе вычисленных градиентов
            running_loss += loss.item() # Суммирование потерь для текущего батча
            tepoch.set_postfix(loss=running_loss / len(train_loader)) # Обновление отображаемого значения потерь в tqdm
    
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')

    model.eval() # Перевод модели в режим оценки (деактивируются слои Dropout и BatchNorm)
    val_loss = 0.0 # Инициализация переменной для хранения суммарной потери на валидационных данных
    correct = 0 # Инициализация переменной для подсчета количества правильных предсказаний
    total = 0 # Инициализация переменной для подсчета общего количества примеров
    with torch.no_grad(): # Отключение вычисления градиентов (ускоряет и снижает потребление памяти)
        with tqdm(val_loader, unit="batch") as vepoch:  # Используем tqdm для отображения прогресса
            for images, labels in vepoch:
                outputs = model(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()
                vepoch.set_postfix(val_loss=val_loss / len(val_loader), accuracy=100 * correct / total)
    
    print(f'Validation Loss: {val_loss/len(val_loader):.4f}, Accuracy: {100 * correct / total:.2f}%')

    scheduler.step()

Epoch 1/4: 100%|██████████| 6586/6586 [1:38:38<00:00,  1.11batch/s, loss=0.529]


Epoch [1/4], Loss: 0.5285


100%|██████████| 168/168 [00:46<00:00,  3.59batch/s, accuracy=88.9, val_loss=0.358]


Validation Loss: 0.3576, Accuracy: 88.91%


Epoch 2/4: 100%|██████████| 6586/6586 [43:42<00:00,  2.51batch/s, loss=0.124]   


Epoch [2/4], Loss: 0.1239


100%|██████████| 168/168 [00:09<00:00, 18.20batch/s, accuracy=93.1, val_loss=0.232] 


Validation Loss: 0.2323, Accuracy: 93.14%


Epoch 3/4: 100%|██████████| 6586/6586 [39:05<00:00,  2.81batch/s, loss=0.0879]  


Epoch [3/4], Loss: 0.0879


100%|██████████| 168/168 [00:09<00:00, 18.24batch/s, accuracy=91.9, val_loss=0.262]


Validation Loss: 0.2622, Accuracy: 91.89%


Epoch 4/4: 100%|██████████| 6586/6586 [39:48<00:00,  2.76batch/s, loss=0.0383]   


Epoch [4/4], Loss: 0.0383


100%|██████████| 168/168 [00:08<00:00, 18.76batch/s, accuracy=97.3, val_loss=0.0949]

Validation Loss: 0.0949, Accuracy: 97.27%





In [8]:
# Сохранение модели
torch.save(model.state_dict(), 'model.pth')

Для проверки запускай код ниже

In [2]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torchvision.models as models
import torch.nn.functional as F
from tqdm import tqdm



import numpy as np
import matplotlib.pyplot as plt
import cv2
import os
from tqdm import tqdm

# Трансформации для изображений
transform = transforms.Compose([
    transforms.Grayscale(num_output_channels=1), #преобразование в оттенки серого
    transforms.Resize((14, 14)), #14х14 пикселей
    transforms.ToTensor(), #перевод в тензоры
    transforms.Normalize((0.5,), (0.5,)) #нормализовка изображения
])

# Загрузка предобученной модели ResNet18
model = models.resnet18(pretrained=False)
num_ftrs = model.fc.in_features

# Изменение первого свёрточного слоя для работы с одноканальными изображениями
model.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)

# Изменение последнего полностью связанного слоя для 17 классов
model.fc = nn.Linear(num_ftrs, 17)

# Загрузка сохранённых весов
model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))
model.eval()  # Перевод модели в режим оценки

train_dataset = datasets.ImageFolder('final_symbols_split_ttv/train', transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)

class_labels = train_dataset.classes
print(class_labels)


  model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))


['=', 'add', 'divide', 'eight', 'five', 'four', 'gt', 'lt', 'multiply', 'nine', 'one', 'seven', 'six', 'subtract', 'three', 'two', 'zero']


In [13]:
from torchvision import transforms
from PIL import Image
import numpy as np

# Трансформации для изображений
transform = transforms.Compose([
    transforms.Grayscale(num_output_channels=1),
    transforms.Resize((14, 14)),
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# Функция для предсказания
def predict_image(image_path, model, transform, class_labels):
    image = Image.open(image_path)
    image = transform(image).unsqueeze(0)  # Добавить размер batch
    outputs = model(image)
    _, predicted = torch.max(outputs, 1)
    predicted_class = predicted.item()
    predicted_label = class_labels[predicted_class]
    return predicted_class, predicted_label


# Пример использования
image_path = 'output.png'
predicted_class, predicted_label = predict_image(image_path, model, transform, class_labels)
print(f'Предсказанный класс: {predicted_class}, Метка класса: {predicted_label}')


Предсказанный класс: 4, Метка класса: five


ПЕРЕОБУЧИТЬ МОДЕЛЬ НА RESIZE 28 28, ТАКЖЕ УВЕЛИЧИТЬ КОЛИЧЕСТВО ЭПОХ И ПОПЫТАТЬСЯ УВЕЛИЧИТЬ СЛОЕВ

In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import torchvision.models as models
import torch.nn.functional as F
from tqdm import tqdm



import numpy as np
import matplotlib.pyplot as plt
import cv2
import os
from tqdm import tqdm
import matplotlib.pyplot as plt

# Инициализация списков для хранения значений потерь и точности
train_losses = []
test_accuracies = []

# Трансформации для изображений
transform = transforms.Compose([
    transforms.Grayscale(num_output_channels=1), #преобразование в оттенки серого
    transforms.Resize((28, 14)), #14х14 пикселей
    transforms.ToTensor(), #перевод в тензоры
    transforms.Normalize((0.5,), (0.5,)) #нормализовка изображения
])

# Загрузка предобученной модели ResNet18
model = models.resnet18(pretrained=False)
num_ftrs = model.fc.in_features

# Изменение первого свёрточного слоя для работы с одноканальными изображениями
model.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)

# Изменение последнего полностью связанного слоя для 17 классов
model.fc = nn.Linear(num_ftrs, 17)

# Загрузка сохранённых весов
model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))
model.eval()  # Перевод модели в режим оценки

train_dataset = datasets.ImageFolder('final_symbols_split_ttv/train', transform=transform)
train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True)

class_labels = train_dataset.classes
print(class_labels)




  model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))


['=', 'add', 'divide', 'eight', 'five', 'four', 'gt', 'lt', 'multiply', 'nine', 'one', 'seven', 'six', 'subtract', 'three', 'two', 'zero']


In [3]:


# Загрузка предобученной модели ResNet18
model = models.resnet18(pretrained=False)
num_ftrs = model.fc.in_features

# Изменение первого свёрточного слоя для работы с одноканальными изображениями
model.conv1 = nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3, bias=False)

# Изменение последнего полностью связанного слоя для 17 классов
model.fc = nn.Linear(num_ftrs, 17)

# Загрузка сохранённых весов
model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))
model.eval()  # Перевод модели в режим оценки

criterion = nn.CrossEntropyLoss() # Определение функции потерь (кросс-энтропия)
optimizer = optim.Adam(model.parameters(), lr=0.01) # Определение оптимизатора Adam с начальной скоростью обучения 0.01
scheduler = optim.lr_scheduler.StepLR(optimizer, step_size=3, gamma=0.1) # Определение планировщика изменения скорости обучения: каждые 3 эпохи уменьшать скорость обучения в 10 раз


num_epochs = 4 # Количество раз, которое мы будем проходиться по папке train и val
for epoch in range(num_epochs):
    model.train() # Перевод модели в режим обучения (активируются слои, такие как Dropout и BatchNorm)
    running_loss = 0.0 # Начальные потери(неудачи)
    with tqdm(train_loader, unit="batch") as tepoch:  # Используем tqdm для отображения прогресса
        for images, labels in tepoch: # 
            tepoch.set_description(f"Epoch {epoch + 1}/{num_epochs}") # Установка описания для текущей эпохи в tqdm
            optimizer.zero_grad() # Обнуление градиентов (частных производных), указывающих направления наибольшего изменения функции потерь
            outputs = model(images) # Прогонка изображений через модель для получения выходных данных
            loss = criterion(outputs, labels) # Вычисление функции потерь (ошибки) между выходными данными модели и истинными метками
            loss.backward() # Обратное распространение ошибки для вычисления градиентов
            optimizer.step() # Обновление параметров модели на основе вычисленных градиентов
            running_loss += loss.item() # Суммирование потерь для текущего батча
            tepoch.set_postfix(loss=running_loss / len(train_loader)) # Обновление отображаемого значения потерь в tqdm
    
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader):.4f}')

    model.eval() # Перевод модели в режим оценки (деактивируются слои Dropout и BatchNorm)
    val_loss = 0.0 # Инициализация переменной для хранения суммарной потери на валидационных данных
    correct = 0 # Инициализация переменной для подсчета количества правильных предсказаний
    total = 0 # Инициализация переменной для подсчета общего количества примеров
    with torch.no_grad(): # Отключение вычисления градиентов (ускоряет и снижает потребление памяти)
        with tqdm(val_loader, unit="batch") as vepoch:  # Используем tqdm для отображения прогресса
            for images, labels in vepoch:
                outputs = model(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()
                vepoch.set_postfix(val_loss=val_loss / len(val_loader), accuracy=100 * correct / total)
    
    print(f'Validation Loss: {val_loss/len(val_loader):.4f}, Accuracy: {100 * correct / total:.2f}%')
        # Построение графиков
    fig, ax = plt.subplots(2, 1, figsize=(10, 8))

    # График потерь
    ax[0].plot(range(1, num_epochs+1), train_losses, label='Train Loss')
    ax[0].set_xlabel('Epochs')
    ax[0].set_ylabel('Loss')
    ax[0].set_title('Training Loss')
    ax[0].legend()

    # График точности
    ax[1].plot(range(1, num_epochs+1), test_accuracies, label='Test Accuracy')
    ax[1].set_xlabel('Epochs')
    ax[1].set_ylabel('Accuracy')
    ax[1].set_title('Test Accuracy')
    ax[1].legend()

    plt.tight_layout()
    plt.show()

    scheduler.step()

  model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))
Epoch 1/4:   0%|          | 22/6587 [00:36<3:01:19,  1.66s/batch, loss=0.0166]
  model.load_state_dict(torch.load('F:\pet2\pythonProject4\.src\model.pth'))


KeyboardInterrupt: 

In [None]:
# Сохранение модели
torch.save(model.state_dict(), 'model2.pth')