In [1]:
import torch
from torch import nn
from torch.utils.data import Dataset
import os
from PIL import Image

In [2]:
class BoundingBoxLoss(nn.Module):
    def __init__(self):
        super(BoundingBoxLoss, self).__init__()
        self.mse_loss = nn.MSELoss(reduction='sum')

    def forward(self, predictions, targets):

        # Вычисляем потери только для координат ограничивающих рамок
        loss = self.mse_loss(predictions, targets)
        return loss

In [3]:
# Определение сверточного слоя с BatchNorm и LeakyReLU
class ConvBNLeaky(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
        super(ConvBNLeaky, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, bias=False)
        self.bn = nn.BatchNorm2d(out_channels)
        self.leaky_relu = nn.LeakyReLU(0.1)

    def forward(self, x):
        return self.leaky_relu(self.bn(self.conv(x)))

# Определение остаточного блока
class ResidualBlock(nn.Module):
    def __init__(self, channels):
        super(ResidualBlock, self).__init__()
        self.conv1 = ConvBNLeaky(channels, channels // 2, 1, 1, 0)
        self.conv2 = ConvBNLeaky(channels // 2, channels, 3, 1, 1)

    def forward(self, x):
        return x + self.conv2(self.conv1(x))

# Основная архитектура YOLOv3
class YOLOv3(nn.Module):
    def __init__(self, num_classes):
        super(YOLOv3, self).__init__()
        self.num_classes = num_classes
        self.layer1 = ConvBNLeaky(3, 32, 3, 1, 1)
        self.layer2 = ConvBNLeaky(32, 64, 3, 2, 1)
        self.residual_block1 = ResidualBlock(64)

        # Дополнительные слои
        self.layer3 = ConvBNLeaky(64, 128, 3, 2, 1)
        self.residual_block2 = ResidualBlock(128)
        self.layer4 = ConvBNLeaky(128, 256, 3, 2, 1)
        self.residual_block3 = ResidualBlock(256)
        self.layer5 = ConvBNLeaky(256, 512, 3, 2, 1)
        self.residual_block4 = ResidualBlock(512)
        self.layer6 = ConvBNLeaky(512, 1024, 3, 2, 1)
        self.residual_block5 = ResidualBlock(1024)

        # Слои обнаружения
        self.detection1 = nn.Conv2d(1024, 5 * num_classes, 1)
        self.global_avg_pool = nn.AdaptiveAvgPool2d((1, 1))
        self.final_conv = nn.Conv2d(1024, 5, 1)

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.residual_block1(x)
        x = self.layer3(x)
        x = self.residual_block2(x)
        x = self.layer4(x)
        x = self.residual_block3(x)
        x = self.layer5(x)
        x = self.residual_block4(x)
        x = self.layer6(x)
        x = self.residual_block5(x)

        x = self.global_avg_pool(x)  # Применение глобального среднего пулинга
        detection = self.final_conv(x)  # Применение конечного сверточного слоя
        detection = detection.view(x.size(0), -1)  # Изменение формы тензора
        return detection

In [17]:
class YourDataset(Dataset):
    def __init__(self, img_dir, ann_dir, transform=None):
        self.img_dir = img_dir
        self.ann_dir = ann_dir
        self.transform = transform

        # Получение списка имен файлов изображений
        self.img_names = [img_name for img_name in os.listdir(img_dir) if img_name.endswith('.jpg')]

    def __len__(self):
        return len(self.img_names)

    def __getitem__(self, idx):
        img_name = self.img_names[idx]
        img_path = os.path.join(self.img_dir, img_name)
        ann_path = os.path.join(self.ann_dir, img_name.replace('.jpg', '.txt'))

        # Загрузка изображения
        image = Image.open(img_path).convert('RGB')

        # Загрузка аннотаций
        annotations = self.load_annotations(ann_path)

        if self.transform:
            image = self.transform(image)

        return image, annotations

    @staticmethod
    def load_annotations(ann_path):
        annotations = []
        with open(ann_path, 'r') as file:
            for line in file:
                class_id, x_center, y_center, width, height = map(float, line.split())
                annotations.append([class_id, x_center, y_center, width, height])
        return torch.tensor(annotations)

In [5]:
from torchvision import transforms
from torch.utils.data import DataLoader
import torch.nn.functional as F


In [6]:
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [9]:
!cp "/content/drive/My Drive/small_dataset.zip" "/content/small_dataset.zip"  # Копирование файла на локальный диск Colab



In [10]:
!unzip -q "/content/small_dataset.zip" -d "/content/"  # Распаковка содержимого архива

In [15]:

# Теперь пути к данным должны указывать на распакованные каталоги
img_dir = '/content/test_images'  # Пример пути к изображениям для обучения
ann_dir = '/content/test_annotations'  # Пример пути к аннотациям для обучения

test_img_dir = '/content/test_test_images'  # Пример пути к изображениям для тестирования
test_ann_dir = '/content/test_test_annotations'  # Пример пути к аннотациям для тестирования


In [14]:
!ls '/content/test_test_images' | head -n 10

grc_passport_82_000181.jpg
grc_passport_82_000235.jpg
grc_passport_82_000301.jpg
grc_passport_82_000355.jpg
grc_passport_82_000361.jpg
grc_passport_82_000385.jpg
grc_passport_82_000391.jpg
grc_passport_82_000427.jpg
grc_passport_82_000439.jpg
grc_passport_82_000451.jpg


In [18]:
# Создание модели
model = YOLOv3(num_classes=1)

# Проверка доступности CUDA
if torch.cuda.is_available():
    model = model.cuda()

# Создание экземпляра функции потерь и оптимизатора
criterion = BoundingBoxLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor()
])

train_dataset = YourDataset(img_dir, ann_dir, transform=transform)
test_dataset = YourDataset(test_img_dir, test_ann_dir, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=2, pin_memory=True)
test_loader = DataLoader(test_dataset, batch_size=128, shuffle=False, num_workers=2, pin_memory=True)

In [None]:
os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:256'

import torch

In [19]:
# Цикл обучения
num_epochs = 10  # Примерное количество эпох
for epoch in range(num_epochs):
    model.train()  # Переключение модели в режим обучения
    train_mse = 0

    for batch_idx, (images, targets) in enumerate(train_loader):
        print("i'm inside")
        if torch.cuda.is_available():
            images, targets = images.cuda(), targets.cuda()  # Перемещение данных на GPU, если она доступна
        optimizer.zero_grad()  # Обнуление градиентов
        outputs = model(images)  # Получение предсказаний модели
        loss = criterion(outputs, targets)  # Вычисление потерь
        train_mse += loss.item()  # Суммирование ошибки
        loss.backward()  # Вычисление градиентов
        optimizer.step()  # Обновление параметров модели

        # Печать прогресса обучения
        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch+1}, Batch: {batch_idx}, Loss: {loss.item()}')

    # Подсчет средней ошибки по эпохе
    average_train_mse = train_mse / len(train_loader)
    print(f"Epoch {epoch + 1}/{num_epochs}, Train MSE: {average_train_mse}")

    # Валидация
    model.eval()  # Переключение модели в режим валидации
    val_loss = 0
    with torch.no_grad():  # Отключение вычисления градиентов
        for images, targets in test_loader:
            if torch.cuda.is_available():
                images, targets = images.cuda(), targets.cuda()
            outputs = model(images)
            loss = criterion(outputs, targets)
            val_loss += loss.item()

    # Подсчет средней ошибки валидации по эпохе
    average_val_loss = val_loss / len(test_loader)
    print(f"Epoch {epoch + 1}/{num_epochs}, Validation Loss: {average_val_loss}")


i'm inside


  return F.mse_loss(input, target, reduction=self.reduction)


Epoch: 1, Batch: 0, Loss: 34326.9765625
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
Epoch 1/10, Train MSE: 18714.888880411785


  return F.mse_loss(input, target, reduction=self.reduction)


Epoch 1/10, Validation Loss: 1015.467632929484


  return F.mse_loss(input, target, reduction=self.reduction)


i'm inside
Epoch: 2, Batch: 0, Loss: 842.296630859375
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
Epoch 2/10, Train MSE: 791.0879257444351
Epoch 2/10, Validation Loss: 977.3410517374674
i'm inside
Epoch: 3, Batch: 0, Loss: 891.4882202148438
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside
i'm inside


KeyboardInterrupt: 