In [None]:
import torch
from torch import nn
from torch.utils.data import Dataset
import os
from PIL import Image

In [None]:
def process_video_frames(frames, model, confidence_threshold=0.5):
    """
    Обработка кадров видео для детекции bounding boxes.
    Если уверенность модели ниже заданного порога, используется предыдущий bounding box.

    Параметры:
    frames (list): Список кадров видео.
    model (YOLOv3): Модель для предсказания bounding boxes.
    confidence_threshold (float): Порог уверенности для использования bounding box.

    Возвращает:
    dict: Словарь с результатами для каждого кадра.
    """
    last_boxes = {}  # Словарь для хранения последних уверенных bounding boxes по видео
    results = {}  # Результаты для каждого кадра

    for frame in frames:
        video_id, frame_number = parse_frame_id(frame['id'])  # Разбор ID кадра на идентификатор видео и номер кадра
        prediction = model(frame['image'])  # Предсказание модели для текущего кадра
        confidence = prediction['confidence']  # Получение уверенности предсказания

        if confidence < confidence_threshold:
            # Использование bounding box из предыдущего кадра, если он есть
            if video_id in last_boxes:
                prediction['bbox'] = last_boxes[video_id]
        else:
            # Обновление последнего уверенного bounding box для текущего видео
            last_boxes[video_id] = prediction['bbox']

        results[frame['id']] = prediction  # Сохранение результата для текущего кадра

    return results

def parse_frame_id(frame_id):
    """
    Разбор ID кадра на идентификатор видео и номер кадра.

    Параметры:
    frame_id (str): ID кадра.

    Возвращает:
    tuple: Идентификатор видео и номер кадра.
    """
    parts = frame_id.split('_')
    video_id = '_'.join(parts[:3])
    frame_number = int(parts[3].split('.')[0])
    return video_id, frame_number


In [None]:
class CustomLoss(nn.Module):
    def __init__(self):
        super(CustomLoss, self).__init__()
        self.mse_loss = nn.MSELoss(reduction='sum')  # Для координат
        self.bce_loss = nn.BCEWithLogitsLoss(reduction='sum')  # Для уверенности

    def forward(self, predictions, targets):
        # Предсказанные уверенности и координаты
        pred_confidences = predictions[:, 0]
        pred_boxes = predictions[:, 1:]

        # Целевые уверенности (все 1, так как все целевые боксы содержат объекты)
        target_confidences = torch.ones_like(pred_confidences)

        # Целевые координаты
        target_boxes = targets

        # Расчет потерь
        confidence_loss = self.bce_loss(pred_confidences, target_confidences)
        coordinate_loss = self.mse_loss(pred_boxes, target_boxes)

        return confidence_loss + coordinate_loss


In [None]:
# Определение сверточного слоя с BatchNorm и LeakyReLU
class ConvBNLeaky(nn.Module):
    def __init__(self, in_channels, out_channels, kernel_size, stride, padding):
        super(ConvBNLeaky, self).__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, kernel_size, stride, padding, bias=False)
        self.bn = nn.BatchNorm2d(out_channels)
        self.leaky_relu = nn.LeakyReLU(0.1)

    def forward(self, x):
        return self.leaky_relu(self.bn(self.conv(x)))

# Определение остаточного блока
class ResidualBlock(nn.Module):
    def __init__(self, channels):
        super(ResidualBlock, self).__init__()
        self.conv1 = ConvBNLeaky(channels, channels // 2, 1, 1, 0)
        self.conv2 = ConvBNLeaky(channels // 2, channels, 3, 1, 1)

    def forward(self, x):
        return x + self.conv2(self.conv1(x))

# Основная архитектура YOLOv3
class YOLOv3(nn.Module):
    def __init__(self, num_classes):
        super(YOLOv3, self).__init__()
        self.num_classes = num_classes
        self.layer1 = ConvBNLeaky(3, 32, 3, 1, 1)
        self.layer2 = ConvBNLeaky(32, 64, 3, 2, 1)
        self.residual_block1 = ResidualBlock(64)

        # Дополнительные слои
        self.layer3 = ConvBNLeaky(64, 128, 3, 2, 1)
        self.residual_block2 = ResidualBlock(128)
        self.layer4 = ConvBNLeaky(128, 256, 3, 2, 1)
        self.residual_block3 = ResidualBlock(256)
        self.layer5 = ConvBNLeaky(256, 512, 3, 2, 1)
        self.residual_block4 = ResidualBlock(512)
        self.layer6 = ConvBNLeaky(512, 1024, 3, 2, 1)
        self.residual_block5 = ResidualBlock(1024)

        # Слои обнаружения
        self.detection1 = nn.Conv2d(1024, 5 * num_classes, 1)
        self.global_avg_pool = nn.AdaptiveAvgPool2d((1, 1))
        self.final_conv = nn.Conv2d(1024, 5, 1)  # Изменил 4 на 5, чтобы включить уверенность

    def forward(self, x):
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.residual_block1(x)
        x = self.layer3(x)
        x = self.residual_block2(x)
        x = self.layer4(x)
        x = self.residual_block3(x)
        x = self.layer5(x)
        x = self.residual_block4(x)
        x = self.layer6(x)
        x = self.residual_block5(x)

        x = self.global_avg_pool(x)  # Применение глобального среднего пулинга
        detection = self.final_conv(x)  # Применение конечного сверточного слоя
        detection = detection.view(x.size(0), -1)  # Изменение формы тензора

        # Применяем сигмоиду к первому элементу каждого предсказания для уверенности
        # Предполагаем, что detection имеет форму [N, 5], где N - количество предсказаний
        detection[:, 0] = torch.sigmoid(detection[:, 0])
        return detection

In [None]:
class YourDataset(Dataset):
    def __init__(self, img_dir, ann_dir, transform=None):
        self.img_dir = img_dir
        self.ann_dir = ann_dir
        self.transform = transform

        # Получение списка имен файлов изображений
        self.img_names = [img_name for img_name in os.listdir(img_dir) if img_name.endswith('.jpg')]

    def __len__(self):
        return len(self.img_names)

    def __getitem__(self, idx):
        img_name = self.img_names[idx]
        img_path = os.path.join(self.img_dir, img_name)
        ann_path = os.path.join(self.ann_dir, img_name.replace('.jpg', '.txt'))

        # Загрузка изображения
        image = Image.open(img_path).convert('RGB')

        # Загрузка аннотаций
        annotations = self.load_annotations(ann_path)

        if self.transform:
            image = self.transform(image)

        return image, annotations

    @staticmethod
    def load_annotations(ann_path):
        annotations = []
        with open(ann_path, 'r') as file:
            for line in file:
                _, x_center, y_center, width, height = map(float, line.split())
                annotations.append([x_center, y_center, width, height])
        return torch.tensor(annotations).squeeze() # оно по дефолту делает тензор размера [1, 4] а надо [4] потому что у кажного объекта ровно 1 аннотация

In [None]:
from torchvision import transforms
from torch.utils.data import DataLoader
import torch.nn.functional as F


In [None]:

# Теперь пути к данным должны указывать на распакованные каталоги
img_dir = '/kaggle/input/brikerdataset/dataset0904/train_images'  # Пример пути к изображениям для обучения
ann_dir = '/kaggle/input/brikerdataset/dataset0904/train_annotations'  # Пример пути к аннотациям для обучения

test_img_dir = '/kaggle/input/brikerdataset/dataset0904/test_images'  # Пример пути к изображениям для тестирования
test_ann_dir = '/kaggle/input/brikerdataset/dataset0904/test_annotations'  # Пример пути к аннотациям для тестирования


In [None]:
!ls '/kaggle/input/brikerdataset/dataset0904/test_images' | head -n 10

In [None]:
# Создание модели
model = YOLOv3(num_classes=1)

# Проверка доступности CUDA
if torch.cuda.is_available():
    model = model.cuda()

# Создание экземпляра функции потерь и оптимизатора
criterion = CustomLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor()
])

train_dataset = YourDataset(img_dir, ann_dir, transform=transform)
test_dataset = YourDataset(test_img_dir, test_ann_dir, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=128, shuffle=True, num_workers=0, pin_memory=True)
test_loader = DataLoader(test_dataset, batch_size=128, shuffle=False, num_workers=0, pin_memory=True)

In [None]:
import torch
import matplotlib.pyplot as plt
from torchvision.ops import box_iou

In [None]:
def convert_yolo_to_corners(bboxes, img_width, img_height):
    # Конвертация из формата YOLO (x_center, y_center, width, height) в формат координат углов (x_min, y_min, x_max, y_max)
    converted_bboxes = []
    for bbox in bboxes:
        x_center, y_center, width, height = bbox[-4:]
        x_min = (x_center - width / 2) * img_width
        y_min = (y_center - height / 2) * img_height
        x_max = (x_center + width / 2) * img_width
        y_max = (y_center + height / 2) * img_height
        converted_bboxes.append([x_min, y_min, x_max, y_max])
    return torch.tensor(converted_bboxes, dtype=torch.float32)




In [None]:
def get_confidence_and_bbox(outputs):
    """
    Разделяет выходные данные модели на уверенности и координаты bounding boxes.

    Параметры:
        outputs (torch.Tensor): Тензор с выходными данными модели размерности [batch_size, 5],
                                где каждая строка содержит [confidence, x, y, width, height].

    Возвращает:
        Tuple[torch.Tensor, torch.Tensor]:
        - Вектор уверенностей размерности [batch_size],
        - Матрицу координат bounding boxes размерности [batch_size, 4].
    """
    # Предполагаем, что outputs уже находится на CPU, если необходимо
    confidences = outputs[:, 0]  # Все строки, первый столбец
    bboxes = outputs[:, 1:]  # Все строки, со второго столбца до последнего

    return confidences, bboxes


In [None]:
confidence_threshold = 0.50  # Порог уверенности для демонстрации
last_confident_bbox = None  # Для хранения последнего уверенного bounding box

train_losses, val_losses, train_ious, val_ious = [], [], [], []

num_epochs = 10
image_width, image_height = 224, 224  # Примерные размеры изображения, измените на ваши

for epoch in range(num_epochs):
    model.train()
    train_mse, train_iou_accum = 0, 0
    print(f'Epoch: {epoch}')
    for batch_idx, (images, targets) in enumerate(train_loader):
        if torch.cuda.is_available():
            images, targets = images.cuda(), targets.cuda()
        optimizer.zero_grad()
        outputs = model(images)
        loss = criterion(outputs, targets)
        train_mse += loss.item()
        loss.backward()
        optimizer.step()

        for target in targets:
            target = target.squeeze() # надо чтобы тензор был размера [4] а сейчас он  [1, 4]

        outputs = outputs.detach().cpu()
        targets = targets.detach().cpu()

        # Преобразование формата и расчет IoU для текущего пакета
        predicted_corners = convert_yolo_to_corners(outputs, image_width, image_height)
        target_corners = convert_yolo_to_corners(targets, image_width, image_height)
        iou_scores = box_iou(predicted_corners, target_corners)
        train_iou_accum += iou_scores.diag().mean().item()

    average_train_mse = train_mse / len(train_loader)
    average_train_iou = train_iou_accum / len(train_loader)
    train_losses.append(average_train_mse)
    train_ious.append(average_train_iou)

    model.eval()
    val_mse, val_iou_accum = 0, 0
    with torch.no_grad():
        for images, targets in test_loader:
            if torch.cuda.is_available():
                images, targets = images.cuda(), targets.cuda()

            outputs = model(images)
            # Преобразуем выводы модели в удобный формат (предполагается реализация функции)
            # Эта часть кода должна быть адаптирована под вашу модель и ее вывод
            confidences, bboxes = get_confidence_and_bbox(outputs)

            for i, confidence in enumerate(confidences):
                if confidence < confidence_threshold and last_confident_bbox is not None:
                    # Если уверенность ниже порога и есть сохраненный bbox, используем его
                    bboxes[i] = last_confident_bbox
                else:
                    # Иначе обновляем последний надежный bbox
                    last_confident_bbox = bboxes[i]

            # Теперь bboxes содержит текущие или последние надежные предсказания
            # Продолжаем с расчетом потерь и IoU используя обновленные bboxes
            loss = criterion(outputs, targets) # было bboxes, стало outputs
            val_mse += loss.item()

            # Предполагается, что для IoU требуются координаты углов, здесь используем обновленные bboxes
            predicted_corners = convert_yolo_to_corners(bboxes, image_width, image_height)
            target_corners = convert_yolo_to_corners(targets, image_width, image_height)
            iou_scores = box_iou(predicted_corners, target_corners)
            val_iou_accum += iou_scores.diag().mean().item()

    average_val_loss = val_mse / len(test_loader)
    average_val_iou = val_iou_accum / len(test_loader)
    val_losses.append(average_val_loss)
    val_ious.append(average_val_iou)

    print(f"Epoch {epoch + 1}, Train Loss: {average_train_mse}, Train IoU: {average_train_iou}, Val Loss: {average_val_loss}, Val IoU: {average_val_iou}")

# Визуализация потерь и IoU
epochs = range(1, num_epochs + 1)
plt.figure(figsize=(12, 6))

plt.subplot(1, 2, 1)
plt.plot(epochs, train_losses, label='Training Loss')
plt.plot(epochs, val_losses, label='Validation Loss')
plt.title('Training and Validation Loss')
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(epochs, train_ious, label='Training IoU')
plt.plot(epochs, val_ious, label='Validation IoU')
plt.title('Training and Validation IoU')
plt.xlabel('Epoch')
plt.ylabel('IoU')
plt.legend()

plt.tight_layout()
plt.show()


Epoch 1, Train Loss: 85.71187585975692, Train IoU: 0.4877332774663551, Val Loss: 46.21363431757147, Val IoU: 0.46543790196830576

Epoch: 1

Epoch 2, Train Loss: 43.73765919780173, Train IoU: 0.566342073922966, Val Loss: 45.1648154258728, Val IoU: 0.5417444814335216

Epoch: 2

Epoch 3, Train Loss: 43.16679687388459, Train IoU: 0.5967341888892023, Val Loss: 44.5598879293962, Val IoU: 0.538937889716842

Epoch: 3

Epoch 4, Train Loss: 42.48168433339972, Train IoU: 0.6337331101211191, Val Loss: 43.79320101304488, Val IoU: 0.590618992393667

Epoch: 4

Epoch 5, Train Loss: 42.191190468637565, Train IoU: 0.6529127280963095, Val Loss: 43.472356362776324, Val IoU: 0.5706874023784291

Epoch: 5

Epoch 6, Train Loss: 41.97090085905198, Train IoU: 0.6673855291821106, Val Loss: 45.67795380679044, Val IoU: 0.38146351785822347

Epoch: 6

Epoch 7, Train Loss: 41.62586819498163, Train IoU: 0.7002999914145609, Val Loss: 42.955378012223676, Val IoU: 0.6122458814219995

Epoch: 7

Epoch 8, Train Loss: 41.56665186296429, Train IoU: 0.6955540673426021, Val Loss: 43.48175668716431, Val IoU: 0.5917525684291666

Epoch: 8

Epoch 9, Train Loss: 41.335165843629, Train IoU: 0.7191016091937907, Val Loss: 42.64876096898859, Val IoU: 0.6044311360879377

Epoch: 9

In [None]:
import matplotlib.pyplot as plt
import matplotlib.patches as patches
from PIL import Image

def draw_bbox(image, bbox, color='red'):
    """
    Рисует ограничивающую рамку на изображении.

    Аргументы:
    image - изображение в формате PIL или путь к изображению.
    bbox - координаты рамки в формате [x_center, y_center, width, height].
    color - цвет рамки.
    """
    if isinstance(image, str):
        image = Image.open(image)

    # Преобразование координат YOLO в абсолютные координаты
    img_width, img_height = image.size
    x_center, y_center, width, height = bbox
    x_min = (x_center - width / 2) * img_width
    y_min = (y_center - height / 2) * img_height
    abs_width = width * img_width
    abs_height = height * img_height

    # Создание фигуры и осей
    fig,ax = plt.subplots(1)
    ax.imshow(image)

    # Создание прямоугольника вокруг объекта
    rect = patches.Rectangle((x_min, y_min), abs_width, abs_height, linewidth=1, edgecolor=color, facecolor='none')

    # Добавление прямоугольника на график
    ax.add_patch(rect)
    plt.show()

# Пример использования
# Загрузите изображение используя PIL: img = Image.open('path_to_your_image.jpg')
# Предполагается, что bbox - это предсказание модели в формате YOLO: [x_center, y_center, width, height]
# draw_bbox(img, [0.5, 0.5, 0.2, 0.3], 'red')


In [None]:
from PIL import Image
from torchvision import transforms

# Загрузка изображения
image_path = '/kaggle/input/brikerdataset/dataset0904/test_images/grc_passport_82_000181.jpg'
image = Image.open(image_path)

# Предобработка изображения
transform = transforms.Compose([
    transforms.Resize((224, 224)),
    transforms.ToTensor()
])
image_transformed = transform(image).unsqueeze(0)  # Добавляем батч-размерность

In [None]:
device = 'cuda'
# Предполагается, что модель уже загружена и готова к использованию
model.eval()  # Переключение в режим оценки
with torch.no_grad():  # Выключение вычисления градиентов для ускорения
    prediction = model(image_transformed.to(device))  # device может быть 'cuda' или 'cpu'

In [None]:
# Пример предсказания: [0.5, 0.5, 0.2, 0.3], предполагается что это numpy массив или список
bbox = prediction[0].cpu().numpy()  # Преобразование в numpy массив, если это ещё не сделано


In [None]:
# Вызов функции для отрисовки рамки
draw_bbox(image, bbox, 'red')  # Используйте реальные размеры вашего изображения


In [None]:
from torchvision.ops import box_iou

# Предсказанные координаты (замените эти значения на ваши реальные предсказания)
predicted_bbox = torch.tensor(bbox)
# Истинные координаты
true_bbox = torch.tensor([0.5016203703703703, 0.5298177083333333, 0.9041666666666667, 0.3190104166666667])

# Преобразование координат из YOLO в абсолютные координаты рамки
print(predicted_bbox)
predicted_corners = convert_yolo_to_corners([predicted_bbox], 224, 224)
true_corners = convert_yolo_to_corners([true_bbox], 224, 224)

# Преобразование в тензоры PyTorch
predicted_corners_tensor = torch.tensor(predicted_corners, dtype=torch.float)
true_corners_tensor = torch.tensor(true_corners, dtype=torch.float)

# Расчет IoU
iou_score = box_iou(predicted_corners_tensor, true_corners_tensor)

iou_score.numpy()

In [None]:
torch.save(model.state_dict(), 'model.pth')
from google.colab import files

files.download('model.pth')