In [2]:
import albumentations as A
import cv2
import json
import numpy as np
import os
import sys

module_path = os.path.abspath(os.path.join(".."))
if module_path not in sys.path:
    sys.path.append(module_path)

from src.data.image_augmentation import get_bbox_from_json, plot_img_with_bbox, transformed

Transform will be applied on images and related bounding boxes.

In [2]:
transform = A.Compose(
    [
        A.Resize(height=480, width=640),
        A.RandomCrop(width=450, height=450),
        A.HorizontalFlip(p=0.5),
        A.VerticalFlip(p=0.5),
        A.RandomBrightnessContrast(p=0.2),
    ],
    bbox_params=A.BboxParams(format="coco"),
)

In [1]:
# ImageID: Eine eindeutige Kennung oder ein Name, der das Bild identifiziert, auf das sich der Datensatz bezieht.
# Source: Die Quelle oder der Ursprung des Bildes oder der Daten.
# LabelName: Der Name oder die Bezeichnung des Objekts oder Labels, das in diesem Datensatz beschrieben wird.
# Confidence: Die Vertrauenswürdigkeit oder Zuverlässigkeit der Klassifizierung oder des Labels. Sie kann einen numerischen Wert oder einen Schwellenwert enthalten.
# XMin: Die minimale X-Koordinate (horizontal) des begrenzenden Rechtecks oder Bereichs, der das Objekt im Bild umschließt.
# XMax: Die maximale X-Koordinate (horizontal) des begrenzenden Rechtecks oder Bereichs, der das Objekt im Bild umschließt.
# YMin: Die minimale Y-Koordinate (vertikal) des begrenzenden Rechtecks oder Bereichs, der das Objekt im Bild umschließt.
# YMax: Die maximale Y-Koordinate (vertikal) des begrenzenden Rechtecks oder Bereichs, der das Objekt im Bild umschließt.
# IsOccluded: Gibt an, ob das Objekt im Bild teilweise verdeckt ist (True/False).
# IsTruncated: Gibt an, ob das Objekt im Bild abgeschnitten oder teilweise sichtbar ist (True/False).
# IsGroupOf: Gibt an, ob das Objekt eine Gruppe von Objekten repräsentiert (True/False).
# IsDepiction: Gibt an, ob das Objekt eine Darstellung oder eine Abbildung ist (True/False).
# IsInside: Gibt an, ob das Objekt innerhalb eines anderen Objekts im Bild liegt (True/False).
# id: Eine eindeutige Kennung oder ID für den Datensatz oder das Objekt.
# ClassName: Der Name der Klasse oder Kategorie, zu der das Objekt gehört.

In [3]:
import os
import xml.etree.ElementTree as ET
import csv

# Verzeichnis mit den XML-Dateien im Pascal VOC-Format
xml_dir = '../data/labeling'

# CSV-Datei zum Speichern der Annotationsinformationen
csv_file = '../data/processed/annotations-bbox.csv'

# Header für die CSV-Datei
header = ['ImageID', 'LabelName', 'XMin', 'XMax', 'YMin', 'YMax']

# CSV-Datei zum Schreiben öffnen
with open(csv_file, 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(header)

    # Alle XML-Dateien im Verzeichnis lesen
    for xml_file in os.listdir(xml_dir):
        if xml_file.endswith('.xml'):
            # XML-Datei öffnen
            tree = ET.parse(os.path.join(xml_dir, xml_file))
            root = tree.getroot()

            # Informationen aus der XML-Datei extrahieren
            filename = root.find('filename').text
            objects = root.findall('object')

            for obj in objects:
                label_name = obj.find('name').text
                bbox = obj.find('bndbox')
                xmin = bbox.find('xmin').text
                ymin = bbox.find('ymin').text
                xmax = bbox.find('xmax').text
                ymax = bbox.find('ymax').text

                # Informationen in die CSV-Datei schreiben
                writer.writerow([filename, label_name, xmin, xmax, ymin, ymax])

print("Die Konvertierung von Pascal VOC in CSV wurde abgeschlossen.")


Die Konvertierung von Pascal VOC in CSV wurde abgeschlossen.
