In [None]:
!git clone https://github.com/modellfabrik/SA_Workshop_Series.git

In [None]:
# Install the ultralytics package
%pip install ultralytics

### Import necessary libraries

In [None]:
# Für die YOLOv11-Objekterkennung, importieren die notwendigen Pakete
import ultralytics
from ultralytics import YOLO

import os
import cv2
from PIL import Image
import numpy as np
from google.colab.patches import cv2_imshow
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# einfache Funktion zur Darstellung der erkannten Objekte auf einem Bild
def plot_results(results, boxes=True):
    img = results[0].plot(boxes=boxes)
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # Bild in RGB umwandeln
    plt.imshow(img_rgb)  # Ergebnisse anzeigen
    plt.axis('off')  # Achsen ausblenden
    plt.show()

### Bildklassifizierung mit YOLOv11

Die Bildklassifizierung ist die einfachste Aufgabe – dabei ordnest du ein ganzes Bild einer von mehreren vordefinierten Klassen zu.

Die Ausgabe eines Bildklassifizierers ist eine einzelne Klassenbezeichnung und ein Vertrauenswert. Die Bildklassifizierung ist dann nützlich, wenn du nur wissen musst, zu welcher Klasse ein Bild gehört – und nicht, wo sich die Objekte dieser Klasse befinden oder welche Form sie genau haben.

https://docs.ultralytics.com/tasks/classify/#models

In [None]:
# Lade das vortrainierte Modell zur Klassifizierung
cls_model = YOLO('yolo11s-cls.pt')

In [None]:
## Inferenz auf die Quelle ausführen
cls_image_path = '/content/SA_Workshop_Series/Data/Screwdriver.jpg'

cls_results = cls_model(cls_image_path, save=True, device = 'cpu')

plot_results(cls_results)

### Objekterkennung mit YOLOv11

Objekterkennung ist eine Aufgabe, bei der es darum geht, die Position und Klasse von Objekten in einem Bild oder Videostream zu identifizieren.

Die Ausgabe eines Objekterkenners ist eine Menge von Begrenzungsrahmen, die die Objekte im Bild umschließen, zusammen mit Klassenbezeichnungen und Vertrauenswerten für jeden Rahmen. Die Objekterkennung ist eine gute Wahl, wenn du Objekte von Interesse in einer Szene identifizieren musst, aber nicht genau wissen musst, wo sich das Objekt befindet oder welche exakte Form es hat.

https://docs.ultralytics.com/tasks/detect/#models

In [None]:
# Lade das vortrainierte Modell zur Objekterkennung
det_model = YOLO('yolo11s.pt')

In [None]:
# Bildpfad auf eine Variable setzen
det_image_path = '/content/SA_Workshop_Series/Data/bus.jpg'

# Bild mit PIL-Bibliothek öffnen
det_img = Image.open(det_image_path)
det_img.size

In [None]:
## Inferenz auf die Quelle ausführen
det_results = det_model(det_img, save=True, device = 'cpu', conf=0.99)

## Inferenz mit Argumenten einschalten
# show_boxes = False
# conf = 0.25
# imgsz = 640
# classes = [0, 1]
# class_bus = 5
# iou = 0.7



plot_results(det_results)

### Segmentierung mit YOLOv11

Die Instanzsegmentierung geht einen Schritt weiter als die Objekterkennung und beinhaltet das Erkennen einzelner Objekte in einem Bild sowie deren Abgrenzung vom Rest des Bildes.

Die Ausgabe eines Instanzsegmentierungsmodells ist eine Menge von Masken oder Konturen, die jedes Objekt im Bild umreißen, zusammen mit Klassenbezeichnungen und Vertrauenswerten für jedes Objekt. Die Instanzsegmentierung ist hilfreich, wenn du nicht nur wissen musst, wo sich Objekte in einem Bild befinden, sondern auch, welche genaue Form sie haben.

https://docs.ultralytics.com/tasks/segment/#models

In [None]:
# Lade das vortrainierte Modell zur Segmentierung
seg_model = YOLO('yolo11s-seg.pt')

In [None]:
# Bildpfad auf eine Variable setzen
seg_image_path = '/content/SA_Workshop_Series/Data/Sample_Image_traffic.jpg'

# Bild mit PIL-Bibliothek öffnen
seg_img = Image.open(seg_image_path)
seg_img.size

In [None]:
## Inferenz auf das Bild anwenden
seg_results = seg_model(seg_img, save=False, device = 'cpu', conf=0.3, show_boxes=False)

plot_results(seg_results, boxes=True)

### Pose estimation mit YOLOv11

Mit der Posen­schätzung kannst du die Körperhaltung einer Person in einem Bild oder Videostream erkennen. Der Posen­schätzer gibt Schlüsselpunkte für jede erkannte Person sowie einen Vertrauenswert für jeden Punkt aus. Das ist nützlich, wenn du die Position einzelner Körperteile einer Person (z. B. Augen, Schultern, Hüften) wissen musst.

https://docs.ultralytics.com/tasks/pose/#models

In [None]:
# Lade das vortrainierte Modell zur Pose Estimation
pose_model = YOLO('yolo11s-pose.pt')

In [None]:
# Bildpfad auf eine Variable setzen
pose_image_path = '/content/SA_Workshop_Series/Data/Man_Walking.jpg'
# link = 'https://img.freepik.com/free-photo/group-people-performing-stretching-exercise_1170-116.jpg'

# Bild mit PIL-Bibliothek öffnen
pose_img = Image.open(pose_image_path)
pose_img.size

In [None]:
## Inferenz auf das Bild anwenden
pose_results = pose_model(pose_img, save=True, device = 'cpu')

plot_results(pose_results)

### Oriented Bounding Box mit YOLOv11

Die orientierte Objekterkennung geht einen Schritt weiter als die klassische Objekterkennung, indem sie einen zusätzlichen Winkel einführt, um Objekte im Bild genauer zu lokalisieren.

Die Ausgabe eines orientierten Objekterkenners ist eine Menge von gedrehten Begrenzungsrahmen, die die Objekte im Bild präzise umschließen, zusammen mit Klassenbezeichnungen und Vertrauenswerten für jeden Rahmen.

https://docs.ultralytics.com/tasks/obb/#models

In [None]:
# Lade das vortrainierte Modell zur OBB
obb_model = YOLO('yolo11s-obb.pt')

In [None]:
# Bildpfad auf eine Variable setzen
obb_image_path = '/content/SA_Workshop_Series/Data/Ship_Image.png'

# Bild mit PIL-Bibliothek öffnen
obb_img = Image.open(obb_image_path)
obb_img.size

In [None]:
## Inferenz auf das Bild anwenden
obb_results = obb_model(obb_img, save=True, device = 'cpu', conf=0.3, imgsz=(1359, 1112))

obb_result_pil = obb_results[0].plot(font_size=20, line_width=8, pil=True)      # font=8, line=3
obb_result_image = np.array(obb_result_pil)
cv2_imshow(obb_result_image)

### Objekterkennung für ein Video durchführen

In [None]:
## Inferenz auf ein Video anwenden

det_video_path =  '/content/SA_Workshop_Series/Data/Traffic_video.mp4'
det_results_video = det_model(det_video_path, save=True, device = 'cpu', conf=0.5)



### Pose Estimation für ein Video ausführen

In [None]:
pose_video_path =  '/content/SA_Workshop_Series/Data/Person_walking.mp4'
pose_results_video = det_model(pose_video_path, save=True, device = 0, conf=0.5)

### Objekterkennung Übung

#### Wenden wir nun das Objekterkennungsmodell auf ein Beispiel für ein parkendes Auto an

In [None]:
# Laden Sie ein vortrainiertes Modell
model = YOLO("yolov8n.pt")

# Vorhersage auf einem Bild
results = model('/content/SA_Workshop_Series/Data/Parking_Cars.jpg', classes=2)

# Zeichnen Sie die Ergebnisse auf
plot_results(results)


print(f"Detected {len(results[0])} cars.")



#### Ermitteln Sie die Bounding-Box-Koordinaten sowie die Breite und Höhe der Bounding-Boxen der erkannten Fahrzeuge im folgenden Bild.

In [None]:
for box in results[0].boxes:
    w = box.xywh[0][2].item() # Breite
    h = box.xywh[0][3].item() # Höhe
    x = box.xywh[0][0].item() - w/2 # x-Koordinate
    y = box.xywh[0][1].item() - h/2 # y-Koordinate
    print(f"Box at ({x}, {y}) with width {w} and height {h}")

#### Erstellen Sie ein Programm, das anhand der Koordinaten des Begrenzungsrahmens prüft, ob sich ein Auto auf dem Parkplatz unterhalb des Schildes rechts befindet.

In [None]:
from matplotlib.patches import Rectangle

# Lade ein vortrainiertes Modell
model = YOLO("yolov8n.pt")

# Vorhersage auf einem Bild
results = model('/content/SA_Workshop_Series/Data/Parking_Cars.jpg', classes=2)

def plot_box(x, y, w, h, img, title="", color='r'):
    # Matplotlib-Figur und -Achse definieren
    _, ax = plt.subplots()

    # Anzeige des Bildes
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Bild in RGB umwandeln
    ax.set_title(title, color=color)
    ax.imshow(img_rgb)

    # Rechteck zum Plot hinzufügen
    rect = Rectangle((x, y), w, h, linewidth=1, edgecolor=color, facecolor='none')
    ax.add_patch(rect)

    # Plot anzeigen
    plt.axis('off')  # Hide axes
    plt.show()

parking_spot = [1350, 600, 200, 175]

plot_box(*parking_spot, results[0].orig_img, title="Parking spot", color='b')

for box in results[0].boxes:
    w = box.xywh[0][2].item() # Breite
    h = box.xywh[0][3].item() # Höhe
    x = box.xywh[0][0].item() - w/2 # x-Koordinate
    y = box.xywh[0][1].item() - h/2 # y-Koordinate

    img = results[0].orig_img # Hole das Originalbild

    # Überprüfe, ob sich die beiden Kästchen schneiden
    if (x < parking_spot[0] + parking_spot[2] and x + w > parking_spot[0] and y < parking_spot[1] + parking_spot[3] and y + h > parking_spot[1]):
        plot_box(x, y, w, h, img, title="Car is inside the parking spot.", color='g')
    else:
        plot_box(x, y, w, h, img, title="Car is not inside the parking spot.", color='r')