# **Sneezy defeating Google Recaptcha**






## Task

Thema: Eine interessante und lehrreiche Datenanalyse auf einem von Ihnen wählbaren Datenset

Einschränkung: Keines der "klassischen" Datensets aus scikit-learn oder Keras.
Die Arbeit soll Ihre Kompetenzen im Bereich Maschinelles Lernen demonstrieren.
Die Arbeit soll die Bereiche "Domainverständnis", "Datenvorverarbeitung", "Analyse" und "Visualisierung" abdecken.
Sie können sich an anderen Arbeiten orientieren, müssen das Gelernte dann aber auf Ihren gewählten Analysegegenstand übertragen.
Verwendete Quellen müssen im Notebook angegeben werden.
Format: Ein vollständiges und in sich abgeschlossenes Jupyter Notebook

Das vollständig ausgeführte Jupyter Notebook ist zusätzlich auch als PDF-Datei einzureichen.
Falls die analysierten Daten zu umfangreich sind um sie mitabzugeben, reicht ein Link auf das Datenset.
Gruppengröße: 4 Personen (in Sonderfällen 3 Personen)

Bearbeitungszeitraum: **16.08 - 08.09.2023**

**23.08: Einreichung einer Projektskizze** (ca. eine DIN A4-Seite): untersuchte Daten, gewählte Fragestellung, geplantes Vorgehen, Aufgabenverteilung in der Gruppe

**30.08: Abgabe eines Zwischenstands** (lauffähiges Jupyter Notebook) und eines Zwischenberichts (ca. eine DIN A4-Seite): erreichter Stand, aufgetretene Herausforderungen, begründete Abweichungen von der Projektskizze

**08.09: Abgabe der finalen Version (vollständiges Jupyter Notebook + Erklärung)**
Erklärung: Unterschriebene Eigenständigkeitserklärung + Aufschlüsselung der Arbeitsaufteilung innerhalb der Gruppe (Hauptverantwortlichkeiten für Bestandteile + individueller Beitrag in Prozent der Gesamtleistung)

Arbeitsumfang: 40 - 50 Arbeitsstunden pro Person

Bewertungskriterien laut Masterhausarbeitsvorlage:

Gliederung der Arbeit / Aufbau und Darstellung der Problemstellung / Systematik / Struktur ("roter Faden")
Wissenschaftlichkeit / Inhaltliche Vollständigkeit und Richtigkeit / Themenrelevanz / Quellenarbeit / Eigenleistung
Klarheit der Darstellung & Stringenz der Argumentationskette / formale Korrektheit / Rechtschreibung / Schreibstil
Zielpublikum: Studierende Ihres Studiengangs

Fokus: Demonstration Ihrer Kompetenzen + Wissensvermittlung (das konkrete Analyseergebnis ist nachrangig)

## Projektskizze

### Google reCAPTCHA V2


#### Hintergrund und Kontext

[Google reCAPTCHA](https://developers.google.com/recaptcha/docs/display) ist ein Sicherheitswerkzeug, das entwickelt wurde, um zwischen menschlichen Benutzern und Bots zu unterscheiden und so Missbrauch und Cyberangriffe zu verhindern. Die Version, reCAPTCHA V2, stellt Benutzern Herausforderungen wie die Identifizierung von Objekten in Bildern. Das Umgehen dieser Sicherheitsmaßnahme mittels maschinellen Lernens und tiefen neuronalen Netzen ist sowohl technisch als auch wissenschaftlich interessant, da es die Leistungsfähigkeit dieser Modelle testet und gleichzeitig zur Verbesserung der Sicherheit von CAPTCHA-Systemen beitragen kann.

#### Fragestellungen und Ziele

Zu welcher Genauigkeit können derzeit Modelle mittels Verfahren des maschinellen Lernens optimiert werden, um in der Anwendung Google’s Recaptha V2 Bilder korrekt zu klassifizieren?

- Welche Veränderung der Modellgüte kann mit aktuellen Methoden der Vorverarbeitung und der Datenaugmentierung aus Forschung und Praxis erzielt werden?

- Was sind die neuesten Entwicklungen (State-of-the-Art) in der Bildverarbeitung mit maschinellem Lernen, insbesondere bei der Verwendung von tiefen neuronalen Netzen wie Inceptionv3?  

- Welche in der Forschung bestehenden Metriken zur Klassifikation eignen sich zur Lösung des oben beschriebenen Anwendungsfalls?

#### Geplantes Vorgehen und Aufgabenverteilung

- Explorative Datenanalyse (EDA): Untersuchung der Daten durch Visualisierungen und deskriptive Statistiken, um erste Einblicke zu gewinnen. (Hauptverantwortlich: Rares, Niklas)

- Datenvorbereitung: Erstellen eines geeigneten Datensatzes durch Resizing, Resampling und extrahieren von Labels aus der Ordnerstruktur (Paarprogrammierung)

- Modellierung: Auswahl und Anwendung geeigneter statistischer Modelle oder Algorithmen zur Beantwortung der Fragestellung. (Hauptverantwortlich: Leon)

- Ergebnisse und Interpretation: Analyse der Ergebnisse der Modelle, Interpretation der Befunde und Vergleich mit bestehenden Theorien. (Paarprogrammierung)

- Berichterstattung: Erstellung eines detaillierten Berichts, der die Ergebnisse zusammenfasst und Empfehlungen basierend auf den Befunden gibt. (Paarprogrammierung)

Das Projekt wird im Google Colab1 entwickelt.

#### Literatur und Quellen

Dataset: https://www.kaggle.com/datasets/cry2003/google-recaptcha-v2-images

Notebook – InceptionV3: https://www.kaggle.com/code/ahmedhossam666/google-recapthca

ResNet Paper: https://arxiv.org/abs/1512.03385

Google RecapthaV2: https://developers.google.com/recaptcha/docs/display

## Experimentparameter

Datenparameter (2 Ausprägungen)
- Methoden zur Qualitätsverbesserung von Bilddatensätzen
  - Data Augmentation (Ohne, Mit (0.05, 0.05, True))
    - Zoom (Begründen dass dadurch relevante inhalte fehlen können (Ampel))
    - Kontrast
      - 0.05 / 0.025 (Mountain)
    - Helligkeit
      - 0.05 / 0.025 (Mountain)
    - horizontale Spiegelung
      - horizontale Spiegelung

  - Datenbalancierung (Ohne, Mit)
    - Erzeugung eines balancierten Datensatzes mittels Datenaugmentierung

- Art der Bereitstellung
  - Stapelgröße (batch_size)
    - 64

Trainingsparameter (3 Ausprägungen)
- Modellhyperparameter
  - Optimierungsalgorithmus
    - adam
  - Verlustmetrik
    - kategorische Kreuzentropie (categorical_crossentropy)
  - Lernrate
    - 0.001

- Verwendete neuronale Netzarchitekturen
  - ResNet50V2
  - InceptionV3
  - LeNet 5 Architecture (Eigenentwicklung anhand der Literatur)

- Untersuchte Metriken (werden immer alle betrachtet)
  - Accuracy
  - f1-score
  - Precision
  - Recall

  Insgesamt ergeben sich ((2 * 2) -1) * 3 = 9 zu untersuchende Kombinationen

## Setup

In der Entwicklung dieser Arbeit wird die Programmiersprache Python in ihrer Version 3.10.14 verwendet.

Alle benötigten zusätzlichen Bibliotheken können den je nach Betriebssystem unterschiedlichen Textdateien im Ordner ``setup`` entnommen werden.
Die Installation der Bibliotheken kann z.B in einer virutellen Umgebung durch *conda* oder *venv* mittels dem Befehl ``pip install setup/windows/requirements.txt``, bzw. ``pip install setup/mac/requirements.txt`` durchgeführt werden.

## 0. Unterstützende Funktionen

Dieses Kapitel dient der definition von Hilfsfunktionen.

Dabei wird ein Objekt des Logging Modules genutzt, um zusätzliche Informationen auszugeben und unterschiedliche Detailgrade (info, debug) zu ermöglichen. 

In [54]:
""" This module defines the logging component."""
import logging


def create_logger(log_level: str, logger_name: str = "custom_logger"):
    """Create a logging based on logger.

    Args:
        log_level (str): Kind of logging
        logger_name (str, optional): Name of logger

    Returns:
        logger: returns logger
    """
    logger = logging.getLogger(logger_name)
    logger.setLevel(logging.DEBUG) 
   
    if logger.hasHandlers():
        logger.handlers.clear()


    console_handler = logging.StreamHandler()
    if log_level == "DEBUG":
        console_handler.setLevel(logging.DEBUG)
    elif log_level == "INFO":
        console_handler.setLevel(logging.INFO)
    elif log_level == "WARNING":
        console_handler.setLevel(logging.WARNING)
    elif log_level == "ERROR":
        console_handler.setLevel(logging.ERROR)
    else:
        raise ValueError("Invalid log level provided")

  
    formatter = logging.Formatter(
        "%(asctime)s - %(levelname)s - %(message)s",
        datefmt="%Y-%m-%d %H-%M-%S",
    )
    console_handler.setFormatter(formatter)

 
    logger.addHandler(console_handler)

    return logger

In [None]:
logger = create_logger(
    log_level="INFO",
    logger_name=__name__,
)

## 1. Laden der Daten

Google Drive in Google Colab-Notebook einbinden


In [None]:
# from google.colab import drive
# drive.mount('/content/drive')

Erstelle einen Ordner auf deinem lokalen Laufwerk und navigiere hinein


In [None]:
# import os
# file_path = '/content/drive/MyDrive/MADS2400'
# if os.path.isdir(file_path):
#   %cd /content/drive/MyDrive/MADS2400
# else:
#   %mkdir /content/drive/MyDrive/MADS2400
#   %cd /content/drive/MyDrive/MADS2400

Durch die Nutzung eines Tokens wird der Datensatz lokal, oder auf dem Google Drive kopiert.

Dabei ist es bewährte Praxis, Tokens und andere sensitive Informationen in einer environment datei (.env) zu speichern.

Folgend wird demnach eine *.env* Datei erwartet, in welcher der Token als Variable *git_fine_grained_token* gespeichert ist.

In [None]:
%%capture
!pip install python-dotenv

In [None]:
import os
from dotenv import load_dotenv
load_dotenv()

load_path = 'Google-Recaptcha-V2-Images'
# TODO Do not forget about the token!!!
if not os.path.isdir('/content/drive/MyDrive/MADS2400/Google-Recaptcha-V2-Images') or not os.path.isdir(load_path):
  git_fine_grained_token = os.environ["git_fine_grained_token"]
  username = 'RaresMihai11'
  repository = 'Google-Recaptcha-V2-Images'
  !git clone https://{git_fine_grained_token}@github.com/{username}/{repository}
else:
  logger.info("Datenrepository wurde bereits geladen")

## 2. Explorative Datenanalyse


### 2.1 Verzeichnisstruktur und Dateianzahl
Nach dem erfolgreichen Transfer der Daten auf das lokale Laufwerk ist der erste Schritt die Untersuchung der Verzeichnisstruktur und der Dateianzahl. Dies ermöglicht einen Überblick über die Organisation und die Verteilung der Daten innerhalb der verschiedenen Ordner.


In [None]:
import os
from PIL import Image

main_dir = './Google-Recaptcha-V2-Images/'
folders = ["Bicycle", "Bridge", "Bus","Car", "Chimney", "Crosswalk", 
           "Hydrant", "Motorcycle", "Mountain", "Other", "Palm", "Stair", "TLight"]

folder_image_data = {}

for folder in folders:

    folder_path = os.path.join(main_dir, folder)

    if os.path.isdir(folder_path):
        image_files = []

        for file_name in os.listdir(folder_path):
            if file_name.lower().endswith(('png', 'jpg', 'jpeg')):
                file_path = os.path.join(folder_path, file_name)

                with Image.open(file_path) as img:
                    img_format = img.format
                    image_files.append({
                        'image': img.copy(),
                        'format': img_format
                    })
                    
        folder_image_data[folder] = {
            "count": len(image_files),
            "images": image_files
        }

        logger.debug(f'{folder}: {len(image_files)} Bilder')

### 2.2 Klassenverteilung
Die Anzahl der Bilder in jeder Klasse wurde überprüft und im Balkendiagramm dargestellt. Es ist zu erkennen, dass der Datensatz nicht ausgeglichen ist. Das kann zu einem Bias im Modell führen und die Modellleistung beeinträchtigen.

In [None]:
import matplotlib.pyplot as plt

folders = folder_image_data.keys()
values = [folder['count'] for folder in folder_image_data.values()]

plt.figure(figsize=(10, 6))
plt.bar(folders, values, color='blue', edgecolor='black')
plt.xlabel('Klassen')
plt.ylabel('Anzahl der Bilder')
plt.title('Verteilung der Bilder pro Klasse')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

### 2.3 Dateiendungen prüfen und Konvertierung in JPG
Die Verteilung der Bildformate (z.B. PNG, JPG) wurde untersucht, um sicherzustellen, dass alle Formate berücksichtigt werden. Eine dritte Kategorie für alle anderen Dateiendungen wurde erstellt.

Die Bildformate JPG und PNG weisen zum Beispiel unterschiedliche Eigenschaften auf, insbesondere in Bezug auf die Kanäle (Channels), die sie verwenden. Daher wird auf ein Format konvertiert.

In [None]:
import matplotlib.pyplot as plt

def check_file_types():
  file_format_counts = {'PNG': 0, 'JPG': 0, 'JPEG': 0, 'other': 0}

  for folder, data in folder_image_data.items():
      for img in data['images']:
          img_format = img['format'] if img['format'] else 'other'

          if img_format in file_format_counts:
              file_format_counts[img_format] += 1
          else:
              file_format_counts['other'] += 1

  plt.figure(figsize=(10, 6))
  plt.bar(file_format_counts.keys(), file_format_counts.values(), color='blue', edgecolor='black')
  plt.xlabel('Image Format')
  plt.ylabel('Number of Images')
  plt.title('Distribution of Image Formats')
  plt.xticks(rotation=45)
  plt.show()

check_file_types()

In [None]:
import matplotlib.pyplot as plt

count = 0
for folder, data in folder_image_data.items():
    converted_images = []

    for img in data['images']:
        if img['format'] == 'PNG':
            count += 1
            img_rgb = img['image'].convert('RGB')
            converted_images.append({'image': img_rgb, 'format': 'JPEG'})
        else:
            converted_images.append(img)

    folder_image_data[folder]['images'] = converted_images

logger.info(f"Insgesamt {count} Bilder konvertiert")

In [None]:
check_file_types()

### 2.4 Bildgrößen und Auflösungen
Die Verteilung der Bildbreiten und -höhen wurde visualisiert, um ein besseres Verständnis der Größenverteilung innerhalb des Datensatzes zu erlangen. Diese Information ist entscheidend für die Entscheidung über die Bildskalierung und -normalisierung in späteren Schritten der Datenvorverarbeitung.

In [None]:
image_sizes = set()

for folder, data in folder_image_data.items():
    for img_data in data['images']:
        img = img_data['image']
        size = img.size
        image_sizes.add(size)


unique_sizes = list(image_sizes)

logger.info(f"Menge an unterschiedlichen Bildgrößen: {unique_sizes}")

### 2.5 Plotte ein Bild aus jedem Ordner
Ein visueller Eindruck des Datensatzes wurde durch das Anzeigen von Beispielbildern aus jedem Ordner gewonnen.

In [None]:
import matplotlib.pyplot as plt

fig, axes = plt.subplots(4, 4, figsize=(12, 12))
count = 0
axes = axes.flatten()

for folder, data in folder_image_data.items():
    if count >= 16:
        break

    images = data['images']
    if images:
        img_dict = images[0]
        img = img_dict['image']
        axes[count].imshow(img)
        axes[count].set_title(folder)
        axes[count].axis('off')
        count += 1

for i in range(count, 16):
    axes[i].axis('off')

plt.tight_layout()
plt.show()

### 2.6 Zusammenfassung und Schlussfolgerungen der EDA

**Erkenntnisse**

Verteilung der Bildanzahlen: Die meisten Bilder sind in der Kategorie „Car“ vorhanden, was möglicherweise darauf hinweist, dass diese Kategorie am häufigsten vorkommt oder für die reCAPTCHA-Herausforderungen am wichtigsten ist.

Kategorien mit wenig Bildern: Kategorien wie „Mountain“ haben nur sehr wenige Bilder, was zu einer Ungleichheit in der Datenmenge führen kann.

Mögliche Anomalien: Kategorien wie „Mountain“ könnten als mögliche Anomalien betrachtet werden, die weitere Aufmerksamkeit erfordern.

**Empfehlungen**

Datenbalance: Eine Datenbalancierung könnte notwendig sein, um sicherzustellen, dass das Modell gleichmäßig über alle Kategorien trainiert wird.

Weitere Datensammlung: Für Kategorien mit wenigen Bildern könnten zusätzliche Daten gesammelt werden, um die Modellleistung zu verbessern.

## 3. Erstellen eines Trainingsdatensatzes

Das Ziel dieses Abschnitts ist die Erzeugung eines Datensatzes, welcher für die maschinelle Verarbeitung geeignet ist.

### 3.1 Konfiguration der Experimentparameter

Zur besseren Lesbarkeit und Wartbarkeit wurden Datenvorbereitung-, Training- und Modellauswahl-Parameter generalisiert und an einer zentralen Stelle definiert.

In [None]:
from tensorboard.plugins.hparams import api as hp

HP_AUGMENT_DATA = hp.HParam('augment_data', hp.Discrete([True, False])) 
HP_DATA_BALANCE = hp.HParam('data_balance', hp.Discrete([True, False])) 

HP_DATA_ZOOM = hp.HParam('data_zoom', hp.RealInterval(-1.0, 1.0)) 
HP_DATA_CONTRAST = hp.HParam('data_contrast', hp.RealInterval(-1.0, 1.0)) 
HP_DATA_BRIGHTNESS_LOW = hp.HParam('data_brightness_low', hp.RealInterval(-1.0, 1.0)) 
HP_DATA_BRIGHTNESS_UP = hp.HParam('data_brightness_up', hp.RealInterval(-1.0, 1.0)) 
HP_DATA_FLIP = hp.HParam('data_flip', hp.Discrete([True, False])) 

HP_TRAINING_LOSS = hp.HParam('loss', hp.Discrete(['categorical_crossentropy']))
HP_TRAINING_OPTIMIZER = hp.HParam('optimizer', hp.Discrete(['adam', 'sgd']))
HP_TRAINING_EPOCHS = hp.HParam('epochs', hp.IntInterval(1, 10))

HP_MODEL_SELECTION = hp.HParam('model', hp.Discrete(['resnet50v2', 'inceptionv3', 'leNet5']))

Folgend sind 3 Code-Blöcke mit unterschiedlichen Parametereinstellungen definiert. 
Für die Auswertung der Forschungsfragen wurden diese Einstellungen der Parameter untersucht.

Beim Durchführen des Notebooks gilt es eine der Parametereinstellung als *hparams* zu speichern. 
Alle später definierten Modelle werden dann auf der jeweiligen Weisen trainiert:

	•	Keine Augmentation und keine Datenbalancierung
	•	Augmentation und keine Datenbalancierung
	•	Augmentation und Datenbalancierung

In [None]:
no_augment_unbalanced = {
    HP_AUGMENT_DATA: False,
    HP_DATA_BALANCE: False,

    HP_DATA_ZOOM: 0.05,
    HP_DATA_CONTRAST: 0.05,
    HP_DATA_BRIGHTNESS_LOW: -0.05,
    HP_DATA_BRIGHTNESS_UP: 0.05, 
    HP_DATA_FLIP: True,

    HP_TRAINING_LOSS: 'categorical_crossentropy',
    HP_TRAINING_OPTIMIZER: 'adam',
    HP_TRAINING_EPOCHS: 10,
}

In [None]:
augment_unbalanced = {
    HP_AUGMENT_DATA: True,
    HP_DATA_BALANCE: False,

    HP_DATA_ZOOM: 0.05,
    HP_DATA_CONTRAST: 0.05,
    HP_DATA_BRIGHTNESS_LOW: -0.05,
    HP_DATA_BRIGHTNESS_UP: 0.05, 
    HP_DATA_FLIP: True,

    HP_TRAINING_LOSS: 'categorical_crossentropy',
    HP_TRAINING_OPTIMIZER: 'adam',
    HP_TRAINING_EPOCHS: 10,
}

In [None]:
augment_balanced = {
    HP_AUGMENT_DATA: True,
    HP_DATA_BALANCE: True,
    HP_DATA_ZOOM: 0.05,
    HP_DATA_CONTRAST: 0.05,
    HP_DATA_BRIGHTNESS_LOW: -0.05,
    HP_DATA_BRIGHTNESS_UP: 0.05, 
    HP_DATA_FLIP: True,

    HP_TRAINING_LOSS: 'categorical_crossentropy',
    HP_TRAINING_OPTIMIZER: 'adam',
    HP_TRAINING_EPOCHS: 10,
}

In [None]:
hparams = no_augment_unbalanced #augment_unbalanced #augment_balanced

### 3.2 Daten augumentieren


Die Frage, wie stark man Daten durch Augmentierung erhöhen sollte, ist ein wichtiger Forschungsbereich im maschinellen Lernen. Die Praxis, Datenklassen auf ähnliche Größenordnungen zu bringen, basiert auf dem Bedürfnis, das Modell vor Überanpassung an eine bestimmte Klasse zu schützen und sicherzustellen, dass alle Klassen ausreichend repräsentiert sind. Es gibt jedoch verschiedene Studien und Richtlinien, die aufzeigen, dass eine signifikante Augmentierung sinnvoll sein kann:

Studien zur Verbesserung der Klassifikationsleistung durch Datenaugmentierung:

Wong et al. (2016) in ihrem Paper "Understanding Data Augmentation for Classification" zeigen, dass Augmentierung insbesondere bei kleinen Datensätzen die Generalisierungsfähigkeit eines Modells erheblich verbessern kann. Sie heben hervor, dass selbst drastische Erhöhungen der Datenmenge durch Augmentierung (um das 10- bis 100-fache) bei unterrepräsentierten Klassen zu einer verbesserten Leistung führen können.
Perez und Wang (2017) in "The Effectiveness of Data Augmentation in Image Classification using Deep Learning" analysieren den Effekt von Datenaugmentierung in verschiedenen Szenarien und finden heraus, dass eine drastische Erhöhung der Anzahl von Trainingsbeispielen durch Augmentierung zu einer signifikant besseren Leistung führen kann, insbesondere wenn die Augmentierungen realistische Varianten der Bilder erzeugen.
Balance von Klassen:

Buda, Maki, und Mazurowski (2018) in ihrem Paper "A Systematic Study of the Class Imbalance Problem in Convolutional Neural Networks" untersuchen die Auswirkungen von Klassenungleichgewichten und zeigen, dass ein Ausgleich der Klassenverteilung durch Datenaugmentierung oder andere Techniken entscheidend ist, um die Performance eines Modells zu verbessern. Sie betonen, dass eine zu große Diskrepanz in der Klassenverteilung zu einer schlechteren Modellleistung führt.
Praktische Leitlinien:

Die Praxis der "Over-Sampling"-Technik durch Augmentierung (bei der unterrepräsentierte Klassen stark augmentiert werden) ist eine weit verbreitete Methode, um Klassifikationsmodelle robuster zu machen. Es gibt keine festgelegte Grenze für das "Wie viel", aber es ist üblich, die kleineren Klassen auf eine ähnliche Größe wie die größeren zu bringen, um ein ausgewogenes Training zu ermöglichen.

#### 3.2.1 Augmentierung der Daten durch Zoom, Kontrast, Helligkeit und vertikale Spiegelung

##### 3.2.1.1 Definition und Ausführung der Augmentierungspipeline

augmentation_pipeline() erstellt eine Augmentierungspipeline basierend auf übergebenen Parametern wie Zoom, Kontrast, Helligkeit und Spiegelung. Die Funktion augment_class_images() nimmt Bilddaten eines bestimmten Ordners und führt Augmentierungen durch, um die Anzahl der Bilder auf eine gewünschte Zielmenge zu erhöhen. Augmentierte Bilder werden der Liste hinzugefügt, bis die gewünschte Bildanzahl erreicht ist.

In [None]:
import numpy as np
import tensorflow as tf

def augmentation_pipeline(zoom:float = hparams[HP_DATA_ZOOM], 
                          contrast:float = hparams[HP_DATA_CONTRAST], 
                          brightness:list = [hparams[HP_DATA_BRIGHTNESS_LOW],hparams[HP_DATA_BRIGHTNESS_UP]],
                          flip: bool = hparams[HP_DATA_FLIP]):

    if hparams[HP_DATA_FLIP]:
        logger.debug(f"Augmentierungs Parameter: Zoom - +/- {zoom} %, Kontrast - +/- {contrast} %, Helligkeit - -{brightness[0]}% bis +{brightness[0]}%, Spiegelung - {'Trifft zu' if flip == True else 'Trifft nicht zu'}")
        data_augmentation = tf.keras.Sequential([
            tf.keras.layers.RandomZoom(height_factor=zoom, seed=42),
            tf.keras.layers.RandomContrast(factor=contrast, seed=42),
            tf.keras.layers.RandomBrightness(factor=brightness, seed=42),
            tf.keras.layers.RandomFlip(mode='horizontal', seed=42), 
        ])
    else:
        logger.debug(f"Augmentierungs Parameter: Zoom - +/- {zoom} %, Kontrast - +/- {contrast} %, Helligkeit - -{brightness[0]}% bis +{brightness[0]}%, Spiegelung - {'Trifft zu' if flip == True else 'Trifft nicht zu'}")
        data_augmentation = tf.keras.Sequential([
            tf.keras.layers.RandomZoom(height_factor=zoom, seed=42),
            tf.keras.layers.RandomContrast(factor=contrast, seed=42),
            tf.keras.layers.RandomBrightness(factor=brightness, seed=42),
        ])
    return data_augmentation

def augment_class_images(folder:str, folder_data, target_count):
    
    current_count = folder_data['count']
    images = folder_data['images']
    if folder == "Mountain":
        data_augmentation = augmentation_pipeline(contrast=0.025, brightness=[-0.025,0.025])
    else:
        data_augmentation = augmentation_pipeline()

    while current_count < target_count:
        for img_dict in images:
            img = img_dict['image']
            img_array = np.array(img.convert('RGB'))

            img_augmented = data_augmentation(tf.expand_dims(img_array, 0))
            img_augmented = tf.squeeze(img_augmented).numpy().astype("uint8")

            img_augmented_pil = Image.fromarray(img_augmented)

            images.append({'image': img_augmented_pil})
            current_count += 1

            if current_count >= target_count:
                break

    folder_data['count'] = current_count
    folder_data['images'] = images

In [None]:
if hparams[HP_AUGMENT_DATA] == True:

    for folder, data in folder_image_data.items():
        logger.info(f"Augmentiere Bilder der Klasse: {folder}")
        target_count = 2000
        if data['count'] < target_count:
            augment_class_images(folder, data, target_count)
        elif hparams[HP_DATA_BALANCE] == True and data['count'] > target_count:
            logger.info(f"Reduziere Bilder der Klasse: {folder} auf {target_count}.")
            data['images'] = data['images'][:target_count]
            data['count'] = target_count  
        logger.info(f"Klasse {folder} enthält nun {data['count']} Bilder.")
    for folder, data in folder_image_data.items():
        logger.info(f"Klasse {folder} enthält nun {data['count']} Bilder.")
else:
    logger.debug(f"HP_AUGMENT_DATA = {hparams[HP_AUGMENT_DATA]}")
    logger.info(f"Die Daten wurden NICHT augmentiert.")

##### 3.2.1.2 Demonstration der Augmentierung

In [None]:
import numpy as np
import matplotlib.pyplot as plt

fig, axes = plt.subplots(4, 4, figsize=(12, 12))
count = 0
axes = axes.flatten()

data_augmentation = augmentation_pipeline()

for folder, data in folder_image_data.items():
    if count >= 16:
        break
    images = data['images']

    if images:
        img_dict = images[0]
        img = img_dict['image']
        img_array = np.array(img.convert('RGB'))

        axes[count].imshow(img_array)
        axes[count].set_title(f"Original: {folder}")
        axes[count].axis('off')
        count += 1

        img_augmented = data_augmentation(tf.expand_dims(img_array, 0))
        img_augmented = tf.squeeze(img_augmented).numpy().astype("uint8")

        axes[count].imshow(img_augmented)
        axes[count].set_title(f"Augmented: {folder}")
        axes[count].axis('off')
        count += 1

for i in range(count, 16):
    axes[i].axis('off')

plt.tight_layout()
plt.show()

Besondere Untersuchung der Klasse *Mountain* um die Auswirkungen der Augmentierung visuell zu beurteilen

In [None]:
import random
import numpy as np
import matplotlib.pyplot as plt

mountain_images = folder_image_data['Mountain']['images']
random.shuffle(mountain_images)
selected_images = mountain_images[:81] 

if hparams[HP_AUGMENT_DATA]:
    fig, axes = plt.subplots(9, 9, figsize=(20, 20)) 
else:
    fig, axes = plt.subplots(5, 5, figsize=(10, 10)) 
axes = axes.flatten()

for i, img_dict in enumerate(selected_images):
    img = img_dict['image']
    img_array = np.array(img.convert('RGB'))
    axes[i].imshow(img_array)
    axes[i].axis('off')

for i in range(len(selected_images), len(axes)):
    axes[i].axis('off')

plt.tight_layout()
plt.show()

#### 3.2.2 Datensatz in einem temporären Ordner speichern

Keras kann mit Dictonaries nicht arbeiten, aus diesem Grund werden die Daten in einem temporären Ordner gespeichert.

In [None]:
import os, sys
import traceback
import tempfile
from PIL import Image
import matplotlib.pyplot as plt

temp_dir = tempfile.mkdtemp()
try:
    for folder, data in folder_image_data.items():
        folder_path = os.path.join(temp_dir, folder)
        os.makedirs(folder_path, exist_ok=True)

        for i, img_dict in enumerate(data['images']):
            img = img_dict['image']
            img_rgb = img.convert('RGB')

            img_path = os.path.join(folder_path, f'image_{i}.jpg')
            img_rgb.save(img_path, format='JPEG')

    for root, dirs, files in os.walk(temp_dir):
        level = root.replace(temp_dir, '').count(os.sep)
        indent = ' ' * 4 * level

        subindent = ' ' * 4 * (level + 1)
        for f in files:
            img_path = os.path.join(root, f)
            with Image.open(img_path) as img:
                width, height = img.size

    fig, axes = plt.subplots(4, 4, figsize=(12, 12))

    count = 0
    axes = axes.flatten()
    for folder in os.listdir(temp_dir):
        if count >= 16:
            break
        folder_path = os.path.join(temp_dir, folder)
        if os.path.isdir(folder_path):
            img_files = os.listdir(folder_path)
            if img_files:
                img_path = os.path.join(folder_path, img_files[0])
                img = Image.open(img_path)
                axes[count].imshow(img)
                axes[count].set_title(folder)
                axes[count].axis('off')
                count += 1

    for i in range(count, 16):
        axes[i].axis('off')

    plt.tight_layout()
    plt.show()

except Exception as e:
  logger.error("Fehler in der Erstellung des temporären Ordners")
  traceback.print_exception(*sys.exc_info())

### 3.3 Datensatz erzeugen mithilfe Keras Bibliotheken

Anhand der zur Verfügung stehenden Keras function ```image_dataset_from_directory``` ist es möglich, einfach aus dem bestehenden vorverarbeiteten Bilderverzeichnis zwei in Zahlen kodierte Datensätze zu erzeugen.

Mittels dessen Funktionsparameter kann unmittelbar eine Größenanpassung auf 120x120 Pixel und eine Bündelung in Stapel (Batches) je 64 Bildtensoren durchgeführt werden.

Die Erkennung des Klasse eines Bildes erfolgt aus der Verortung in ihrem zugehörigen Klassenordner.

Eine Klassenbezeichnung im Datensatz wird kategorisch, also als 13-dimensionaler Tensor mit binärer Ausprägung an entsprechender Stelle definiert.

Die Sortierung der Klassen im Tensor wird alphanumerisch vorgenommen.

|                 |               |
|-----------------|---------------|
| 1. Bicycle         | 8. Motorcycle    |
| 2. Bridge          | 9. Mountain      |
| 3. Bus             | 10. Other         |
| 4. Car             | 11. Palm          |
| 5. Chimney         | 12. Stair         |
| 6. Crosswalk       | 13. TLight        |
| 7. Hydrant         |               |

In [None]:
import tensorflow as tf

try:
    batch_size = 64

    train_dataset = tf.keras.preprocessing.image_dataset_from_directory(
        temp_dir,
        labels="inferred",
        label_mode="categorical",
        class_names=None,
        color_mode="rgb",
        batch_size=batch_size,
        image_size=(120, 120),
        shuffle=True,
        seed=42,
        validation_split=0.2,
        subset='training',
        interpolation="bilinear",
        follow_links=False,
        crop_to_aspect_ratio=False,
        pad_to_aspect_ratio=False,
        data_format='channels_last',
        verbose=True
    )

    validation_dataset = tf.keras.preprocessing.image_dataset_from_directory(
        temp_dir,
        labels="inferred",
        label_mode="categorical",
        class_names=None,
        color_mode="rgb",
        batch_size=batch_size,
        image_size=(120, 120),
        shuffle=True,
        seed=42,
        validation_split=0.2,
        subset='validation',
        interpolation="bilinear",
        follow_links=False,
        crop_to_aspect_ratio=False,
        pad_to_aspect_ratio=False,
        data_format='channels_last',
        verbose=True
    )

    logger.info(f"Trainingsdatensatz enthält {len(train_dataset)} Stapel je {batch_size} Bilder")
    logger.info(f"Validierungsdatensatz enthält {len(validation_dataset)} Stapel je {batch_size} Bilder")

    for element in train_dataset:
        logger.debug(f"shape X_train: {element[0].shape}")
        logger.debug(f"shape Y_train: {element[1].shape}")
        break

finally:
    logger.info("Erfolgreich Trainings- und Validierungsdatensatz erstellt")

Folgend werden die erstellten Datensätze visuell überprüft.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def show_class_images(dataset):
  category_images = {}
  class_names = dataset.class_names
  for images, labels in dataset:
          for img, label in zip(images, labels):
              category = class_names[np.argmax(label)]
              if category not in category_images:
                  category_images[category] = img.numpy()
              if len(category_images) == len(class_names):
                  break
          if len(category_images) == len(class_names):
              break

  num_categories = len(category_images)
  fig, axes = plt.subplots(1, num_categories, figsize=(15, 5))
  for ax, (category, img) in zip(axes, category_images.items()):
          ax.imshow(img.astype("uint8"))
          ax.set_title(category)
          ax.axis("off")

  plt.tight_layout()
  plt.show()

show_class_images(validation_dataset)

In [None]:
show_class_images(train_dataset)

## 4. Entwicklung und Optimierung von neuronalen Netzarchitekturen

Zur Beantwortung der Forschungsfragen werden zum Einen moderne, vortrainierte Modelle aus dem [Keras Applications-Modul](https://keras.io/api/applications/) untersucht.
Diese Modelle wurden auf großen Datensätzen wie ImageNet vortrainiert, was den Vorteil bietet, dass sie für eine Vielzahl von Anwendungen direkt genutzt oder als Basis für das sogenannte Transfer Learning verwendet werden können.
Die in dieser Arbeit gestellte Aufgabe zur Klassifizierung von Google Recaptcha Bildern kann dadurch mit minimalem zusätzlichen Training bewältigt werden. 
Aus der großen Auswahl an vortrainierten Modellen wurden ResNet50V2 und InceptionV3 ausgewählt, da diese unter verhältnismäßig geringer Modellgröße eine gute Leistung beim Training mit dem ImageNet Datensatz aufweisen.

Zum Anderen wird die historische Architektur LeNet-5 betrachtet, welche wegweisend für die spätere Entwicklung von Convolutional Neural Networks (CNNs) war. [^1]
Ein Vergleich zwischen LeNet-5 und modernen Architekturen wie ResNet oder Inception zeigt die enorme Entwicklung der Komplexität und Leistung von neuronalen Netzen in den letzten Jahrzehnten.

[^1]: [LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.](https://ieeexplore.ieee.org/document/726791)

Nach der Erstellung der neuronalen Netze beschreibt dieses Notebook die durchgeführten Optimierungsprozesse.
Zur Überwachung des Modelltrainings werden verschiedene Callback-Funktionen definiert, um Daten zur Modelleistung sowie das Modell selbst zu speichern.
Dazu bietet sich bereits durch die Nutzung der Tensorflow und Keras Bibliotheken die Integration mit Tensorboard an.

Die durch Tensorboard exportierten Daten im Ordner *logs* können so später mittels eines interaktiven Dashboard eingesehen werden. 
Die Metadaten zum Training werden enstprechend der Experimentparameter Art des Datensatzes, Modell und Zeitpunkt sortiert. (i. e. *logs/augment-unbalanced/leNet5/captcha-05.09.2024 23-14-05*)
Aus der Notebook Python-Umgebung heraus kann mittels ```tensorboard --logdir ./logs``` ein [lokaler Webserver](http://localhost:6006) gestartet werden, welcher das Dashboard anzeigt.

Final kann in [Kapitel 4.4](###44-vorhersage-anhand-optimiertem-modell) nach Angabe des Speicherpfads, eins der optimierten Modelle geladen werden, um die Klassen einer Menge von Bildern vorherzusagen.

``Notiz:`` Die gewählte Menge von Bildern soll dabei lediglich dazu dienen die Funktionsweise eines DeepLearning-Modells darzustellen und entspricht keinem zuvor vom Training exkludiertem Testdatensatz.

### 4.1 Überprüfung der GPU Unterstützung

Diese Zelle überprüft die Anbindung der Softwareumgebung an eine GPU.

In [None]:
import sys
import tensorflow as tf
from tensorflow import keras as keras
import platform

print(f"Python Platform: {platform.platform()}")
print(f"Python {sys.version}")
print()
print(f"Tensor Flow Version: {tf.__version__}")
print(f"Keras Version: {keras.__version__}")
print()
gpu = len(tf.config.list_physical_devices('GPU'))>0
print("GPU is", "available" if gpu else "NOT AVAILABLE")

### 4.2 Erstellung verschiedener neuronaler Netzarchitekturen

#### 4.2.1 ResNet50V2

Zur Anpassung des ResNet50V2 Modells auf die betrachtete Aufgabenstellung, werden darauf aufbauend Schichten dem Modell hinzugefügt.

In [None]:
import tensorflow.keras as keras
from keras.models import Sequential
from keras.layers import Dense, Flatten, Dropout

base = keras.applications.ResNet50V2(
    include_top=False, 
    weights='imagenet',
    input_shape=(120, 120, 3),
    name='resnet50v2')

resnet50v2 = Sequential()
resnet50v2.add(base)
resnet50v2.add(Dropout(0.2))
resnet50v2.add(Flatten())
resnet50v2.add(Dense(13, activation='softmax'))

resnet50v2.summary()

#### 4.2.2 InceptionV3

Zur Anpassung des InceptionV3 Modells auf die betrachtete Aufgabenstellung, werden darauf aufbauend Schichten dem Modell hinzugefügt.

In [None]:
import tensorflow.keras as keras
from keras.models import Sequential
from keras.layers import Dense, Flatten, Dropout


base = keras.applications.InceptionV3(
    include_top=False,
    weights="imagenet",
    input_shape=(120, 120, 3),
    name="inception_v3",
)

inceptionv3 = Sequential()
inceptionv3.add(base)
inceptionv3.add(Dropout(0.2))
inceptionv3.add(Flatten())
inceptionv3.add(Dense(13, activation='softmax'))

inceptionv3.summary()

#### 4.2.3 LeNet5

In [None]:
from tensorflow.keras.layers import Conv2D, Dense, Flatten, AveragePooling2D 
leNet5 = Sequential()
leNet5.add(Conv2D(filters=6, strides=1, kernel_size=(5, 5), activation='relu', input_shape=(120, 120, 3)))
leNet5.add(AveragePooling2D(strides=2, pool_size=(2, 2)))
leNet5.add(Conv2D(filters=16, strides=1, kernel_size=(5, 5), activation='relu',))
leNet5.add(AveragePooling2D(strides=2, pool_size=(2, 2)))
leNet5.add(Flatten())
leNet5.add(Dense(13, activation='softmax'))
leNet5.summary()

### 4.3 Trainingsprozess

#### 4.3.1 Überwachung der Trainingsprozesse

In [None]:
import time
if hparams[HP_AUGMENT_DATA]:
    dataset_type = 'augment'
else:
    dataset_type = 'no_augment'

if hparams[HP_DATA_BALANCE]:
    dataset_type = dataset_type + '-balanced'
else:
    dataset_type = dataset_type + '-unbalanced'

In [None]:
import tensorflow.keras as keras
from keras.callbacks import TensorBoard, ModelCheckpoint, ProgbarLogger, CSVLogger

def create_callbacks(log_dir: str, model_dir: str) -> list:
    tensorboard_callback = TensorBoard(
        log_dir=log_dir,
        histogram_freq=1,
        update_freq='epoch',
        write_graph=True)

    checkpoint_callback = ModelCheckpoint(
        filepath=model_dir,
        save_weights_only=False,
        monitor='val_accuracy',
        mode='max',
        save_best_only=True,
        verbose =1)

    progressbar_callback = ProgbarLogger()

    csv_callback = CSVLogger(log_dir + 'logs.csv')

    callbacks= [tensorboard_callback,
                checkpoint_callback,
                progressbar_callback,
                csv_callback]

    return callbacks

#### 4.3.2 Optimierung von ResNet50V2

In [None]:
hparams[HP_MODEL_SELECTION] = 'resnet50v2'
logger.info(f"Ausgewähltes Modell: {hparams[HP_MODEL_SELECTION]}")

log_dir = f'./logs/{dataset_type}/{hparams[HP_MODEL_SELECTION]}/captcha-{time.strftime("%d.%m.%Y %H-%M-%S", time.localtime())}/'
model_dir = f'{log_dir}/models/' + 'model-epoch.{epoch:02d}-val_loss.{val_loss:.2f}-val_acc.{val_accuracy:.2f}.keras'
logger.info(f"Speichere LOGS in: '{log_dir}'")
logger.info(f"Speichere optimierte Modelle in: '{model_dir}'")

with tf.summary.create_file_writer(log_dir).as_default():
    hp.hparams(hparams)

callbacks = create_callbacks(log_dir, model_dir)

In [None]:
from tensorflow.keras import metrics

resnet50v2.compile(optimizer=hparams[HP_TRAINING_OPTIMIZER],
              loss=hparams[HP_TRAINING_LOSS],
              metrics=[
                  metrics.CategoricalAccuracy(name = 'accuracy'),
                  metrics.Precision(name = 'precision'),
                  metrics.Recall(name = 'recall'),
                  metrics.AUC(name = 'auc')
              ])

In [None]:
resnet50v2.fit(train_dataset, epochs=hparams[HP_TRAINING_EPOCHS], validation_data=validation_dataset, callbacks=callbacks)

#### 4.3.3 Optimierung von InceptionV3

In [None]:
hparams[HP_MODEL_SELECTION] = 'inceptionv3'
logger.info(f"Ausgewähltes Modell: {hparams[HP_MODEL_SELECTION]}")

log_dir = f'./logs/{dataset_type}/{hparams[HP_MODEL_SELECTION]}/captcha-{time.strftime("%d.%m.%Y %H-%M-%S", time.localtime())}/'
model_dir = f'{log_dir}/models/' + 'model-epoch.{epoch:02d}-val_loss.{val_loss:.2f}-val_acc.{val_accuracy:.2f}.keras'
logger.info(f"Speichere LOGS in: '{log_dir}'")
logger.info(f"Speichere optimierte Modelle in: '{model_dir}'")

with tf.summary.create_file_writer(log_dir).as_default():
    hp.hparams(hparams)

callbacks = create_callbacks(log_dir, model_dir)

In [None]:
from tensorflow.keras import metrics

inceptionv3.compile(optimizer=hparams[HP_TRAINING_OPTIMIZER],
              loss=hparams[HP_TRAINING_LOSS],
              metrics=[
                  metrics.CategoricalAccuracy(name = 'accuracy'),
                  metrics.Precision(name = 'precision'),
                  metrics.Recall(name = 'recall'),
                  metrics.AUC(name = 'auc')
              ])

In [None]:
inceptionv3.fit(train_dataset, epochs=hparams[HP_TRAINING_EPOCHS], validation_data=validation_dataset, callbacks=callbacks)

#### 4.3.4 Optimierung von LeNet5

In [None]:
hparams[HP_MODEL_SELECTION] = 'leNet5'
logger.info(f"Ausgewähltes Modell: {hparams[HP_MODEL_SELECTION]}")

log_dir = f'./logs/{dataset_type}/{hparams[HP_MODEL_SELECTION]}/captcha-{time.strftime("%d.%m.%Y %H-%M-%S", time.localtime())}/'
model_dir = f'{log_dir}/models/' + 'model-epoch.{epoch:02d}-val_loss.{val_loss:.2f}-val_acc.{val_accuracy:.2f}.keras'
logger.info(f"Speichere LOGS in: '{log_dir}'")
logger.info(f"Speichere optimierte Modelle in: '{model_dir}'")

with tf.summary.create_file_writer(log_dir).as_default():
    hp.hparams(hparams)

callbacks = create_callbacks(log_dir, model_dir)

In [None]:
from tensorflow.keras import metrics

leNet5.compile(optimizer=hparams[HP_TRAINING_OPTIMIZER],
              loss=hparams[HP_TRAINING_LOSS],
              metrics=[
                  metrics.CategoricalAccuracy(name = 'accuracy'),
                  metrics.Precision(name = 'precision'),
                  metrics.Recall(name = 'recall'),
                  metrics.AUC(name = 'auc')
              ])

In [None]:
leNet5.fit(train_dataset, epochs=hparams[HP_TRAINING_EPOCHS], validation_data=validation_dataset, callbacks=callbacks)

### 4.4 Vorhersage anhand optimiertem Modell

In [None]:
import numpy as np
from tensorflow.keras.preprocessing import image
import matplotlib.pyplot as plt
from tensorflow import keras


loaded_model = keras.models.load_model("logs/augment/inceptionv3/captcha-04.09.2024 22:31:53/models/model-08-0.46-0.85.keras")


folders = ["Bicycle", "Bridge", "Bus", "Car", "Chimney", "Crosswalk", 
           "Hydrant", "Motorcycle", "Mountain", "Other", "Palm", "Stair", "TLight"]


image_paths = [
    'Google-Recaptcha-V2-Images/Hydrant/0a05f251-260f-4ada-9005-5326e50e1848.jpg',  
    'Google-Recaptcha-V2-Images/Bus/0ae6ac38-005c-4519-9e4c-8d72cc7f4d45.jpg',      
    'Google-Recaptcha-V2-Images/Bicycle/0b433101-7a68-4b29-b875-ac45c9680489.jpg',  
    'Google-Recaptcha-V2-Images/Car/0f8723fa-5ec7-409d-aac9-5e845cdba592.jpg',       
    'Google-Recaptcha-V2-Images/Bridge/0a91630a-db06-4fb4-bba1-17ae331db395.jpg',   
    'Google-Recaptcha-V2-Images/Chimney/Chimney$95df5fdc7a8d1f84ba73fbc13820b215.png', 
    'Google-Recaptcha-V2-Images/Crosswalk/7c1cff3c-ed14-4434-a8bb-83f3c80150b8.jpg',
    'Google-Recaptcha-V2-Images/TLight/00b93f32-ef8b-4bf1-b80a-0c015e8d49cd.jpg',   
    'Google-Recaptcha-V2-Images/Palm/1cc7ea4e-3204-4374-8335-c9f9d2f22dd3.jpg',
    'Google-Recaptcha-V2-Images/Stair/Other$7a093d9078b7770b79b371ecbaf1e238.png',
    'Google-Recaptcha-V2-Images/Motorcycle/Motorcycle$2e17b45892f5061a2dca5d109f52a304.png',
    'Google-Recaptcha-V2-Images/Mountain/Mountain$a971ebef63e9af4221cad93dc9260199.png',
    'Google-Recaptcha-V2-Images/Other/Other$0a3119044a5e6776dba11c9b06338c00.png',
    'Google-Recaptcha-V2-Images/Mountain/Mountain$399053106902e615176bb63ce1f8b9b3.png',
    'Google-Recaptcha-V2-Images/Car/3f3210b9-8116-4025-9619-1b97a1c2b008.jpg',
    'Google-Recaptcha-V2-Images/Bridge/4b7b4b28-42e7-4219-9050-0c3233ab6111.jpg'      
]


real_labels = ['Hydrant', 'Bus', 'Bicycle', 'Car', 'Bridge', 'Chimney', 'Crosswalk', 'TLight', 'Palm', 'Stair', 'Motorcycle', 'Mountain','Other','Mountain','Car', 'Bridge' ]


fig, axs = plt.subplots(4, 4, figsize=(10, 10))
axs = axs.ravel()

for i, img_path in enumerate(image_paths):
    img = image.load_img(img_path, target_size=(120, 120))
    img_array = image.img_to_array(img)
    img_array = np.expand_dims(img_array, axis=0)
    
    prediction = loaded_model.predict(img_array)
    predicted_label_index = np.argmax(prediction, axis=1)[0]
    predicted_label = folders[predicted_label_index]
    
    confidence = prediction[0][predicted_label_index] * 100
    
    axs[i].imshow(image.load_img(img_path))
    axs[i].axis('off')  
    axs[i].set_title(f'Real: {real_labels[i]}\nPredicted: {predicted_label}\nAccuracy: {confidence:.2f}%')


plt.tight_layout()
plt.show()

## 5. Evaluation und Bewertung der Optimierungsprozesse

### 5.1 RQ 1: Welche Veränderung der Modellgüte kann mit aktuellen Methoden der Vorverarbeitung und der Datenaugmentierung aus Forschung und Praxis erzielt werden?

#### Mit Datenvorverarbeitung

#### Ohne Datenvorverarbeitung

#### Alternativ Nur Zoom, Nur Kontrast, Nur Helligkeit, Nur Spiegelung

### 5.2 RQ 2: Was sind die neuesten Entwicklungen (State-of-the-Art) in der Bildverarbeitung mit maschinellem Lernen, insbesondere bei der Verwendung von tiefen neuronalen Netzen wie Inceptionv3?

#### 5.2.1 ResNet50V2

#### 5.2.2 InceptionV3

#### 5.2.3 LeNet5

### RQ 3: Welche in der Forschung bestehenden Metriken zur Klassifikation eignen sich zur Lösung des oben beschriebenen Anwendungsfalls?

# Aufteilung der Gruppenleistung

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

file_path = 'res/aufteilung.csv'
df = pd.read_csv(file_path, delimiter =';')

df