In [None]:
try:
    import google.colab
    in_colab = True
except ImportError:
    in_colab = False

if in_colab:
    # Nur ausführen, wenn das Notebook in Google Colab läuft
    !git clone https://github.com/Rinovative/alaska2-steganalysis.git
    import os
    os.chdir('alaska2-steganalysis')
    !pip install -r requirements.txt

In [None]:
import os
import pandas as pd
import matplotlib.pyplot as plt
import ipywidgets as widgets
from src import eda, util

## Datensatzinformation 
##### ***Work in Progress: Für die finale Version wird der Ersatzdatensatz noch auf dem Cluster mit erweitertem Suchraum optimiert. Aktuell basiert der veröffentlichte Datensatz auf einer ersten CLIP-Embedding-Auswahl ähnlich zu ALASKA2, wobei der verwendete Suchraum noch relativ begrenzt ist. In der aktuellen Version sind viele der ausgewählten Bilder Pflanzenbilder, was auf die begrenzte Auswahl im Suchraum zurückzuführen ist.***

Dieses Projekt wurde primär auf dem **ALASKA2-Datensatz** entwickelt. Da ALASKA2 aus Lizenzgründen nicht öffentlich weitergegeben werden darf, kann er über die offizielle [Kaggle-Seite](https://www.kaggle.com/competitions/alaska2-image-steganalysis) selbstständig bezogen und im Verzeichnis `data/raw/alaska2-image-steganalysis/` entpackt werden.

Für Demonstrationszwecke wird ein **synthetischer Ersatzdatensatz** auf Basis von **PD12M** erstellt. Dieser ist öffentlich unter [Rinovative/pd12m_dct_based_synthetic_stegano](https://huggingface.co/datasets/Rinovative/pd12m_dct_based_synthetic_stegano) verfügbar und wird automatisch heruntergeladen.

Falls ein anderer Ausschnitt von PD12M gewünscht ist, kann die Funktion `build_pd12m_like_alaska2` verwendet werden. Dabei werden mithilfe von CLIP-Embeddings die visuell ähnlichsten Bilder zu ALASKA2 automatisch ausgewählt und im passenden Format organisiert.

Basierend auf diesen ausgewählten Bildern werden anschliessend drei **synthetische Stego-Varianten** erzeugt: `JMiPOD`, `JUNIWARD` und `UERD`. Diese Varianten entstehen durch gezielte, leichte **Modifikationen im DCT-Frequenzraum** (Y-Kanal, 8×8-Blöcke) und simulieren die statistischen Spuren echter Steganographiealgorithmen.

> **Hinweis:**  
> Die erzeugten Varianten enthalten keine eingebetteten Nachrichten, sondern imitieren lediglich statistisch ähnliche Spuren wie die echten Steganographie-Algorithmen.   
> Sie dienen ausschliesslich der Reproduzierbarkeit und der strukturellen Vergleichbarkeit zum echten Datensatz.

Eine ausführliche Beschreibung der Vorgehensweise findet sich im **Anhang A**.

In [None]:
# Mit force_download=True wird die Datei immer heruntergeladen, auch wenn sie bereits existiert.
# Achtung: Der Ordner 'data/raw/PD12M/' wird geleert, bevor die neuen Daten heruntergeladen werden!
print(util.download_synthetic_PD12M(force_download=False))

In [None]:
# Neue samplen aus dem PD12M Datensatz
print(util.build_pd12m_like_alaska2(cover_count=500, scan_limit=5_000))
# DCT-Stego-Varianten anlegen 
print(util.generate_stego_variants())

<table style="width:100%; background-color: white; padding: 10px; border-radius: 6px; box-shadow: 0 0 5px rgba(0,0,0,0.2);">
  <tr>
    <td>
      <h1 style="margin-bottom: 0; color: black; font-size: clamp(1.5rem, 2.5vw, 2.5rem);">
        Steganalyse mit Deep Learning auf dem ALASKA2 Datensatz
      </h1>
    </td>
    <td align="right">
      <img src="images/OST_Logo_DE_RGB@2000ppi.png" alt="OST Logo" width="180">
    </td>
  </tr>
</table>

**Autor:** Rino Albertin  
**Datum:** 27. April 2025

---
## Inhaltsverzeichnis

1. Einleitung  
2. Zielsetzung und Vorgehensweise  
3. Datenaufbereitung und EDA  
4. Modellarchitektur und Training  
5. Evaluation und Ergebnisse  
6. Fazit und Ausblick  
7. Referenzen und Eigenständigkeitserklärung

**Anhang**
<ol type="A">
  <li>Erzeugung des synthetischen Stego-Datensatzes</li>
  <li>JPEG-Kompression und DCT</li>
  <li>Steganographie-Algorithmen</li>
</ol>

---
## 1. Einleitung

Steganalyse beschäftigt sich mit dem Erkennen von in digitalen Medien versteckten Informationen. Im Kontext von Bildern bedeutet dies, Merkmale zu finden, die auf eine versteckte Nachricht hinweisen, ohne dass das Originalbild offensichtlich verändert erscheint. Mit dem wachsenden Einsatz von Deep Learning ergeben sich neue, leistungsfähige Methoden zur Identifikation solcher versteckten Strukturen.

Der [ALASKA2-Datensatz](https://www.kaggle.com/competitions/alaska2-image-steganalysis) ist ein Benchmark-Datensatz für moderne Bildsteganalysen und besteht aus 305.000 JPEG-Bildern, die zum Teil mit verschiedenen Steganographie-Verfahren manipuliert wurden. Ziel dieser Arbeit ist es, aktuelle Deep-Learning-Modelle zur Steganalyse praktisch anzuwenden, zu evaluieren und deren Leistungsfähigkeit aufzuzeigen.

---
## 2. Zielsetzung und Vorgehensweise

Ziel dieser Arbeit ist es, ein Deep-Learning-Modell zu entwickeln, das steganographisch veränderte Bilder im ALASKA2-Datensatz zuverlässig erkennt. Der Schwerpunkt liegt auf überwachten Lernverfahren (supervised learning), wobei geeignete neuronale Netzwerkarchitekturen verwendet werden.

Das Vorgehen gliedert sich in folgende Hauptschritte:
- **Datenaufbereitung und EDA:** Download, Vorbereitung und Analyse des ALASKA2-Datensatzes, einschliesslich Visualisierung und Untersuchung der Datenstruktur.
- **Modellarchitektur und Training:** Auswahl, Implementierung und Training geeigneter Deep-Learning-Modelle.
- **Evaluation und Ergebnisse:** Bewertung der Modelle anhand geeigneter Metriken und Visualisierung der Resultate.
- **Fazit und Ausblick:** Zusammenfassung der Erkenntnisse und mögliche Erweiterungen.

Aufgrund der Grösse des Datensatzes und limitierter lokaler Ressourcen erfolgten die ersten Analysen und die Entwicklung der Pipeline lokal auf 10% der Daten. Für das finale Training und die Auswertung auf dem vollständigen Datensatz wurde der GPU-Cluster der OST genutzt.

---
## 3. Datenaufbereitung und EDA

In diesem Kapitel werden die wesentlichen Eigenschaften des ALASKA2-Datensatzes, das Vorgehen bei der Datenaufbereitung sowie die ersten Analyseschritte (EDA) beschrieben. Ziel ist es, die Datenbasis für das Modelltraining strukturiert aufzubereiten und ein erstes Verständnis für die vorhandenen Muster und Besonderheiten zu gewinnen.

### 3.1 Datensatzstruktur

Der ALASKA2-Datensatz ist ein aktueller Benchmark für die Steganalyse von JPEG-Bildern. Er enthält insgesamt 300 000 gelabelte Trainingsbilder, die in vier gleich grosse Teilmengen aufgeteilt sind. Für jedes Motiv existieren vier Versionen – die unveränderte „Cover“-Version sowie drei mit verschiedenen Steganografie-Algorithmen manipulierte Varianten (`JMiPOD`, `JUNIWARD`, `UERD`). Die Länge der versteckten Nachricht (Payload) ist variabel und wird im Datensatz nicht explizit angegeben, jedoch so gewählt, dass die Schwierigkeit der Erkennung für alle Bilder vergleichbar bleibt. Alle Bilder liegen als JPEG mit identischer Auflösung in den Qualitätsstufen 75, 90 oder 95 und unter identischem Dateinamen in jeweils einem der vier Klassenordner vor.

Ein separater Testdatensatz mit 5 000 Bildern ohne Labels wird in dieser Arbeit nicht verwendet.

**Hinweis:** Die für diese Arbeit relevanten Steganographie-Algorithmen sowie technische Details zu JPEG und DCT sind im Anhang erläutert.

### 3.2 Datenaufbereitung

Die Bilder werden anhand des Klassenordners gelabelt und zusammen mit den zugehörigen Dateipfaden erfasst. Anschliessend erfolgt eine zufällige und stratifizierte Aufteilung in Trainings-, Validierungs- und Testsets.

In [None]:
# Definiere die Pfade
alaska2_path = "data/raw/alaska2-image-steganalysis"
pd12m_path = "data/raw/PD12M"

# Funktion zum Prüfen, ob ALASKA2 vorhanden ist
def check_alaska2_exists(path: str) -> bool:
    return os.path.exists(path) and len(os.listdir(path)) > 0

# Wenn ALASKA2 vorhanden ist, wird er verwendet, ansonsten der synthetische PD12M-Datensatz
if check_alaska2_exists(alaska2_path):
    print("✅ ALASKA2-Datensatz gefunden.")
    cover_path = alaska2_path
else:
    print("❌ ALASKA2-Datensatz nicht gefunden. Verwende stattdessen den synthetischen PD12M-Datensatz.")
    cover_path = pd12m_path

In [None]:
# Klassen und Labels definieren
CLASS_LABELS = {
    'Cover': 0,
    'JMiPOD': 1,
    'JUNIWARD': 2,
    'UERD': 3
}

# Prozentualer Anteil der Bilder
SUBSAMPLE_PERCENT = 0.10  # 10% lokal

dataset_df = util.prepare_dataset(cover_path, CLASS_LABELS, subsample_percent=SUBSAMPLE_PERCENT, seed=42)
train_df, val_df, test_df = util.split_dataset_by_filename(dataset_df, train_size=0.8, val_size=0.1, test_size=0.1)



### 3.3 Explorative Datenanalyse (EDA)

Im Rahmen der EDA werden die Verteilung der Klassen und JPEG-Qualitäten analysiert sowie exemplarische Bilder visualisiert. Darüber hinaus werden Unterschiede zwischen Cover- und Stego-Bildern untersucht, insbesondere im Hinblick auf potenzielle Stego-Artefakte. Weiterführende Erklärungen zur Funktionsweise der Steganographie-Algorithmen und zu den theoretischen Hintergründen der JPEG-Kompression finden sich im Anhang.

In [None]:
# if EDA_FD001:
#     toggle = util.make_toggle_shortcut(df_train_01, "FD001")
#     sensor_cols = [f"sensor_{i}" for i in [2, 3, 4, 6, 7, 8, 9, 11, 12, 13, 14, 15, 17, 20, 21]]
#     df_copy = df_train_01.copy()
#     df_copy["op_setting_1_cat"] = pd.qcut(df_copy["op_setting_1"], 3, labels=["tief", "mittel", "hoch"])
#     df_copy["op_setting_2_cat"] = pd.qcut(df_copy["op_setting_2"], 3, labels=["tief", "mittel", "hoch"])

#     toggle_tsne = widgets.Output()
#     with toggle_tsne:
#         fig, labels = eda.plot_tsne_dbscan_clusters(
#             df_train_01,
#             dataset_name="FD001",
#             force_recompute=FORCE_RECOMPUTE_TSNE_DBSCAN
#         )
#         df_train_01["cluster_tsne"] = labels
#         plt.show()

#     overview_plots = [
#         toggle("1-1. Lebensdauerkennzahlen", eda.describe_life_stats),
#         toggle("1-2. Lebensdauerverteilung", eda.plot_life_distribution),
#     ]
#     ops_plots = [
#         toggle("2-1. Verläufe Operation Settings", eda.plot_opsetting_curves, unit_ids=[39, 69]),
#         *[toggle(t, f, **k) for t, f, k in [
#             ("2-2. Korrelation Operation Settings", eda.plot_opsetting_correlation_matrix, {}),
#             ("2-3. Verteilung im letzten Zyklus", eda.plot_opsetting_box_violin_last_cycle, {}),
#             ("2-4. Verteilung nach Quantilen", eda.plot_opsetting_distributions_by_cycle_range, {"lower_quantile": .25, "upper_quantile": .75}),
#             ("2-5. Trend normierte Zeit", eda.plot_average_opsetting_trend_normalized_time, {}),
#             ("2-6. RUL-Korrelation", eda.plot_opsetting_rul_correlation, {}),
#         ]]
#     ]
#     sensors_plots = [
#         toggle("3-1. Sensorverläufe", eda.plot_single_sensor_curves, unit_ids=range(1, 6)),
#         toggle("3-2. Sensor-Overlay", eda.plot_sensor_overlay, unit_id=69, dataset_name="FD001-69"),
#         toggle("3-3. Sensor-Korrelation", lambda df: (
#             (fig := plt.figure(figsize=(28, 10))),
#             (axs := fig.subplots(1, 2)),
#             eda.plot_sensor_correlation_matrix(df, dataset_name="FD001", ax=axs[0]),
#             eda.plot_sensor_correlation_matrix(df, sensor_cols=sensor_cols, dataset_name="FD001 (ohne konstante)", annot=True, ax=axs[1]),
#             plt.tight_layout(),
#         )),
#         *[toggle(t, f, **k) for t, f, k in [
#             ("3-4. Box/Violin letzter Zyklus", eda.plot_sensor_box_violin_last_cycle, {"sensor_cols": sensor_cols}),
#             ("3-5. Sensorverteilung nach Lebensdauer", eda.plot_sensor_distributions_by_cycle_range, {"sensor_cols": sensor_cols}),
#             ("3-6. RUL-Korrelation Sensoren", eda.plot_sensor_rul_correlation, {"sensor_cols": sensor_cols}),
#             ("3-7. Sensortrend normierte Zeit", eda.plot_average_sensor_trend_normalized_time, {"sensor_cols": sensor_cols}),
#         ]]
#     ]
#     hue_plots = [
#         toggle("4-1. Sensorverteilungen nach op_setting_1_cat",
#                lambda df: eda.plot_sensor_distributions_by_cycle_range(
#                    df=df_copy, lower_quantile=.25, upper_quantile=.75,
#                    dataset_name="FD001", hue_col="op_setting_1_cat", sensor_cols=sensor_cols)),
#         toggle("4-2. Sensorverteilungen nach op_setting_2_cat",
#                lambda df: eda.plot_sensor_distributions_by_cycle_range(
#                    df=df_copy, lower_quantile=.25, upper_quantile=.75,
#                    dataset_name="FD001", hue_col="op_setting_2_cat", sensor_cols=sensor_cols)),
#     ]
#     cluster_plots = [
#         toggle("5-1. TSNE + DBSCAN Cluster", eda.plot_tsne_dbscan_clusters),
#         toggle("5-2. Zustandsdauer je Cluster (Boxplot)", eda.plot_lifetime_boxplot_by_cluster, cluster_col="cluster_tsne"),
#         toggle("5-3. Clusterverteilung letzter Zyklus", eda.plot_cluster_distribution_last_cycle, cluster_col="cluster_tsne"),
#         toggle("5-4. Cluster-Transitions (Sankey)", lambda df: (
#             fig := eda.plot_cluster_transitions_sankey(df, cluster_col="cluster_tsne", dataset_name="FD001"),
#             fig.update_layout(width=1800, height=600))),
#         toggle("5-5. Sensorverteilungen nach Cluster", eda.plot_sensor_distributions_by_cycle_range, hue_col="cluster_tsne", sensor_cols=sensor_cols),
#         toggle("5-6. Mittlere Sensorwerte pro Cluster", eda.plot_mean_normalized_sensors_by_cluster, sensor_cols=sensor_cols, cluster_col="cluster_tsne"),
#     ]
#     for cid in sorted(df_train_01["cluster_tsne"].unique()):
#         cluster_toggle = util.make_toggle_shortcut(
#             df_train_01[df_train_01["cluster_tsne"] == cid],
#             f"FD001 – Cluster {cid}"
#         )
#         cluster_plots.append(
#             cluster_toggle(
#                 f"5-7. Trend Sensoren – Cluster {cid}",
#                 eda.plot_average_sensor_trend_normalized_time,
#                 sensor_cols=sensor_cols
#             )
#         )

#     if PRECOMPUTE_ALL_PLOTS:
#         util.util_cache.cache_all_plots(
#             [overview_plots, ops_plots, sensors_plots, hue_plots, cluster_plots],
#             dataset_name="FD001",
#             force_recompute=FORCE_RECOMPUTE_PLOTS
#         )

#     sections = [
#         util.make_dropdown_section(overview_plots, "FD001"),
#         util.make_dropdown_section(ops_plots, "FD001"),
#         util.make_dropdown_section(sensors_plots, "FD001"),
#         util.make_dropdown_section(hue_plots, "FD001"),
#         util.make_dropdown_section(cluster_plots, "FD001"),
#     ]
#     tab_titles = [
#         "1. Übersicht",
#         "2. Operation Settings",
#         "3. Sensoren",
#         "4. Klassifizierung",
#         "5. Clusteranalyse",
#     ]
#     eda_panel_FD001 = util.make_lazy_panel_with_tabs(
#         sections,
#         tab_titles=tab_titles,
#         open_btn_text="FD001 EDA öffnen",
#         close_btn_text="Schliessen"
#     )
#     display(eda_panel_FD001)

## 7. Anhang

### 7.1 Referenzen
[1] https://www.kaggle.com/competitions/alaska2-image-steganalysis

https://www.kaggle.com/code/tanulsingh077/steganalysis-complete-understanding-and-model/notebook

https://arxiv.org/ftp/arxiv/papers/1704/1704.08378.pdf

https://utt.hal.science/hal-02542075/file/J_MiPOD_vPub.pdf

https://dde.binghamton.edu/vholub/pdf/Holub_PhD_Dissertation_2014.pdf

https://ijarcce.com/wp-content/uploads/2024/04/IJARCCE.2024.13478.pdf

### 7.2 Eigenständigkeitserklärung


---
---

## Anhang

### A – Erzeugung des synthetischen Stego-Datensatzes

Zur Reproduzierbarkeit und öffentlichen Verfügbarkeit dieses Projekts wurde ein synthetischer Stego-Datensatz auf Basis des  **[PD12M (Public Domain 12 M)](https://source.plus/pd12m?size=n_100_n)-Datensatzes** erstellt. Da der ursprünglich verwendete **[ALASKA2-Datensatz](https://www.kaggle.com/competitions/alaska2-image-steganalysis)** nicht öffentlich weitergegeben werden darf, dient diese alternative Version der **Demonstration und strukturellen Vergleichbarkeit**.

Der PD12M-Datensatz steht unter **Public Domain / CC0** und enthält Millionen hochaufgelöster Fotos. Eine kuratierte Auswahl der *N* visuell ähnlichsten Bilder zu ALASKA2 ist öffentlich unter [Rinovative/pd12m_dct_based_synthetic_stegano](https://huggingface.co/datasets/Rinovative/pd12m_dct_based_synthetic_stegano) verfügbar und wird automatisch heruntergeladen.

#### Bilderauswahl

1. **Referenz-Embeddings**  
   - Auswahl von 300 Cover-Bildern aus ALASKA2  
   - CLIP (ViT-B/32) generiert 512-dimensionalen Embedding-Vektor pro Referenzbild  
2. **k-NN in Embedding-Raum**  
   - Streaming durch bis zu 10 000 Bilder aus PD12M  
   - CLIP-Embeddings für jedes Kandidatenbild berechnet  
   - L2-Normalisierung und Kosinus-Ähnlichkeit (Skalarprodukt) mit Referenz-Embeddings  
   - Min-Heap (Grösse = Anzahl gewünschter Cover, z.B. 500) führt Top-k Auswahl durch  
3. **Ergebnis**  
   - Die *k* Bilder mit höchsten Ähnlichkeitswerten werden übernommen

#### Vergleich zu echten Steganographie-Algorithmen

Die synthetisch erzeugten Varianten orientieren sich strukturell an den Prinzipien realer Steganographiealgorithmen,  
weichen jedoch in Komplexität und Einbettungsstrategie bewusst ab. Die folgende Tabelle gibt eine Übersicht:

| Aspekt | Echte Algorithmen | Synthetische Varianten |
|:-------|:------------------|:------------------------|
| **Arbeitsraum** | Frequenzraum (DCT der Y-Komponente) | Frequenzraum (DCT der Y-Komponente) |
| **Payload** | Tatsächliche Nachrichteneinbettung (bits per pixel / DCT-Koeffizient) | Keine Nachricht, nur simulierte Modifikationen |
| **Verfahren** | Komplexe, adaptive Einbettung optimiert auf minimale Detektierbarkeit | Direkte Modifikation einzelner Frequenzbereiche |
| **JMiPOD** | Wahrscheinlichkeitsgesteuerte Veränderung wenig auffälliger DCT-Koeffizienten | Additive Rauschmodifikation im mittleren Frequenzbereich (4×4 Block) |
| **JUNIWARD** | Adaptive Modifikation texturreicher Bildbereiche basierend auf Strukturmodellen | Multiplikative Verstärkung ausgewählter Hochfrequenzanteile |
| **UERD** | Zufällige, breit verteilte Einbettung mit hoher Verdeckung | Punktuelle, zufällige additive Störung in ca. 5–10 % der DCT-Koeffizienten |
| **Visuelle Auswirkungen** | Praktisch unsichtbar, extrem schwer detektierbar | Kaum sichtbar, statistisch jedoch leichter messbar |
| **Trainierbarkeit** | Sehr hohe Schwierigkeit, geringe Klassenunterschiede | Mässige Schwierigkeit, klarere Klassenunterschiede für Lernzwecke |

#### Modifikationslogik (vereinfachte Beschreibung)

Zur Erzeugung der Stego-Varianten wird:

- **blockweise (8×8)** eine **diskrete Kosinustransformation (DCT)** auf den Y-Kanal angewandt,
- anschliessend werden **gezielte Modifikationen** durchgeführt:

```python
# JMiPOD-ähnlich: Additives Rauschen im mittleren Frequenzbereich
jmipod_block[2:6, 2:6] += np.random.normal(0, 0.5, (4, 4))

# JUNIWARD-ähnlich: Verstärkung von Hochfrequenzen
juniward_block[4:8, 0:4] *= 1.05

# UERD-ähnlich: Zufällige punktuelle Störungen im gesamten Block
mask = np.random.rand(8, 8) < 0.05
uerd_block += mask * np.random.normal(0, 1.0, (8, 8))
```

Nach der Inversen DCT (`cv2.idct`) wird das Bild rekonvertiert und als JPEG gespeichert.

#### Struktur des synthetischen Datensatzes

Die erzeugte Ordnerstruktur lautet:

```
/Cover/           → Ausgewählte PD12M-Cover (N Bilder, ähnlich zu ALASKA2)
/JMiPOD/          → DCT-modifizierte JMiPOD-Varianten
/JUNIWARD/        → DCT-modifizierte JUNIWARD-Varianten
/UERD/            → DCT-modifizierte UERD-Varianten
```

Die Dateinamen sind identisch (`00001.jpg`, `00002.jpg`, …), was eine direkte Zuordnung zwischen Cover und Stego-Varianten ermöglicht und die Struktur kompatibel zum ALASKA2-Format hält.

#### Wichtiger Hinweis

Die synthetischen Varianten enthalten **keine eingebetteten Nachrichten**, sondern simulieren lediglich die typischen Frequenzänderungen, wie sie bei echten Stego-Algorithmen auftreten könnten. Sie dienen ausschliesslich der **Reproduzierbarkeit**, **Trainierbarkeit** und **vergleichbaren Modellierung** von Steganalyse-Ansätzen.

#### Lizenz und Quellen

- **[Original PD12M-Datensatz:](https://source.plus/pd12m?size=n_100_n)** Public Domain / CC0  
- **[Synthetischer Stego-Datensatz:](https://huggingface.co/datasets/Rinovative/pd12m_dct_based_synthetic_stegano)** CC0 (verbleibende Public Domain)

---
### B. JPEG-Kompression und DCT

Die JPEG-Kompression ist das weltweit am häufigsten verwendete Verfahren zur verlustbehafteten Bildkompression. Ihr zentrales Element ist die **Diskrete Kosinustransformation (DCT)**, die das Bild von einer Pixel- in eine Frequenzdarstellung überführt.

#### Ablauf der JPEG-Kompression

1. **Farbraumtransformation:**  
   Das Originalbild wird zunächst vom RGB- in den YCbCr-Farbraum umgewandelt, wobei Y die Helligkeit und Cb/Cr die Farbinformationen repräsentieren. Im JPEG-Verfahren wird häufig ein **Subsampling der Farbinformationen (Cb/Cr)** vorgenommen, bei dem die Auflösung der Farbkanäle reduziert wird. Da das menschliche Auge für Helligkeit viel empfindlicher ist als für Farbdifferenzen, können die Farbinformationen stärker komprimiert werden, ohne dass das Bild an wahrgenommener Qualität verliert. Dieser Schritt führt zu einem Verlust von Farbdetails, die durch das Subsampling reduziert werden.

2. **Blockbildung:**  
   Das Bild wird in Blöcke der Grösse 8×8 Pixel unterteilt.

3. **Diskrete Kosinustransformation (DCT):**  
   Für jeden 8×8-Bildblock wird die DCT berechnet. Dadurch wird der Block aus dem Ortsraum (Pixelwerte) in den Frequenzraum überführt:  
   - Die DCT liefert **64 DCT-Koeffizienten**, von denen jeder einen bestimmten „Frequenzanteil“ im Block beschreibt.
   - Der **erste Koeffizient** (oben links in der Matrix, sog. **DC-Koeffizient**) steht für den durchschnittlichen Helligkeitswert des gesamten Blocks.
   - Die weiteren **AC-Koeffizienten** beschreiben immer feinere Details, Kanten und Texturen (Frequenzanteile in horizontaler, vertikaler und diagonaler Richtung).
   - Die Matrix ist so aufgebaut, dass die **niedrigen Frequenzen** oben links liegen (grobflächige Helligkeitsunterschiede), während die **hohen Frequenzen** (feine Details und Rauschen) nach unten rechts wandern.
   - Die meisten Bildinformationen sind in den niedrigen Frequenzen konzentriert, während viele hohe Frequenzanteile (unten rechts) sehr kleine Werte haben.

   Die DCT und ihre Inverse (IDCT) sind verlustfreie, mathematische Transformationen: Würden alle 64 Koeffizienten exakt gespeichert, könnte man den ursprünglichen Block perfekt rekonstruieren.

4. **Quantisierung:**  
   Die DCT-Koeffizienten werden mit einer Quantisierungstabelle abgerundet, was zu einem starken Informationsverlust vor allem bei hohen Frequenzen (feine Bilddetails) führt. Viele dieser Koeffizienten werden dabei zu Null, wodurch sich die Bilddaten stark komprimieren lassen. Für die Helligkeits- (Y) und die beiden Farbkanäle (Cb, Cr) werden dabei unterschiedliche Quantisierungstabellen verwendet: Die Tabelle für die Helligkeit ist feiner abgestuft, um möglichst viele Details zu erhalten, während bei den Farbinformationen eine gröbere Quantisierung zulässig ist, da das menschliche Auge Farbverluste weniger stark wahrnimmt. Die Quantisierung ist der zentrale Schritt, in dem beim JPEG-Verfahren die Kompression und der damit verbundene Qualitätsverlust stattfinden.

5. **Kodierung:**  
   Die quantisierten Koeffizienten werden abschliessend noch weiter komprimiert und gespeichert, um die Dateigrösse zu minimieren. Dieser Schritt erfolgt verlustfrei und beeinflusst die Bildinformation selbst nicht mehr.

#### Bedeutung der DCT für Steganalyse

Viele Steganographie-Algorithmen für JPEG-Bilder, wie sie auch im ALASKA2-Datensatz vorkommen, nutzen gezielt bestimmte DCT-Koeffizienten, um darin Informationen zu verstecken. Dabei werden meist nicht alle, sondern nur die weniger auffälligen (z. B. mittlere Frequenzen) modifiziert, um das Bild für das menschliche Auge möglichst unverändert erscheinen zu lassen. Die Einbettung von Stego-Informationen erfolgt bevorzugt im **Y-Kanal** (Helligkeit), da dieser eine höhere Auflösung und geringere Quantisierung aufweist. Die Farbkanäle (Cb, Cr) sind aufgrund ihrer stärkeren Quantisierung und Subsampling weniger geeignet, werden aber in einigen Fällen ebenfalls genutzt.

Veränderungen im DCT-Bereich sind für Deep-Learning-Modelle, die nur auf den rekonvertierten RGB-Bildern trainiert werden, oft schwer zu erkennen, da die Stego-Informationen im Frequenzraum verborgen sind.

**Zusammenfassend:**  
Die Kenntnis der JPEG-Kompression und insbesondere der DCT ist für die Steganalyse essenziell, da die Stego-Algorithmen ihre Informationen fast ausschliesslich in den DCT-Koeffizienten einbetten, insbesondere im Y-Kanal.

https://www.youtube.com/watch?v=n_uNPbdenRs&ab_channel=Computerphile

https://www.youtube.com/watch?v=Q2aEzeMDHMA&ab_channel=Computerphile

https://www.kaggle.com/c/alaska2-image-steganalysis/discussion/147494

#### Visualisierung der DCT-Frequenzbasis

Die folgende Abbildung zeigt die 64 DCT-Basisfunktionen für einen 8×8-Block. Jede Zelle stellt eine Frequenzkomponente dar, die das Muster beschreibt, das dieser Koeffizient im Bild erzeugt:

![DCT-Basisfunktionen](images/DCTjpeg.png)

- Oben links (heller Bereich) befinden sich die **niedrigen Frequenzen**, die grobe Helligkeitsunterschiede darstellen.
- Unten rechts (fein gemustert) befinden sich die **hohen Frequenzen**, die feine Details und Rauschen beschreiben.

Eine Animation verdeutlicht, wie ein Bildblock (der Buchstabe A) durch Addition einzelner DCT-Basisfunktionen aufgebaut werden kann:

![DCT-Animation](images/DCT-animation.gif)

Diese Darstellungen machen deutlich, warum Steganographie-Algorithmen bevorzugt mittlere bis hohe Frequenzen nutzen: Veränderungen in diesen Bereichen sind visuell weniger auffällig.

https://de.wikipedia.org/wiki/Diskrete_Kosinustransformation

---
### C. Steganographie-Algorithmen

Die Steganographie-Algorithmen im JPEG-Bereich arbeiten in der Regel im **DCT-Raum**, indem sie gezielt die DCT-Koeffizienten manipulieren. Diese Algorithmen nutzen den Frequenzbereich, um geheime Informationen zu verstecken, da Veränderungen in den mittleren und höheren Frequenzen für das menschliche Auge oft unsichtbar sind.
- **JMiPOD (JPEG Message in Pixel of DCT)** nutzt bevorzugt die mittleren Frequenzen der DCT, um Daten einzubetten. Die eingebetteten Informationen werden so verändert, dass sie für den menschlichen Betrachter kaum erkennbar sind.
- **JUNIWARD (JPEG Universal Wavelet Relative Distortion)** verwendet ein adaptives Verfahren, bei dem die DCT-Koeffizienten in einer Weise modifiziert werden, dass die Stego-Nachricht robust gegen Störungen bleibt und die visuelle Qualität des Bildes möglichst erhalten bleibt.
- **UERD (Unified Embedding and Reversible Data)** verwendet eine Methode zur **reversiblen Steganographie**, bei der die eingebetteten Informationen später exakt wiederhergestellt werden können. Auch hier werden gezielt DCT-Koeffizienten im unauffälligeren Frequenzbereich des Bildes verändert.

**Zusammenfassend:**  
Alle drei Algorithmen (JMiPOD, JUNIWARD, UERD) nutzen die **DCT-Koeffizienten** für die Datenversteckung und modifizieren gezielt die **mittleren und höheren Frequenzen**, um sicherzustellen, dass die Änderungen für das menschliche Auge kaum sichtbar sind. Die Kenntnis dieser Algorithmen und der DCT ist für die Steganalyse von JPEG-Bildern entscheidend.