# DCA Ingest - DROID Analysis

Dieses Notebook führt eine DROID-Analyse auf einem Ordner durch und speichert die Ergebnisse als CSV.

## Imports und Setup

In [1]:
import os
import subprocess

## Konfiguration

Hier werden alle Pfade und Parameter definiert.

In [2]:
# Dynamisch das Home-Verzeichnis holen
home_dir = os.path.expanduser("~")
base_path = os.path.join(home_dir, "work")

# Dataset-Name definieren
dataset_to_analyze = "2104_mockup"

# Pfade definieren
droid_script_path = os.path.join(base_path, "27_DCA_Ingest/src/droid-binary-6.7.0-bin/droid.sh")
folder_to_analyze = os.path.join(base_path, f"dcaonnextcloud-500gb/DigitalMaterialCopies/Semiramis/302_V-Zug_Documentation/{dataset_to_analyze}")
output_folder = os.path.join(base_path, f"dca-metadataraw/Semiramis/{dataset_to_analyze}_results")
output_csv_path = os.path.join(output_folder, "analysis_result_2.csv")

print(f"Analyzing folder: {folder_to_analyze}")
print(f"Output will be saved to: {output_csv_path}")

Analyzing folder: /home/renku/work/dcaonnextcloud-500gb/DigitalMaterialCopies/Semiramis/302_V-Zug_Documentation/2104_mockup
Output will be saved to: /home/renku/work/dca-metadataraw/Semiramis/2104_mockup_results/analysis_result_2.csv


## DROID-Analyse ausführen

Führt die DROID-Analyse auf dem konfigurierten Ordner aus.

In [3]:
try:
    # Output-Ordner erstellen (falls nicht vorhanden)
    os.makedirs(output_folder, exist_ok=True)

    print(f"Analyzing folder: {folder_to_analyze}")
    print(f"Output will be saved to: {output_csv_path}")

    # DROID-Skript ausführen
    result = subprocess.run(
        [droid_script_path, "-R", folder_to_analyze, "-o", output_csv_path, "-Pr", "profile.generateHash=true"],
        check=True,
        capture_output=True,
        text=True
    )

    print("DROID output:", result.stdout)
    print(f"Analysis complete. The result is saved in {output_csv_path}.")

except subprocess.CalledProcessError as e:
    print(f"An error occurred while running DROID: {e}")
    print("DROID error output:", e.stderr)

except PermissionError as e:
    print(f"Permission error: {e}")
    print("Bitte prüfe, ob du Schreibrechte für den Zielordner hast.")

except FileNotFoundError as e:
    print(f"Datei oder Verzeichnis nicht gefunden: {e}")
    print("Bitte prüfe, ob alle Pfade korrekt sind und existieren.")

Analyzing folder: /home/renku/work/dcaonnextcloud-500gb/DigitalMaterialCopies/Semiramis/302_V-Zug_Documentation/2104_mockup
Output will be saved to: /home/renku/work/dca-metadataraw/Semiramis/2104_mockup_results/analysis_result_2.csv
DROID output: 2025-11-12T12:59:47,216  INFO [main] DroidCommandLine:225 - Starting DROID.
2025-11-12T12:59:48,406  INFO [main] ProfileManagerImpl:129 - Creating profile: 1762952388406
2025-11-12T12:59:48,425  INFO [main] ProfileInstance:365 - Attempting state change [INITIALISING] to [VIRGIN]
2025-11-12T12:59:49,848 ERROR [main] WriterResultHandlerDao:172 - /home/renku/work/dca-metadataraw/Semiramis/2104_mockup_results/analysis_result_2.csv (Read-only file system)
2025-11-12T12:59:51,854  INFO [main] ProfileDiskAction:87 - Saving profile [/home/renku/.droid6/profiles/1762952388406/db] to [/home/renku/.droid6/profile_templates/schema 6.7.0/profile.template]
2025-11-12T12:59:56,380  INFO [main] ProfileDiskAction:87 - Saving profile [/home/renku/.droid6/profi

## Analyse der DROID-Ergebnisse

Die folgenden Zellen führen verschiedene Analysen auf den DROID-Ergebnissen durch.

In [None]:
# Pfade für Module hinzufügen
import sys
import os

# Lokale Module importierbar machen
src_path_1 = os.path.abspath("../src")
src_path_2 = os.path.join(base_path, "27_DCA_Ingest/src")

if src_path_1 not in sys.path:
    sys.path.append(src_path_1)
    print(f"Added to sys.path: {src_path_1}")

if src_path_2 not in sys.path:
    sys.path.append(src_path_2)
    print(f"Added to sys.path: {src_path_2}")

print(f"Current sys.path includes: {[p for p in sys.path if '27_DCA_Ingest' in p or 'src' in p]}")

In [None]:
# CSV_PATH und OUTPUT_DIR definieren
# CSV_PATH: Nutze output_csv_path falls definiert, sonst Fallback
if 'output_csv_path' in locals() and output_csv_path:
    CSV_PATH = output_csv_path
else:
    CSV_PATH = os.path.join(base_path, f"dca-metadataraw/Semiramis/{dataset_to_analyze}_results/analysis_result.csv")

# OUTPUT_DIR: Nutze output_folder/res falls definiert, sonst res-Ordner neben CSV
if 'output_folder' in locals() and output_folder:
    OUTPUT_DIR = os.path.join(output_folder, "res")
else:
    OUTPUT_DIR = os.path.join(os.path.dirname(CSV_PATH), "res")

# Output-Verzeichnis erstellen
os.makedirs(OUTPUT_DIR, exist_ok=True)

print(f"CSV_PATH: {CSV_PATH}")
print(f"OUTPUT_DIR: {OUTPUT_DIR}")

In [None]:
# Robuste Imports der Analysefunktionen
# Falls Module fehlen, werden klare Fehlermeldungen ausgegeben

analyse_formats = None
analyse_format_over_time = None
generate_waffle_chart = None
generate_format_heatmap = None

try:
    from analyse_formats import analyse_formats
    print("✓ analyse_formats importiert")
except ImportError as e:
    print(f"✗ analyse_formats konnte nicht importiert werden: {e}")
    print("  Bitte stelle sicher, dass src/analyse_formats.py vorhanden ist.")

try:
    from analyse_format_over_time import analyse_format_over_time
    print("✓ analyse_format_over_time importiert")
except ImportError as e:
    print(f"✗ analyse_format_over_time konnte nicht importiert werden: {e}")
    print("  Bitte stelle sicher, dass src/analyse_format_over_time.py vorhanden ist.")

try:
    from generate_waffle import generate_waffle_chart
    print("✓ generate_waffle_chart importiert")
except ImportError as e:
    print(f"✗ generate_waffle_chart konnte nicht importiert werden: {e}")
    print("  Bitte stelle sicher, dass src/generate_waffle.py vorhanden ist.")
    print("  Falls pywaffle fehlt: pip install pywaffle")

try:
    from analyse_format_heatmap import generate_format_heatmap
    print("✓ generate_format_heatmap importiert")
except ImportError as e:
    print(f"✗ generate_format_heatmap konnte nicht importiert werden: {e}")
    print("  Bitte stelle sicher, dass src/analyse_format_heatmap.py vorhanden ist.")

In [None]:
# Analyse der Formate
if analyse_formats:
    print("Starte Formatanalyse...")
    analyse_formats(
        csv_path=CSV_PATH,
        output_dir=OUTPUT_DIR,
        show_plot=True
    )
    print(f"Plot gespeichert unter: {os.path.join(OUTPUT_DIR, 'format_counts.png')}")
else:
    print("⚠ analyse_formats nicht verfügbar - Schritt übersprungen")

In [None]:
# Analyse der Formatentwicklung über Zeit
# Hinweis: format_name kann angepasst werden je nach den im CSV vorhandenen Formaten
if analyse_format_over_time:
    print("Starte Zeitreihenanalyse...")
    # Beispielformat - kann angepasst werden
    try:
        analyse_format_over_time(
            csv_path=CSV_PATH,
            output_dir=OUTPUT_DIR,
            format_name="AutoCAD Drawing",  # Anpassen an vorhandene Formate
            show_plot=True
        )
        print(f"Plot gespeichert unter: {os.path.join(OUTPUT_DIR, 'format_over_time.png')}")
    except Exception as e:
        print(f"⚠ Zeitreihenanalyse fehlgeschlagen: {e}")
        print("  Möglicherweise ist das angegebene Format nicht im CSV vorhanden.")
else:
    print("⚠ analyse_format_over_time nicht verfügbar - Schritt übersprungen")

In [None]:
# Waffle Chart generieren
# Hinweis: start_year und end_year können angepasst werden
if generate_waffle_chart:
    print("Starte Waffle Chart Generierung...")
    try:
        generate_waffle_chart(
            csv_path=CSV_PATH,
            output_dir=OUTPUT_DIR,
            start_year=2004,  # Anpassen an Datenbereich
            end_year=2009,    # Anpassen an Datenbereich
            top_n=5,
            show_plot=True
        )
        print(f"Plot gespeichert unter: {os.path.join(OUTPUT_DIR, 'waffle_chart.png')}")
    except Exception as e:
        print(f"⚠ Waffle Chart Generierung fehlgeschlagen: {e}")
        print("  Bitte überprüfe den Zeitbereich und ob pywaffle installiert ist.")
        print("  Installation: pip install pywaffle")
else:
    print("⚠ generate_waffle_chart nicht verfügbar - Schritt übersprungen")

In [None]:
# Format Heatmap generieren (optional)
# Hinweis: Diese Analyse ist optional und kann übersprungen werden
if generate_format_heatmap:
    print("Starte Heatmap Generierung...")
    try:
        generate_format_heatmap(
            csv_path=CSV_PATH,
            output_dir=OUTPUT_DIR,
            start_year=2004,  # Anpassen an Datenbereich
            end_year=2009,    # Anpassen an Datenbereich
            top_n=5,
            show_plot=True
        )
        print(f"Plot gespeichert unter: {os.path.join(OUTPUT_DIR, 'format_heatmap.png')}")
    except Exception as e:
        print(f"⚠ Heatmap Generierung fehlgeschlagen: {e}")
        print("  Bitte überprüfe den Zeitbereich und ob alle Abhängigkeiten installiert sind.")
else:
    print("⚠ generate_format_heatmap nicht verfügbar - Schritt übersprungen")

## Analyse abgeschlossen

Die Analyseergebnisse wurden im Verzeichnis gespeichert (siehe OUTPUT_DIR oben).

**Hinweise:**
- Die Analyse-Module befinden sich unter `src/`
- Falls Module fehlen, werden sie automatisch übersprungen mit entsprechenden Hinweisen
- Optionale Abhängigkeiten wie `pywaffle` können bei Bedarf installiert werden: `pip install pywaffle`
- Die Zeitbereiche (start_year, end_year) und Format-Namen können in den Zellen angepasst werden