Zentrale Messgrössen übersicht

o	Runtime: Durchschnitts- oder Gesamtlaufzeiten für verschiedene Datensätze und Parameter.

o	Log-Likelihood: Endwerte und ggf. Konvergenzverhalten.

o	Fehlgeschlagene Runs: Falls relevant (z. B. „2 out of 30 runs did not converge“).

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
# Daten laden (Dateiname ist Data_Fused.csv mit Semikolon als Trennzeichen)
df = pd.read_csv('Data_Fused.csv', delimiter=';')

df.head()  # Erste Zeilen des DataFrames anzeigen

Unnamed: 0,Type,Difficulty,Epsilon,Dataset,Sequence_Number,Alignment_Length,Model,GAPS,Max_iters,Runtime (s),Final_Log-likelihood,RF_distance,Normalized_RF_distance,Output_Complete,Files_Complete,Comment
0,dna,easy,0.001,jarvd5a_intron_1521.processed.fasta,46,16250,GTR,pip,5,2322.0,-401257.9293,58.0,0.6591,1,1,
1,dna,easy,0.001,jarvd5b_bin.1136.processed.fasta,48,14401,GTR,pip,5,1672.0,-339872.9281,74.0,0.8043,1,1,
2,dna,easy,0.001,misod2a_EOG5CVDNS.processed.fasta,134,3261,GTR,pip,5,9815.0,-331430.7906,166.0,0.6288,1,1,
3,dna,easy,0.001,misod2b_EOG5CVDNS.processed.fasta,134,2174,GTR,pip,5,5082.0,-149770.5715,170.0,0.6439,1,1,
4,dna,easy,0.001,prumd6_L37.processed.fasta,200,1645,GTR,pip,5,6309.0,-75654.06647,96.0,0.2424,1,1,


Mean runtime per Difficulty

In [3]:
# Durchschnittsgeschwindigkeit dna_easy

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")

Durchschnittsgeschwindigkeit für dna_easy: 2438.93 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 2468.00 s
  Epsilon=0.000500 → 2837.20 s
  Epsilon=0.001000 → 2597.60 s
  Epsilon=0.005000 → 2423.70 s
  Epsilon=0.010000 → 2543.00 s
  Epsilon=0.100000 → 2276.80 s
  Epsilon=0.500000 → 1926.20 s


In [4]:
# Durchschnittsgeschwindigkeit dna_medium

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")


Durchschnittsgeschwindigkeit für dna_easy: 1435.39 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 1619.60 s
  Epsilon=0.000500 → 1580.00 s
  Epsilon=0.001000 → 1536.30 s
  Epsilon=0.005000 → 1610.70 s
  Epsilon=0.010000 → 1402.10 s
  Epsilon=0.100000 → 1156.50 s
  Epsilon=0.500000 → 1142.50 s


In [5]:
# Durchschnittsgeschwindigkeit dna_hard

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")



Durchschnittsgeschwindigkeit für dna_easy: 476.66 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 632.10 s
  Epsilon=0.000500 → 523.60 s
  Epsilon=0.001000 → 532.60 s
  Epsilon=0.005000 → 506.00 s
  Epsilon=0.010000 → 460.00 s
  Epsilon=0.100000 → 366.50 s
  Epsilon=0.500000 → 315.80 s


In [6]:
# Durchschnittsgeschwindigkeit aa_easy

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")


Durchschnittsgeschwindigkeit für dna_easy: 378.05 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 425.20 s
  Epsilon=0.000500 → 365.91 s
  Epsilon=0.001000 → 384.73 s
  Epsilon=0.005000 → 415.45 s
  Epsilon=0.010000 → 381.82 s
  Epsilon=0.100000 → 365.18 s
  Epsilon=0.500000 → 312.36 s


In [7]:
# Durchschnittsgeschwindigkeit aa_medium

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")


Durchschnittsgeschwindigkeit für dna_easy: 415.52 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 495.11 s
  Epsilon=0.000500 → 463.22 s
  Epsilon=0.001000 → 440.00 s
  Epsilon=0.005000 → 442.67 s
  Epsilon=0.010000 → 399.89 s
  Epsilon=0.100000 → 348.44 s
  Epsilon=0.500000 → 319.33 s


In [8]:
# Durchschnittsgeschwindigkeit aa_hard

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt
avg_speed_dna_easy = filtered['Runtime (s)'].mean()
print(f"Durchschnittsgeschwindigkeit für dna_easy: {avg_speed_dna_easy:.2f} s\n")

# 3. Spezifische Epsilon-Werte
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Nur die gewünschten Epsilons herausfiltern
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnitt pro Epsilon berechnen
avg_by_epsilon = filtered_eps.groupby('Epsilon')['Runtime (s)'].mean()

# 6. Ausgabe
print("Durchschnittsgeschwindigkeit je Epsilon:")
for eps, avg in avg_by_epsilon.items():
    print(f"  Epsilon={eps:.6f} → {avg:.2f} s")


Durchschnittsgeschwindigkeit für dna_easy: 212.10 s

Durchschnittsgeschwindigkeit je Epsilon:
  Epsilon=0.000100 → 280.44 s
  Epsilon=0.000500 → 258.11 s
  Epsilon=0.001000 → 214.56 s
  Epsilon=0.005000 → 203.56 s
  Epsilon=0.010000 → 191.44 s
  Epsilon=0.100000 → 183.33 s
  Epsilon=0.500000 → 153.22 s


Mean Log-likelihood

In [9]:
# Durchschnittliche Final-Loglikelihood dna_easy

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -156811.3702

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -156778.1694
  Epsilon=0.000500 → -156846.4204
  Epsilon=0.001000 → -156762.0451
  Epsilon=0.005000 → -156757.3232
  Epsilon=0.010000 → -156839.9302
  Epsilon=0.100000 → -156833.9995
  Epsilon=0.500000 → -156861.7040


In [10]:
# Durchschnittliche Final-Loglikelihood dna_medium

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -63492.8550

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -63482.5385
  Epsilon=0.000500 → -63477.9327
  Epsilon=0.001000 → -63474.9843
  Epsilon=0.005000 → -63509.3536
  Epsilon=0.010000 → -63461.2627
  Epsilon=0.100000 → -63522.0247
  Epsilon=0.500000 → -63521.8880


In [11]:
# Durchschnittliche Final-Loglikelihood dna_hard

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'dna')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -14942.8450

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -14932.8311
  Epsilon=0.000500 → -14942.4876
  Epsilon=0.001000 → -14954.1691
  Epsilon=0.005000 → -14933.4424
  Epsilon=0.010000 → -14934.2122
  Epsilon=0.100000 → -14967.3503
  Epsilon=0.500000 → -14935.4220


In [12]:
#Durchschnittliche Final-Loglikelihood aa_easy

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -21462.8462

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -21460.8044
  Epsilon=0.000500 → -21464.7818
  Epsilon=0.001000 → -21457.9213
  Epsilon=0.005000 → -21465.9598
  Epsilon=0.010000 → -21459.0454
  Epsilon=0.100000 → -21456.1469
  Epsilon=0.500000 → -21475.2639


In [13]:
# Durchschnittliche Final-Loglikelihood aa_medium

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -17796.0500

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -17792.7813
  Epsilon=0.000500 → -17794.3679
  Epsilon=0.001000 → -17793.9185
  Epsilon=0.005000 → -17793.2383
  Epsilon=0.010000 → -17800.5230
  Epsilon=0.100000 → -17792.4883
  Epsilon=0.500000 → -17805.0325


In [14]:
# Durchschnittliche Final-Loglikelihood aa_hard

# 1. Hauptfilter
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'aa')]

# 2. Gesamtdurchschnitt der Final_Log-likelihood
avg_loglik_dna_easy = filtered['Final_Log-likelihood'].mean()
print(f"Durchschnittliche Final-Loglikelihood für dna_easy: {avg_loglik_dna_easy:.4f}\n")

# 3. Epsilon-Werte definieren
eps_values = [0.0001, 0.001, 0.01, 0.1, 0.005, 0.0005, 0.5]

# 4. Gefilterte Daten nur für diese Epsilons
filtered_eps = filtered[filtered['Epsilon'].isin(eps_values)]

# 5. Durchschnittliche Final_Log-likelihood pro Epsilon
avg_loglik_by_eps = filtered_eps.groupby('Epsilon')['Final_Log-likelihood'].mean().sort_index()

# 6. Ausgabe
print("Durchschnittliche Final-Loglikelihood je Epsilon:")
for eps, avg in avg_loglik_by_eps.items():
    print(f"  Epsilon={eps:.6f} → {avg:.4f}")

Durchschnittliche Final-Loglikelihood für dna_easy: -5949.1022

Durchschnittliche Final-Loglikelihood je Epsilon:
  Epsilon=0.000100 → -5950.2694
  Epsilon=0.000500 → -5951.0615
  Epsilon=0.001000 → -5946.4386
  Epsilon=0.005000 → -5943.9783
  Epsilon=0.010000 → -5950.1080
  Epsilon=0.100000 → -5951.7140
  Epsilon=0.500000 → -5950.1457


Anzahl der Fehlerhaften runs

In [15]:
# Fehlerhafte Runs dna_easy (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'dna')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


6 von 70 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
                                 Dataset                    Comment
63            prumd6_L37.processed.fasta       Unfinished .log file
118  jarvd5a_intron_1521.processed.fasta  No .logl and _tree.newick
119     jarvd5b_bin.1136.processed.fasta  No .logl and _tree.newick
120    misod2a_EOG5CVDNS.processed.fasta  No .logl and _tree.newick
121    misod2b_EOG5CVDNS.processed.fasta  No .logl and _tree.newick
122           prumd6_L37.processed.fasta  No .logl and _tree.newick


In [16]:
# Fehlerhafte Runs dna_medium (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'dna')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


0 von 70 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
Empty DataFrame
Columns: [Dataset, Comment]
Index: []


In [17]:
# Fehlerhafte Runs dna_hard (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'dna')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


0 von 70 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
Empty DataFrame
Columns: [Dataset, Comment]
Index: []


In [18]:
# Fehlerhafte Runs aa_easy (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'easy') & (df['Type'] == 'aa')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


7 von 77 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
                                    Dataset      Comment
31   chena4_Pro_ENSG00000143061.refined.fas  Not started
90   chena4_Pro_ENSG00000143061.refined.fas  Not Started
149  chena4_Pro_ENSG00000143061.refined.fas  Not Started
208  chena4_Pro_ENSG00000143061.refined.fas  Not Started
267  chena4_Pro_ENSG00000143061.refined.fas  Not Started
326  chena4_Pro_ENSG00000143061.refined.fas  Not Started
385  chena4_Pro_ENSG00000143061.refined.fas  Not Started


In [19]:
# Fehlerhafte Runs aa_medium (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'medium') & (df['Type'] == 'aa')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


6 von 63 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
                                    Dataset      Comment
42   chena4_Pro_ENSG00000156958.refined.fas  Not Started
101  chena4_Pro_ENSG00000156958.refined.fas  Not Started
160  chena4_Pro_ENSG00000156958.refined.fas  Not Started
219  chena4_Pro_ENSG00000156958.refined.fas  Not Started
337  chena4_Pro_ENSG00000156958.refined.fas  Not Started
396  chena4_Pro_ENSG00000156958.refined.fas  Not Started


In [20]:
# Fehlerhafte Runs aa_hard (über 'comment' erkannt)

# 1. Hauptfilter (wie bisher)
filtered = df[(df['Difficulty'] == 'hard') & (df['Type'] == 'aa')]

# 2. Anzahl aller Runs
total_runs = len(filtered)

# 3. Unvollständige Runs = solche mit Kommentar (nicht leer / nicht NaN)
incomplete = filtered[filtered['Comment'].notna() & (filtered['Comment'].astype(str).str.strip() != '')]

# 4. Anzahl der unvollständigen Runs
failed_runs = len(incomplete)

# 5. Ausgabe
print(f"{failed_runs} von {total_runs} Runs waren unvollständig.\n")

# 6. Ausgabe der unvollständigen Runs mit Dataset und Comment
if 'Dataset' in incomplete.columns and 'Comment' in incomplete.columns:
    print("Unvollständige Runs (Dataset + Kommentar):")
    print(incomplete[['Dataset', 'Comment']])
else:
    print("Spalten 'Dataset' oder 'comment' nicht gefunden – hier sind alle verfügbaren Spalten:")
    print(incomplete)


7 von 63 Runs waren unvollständig.

Unvollständige Runs (Dataset + Kommentar):
                                    Dataset     Comment
51   chena4_Pro_ENSG00000141543.refined.fas  No Started
110  chena4_Pro_ENSG00000141543.refined.fas  No Started
169  chena4_Pro_ENSG00000141543.refined.fas  No Started
228  chena4_Pro_ENSG00000141543.refined.fas  No Started
287  chena4_Pro_ENSG00000141543.refined.fas  No Started
346  chena4_Pro_ENSG00000141543.refined.fas  No Started
405  chena4_Pro_ENSG00000141543.refined.fas  No Started
