Funktionen aus US1

### Änderung an `find_tsv_files`

In der ursprünglichen Version wurden **alle `.tsv`-Dateien** rekursiv gefunden – einschließlich bereits bereinigter Dateien mit dem Suffix `_cleaned.tsv`.

In der neuen Version werden solche bereits bereinigten Dateien **ausgeschlossen**, um zu verhindern, dass sie erneut verarbeitet und dadurch doppelt gespeichert werden (z. B. `_cleaned_cleaned.tsv`).

In [1]:
import pandas as pd
import os
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from IPython.display import display

# Rekursive Suche nach .tsv-Dateien, wobei bereits bereinigte Dateien ausgeschlossen werden
def find_tsv_files(directory, exclude_cleaned=True):
    tsv_files_list = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith('.tsv'):
                if exclude_cleaned and file.endswith('_cleaned.tsv'):
                    continue  # Skip already-cleaned files
                full_path = os.path.join(root, file)
                tsv_files_list.append(full_path)
    return tsv_files_list

Um die Ergebnisse von User Story 2 darzustellen, wurde auf die Visualisierung aus User Story 1 verzichtet.

In [2]:
# Funktion zum markieren von Ausreißern
def mark_outliers(file_path, method='iqr', threshold=1.5):

    try:
        # Einlesen der TSV-Datei
        df = pd.read_csv(file_path, sep='\t')

        # Einlesen der Spaltennamen
        gene_col = df.columns[0] # erste Spalte ist immer das Gen
        symbol_col = df.columns[-1] # letzte Spalte ist immer das Symbol
        entity_col = df.columns[-2] # vorletzte Spalte ist immer die Entity

        # Count-Spalten extrahieren
        count_cols = df.columns[1:-2]

        # DataFrame für Ergebnisse initialisieren
        results_df = df.copy()
        results_df['is_outlier'] = False
        results_df['outlier_info']  = ""

        # Gruppierung nach Entity (host/phage)
        host_mask = df[entity_col] == 'host'
        phage_mask = df[entity_col] == 'phage'

        # Anzahl der Host- und Phagen-Gene
        #print(f"Identifizierte Gene: {sum(host_mask)} Host-Gene, {sum(phage_mask)} Phagen-Gene")

       # Ausreißer für Host-Gene identifizieren
        if sum(host_mask) > 0:
            host_outliers = detect_outliers(df[host_mask], count_cols, method, threshold)
            for idx in host_outliers:
                results_df.loc[idx, 'is_outlier'] = True
                results_df.loc[idx, 'outlier_info'] += "Host-Outlier; "

        # Ausreißer für Phagen-Gene identifizieren
        if sum(phage_mask) > 0:
            phage_outliers = detect_outliers(df[phage_mask], count_cols, method, threshold)
            for idx in phage_outliers:
                results_df.loc[idx, 'is_outlier'] = True
                results_df.loc[idx, 'outlier_info'] += "Phagen-Outlier; "

        return results_df

    except Exception as e:
        print(f"Fehler {e}")
        return None

# Hilfsfunktion zur Ausreißererkennung
def detect_outliers(df, count_cols, method='iqr', threshold=1.5):
    outlier_indices = set()

    if method == 'iqr':
        # Interquartilsabstand-Methode
        for col in count_cols:
            Q05 = df[col].quantile(0.05)
            Q1 = df[col].quantile(0.25)
            #print(f"Q1: {Q1}")
            Q3 = df[col].quantile(0.75)
            #print(f"Q3: {Q3}")
            IQR = Q3 - Q1
            #print(f"IQR: {IQR}")
            lower_bound = Q1 - threshold * IQR
            #print(f"Lower Bound: {lower_bound}")
            upper_bound = Q3 + threshold * IQR
            #print(f"Upper Bound: {upper_bound}")
            outliers = df[(df[col] < lower_bound) | (df[col] > upper_bound)].index
            outlier_indices.update(outliers)

         # Berechne das 0.05-Quantil für jede Spalte
        quantiles_05 = {col: df[col].quantile(0.05) for col in count_cols}

        # Prüfe für jede Zeile, ob alle Werte kleiner als das 0.05-Quantil sind
        for idx, row in df.iterrows():
            if all(row[col] < quantiles_05[col] for col in count_cols):
                outlier_indices.add(idx)

    elif method == 'zscore':
        # Z-Score-Methode
        for col in count_cols:
            z_scores = stats.zscore(df[col], nan_policy='omit')
            outliers = df[abs(z_scores) > threshold].index
            outlier_indices.update(outliers)

    return outlier_indices


### Datenbereinigung  

Als Nächstes definieren wir eine Funktion `clean_outlier_samples`, die potenzielle Ausreißer erkennt und entfernt. Diese Funktion basiert auf der vorherigen Methode zur Ausreißererkennung (`mark_outliers`), entfernt im Anschluss die betroffenen Zeilen sowie die dazugehörigen Spalten `is_outlier` und `outlier_info`.

Die bereinigte Version jeder Datei wird unter demselben Namen mit dem Suffix `_cleaned.tsv` **im ursprünglichen Verzeichnis** der Datei gespeichert. Dadurch bleibt der ursprüngliche Datensatz unverändert erhalten, und die finalen, bereinigten Daten befinden sich direkt am ursprünglichen Speicherort.

Für die gleichzeitige Bereinigung mehrerer Dateien definieren wir zusätzlich eine Batch-Funktion `batch_clean_all_tsv`. Diese durchläuft rekursiv alle `.tsv`-Dateien in einem angegebenen Verzeichnis (einschließlich Unterverzeichnissen), bereinigt sie nacheinander mit der beschriebenen Methode und speichert die bereinigten Versionen jeweils im selben Verzeichnis wie die Originaldateien.

Um die bereinigten Dateien zu überprüfen, verwenden wir die Funktion `preview_tsv_files`. Diese sucht rekursiv nach allen Dateien mit dem Suffix `_cleaned.tsv` und zeigt eine Vorschau der ersten Zeilen an.

In [3]:
import glob

#Funktion zur Datenbereinigung
def clean_outlier_samples(file_path, method='iqr', threshold=1.5):

    cleaned_df = mark_outliers(file_path, method=method, threshold=threshold)

    if cleaned_df is None:
        print(f"Fehler beim Verarbeiten der Datei: {file_path}")
        return

    # Count outliers
    num_outliers = cleaned_df["is_outlier"].sum()

    # Remove outliers and drop the helper columns
    cleaned_df = cleaned_df[~cleaned_df["is_outlier"]].copy()
    cleaned_df.drop(columns=["is_outlier", "outlier_info"], inplace=True, errors='ignore')

    # Save to original directory
    original_dir = os.path.dirname(file_path)
    file_name = os.path.basename(file_path).replace(".tsv", "_cleaned.tsv")
    save_path = os.path.join(original_dir, file_name)
    cleaned_df.to_csv(save_path, sep='\t', index=False)

    print(f"{num_outliers} Ausreißer wurden entfernt → {file_name}")
    print(f"Finalisierte Datei gespeichert: {save_path}")

    return cleaned_df


def batch_clean_all_tsv(input_dir, method='iqr', threshold=1.5):
    tsv_files = find_tsv_files(input_dir)

    if not tsv_files:
        print(f"Keine TSV-Dateien gefunden in: {input_dir}")
        return

    print(f"{len(tsv_files)} Dateien werden verarbeitet...\n")
    for file_path in tsv_files:
        clean_outlier_samples(
            file_path=file_path,
            method=method,
            threshold=threshold
        )
    print("\nAlle Dateien wurden verarbeitet.")

Zum Abschluss der Datenbereinigung möchten wir einen schnellen Überblick über die bereinigten Datensätze erhalten. Dazu verwenden wir die Funktion `preview_tsv_files`, die eine definierte Anzahl an Zeilen aus allen `.tsv`-Dateien in einem angegebenen Verzeichnis anzeigt.  

Diese Vorschau hilft dabei, die Struktur der Dateien zu kontrollieren und sicherzustellen, dass die Spalten `is_outlier` und `outlier_info` (sofern entfernt) nicht mehr enthalten sind.  

Zunächst rufen wir `batch_clean_all_tsv()` auf, um alle `.tsv`-Dateien im Eingabeverzeichnis zu bereinigen. Anschließend verwenden wir `preview_tsv_files`, um die bereinigten Dateien (`_cleaned.tsv`) zu betrachten.  

In [4]:
def preview_tsv_files(directory, suffix="_cleaned.tsv", preview_rows=3):
    found_files = []

    # Recursively search all subdirectories for files with the given suffix
    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(suffix):
                found_files.append(os.path.join(root, file))

    if not found_files:
        print(f"Keine Dateien mit dem Suffix '{suffix}' gefunden in: {directory}")
        return

    # Display each cleaned file found
    for path in found_files:
        print(f"{path}")
        df = pd.read_csv(path, sep='\t')
        display(df.head(preview_rows))


In [5]:
input_dir = '../data'

batch_clean_all_tsv(input_dir)

print()
print("Vorschau der bereinigten Dateien (ohne 'is_outlier' und 'outlier_info')")
preview_tsv_files(input_dir, "_cleaned.tsv")

22 Dateien werden verarbeitet...

805 Ausreißer wurden entfernt → Leskinen_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/leskinen_2016/Leskinen_full_raw_counts_cleaned.tsv
747 Ausreißer wurden entfernt → Li_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/li_2020/Li_full_raw_counts_cleaned.tsv
644 Ausreißer wurden entfernt → Finstrlova_SH1000_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/finstrlova_2022/Finstrlova_SH1000_full_raw_counts_cleaned.tsv
662 Ausreißer wurden entfernt → Finstrlova_Newman_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/finstrlova_2022/Finstrlova_Newman_full_raw_counts_cleaned.tsv
576 Ausreißer wurden entfernt → Yang_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/yang_2019/Yang_full_raw_counts_cleaned.tsv
438 Ausreißer wurden entfernt → Kuptsov_full_raw_counts_cleaned.tsv
Finalisierte Datei gespeichert: ../data/kuptsov_2022/Kuptsov_full_raw_counts_cleaned.tsv

Unnamed: 0,Geneid,0,2,5,10,15,21,28,35,42,49,Entity,Symbol
0,gene-Y11_RS02515,869,354,441,593,579,482,427,475,501,352,host,xyeB
1,gene-Y11_RS16005,6654,4404,4482,5204,4829,3641,3149,3479,2541,2569,host,hemY
2,gene-Y11_RS11320,601,345,314,357,482,228,266,359,243,342,host,hypB


../data/li_2020/Li_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,30_R1,30_R2,30_R3,45_R1,45_R2,45_R3,75_R1,75_R2,75_R3,135_R1,135_R2,135_R3,Entity,Symbol
0,gene-FTB24_03575,117,120,181,54,118,103,105,101,93,79,118,127,149,220,261,host,dpsA
1,gene-FTB24_07525,17,14,127,16,8,57,20,20,33,18,26,48,32,139,173,host,asrB
2,gene-FTB24_13070,24,13,111,17,21,46,21,26,25,22,26,40,41,145,104,host,spoIIIAE


../data/finstrlova_2022/Finstrlova_Newman_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,Ctrl_R1,Ctrl_R2,Ctrl_R3,0_R1,0_R2,0_R3,2_R1,2_R2,2_R3,...,10_R2,10_R3,20_R1,20_R2,20_R3,30_R1,30_R2,30_R3,Entity,Symbol
0,gene-NWMN_RS01500,76,36,72,73,62,77,83,35,72,...,47,36,50,14,41,66,28,20,host,gene-NWMN_RS01500
1,gene-NWMN_RS09200,271,270,494,369,473,355,365,328,315,...,248,124,140,142,139,115,120,76,host,gene-NWMN_RS09200
2,gene-NWMN_RS12215,50,33,144,87,110,132,104,69,101,...,71,43,51,45,48,54,39,38,host,alsS


../data/finstrlova_2022/Finstrlova_SH1000_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,Ctrl_R1,Ctrl_R2,Ctrl_R3,0_R1,0_R2,0_R3,2_R1,2_R2,2_R3,...,10_R2,10_R3,20_R1,20_R2,20_R3,30_R1,30_R2,30_R3,Entity,Symbol
0,gene-SAURSH1000_RS09570,9,3,12,14,5,12,8,3,9,...,4,3,1,3,1,0,0,0,host,gene-SAURSH1000_RS09570
1,gene-SAURSH1000_RS12835,145,209,127,148,210,123,164,160,135,...,356,45,38,59,24,52,55,22,host,arcC
2,gene-SAURSH1000_RS13180,22,25,41,35,38,29,40,39,29,...,17,5,8,5,2,7,8,0,host,vraE


../data/yang_2019/Yang_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,5_R1,5_R2,10_R1,10_R2,20_R1,20_R2,Entity,Symbol
0,gene-AUO97_RS17180,3,0,0,0,0,0,host,gene-AUO97_RS17180
1,gene-AUO97_RS08455,0,0,0,0,0,0,host,gene-AUO97_RS08455
2,gene-M172_gp35,3563,4180,29154,46956,157765,129184,phage,gene-M172_gp35


../data/kuptsov_2022/Kuptsov_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,5_R1,5_R2,5_R3,15_R1,15_R2,15_R3,30_R1,30_R2,30_R3,Entity,Symbol
0,gene-phage515_00114,1153,1335,1136,2599,2942,3765,5473,2715,2717,phage,tmpE
1,gene-Saur515_RS11170,635,651,703,221,195,360,208,162,115,host,gene-Saur515_RS11170
2,gene-Saur515_RS01200,1768,1892,1943,525,500,774,800,438,275,host,yycH


../data/guegler_2021/Guegler_T4_minusToxIN_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,2.5_R1,2.5_R2,5_R1,5_R2,10_R1,10_R2,20_R1,20_R2,30_R1,30_R2,Entity,Symbol
0,gene-b3655,319,1404,302,1470,61,671,40,451,25,310,26,123,host,yicH
1,gene-b1310,0,39,5,110,0,202,0,118,1,85,0,41,host,ycjN
2,gene-b1151,0,34,2,75,1,91,4,62,1,44,1,16,host,beeE


../data/guegler_2021/Guegler_T7_minusToxIN_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,2.5_R1,2.5_R2,5_R1,5_R2,10_R1,10_R2,20_R1,20_R2,30_R1,30_R2,Entity,Symbol
0,gene-b0378,1329,1319,845,1007,784,1017,677,689,343,362,371,430,host,yaiW
1,gene-b3128,132,155,81,109,61,106,82,79,50,67,40,136,host,garD
2,gene-b3532,356,352,222,245,223,274,177,158,95,88,95,230,host,bcsB


../data/guegler_2021/Guegler_T7_plusToxIN_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,2.5_R1,2.5_R2,5_R1,5_R2,10_R1,10_R2,20_R1,20_R2,30_R1,30_R2,Entity,Symbol
0,gene-b1217,442,580,420,275,181,275,95,158,74,25,82,105,host,chaB
1,gene-b0334,48,84,87,41,13,31,22,30,38,23,11,43,host,prpD
2,gene-b3462,5809,6065,5713,4870,2711,3927,2036,3535,1679,1088,826,980,host,ftsX


../data/guegler_2021/Guegler_T4_plusToxIN_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,2.5_R1,2.5_R2,5_R1,5_R2,10_R1,10_R2,20_R1,20_R2,30_R1,30_R2,Entity,Symbol
0,gene-b0629,207,24,137,26,74,10,49,1,49,2,107,3,host,ybeF
1,gene-b2919,62,13,72,12,40,6,34,3,41,4,92,0,host,scpB
2,gene-b4301,79,18,105,27,29,11,40,3,43,1,124,2,host,sgcE


../data/ceyssens_2014/Ceyssens_directional_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,5_R1,5_R2,15_R1,15_R2,35_R1,35_R2,Entity,Symbol
0,gene-PA1436,15,12,2,15,0,11,host,gene-PA1436
1,gene-PA0115,16,8,6,6,0,6,host,gene-PA0115
2,gene-PA0708,4,9,1,2,2,5,host,gene-PA0708


../data/ceyssens_2014/Ceyssens_non-directional_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,10_R1,10_R2,35_R1,35_R2,Entity,Symbol
0,gene-PA1715,3,22,0,0,0,1,host,pscB
1,gene-PA2803,7,2,0,0,0,0,host,gene-PA2803
2,gene-PA5220,7,7,0,0,0,0,host,gene-PA5220


../data/brandao_2021/Brandao_MCCM_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,5_R1,5_R2,10_R1,10_R2,15_R1,15_R2,Entity,Symbol
0,gene-PA2589,12,13,4,10,1,2,0,0,host,gene-PA2589
1,gene-PA4119,14,15,17,21,9,4,6,3,host,aph
2,gene-PA2246,30,21,9,21,1,2,0,2,host,bkdR


../data/brandao_2021/Brandao_LB_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,5_R1,5_R2,5_R3,10_R1,10_R2,10_R3,15_R1,15_R2,15_R3,Entity,Symbol
0,gene-PA2589,12,13,24,4,10,119,1,2,19,0,0,203,host,gene-PA2589
1,gene-PA4119,14,15,14,17,21,96,9,4,10,6,3,175,host,aph
2,gene-PA2246,30,21,8,9,21,101,1,2,8,0,2,72,host,bkdR


../data/lood_2020/Lood_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,0_R4,5_R1,5_R2,5_R3,15_R1,15_R2,15_R3,25_R1,25_R2,25_R3,Entity,Symbol
0,gene-PA2194,16,20,19,82,87,15,61,20,3,6,16,3,3,host,hcnB
1,gene-PA5386,12,16,17,32,30,12,11,6,3,6,30,4,2,host,cdhA
2,gene-PA2147,32,18,45,28,17,26,35,20,7,8,24,2,0,host,katE


../data/sprenger_2024/Sprenger_VC_WT_VP882_WT_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,30_R1,30_R2,30_R3,60_R1,60_R2,60_R3,Entity,Symbol
0,gene-VC_RS12620,702,959,830,897,1156,1063,780,980,675,host,astA
1,gene-VC_RS03065,265,354,301,413,520,414,254,895,228,host,gene-VC_RS03065
2,gene-VC_RS18015,268,421,397,280,387,310,318,339,201,host,gene-VC_RS18015


../data/sprenger_2024/Sprenger_VC_WT_VP882_delta_cpdS_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,30_R1,30_R2,30_R3,60_R1,60_R2,60_R3,Entity,Symbol
0,gene-VC_RS03415,135,164,164,152,175,133,225,264,310,host,gene-VC_RS03415
1,gene-VC_RS00480,481,527,612,375,522,411,408,601,600,host,gene-VC_RS00480
2,gene-VC_RS07910,646,725,780,640,1007,694,994,1165,1170,host,gene-VC_RS07910


../data/sprenger_2024/Sprenger_VC_delta_tdh_VP882_WT_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,15_R2,15_R3,60_R1,60_R2,60_R3,120_R1,120_R2,120_R3,Entity,Symbol
0,gene-VC_RS11855,702,820,902,881,962,978,843,1112,1030,1019,host,rnc
1,gene-VC_RS08875,619,788,926,875,641,541,580,563,505,514,host,ybgC
2,gene-VC_RS06875,1202,1273,1493,1552,1202,1201,1030,1120,976,1134,host,gene-VC_RS06875


../data/wolfram-schauerte_2022/Wolfram-Schauerte_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,1_R1,1_R2,1_R3,4_R2,4_R3,7_R1,7_R2,7_R3,20_R1,20_R2,20_R3,Entity,Symbol
0,gene-b1314,88,111,35,104,73,44,28,17,5,21,9,5,8,2,host,ycjR
1,gene-b1821,1691,3221,1202,6584,5665,3613,1001,1036,349,915,444,261,450,107,host,mntP
2,gene-b4418,2455,3266,1637,3663,2095,2670,868,1038,173,541,305,113,156,42,host,sraB


../data/meaden_2021/Meaden_BIM_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,bim-phage-35_R1,bim-phage-35_R2,bim-phage-35_R3,bim-phage-35_R4,bim-phage-35_R5,bim-phage-60_R1,bim-phage-60_R2,bim-phage-60_R3,bim-phage-60_R4,bim-phage-60_R5,bim-phage-120_R1,bim-phage-120_R2,bim-phage-120_R3,bim-phage-120_R4,bim-phage-120_R5,Entity,Symbol
0,gene-R0792_RS03340,1,4,5,4,9,5,0,4,5,3,6,8,2,3,6,host,pyk
1,gene-R0792_RS18895,29,62,98,43,164,93,69,99,102,61,83,157,79,85,77,host,gene-R0792_RS18895
2,gene-R0792_RS12615,46,55,101,74,126,85,57,81,78,99,69,132,67,60,76,host,gene-R0792_RS12615


../data/meaden_2021/Meaden_WT_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,wt-phage-35_R1,wt-phage-35_R3,wt-phage-35_R4,wt-phage-35_R5,wt-phage-60_R1,wt-phage-60_R2,wt-phage-60_R3,wt-phage-60_R4,wt-phage-120_R1,wt-phage-120_R2,wt-phage-120_R3,wt-phage-120_R4,Entity,Symbol
0,gene-R0792_RS21710,57,52,80,53,14,40,56,46,88,44,60,42,host,aroE
1,gene-R0792_RS24955,111,118,135,102,47,150,113,79,135,67,133,91,host,gene-R0792_RS24955
2,gene-R0792_RS22780,4,4,6,4,0,5,7,5,11,4,7,8,host,gene-R0792_RS22780


../data/zhong_2020/Zhong_full_raw_counts_cleaned.tsv


Unnamed: 0,Geneid,0_R1,0_R2,0_R3,6_R1,6_R2,6_R3,12_R1,12_R2,12_R3,18_R1,18_R2,18_R3,Entity,Symbol
0,gene-PA3733a,231,281,367,151,345,178,64,112,99,117,125,184,host,gene-PA3733a
1,gene-PA2175,0,0,0,0,0,0,0,0,0,0,0,0,host,gene-PA2175
2,gene-PA3190,486,450,561,145,122,338,124,96,646,149,112,376,host,gene-PA3190
