# Klassifikationsschema für Phagen-Gene
In Einstimmung mit der Vorgehensweise der Einteilung der jeweiligen Studien wird der Zeitpunkt des maximalen Expressionscounts verwendet, um ein Gen der frühen/mittleren/späten Infektionsphase zuzuordnen.
## Lood Pseudomonas_phage_vB_PaeM_PA5oct
In Übereinstimmung mit den Ergebnissen von Drulis-Kawa und Kollegen (2014) wurde in der Studie berechnet, dass PA5oct eine Latenzzeit von etwas über 40 Minuten und eine Burstgröße von etwa 30–40 Phagenpartikeln pro infizierter Bakterienzelle aufweist. Basierend auf diesen Parametern wurden die Zeitpunkte 5, 15 und 25 Minuten als Stellvertreter für die frühe, mittlere und späte Infektionsphase ausgewählt ([Studie Lood 2020](https://enviromicro-journals.onlinelibrary.wiley.com/doi/10.1111/1462-2920.14979)).

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 5 Minuten

mittel: max. Expressionswert bei 15 Minuten

spät: max. Expressionswert bei 25 Minuten
## Yang Acinetobacter_phage_Abp1
Es wurden in der Studie die Zeitpunkte 5min, 10min und 20min gewählt. Dabei wurde festgestellt, dass early Gene einen peak haben zum Zeitpunkt 5min, middle Gene zum Zeitpunkt 10min und late Gene zum Zeitpunkt 20min ([Studie Yang 2019](https://discord.com/channels/@me/1302293363571163198/1374737539889631314)).

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 5 Minuten

middle: max. Expressionswert bei 10 Minuten

late: max. Expressionswert bei 20 Minuten
## Finstrlova Staphylococcus_phage_K
Es wurden in der Studie die Zeitpunkte 2min, 5min, 10min, 20min und 30min zur Probenentnahme gewählt. Es wurde detektiert, dass die early Gene ihren peak im Zeitraum bis zu 10min annehmen, die middle Gene zwischen 10 und 20min (dabei peak näher an 20min) und die late Gene ab 30min ([Studie Finstrlova 2022](https://discord.com/channels/1302284609920303215/1302284610398322750/1374737353700016158)).

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 2, 5, 10 Minuten

middle: max. Expressionswert bei 20 Minuten

late: max. Expressionswert bei 30 Minuten
## Brandao Pseudomonas_phage_LUZ19
Es wurden in der Studie die repräsentativen Zeitwerte 5min (early), 10min(middle) und 15min(late) zur Probenentnahme gewählt ([Studie Brandao 2021](https://discord.com/channels/1302284609920303215/1302284610398322750/1374738735530377297)). Dieses Klassifikationsschema wird hier übernommen.

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 5 Minuten

middle: max. Expressionswert bei 10 Minuten

late: max. Expressionswert bei 15 Minuten
## Guegler Enterobacteria_phage_T4 without ToxIN
Nach der Studie ([Guegler 2021](https://www.sciencedirect.com/science/article/pii/S1097276521002227?via%3Dihub)) lassen sich Phagen-Gene wie folgt nach Expressionscount-peak einteilen: early 0-5min, middle 5-10min, late 10-20min. Dabei zählt 5min bereits zu middle und 10min bereits zu late.

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 2.5 Minuten

middle: max. Expressionswert bei 5 Minuten

late: max. Expressionswert bei 10, 20, 30 Minuten
## Guegler Enteriobacteria_phage_T7 with ToxIN
Nach der Studie ([Guegler 2021](https://www.sciencedirect.com/science/article/pii/S1097276521002227?via%3Dihub)) hat die Verwendung von ToxIN keinen Einfluss auf dden Expressionspeak der Phagengene, weshalb dasselbe Schema zur Klassifikation wie ohne ToxIN verwendet wird. ([referenzierter Artikel](https://discord.com/channels/@me/1302293363571163198/1375075190282649620))

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 2.5 Minuten

middle: max. Expressionswert bei 5 Minuten

late: max. Expressionswert bei 10, 20, 30 Minuten
## Sprenger Vibrio_phage_VP882
In der Studie wird keine Klassifikation der Phagengene in früh, mittel und spät vorgenommen ([Sprenger 2024](https://www.sciencedirect.com/science/article/pii/S1931312824000908?via%3Dihub)).
Da die letzte Probenentnahme dem Zeitpunkt 60min entspricht und der Lyse des Hosts können Gene, die zu diesem Zeitpunkt stark exprimiert werden, als late Gene klassifiziert werden. Bei der Hälfte der Zeit (30min) werden Gene, die zu diesem Zeitpunkt stark exprimiert werden als middle klassifiziert.

Das Klassifikationsschema für Gene aus diesem Datensatz ist also:

früh: max. Expressionswert bei 0 Minuten

middle: max. Expressionswert bei 30 Minuten

late: max. Expressionswert bei 60 Minuten





In [None]:
import pandas as pd
from pathlib import Path
import os, re

# Daten in dataframes laden
input_path = Path("../data/filtered")
datasets = []
for file in input_path.glob("*.tsv"):
    df = pd.read_csv(file, sep="\t")
    datasets.append((df, file.stem))


def average_runs(df):
    # Dict für timepoints
    timepoint_groups = {}
    averaged_data = pd.DataFrame()

    # Runs mit gleichen Timepoints sammeln (vor "_R")
    for col in df.columns:
        match = re.match(r"(.+)_R\d+", col)
        if match:
            timepoint = match.group(1)
            timepoint_groups.setdefault(timepoint, []).append(col)
        else:
            averaged_data[col] = df[col]

    # Mittelwerte berechnen
    for timepoint, cols in timepoint_groups.items():
        averaged_data[timepoint + "_T"] = df[cols].mean(axis=1)

    return averaged_data


filtered_dateien = []
for df, filename in datasets:
    new_df = average_runs(df)
    filtered_dateien.append((new_df, filename))

print(filtered_dateien[0][0])

          Geneid Entity               Symbol  relative changes  \
0    gene-T4p066  phage                 55.1          3.007304   
1    gene-T4p122  phage                ipIII          2.190032   
2    gene-T4p143  phage                   53          1.249729   
3    gene-T4p252  phage                   37          1.339287   
4    gene-T4p127  phage                  e.4          2.734500   
..           ...    ...                  ...               ...   
283  gene-T4p187  phage                 uvsY          0.902409   
284  gene-T4p078  phage  gene-T4p078_gene_49          1.535151   
285  gene-T4p263  phage               motA.1          1.116483   
286  gene-T4p191  phage                   51          1.407666   
287  gene-T4p150  phage                  5.4          1.098025   

     negligible changes  Genes with too high Zero count  Outlier       0_T  \
0                     0                               0        0  0.000000   
1                     0                            

In [None]:
import pandas as pd
from pathlib import Path
import os

# input_folder = Path("../data/filtered")
# filtered_dateien = list(input_folder.glob("*.tsv"))
# print(filtered_dateien)


def classify_timepoint(col, datei):
    if "Lood" in datei:
        if col.startswith("5_"):
            return "early"
        elif col.startswith("15_"):
            return "middle"
        elif col.startswith("25_"):
            return "late"
        else:
            return None
    if "Yang" in datei:
        if col.startswith("5_"):
            return "early"
        elif col.startswith("10_"):
            return "middle"
        elif col.startswith("20_"):
            return "late"
        else:
            return None
    if "Finstrlova" in datei:
        if any(col.startswith(tp) for tp in ["2_", "5_", "10_"]):
            return "early"
        elif col.startswith("20_"):
            return "middle"
        elif col.startswith("30_"):
            return "late"
        else:
            return None
    if "Brandao" in datei:
        if col.startswith("5_"):
            return "early"
        elif col.startswith("10_"):
            return "middle"
        elif col.startswith("15_"):
            return "late"
        else:
            return None

    if "Guegler_T4" in datei:
        if col.startswith("2.5_"):
            return "early"
        elif col.startswith("5_"):
            return "middle"
        elif any(col.startswith(tp) for tp in ["10_", "20_", "30_"]):
            return "late"
        else:
            return None

    if "Guegler_T7" in datei:
        if col.startswith("2.5_"):
            return "early"
        elif col.startswith("5_"):
            return "middle"
        elif any(col.startswith(tp) for tp in ["10_", "20_", "30_"]):
            return "late"
        else:
            return None

    if "Sprenger" in datei:
        if col.startswith("0_"):
            return "early"
        elif col.startswith("30_"):
            return "middle"
        elif col.startswith("60_"):
            return "late"
        else:
            return None


def save_table(df, original_path, suffix="_classified.tsv"):
    """
    speichert DataFrame im Ordner data/classified als _marked.tsv
    """
    outdir = "../data/classified"
    os.makedirs(outdir, exist_ok=True)
    basename = os.path.basename(original_path)
    outname = os.path.join(outdir, basename.replace(".tsv", suffix))
    df.to_csv(outname, sep="\t", index=False, encoding="utf-8")
    return outname


output_path = Path("../data/classified")
output_path.mkdir(exist_ok=True)
for df, filename in filtered_dateien:
    # count_table = pd.read_csv(datei, sep="\t")

    # Finde alle Spalten, die zu Zeitpunkten gehören (enthalten "R" im Namen)
    timepoint_cols = [col for col in df.columns if "_T" in col]

    # Für jede Zeile: Finde die Spalte mit dem höchsten Wert, klassifiziere sie
    max_col = df[timepoint_cols].idxmax(axis=1)
    classification = max_col.apply(lambda z: classify_timepoint(z, filename))
    df["classification"] = classification

    # Datei speichern
    df.to_csv(output_path / (filename + "_classified.tsv"), sep="\t", index=False)
