In [1]:
from pathlib import Path
import pandas as pd
from sklearn.model_selection import train_test_split

# прочитаем fna файлы

def read_fna_file(file_path):
    sequences = []
    labels = []

    current_label = None
    current_seq = []

    with open(file_path, "r") as f:
        for line in f:
            line = line.strip()
            if line.startswith(">"):
                if current_seq:
                    sequences.append("".join(current_seq))
                    labels.append(int(current_label.split("|")[-1]))
                    current_seq = []
                current_label = line[1:]
            else:
                current_seq.append(line)

        if current_seq:
            sequences.append("".join(current_seq))
            labels.append(int(current_label.split("|")[-1]))

    return sequences, labels

In [2]:
RAW_DIR = Path.cwd().resolve().parent / "data" / "raw"
OUT_DIR = Path.cwd().resolve().parent / "data" / "processed"

for task_dir in RAW_DIR.iterdir():
    if not task_dir.is_dir():
        continue

    print(f"Processing task: {task_dir.name}")
    out_task_dir = OUT_DIR / task_dir.name
    out_task_dir.mkdir(parents=True, exist_ok=True)

    # train split
    train_path = task_dir / "train.fna"
    
    if train_path.exists():
        train_seqs, train_labels = read_fna_file(train_path)
        train_seqs, val_seqs, train_labels, val_labels = train_test_split(
            train_seqs, train_labels, test_size = 0.2, random_state = 42
        )
        print(f"Число объектов в train выборке: {len(train_seqs)}, уникальные классы: {set(train_labels)}")
        print(f"Число объектов в val выборке: {len(val_seqs)}, уникальные классы: {set(val_labels)}")

        pd.DataFrame({"sequence" : train_seqs, "label" : train_labels}).to_csv(out_task_dir / "train.csv", index = False)
        pd.DataFrame({"sequence" : val_seqs, "label" : val_labels}).to_csv(out_task_dir / "val.csv", index = False)

    # test split
    test_path = task_dir / "test.fna"
    
    if test_path.exists():
        test_seqs, test_labels = read_fna_file(test_path)
        print(f"Число объектов в test выборке: {len(test_seqs)}, уникальные классы: {set(test_labels)}")
        pd.DataFrame({"sequence" : test_seqs, "label" : test_labels}).to_csv(out_task_dir / "test.csv", index = False)

    print(f"Сделано: {task_dir.name}")

Processing task: H4K20me1
Число объектов в train выборке: 24000, уникальные классы: {0, 1}
Число объектов в val выборке: 6000, уникальные классы: {0, 1}
Число объектов в test выборке: 2270, уникальные классы: {0, 1}
Сделано: H4K20me1
Processing task: promoter_tata
Число объектов в train выборке: 4049, уникальные классы: {0, 1}
Число объектов в val выборке: 1013, уникальные классы: {0, 1}
Число объектов в test выборке: 212, уникальные классы: {0, 1}
Сделано: promoter_tata
Processing task: H3K27ac
Число объектов в train выборке: 24000, уникальные классы: {0, 1}
Число объектов в val выборке: 6000, уникальные классы: {0, 1}
Число объектов в test выборке: 1616, уникальные классы: {0, 1}
Сделано: H3K27ac
Processing task: H3K4me1
Число объектов в train выборке: 24000, уникальные классы: {0, 1}
Число объектов в val выборке: 6000, уникальные классы: {0, 1}
Число объектов в test выборке: 3000, уникальные классы: {0, 1}
Сделано: H3K4me1
Processing task: H3K4me3
Число объектов в train выборке: 139