In [10]:
import os
import subprocess
import pandas as pd


def split_fasta(fasta_file, output_dir):

    if not os.path.exists(output_dir):
        os.makedirs(output_dir)

    with open(fasta_file, 'r') as file:
        seq = ""
        header = ""
        file_count = 0
        sequences = []

        for line in file:
            line = line.strip()
            if line.startswith(">"):
                if seq:  # Snimi prethodnu sekvencu u listu
                    sequences.append((header, seq))
                header = line[1:]
                seq = ""
            else:
                seq += line
        if seq:  # Dodaj poslednju sekvencu
            sequences.append((header, seq))

        # Generiši fajlove sa vodećim nulama
        total_sequences = len(sequences)
        digits = len(str(total_sequences))  # Broj cifara za vodeće nule

        for i, (header, seq) in enumerate(sequences, start=1):
            file_count += 1
            output_file = os.path.join(output_dir, f"seq_{i:0{digits}d}.fasta")
            with open(output_file, 'w') as out_file:
                out_file.write(f">{header}\n{seq}\n")

    print(f"FASTA file split into {file_count} smaller files in {output_dir}.")


def run_isunstruct_on_files(output_dir):
    """
    Pokreće IsUnstruct za svaki pojedinačni FASTA fajl u datom direktorijumu.
    """
    results = []
    fasta_files = sorted([f for f in os.listdir(output_dir) if f.endswith('.fasta')])

    for i, fasta_file in enumerate(fasta_files, 1):
        file_path = os.path.join(output_dir, fasta_file)
        print(f"Processing {i}/{len(fasta_files)}: {fasta_file}")

        try:
            result = subprocess.run(
                ["/home/user/Desktop/IP2/IsUnstruct_2.02/IsUnstruct", "-use_pattern", "2", "-long_disp", "1", "-file_save", "1", file_path],
                stdout=subprocess.PIPE,
                stderr=subprocess.PIPE,
                text=True
            )
            if result.stderr:
                print(f"Warning: {result.stderr.strip()}")
            results.append((fasta_file, result.stdout))
        except Exception as e:
            print(f"Error processing {fasta_file}: {e}")

    return results


def parse_isunstruct_output(isunstruct_output):
    lines = isunstruct_output.splitlines()
    results = []

    if lines[0].startswith("# IsUnstruct") and "long format" in lines[0]:
        results = parse_long_format(lines)
    elif lines[0].startswith("# IsUnstruct") and "short format" in lines[0]:
        results = parse_short_format(lines)
    else:
        raise ValueError("Nepoznat format izlaza.")

    return results
  

def create_dataframe_from_results(results):
    """
    Kreira DataFrame sa informacijama o sekvencama, uključujući pozicije,
    aminokiseline, skorove i klasifikacije.
    """
    rows = []
    for file_name, output in results:
        try:
            parsed_results = parse_isunstruct_output(output)
            print(f"Broj redova za {file_name}: {len(parsed_results)}")
            for parsed_result in parsed_results:
                rows.append({
                    "Ime fajla": file_name,
                    "Pozicija": parsed_result["Pozicija"],
                    "Aminokiselina": parsed_result["Aminokiselina"],
                    "IsUnstruct rezultat": parsed_result["Verovatnoća"],
                    "Klasifikacija": parsed_result["Klasifikacija"]
                })
        except Exception as e:
            print(f"Greška u obradi izlaza za {file_name}: {e}")

    print(f"Ukupan broj redova u DataFrame-u: {len(rows)}")
    return pd.DataFrame(rows)

def parse_long_format(lines):
    results = []
    for line in lines:
        line = line.strip()
        if line and not line.startswith("#"):  # Ignoriši komentare
            parts = line.split()
            try:
                # Ako linija sadrži tačno 4 vrednosti
                if len(parts) == 4:
                    position = int(parts[0])  # Pozicija
                    amino_acid = parts[1]  # Aminokiselina
                    state = parts[2]  # Stanje (U ili P)
                    probability = float(parts[3])  # Verovatnoća

                    classification = "neuređena" if probability > 0.5 else "uređena"
                    
                    results.append({
                        "Pozicija": position,
                        "Aminokiselina": amino_acid,
                        "Stanje": state,
                        "Verovatnoća": probability,
                        "Klasifikacija": classification
                    })
                elif len(parts) > 4:
                    position = int(parts[0])  # Pozicija
                    amino_acid = parts[1]  # Aminokiselina
                    state = parts[3]  # Stanje (U ili P)
                    probability = float(parts[4])  # Verovatnoća

                    # Ispisujemo dodatne vrednosti koje ignoriramo
                    if len(parts) > 4:
                        print(f"Ignorisano: {parts[2:]}")  # Dodaj ispis da vidiš šta je preostalo
                        
                    classification = "neuređena" if probability > 0.5 else "uređena"
                    
                    results.append({
                        "Pozicija": position,
                        "Aminokiselina": amino_acid,
                        "Stanje": state,
                        "Verovatnoća": probability,
                        "Klasifikacija": classification
                    })
                else:
                    print(f"Warning: Ignoring invalid line: {line}")
            except ValueError:
                print(f"Invalid line ignored: {line}")
    return results

def parse_short_format(lines):
    results = []
    sequence, state, probability = "", "", ""

    for line in lines:
        if line.startswith("sequence"):
            sequence = line.split()[1].replace(" ", "")  # Uklanjanje razmaka
        elif line.startswith("state"):
            state = line.split()[1].replace(" ", "")  # Uklanjanje razmaka
        elif line.startswith("probability"):
            probability = line.split()[1].replace(" ", "")  # Uklanjanje razmaka
        elif line.strip() == "":
            if sequence and state and probability:
                for j, (aa, s, prob) in enumerate(zip(sequence, state, probability)):
                    classification = "neuređena" if s == "U" else "uređena"
                    try:
                        prob_value = float(prob)
                    except ValueError:
                        prob_value = -1  # Nepoznata verovatnoća
                    results.append({
                        "Pozicija": j + 1,
                        "Aminokiselina": aa,
                        "Stanje": s,
                        "Verovatnoća": prob_value,
                        "Klasifikacija": classification
                    })
            sequence, state, probability = "", "", ""

    return results


def main_with_splitting():
    fasta_file = "/home/user/Desktop/IP2/IsUnstruct_2.02/sequences_marburg.fasta"
    output_dir = "/home/user/Desktop/IP2/IsUnstruct_2.02/split_sequences_marburg"

    split_fasta(fasta_file, output_dir)
    results = run_isunstruct_on_files(output_dir)
    df = create_dataframe_from_results(results)

    print(df.head(20))
    df.to_csv("/home/user/Desktop/IP2/IsUnstruct_2.02/isunstruct_results.csv", index=False)
    print("Rezultati su sačuvani u CSV fajl.")


# Pokretanje glavne funkcije
main_with_splitting()


FASTA file split into 630 smaller files in /home/user/Desktop/IP2/IsUnstruct_2.02/split_sequences_marburg.
Processing 1/630: seq_001.fasta
Processing 2/630: seq_002.fasta
Processing 3/630: seq_003.fasta
Processing 4/630: seq_004.fasta
Processing 5/630: seq_005.fasta
Processing 6/630: seq_006.fasta
Processing 7/630: seq_007.fasta
Processing 8/630: seq_008.fasta
Processing 9/630: seq_009.fasta
Processing 10/630: seq_010.fasta
Processing 11/630: seq_011.fasta
Processing 12/630: seq_012.fasta
Processing 13/630: seq_013.fasta
Processing 14/630: seq_014.fasta
Processing 15/630: seq_015.fasta
Processing 16/630: seq_016.fasta
Processing 17/630: seq_017.fasta
Processing 18/630: seq_018.fasta
Processing 19/630: seq_019.fasta
Processing 20/630: seq_020.fasta
Processing 21/630: seq_021.fasta
Processing 22/630: seq_022.fasta
Processing 23/630: seq_023.fasta
Processing 24/630: seq_024.fasta
Processing 25/630: seq_025.fasta
Processing 26/630: seq_026.fasta
Processing 27/630: seq_027.fasta
Processing 

Processing 244/630: seq_244.fasta
Processing 245/630: seq_245.fasta
Processing 246/630: seq_246.fasta
Processing 247/630: seq_247.fasta
Processing 248/630: seq_248.fasta
Processing 249/630: seq_249.fasta
Processing 250/630: seq_250.fasta
Processing 251/630: seq_251.fasta
Processing 252/630: seq_252.fasta
Processing 253/630: seq_253.fasta
Processing 254/630: seq_254.fasta
Processing 255/630: seq_255.fasta
Processing 256/630: seq_256.fasta
Processing 257/630: seq_257.fasta
Processing 258/630: seq_258.fasta
Processing 259/630: seq_259.fasta
Processing 260/630: seq_260.fasta
Processing 261/630: seq_261.fasta
Processing 262/630: seq_262.fasta
Processing 263/630: seq_263.fasta
Processing 264/630: seq_264.fasta
Processing 265/630: seq_265.fasta
Processing 266/630: seq_266.fasta
Processing 267/630: seq_267.fasta
Processing 268/630: seq_268.fasta
Processing 269/630: seq_269.fasta
Processing 270/630: seq_270.fasta
Processing 271/630: seq_271.fasta
Processing 272/630: seq_272.fasta
Processing 273

Processing 493/630: seq_493.fasta
Processing 494/630: seq_494.fasta
Processing 495/630: seq_495.fasta
Processing 496/630: seq_496.fasta
Processing 497/630: seq_497.fasta
Processing 498/630: seq_498.fasta
Processing 499/630: seq_499.fasta
Processing 500/630: seq_500.fasta
Processing 501/630: seq_501.fasta
Processing 502/630: seq_502.fasta
Processing 503/630: seq_503.fasta
Processing 504/630: seq_504.fasta
Processing 505/630: seq_505.fasta
Processing 506/630: seq_506.fasta
Processing 507/630: seq_507.fasta
Processing 508/630: seq_508.fasta
Processing 509/630: seq_509.fasta
Processing 510/630: seq_510.fasta
Processing 511/630: seq_511.fasta
Processing 512/630: seq_512.fasta
Processing 513/630: seq_513.fasta
Processing 514/630: seq_514.fasta
Processing 515/630: seq_515.fasta
Processing 516/630: seq_516.fasta
Processing 517/630: seq_517.fasta
Processing 518/630: seq_518.fasta
Processing 519/630: seq_519.fasta
Processing 520/630: seq_520.fasta
Processing 521/630: seq_521.fasta
Processing 522

Broj redova za seq_095.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_096.fasta: 281
Broj redova za seq_097.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_098.fasta: 2331
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_099.fasta: 2327
Broj redova za seq_100.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.

Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_206.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_207.fasta: 281
Broj redova za seq_208.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_209.fasta: 2331
Broj redova za seq_210.fasta: 695
Broj redova za seq_211.fasta: 329
Broj redova za seq_212.fasta: 303
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1

Broj redova za seq_272.fasta: 2331
Broj redova za seq_273.fasta: 695
Broj redova za seq_274.fasta: 329
Broj redova za seq_275.fasta: 303
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_276.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_277.fasta: 281
Broj redova za seq_278.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_279.fa

Broj redova za seq_338.fasta: 303
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_339.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_340.fasta: 281
Broj redova za seq_341.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_342.fasta: 2331
Broj redova za seq_343.fasta: 695
Broj redova za seq_344.fasta: 329
Broj redova za seq_345.fa

Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_405.fasta: 2331
Broj redova za seq_406.fasta: 695
Broj redova za seq_407.fasta: 329
Broj redova za seq_408.fasta: 303
Broj redova za seq_409.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_410.fasta: 281
Broj redova za seq_411.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_412.fasta: 2327
Broj redova za seq_413.fasta: 695
Broj redova za seq_414.fasta: 329
Broj redova za seq

Broj redova za seq_539.fasta: 2331
Broj redova za seq_540.fasta: 695
Broj redova za seq_541.fasta: 329
Broj redova za seq_542.fasta: 303
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_543.fasta: 681
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_544.fasta: 281
Broj redova za seq_545.fasta: 253
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U', 'P', '1.000']
Broj redova za seq_546.fasta: 2331
Broj redova za seq_547.fasta: 695
Broj redova za seq_548.fasta: 329
Broj redova za seq_549.fasta: 303
Ignorisano: ['U', 'P', '1.000']
Ignorisano: ['U'

        Ime fajla  Pozicija Aminokiselina  IsUnstruct rezultat Klasifikacija
0   seq_001.fasta         1             M                0.974     neuređena
1   seq_001.fasta         2             D                0.922     neuređena
2   seq_001.fasta         3             L                0.847     neuređena
3   seq_001.fasta         4             H                0.813     neuređena
4   seq_001.fasta         5             S                0.779     neuređena
5   seq_001.fasta         6             L                0.714     neuređena
6   seq_001.fasta         7             L                0.686     neuređena
7   seq_001.fasta         8             E                0.682     neuređena
8   seq_001.fasta         9             L                0.663     neuređena
9   seq_001.fasta        10             G                0.666     neuređena
10  seq_001.fasta        11             T                0.666     neuređena
11  seq_001.fasta        12             K                0.665     neuređena