In [None]:
import os
import subprocess
import pandas as pd

# Podela FASTA fajla na pojedinačne fajlove
def split_fasta_vsl2b(fasta_file, output_dir):
    """
    Podeli FASTA fajl na pojedinačne fajlove, gde svaki fajl sadrži jednu sekvencu.
    """
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    with open(fasta_file, 'r') as file:
        seq = ""
        header = ""
        file_count = 0
        sequences = []
        
        for line in file:
            line = line.strip()
            if line.startswith(">"):
                if seq:  # Snimi prethodnu sekvencu u listu
                    sequences.append((header, seq))
                header = line[1:]
                seq = ""
            else:
                seq += line
        if seq:  # Dodaj poslednju sekvencu
            sequences.append((header, seq))
        
        # Generiši fajlove sa vodećim nulama
        total_sequences = len(sequences)
        digits = len(str(total_sequences))  # Broj cifara za vodeće nule
        
        for i, (header, seq) in enumerate(sequences, start=1):
            file_count += 1
            output_file = os.path.join(output_dir, f"seq_{i:0{digits}d}.fasta")
            with open(output_file, 'w') as out_file:
                out_file.write(f">{header}\n{seq}\n")
    
    print(f"FASTA file split into {file_count} smaller files in {output_dir}.")



In [None]:
# Pokretanje VSL2B za svaki fajl
def run_vsl2b_on_files(output_dir):
    """
    Pokreće VSL2B za svaki pojedinačni FASTA fajl u datom direktorijumu.
    """
    results = []
    fasta_files = sorted([f for f in os.listdir(output_dir) if f.endswith('.fasta')])
    
    for i, fasta_file in enumerate(fasta_files, 1):
        file_path = os.path.join(output_dir, fasta_file)
        print(f"Processing {i}/{len(fasta_files)}: {fasta_file}")
        
        try:
            result = subprocess.run(
                ['java', '-jar', 'VSL2.jar', f'-s:{file_path}'],  # Prilagoditi putanju do JAR fajla
                stdout=subprocess.PIPE,
                stderr=subprocess.PIPE,
                text=True
            )
            if result.stderr:
                print(f"Warning: {result.stderr.strip()}")
            results.append((fasta_file, result.stdout))
        except Exception as e:
            print(f"Error processing {fasta_file}: {e}")
    
    return results

In [None]:
# Parsiranje izlaza iz VSL2B
def parse_vsl2b_output(vsl2b_output):
    """
    Parsira izlaz iz VSL2B programa i klasifikuje svaku poziciju u sekvenci kao 'urednu' ili 'neurednu'.
    """
    results = []
    for line in vsl2b_output.splitlines():
        if line.strip() and not line.startswith("Prediction Scores"):
            parts = line.split()
            if len(parts) >= 3:
                pos = int(parts[0])  # Pozicija
                amino_acid = parts[1]  # Aminokiselina
                score = float(parts[2])  # VSL2B score
                classification = "uredjena" if score <= 0.5 else "neuredjena"
                results.append((pos, amino_acid, score, classification))
    return results

In [None]:
# Kreiranje dataframe-a
def create_dataframe_from_vsl2b_results(results):
    """
    Kreira DataFrame sa informacijama o sekvencama, uključujući pozicije,
    aminokiseline, skorove i klasifikacije.
    """
    rows = []
    for file_name, output in results:
        parsed_results = parse_vsl2b_output(output)
        for pos, amino_acid, score, classification in parsed_results:
            rows.append({
                "Ime fajla": file_name,
                "Pozicija": pos,
                "Aminokiselina": amino_acid,
                "VSL2B rezultat": score,
                "Klasifikacija": classification
            })
    return pd.DataFrame(rows)

In [None]:
# Glavna funkcija
def main_with_vsl2b():
    """
    Glavna funkcija za podelu FASTA fajla, pokretanje VSL2B i generisanje tabele.
    """
    fasta_file = "/putanja/do/fasta/sequences_marburg.fasta"  # Prilagoditi putanju do FASTA fajla
    output_dir = "/putanja/do/izlaznog/foldera/split_sequences_vsl2b"  # Prilagoditi izlazni folder
    
    # Podela velikog FASTA fajla
    split_fasta_vsl2b(fasta_file, output_dir)
    
    # Pokretanje VSL2B na podeljenim fajlovima
    results = run_vsl2b_on_files(output_dir)
    
    # Kreiranje DataFrame-a
    df = create_dataframe_from_vsl2b_results(results)
    return df

In [None]:
# Pokretanje i čuvanje rezultata
df_results = main_with_vsl2b()

# Prikazivanje prvih 5 redova
print(df_results.head())

# Čuvanje rezultata u CSV fajl
df_results.to_csv("/putanja/do/izlaznog/foldera/vsl2b_results_marburg.csv", index=False)  # Prilagoditi izlaznu putanju