In [59]:
import os

def split_fasta_vsl2b(fasta_file, output_dir):
    """
    Podeli FASTA fajl na pojedinačne fajlove, uklanjajući zaglavlja i prazne linije između sekvenci.
    """
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    with open(fasta_file, 'r') as file:
        seq = ""
        file_count = 0
        sequences = []
        
        for line in file:
            line = line.strip()
            if line.startswith(">"):
                if seq.strip():  # Ako postoji prethodna sekvenca, dodaj je u listu
                    sequences.append(seq)
                seq = ""  # Resetuj sekvencu za novu
            else:
                seq += line
        if seq.strip():  # Dodaj poslednju sekvencu
            sequences.append(seq)

        # Generiši fajlove sa sekvencama
        total_sequences = len(sequences)
        digits = len(str(total_sequences))  # Broj cifara za formatiranje imena fajlova
        
        for i, seq in enumerate(sequences, start=1):
            if not seq.strip():  # Preskoči prazne sekvence
                print(f"Skipping empty sequence {i}")
                continue
            file_count += 1
            output_file = os.path.join(output_dir, f"seq_{i:0{digits}d}.fasta")
            with open(output_file, 'w') as out_file:
                out_file.write(seq)  # Upisuje samo sekvencu bez zaglavlja
    
    print(f"FASTA file split into {file_count} smaller files in {output_dir}.")


In [60]:
# Pokretanje VSL2B za svaki fajl
def run_vsl2b_on_files(output_dir):
    """
    Pokreće VSL2B za svaki pojedinačni FASTA fajl u datom direktorijumu.
    """
    results = []
    fasta_files = sorted([f for f in os.listdir(output_dir) if f.endswith('.fasta')])
    
    for i, fasta_file in enumerate(fasta_files, 1):
        file_path = os.path.join(output_dir, fasta_file)
        print(f"Processing {i}/{len(fasta_files)}: {fasta_file}")
        
        # Otvorite FASTA fajl i proverite svaku sekvencu
        with open(file_path, 'r') as file:
            header = ""
            seq = ""
            for line in file:
                line = line.strip()
                if line.startswith(">"):
                    if seq.strip():  # Ako sekvenca nije prazna
                        try:
                            check_sequence(seq)  # Proverite validnost sekvence
                        except ValueError as e:
                            print(f"Skipping {fasta_file}: {e}")
                            seq = ""  # Resetujte sekvencu
                            continue
                    header = line[1:]
                    seq = ""
                else:
                    seq += line
            # Proverite poslednju sekvencu
            if seq.strip():
                try:
                    check_sequence(seq)
                except ValueError as e:
                    print(f"Skipping {fasta_file}: {e}")
                    continue
                
        try:
            result = subprocess.run(
                ['java', '-jar', '/home/pc/Desktop/VSL2/VSL2.jar', f'-s:{file_path}'], 
                stdout=subprocess.PIPE,
                stderr=subprocess.PIPE,
                text=True
            )
            if result.stderr:
                print(f"Warning: {result.stderr.strip()}")
            results.append((fasta_file, result.stdout))
        except Exception as e:
            print(f"Error processing {fasta_file}: {e}")
    
    return results



In [69]:
# Parsiranje izlaza iz VSL2B
def parse_vsl2b_output(vsl2b_output):
    """
    Parsira izlaz iz VSL2B programa i klasifikuje svaku poziciju u sekvenci kao 'urednu' ili 'neurednu'.
    """
    results = []
    for line in vsl2b_output.splitlines():
        line = line.strip()
        # Preskoči linije koje nisu podaci o sekvenci
        if not line or line.startswith("Prediction Scores") or line.startswith("VSL2") or line.startswith("Center"):
            continue
        parts = line.split()
        if len(parts) >= 3:
            try:
                pos = int(parts[0])  # Pozicija
                amino_acid = parts[1]  # Aminokiselina
                score = float(parts[2])  # VSL2B score
                classification = "uređena" if score <= 0.5 else "neuređena"
                results.append((pos, amino_acid, score, classification))
            except ValueError:
                # Ignoriši linije koje ne mogu da se parsiraju
                print(f"Skipping invalid line: {line}")
                continue
    return results


In [70]:
# Kreiranje dataframe-a
def create_dataframe_from_vsl2b_results(results):
    """
    Kreira DataFrame sa informacijama o sekvencama, uključujući pozicije,
    aminokiseline, skorove i klasifikacije.
    """
    rows = []
    for file_name, output in results:
        parsed_results = parse_vsl2b_output(output)
        for pos, amino_acid, score, classification in parsed_results:
            rows.append({
                "Ime fajla": file_name,
                "Pozicija": pos,
                "Aminokiselina": amino_acid,
                "VSL2B rezultat": score,
                "Klasifikacija": classification
            })
    return pd.DataFrame(rows)

In [71]:
# Glavna funkcija
def main_with_vsl2b():
    """
    Glavna funkcija za podelu FASTA fajla, pokretanje VSL2B i generisanje tabele.
    """
    fasta_file = "/home/pc/Desktop/Istrazivanje-podataka-2/Podaci/sequences_marburg.fasta"  
    output_dir = "/home/pc/Desktop/Istrazivanje-podataka-2/VSL2_parsiranje/split_sequences_vsl2b"  
    
    # Podela velikog FASTA fajla
    split_fasta_vsl2b(fasta_file, output_dir)
    
    # Pokretanje VSL2B na podeljenim fajlovima
    results = run_vsl2b_on_files(output_dir)
    
    # Kreiranje DataFrame-a
    df = create_dataframe_from_vsl2b_results(results)
    return df

In [72]:
# Pokretanje i čuvanje rezultata
df_results = main_with_vsl2b()

# Prikazivanje prvih 5 redova
print(df_results.head())

# Čuvanje rezultata u CSV fajl
df_results.to_csv("/home/pc/Desktop/Istrazivanje-podataka-2/VSL2_parsiranje/vsl2b_results_marburg.csv", index=False)

FASTA file split into 630 smaller files in /home/pc/Desktop/Istrazivanje-podataka-2/VSL2_parsiranje/split_sequences_vsl2b.
Processing 1/630: seq_001.fasta
Processing 2/630: seq_002.fasta
Processing 3/630: seq_003.fasta
Processing 4/630: seq_004.fasta
Processing 5/630: seq_005.fasta
Processing 6/630: seq_006.fasta
Processing 7/630: seq_007.fasta
Processing 8/630: seq_008.fasta
Processing 9/630: seq_009.fasta
Processing 10/630: seq_010.fasta
Processing 11/630: seq_011.fasta
Processing 12/630: seq_012.fasta
Processing 13/630: seq_013.fasta
Processing 14/630: seq_014.fasta
Processing 15/630: seq_015.fasta
Processing 16/630: seq_016.fasta
Processing 17/630: seq_017.fasta
Processing 18/630: seq_018.fasta
Processing 19/630: seq_019.fasta
Processing 20/630: seq_020.fasta
Processing 21/630: seq_021.fasta
Processing 22/630: seq_022.fasta
Processing 23/630: seq_023.fasta
Processing 24/630: seq_024.fasta
Processing 25/630: seq_025.fasta
Processing 26/630: seq_026.fasta
Processing 27/630: seq_027.f