In [6]:
import subprocess
import pandas as pd

def ucitaj_sekvencu_iz_fajla(fajl_putanja):
    """
    Učitava sekvencu iz FASTA formata fajla, uklanja zaglavlje i vraća sekvencu kao string.
    """
    with open(fajl_putanja, 'r') as fajl:
        linije = fajl.readlines()
    
    # Uklanjamo zaglavlje (linije koje počinju sa ">")
    sekvenca = "".join([linija.strip() for linija in linije if not linija.startswith(">")])
    
    return sekvenca

def parsiraj_iupred3(iupred_izlaz):
    """
    Parsira izlaz iz IUPred3 programa i klasifikuje svaku poziciju u sekvenci kao 'uređenu' ili 'neuređenu'.
    """
    rezultati = []
    for linija in iupred_izlaz.splitlines():
        if linija.strip() and not linija.startswith("#"):
            delovi = linija.split()
            if len(delovi) >= 3:
                pozicija = int(delovi[0])  # Pozicija
                aminokiselina = delovi[1]  # Aminokiselina
                skor = float(delovi[2])  # IUPred skor
                klasifikacija = "uređena" if skor <= 0.5 else "neuređena"
                rezultati.append((pozicija, aminokiselina, skor, klasifikacija))
    return rezultati

def generisi_prozore_i_klasifikuj(sekvenca, min_duzina=5, max_duzina=100):
    prozori = []
    oznake_prozora = []
    duzine = []      # lista za dužinu podsekvence
    pozicije = []    # lista za pozicije u originalnoj sekvenci ("početak-kraj")
    
    # Prosledjujemo sekvencu IUPred3 programu i parsiramo rezultate
    iupred_izlaz = pokreni_iupred3_na_fajlu(sekvenca)  # Ova funkcija mora biti prilagođena
    iupred_parsirani_rezultati = parsiraj_iupred3(iupred_izlaz)
    
    # Generišemo prozore
    for duzina in range(min_duzina, max_duzina + 1):
        for i in range(len(sekvenca) - duzina + 1):
            podsekvenca = sekvenca[i:i + duzina]
            pozicija = f"{i+1}-{i+duzina}"
            duzine.append(duzina)
            pozicije.append(pozicija)
            
            # Uzimamo klasifikacije iz IUPred3 rezultata
            podsekvenca_oznake = [result[3] for result in iupred_parsirani_rezultati[i:i + duzina]]
            
            # Klasifikujemo prozor kao većinski 'uređena' ili 'neuređena'
            if podsekvenca_oznake.count("uređena") > len(podsekvenca_oznake) / 2:
                oznake_prozora.append("uređena")
            else:
                oznake_prozora.append("neuređena")
            
            prozori.append(podsekvenca)
    
    return duzine, pozicije, prozori, oznake_prozora

def pokreni_iupred3_na_fajlu(fajl_putanja):
    """
    Pokreće IUPred3 na datom FASTA fajlu i vraća njegov izlaz.
    """
    rezultati = subprocess.run(
        ['/home/pc/Desktop/iupred3/iupred3.py', fajl_putanja, 'long'],  # Putanja do IUPred3 skripte
        stdout=subprocess.PIPE,
        stderr=subprocess.PIPE,
        text=True
    )
    return rezultati.stdout

# Učitavanje sekvence iz fajla
fajl_putanja = "YP_138523.1.txt"  # Putanja do FASTA fajla
sekvenca = ucitaj_sekvencu_iz_fajla(fajl_putanja)

# Generisanje prozora i klasifikacija na osnovu IUPred3
duzine, pozicije, prozori, oznake_prozora = generisi_prozore_i_klasifikuj(sekvenca)

# Kreiranje DataFrame sa rezultatima
df_sekvence = pd.DataFrame({
    "Duzina": duzine,
    "Pozicija": pozicije,
    "Sekvenca": prozori,
    "IUPRED3 oznaka": oznake_prozora
})

# Prikazivanje rezultata
print(df_sekvence.head())

# Čuvanje rezultata u CSV fajl
df_sekvence.to_csv("Klasifikovane_sekvence_IUPRED3.csv", index=False)


   Duzina Pozicija Sekvenca IUPRED3 oznaka
0       5      1-5    MGGLS      neuređena
1       5      2-6    GGLSL      neuređena
2       5      3-7    GLSLL      neuređena
3       5      4-8    LSLLQ      neuređena
4       5      5-9    SLLQL      neuređena
