In [1]:
import pandas as pd

podaci_df = pd.read_csv('/home/pc/Desktop/Istrazivanje-podataka-2/Konzistentnost/spojeni_rezultati_cisti.csv')

# Funkcija za izračunavanje molskih frakcija i frakcijskih razlika za tri programa
def izracunaj_molske_frakcije_i_razlike(sekvenca_df):
    ukupno_aminokiselina = len(sekvenca_df)  # Ukupan broj aminokiselina u sekvenci
    
    # Broj svake aminokiseline u sekvenci
    broj_aminokiselina = sekvenca_df['Aminokiselina'].value_counts()

    # Molske frakcije za svaku aminokiselinu
    molska_frakcija = broj_aminokiselina / ukupno_aminokiselina
    
    # Frakcijske razlike za tri programa
    # ISUNSTRUCT
    broj_uredjenih_isunstruct = sekvenca_df['ISUNSTRUCT_Klasifikacija'].sum()
    broj_neuredjenih_isunstruct = ukupno_aminokiselina - broj_uredjenih_isunstruct
    molska_frakcija_isunstruct_uredjeni = broj_uredjenih_isunstruct / ukupno_aminokiselina
    molska_frakcija_isunstruct_neuredjeni = broj_neuredjenih_isunstruct / ukupno_aminokiselina
    frakcijska_razlika_isunstruct = (molska_frakcija_isunstruct_neuredjeni - molska_frakcija_isunstruct_uredjeni) / molska_frakcija_isunstruct_uredjeni

    # IUPRED3
    broj_uredjenih_iupred3 = sekvenca_df['IUPRED3_Klasifikacija'].sum()
    broj_neuredjenih_iupred3 = ukupno_aminokiselina - broj_uredjenih_iupred3
    molska_frakcija_iupred3_uredjeni = broj_uredjenih_iupred3 / ukupno_aminokiselina
    molska_frakcija_iupred3_neuredjeni = broj_neuredjenih_iupred3 / ukupno_aminokiselina
    frakcijska_razlika_iupred3 = (molska_frakcija_iupred3_neuredjeni - molska_frakcija_iupred3_uredjeni) / molska_frakcija_iupred3_uredjeni

    # VSL2B
    broj_uredjenih_vsl2b = sekvenca_df['VSL2B_Klasifikacija'].sum()
    broj_neuredjenih_vsl2b = ukupno_aminokiselina - broj_uredjenih_vsl2b
    molska_frakcija_vsl2b_uredjeni = broj_uredjenih_vsl2b / ukupno_aminokiselina
    molska_frakcija_vsl2b_neuredjeni = broj_neuredjenih_vsl2b / ukupno_aminokiselina
    frakcijska_razlika_vsl2b = (molska_frakcija_vsl2b_neuredjeni - molska_frakcija_vsl2b_uredjeni) / molska_frakcija_vsl2b_uredjeni

    # Procenat molskih frakcija uredjenih i neuredjenih delova za sva 3 programa
    procenat_isunstruct_uredjeni = round(molska_frakcija_isunstruct_uredjeni * 100, 2)
    procenat_isunstruct_neuredjeni = round(molska_frakcija_isunstruct_neuredjeni * 100, 2)
    procenat_iupred3_uredjeni = round(molska_frakcija_iupred3_uredjeni * 100, 2)
    procenat_iupred3_neuredjeni = round(molska_frakcija_iupred3_neuredjeni * 100, 2)
    procenat_vsl2b_uredjeni = round(molska_frakcija_vsl2b_uredjeni * 100, 2)
    procenat_vsl2b_neuredjeni = round(molska_frakcija_vsl2b_neuredjeni * 100, 2)
    
    return molska_frakcija, frakcijska_razlika_isunstruct, frakcijska_razlika_iupred3, frakcijska_razlika_vsl2b, \
           procenat_isunstruct_uredjeni, procenat_isunstruct_neuredjeni, procenat_iupred3_uredjeni, \
           procenat_iupred3_neuredjeni, procenat_vsl2b_uredjeni, procenat_vsl2b_neuredjeni

# Lista za skladištenje rezultata
rezultati = []

# Iteriramo kroz sve fajlove
for naziv_fajla in podaci_df['Ime fajla'].unique():
    # Filtriramo podatke za sekvencu iz trenutnog fajla
    sekvenca_df = podaci_df[podaci_df['Ime fajla'] == naziv_fajla]
    
    # Izračunavamo molsku frakciju i frakcijske razlike za tri programa
    molske_frakcije, frakcijska_razlika_isunstruct, frakcijska_razlika_iupred3, frakcijska_razlika_vsl2b, \
    procenat_isunstruct_uredjeni, procenat_isunstruct_neuredjeni, procenat_iupred3_uredjeni, \
    procenat_iupred3_neuredjeni, procenat_vsl2b_uredjeni, procenat_vsl2b_neuredjeni = izracunaj_molske_frakcije_i_razlike(sekvenca_df)
    
    # Dodajemo rezultate u listu
    for aminokiselina, molska_frakcija in molske_frakcije.items():
        rezultati.append({
            'Ime_fajla': naziv_fajla,
            'Aminokiselina': aminokiselina,
            'Molska Frakcija': molska_frakcija,
            'Procenat': f"{round(molska_frakcija * 100, 2)}%",  
            'Frakcijska Razlika ISUNSTRUCT': round(frakcijska_razlika_isunstruct, 4),
            'Frakcijska Razlika IUPRED3': round(frakcijska_razlika_iupred3, 4),
            'Frakcijska Razlika VSL2B': round(frakcijska_razlika_vsl2b, 4),
            'Procenat ISUNSTRUCT Uredjeni': f"{procenat_isunstruct_uredjeni}%", 
            'Procenat ISUNSTRUCT Neuredjeni': f"{procenat_isunstruct_neuredjeni}%",
            'Procenat IUPRED3 Uredjeni': f"{procenat_iupred3_uredjeni}%",
            'Procenat IUPRED3 Neuredjeni': f"{procenat_iupred3_neuredjeni}%",
            'Procenat VSL2B Uredjeni': f"{procenat_vsl2b_uredjeni}%",
            'Procenat VSL2B Neuredjeni': f"{procenat_vsl2b_neuredjeni}%"
        })

# Kreiramo DataFrame sa rezultatima
rezultati_df = pd.DataFrame(rezultati)

# Čuvanje novog CSV fajla sa rezultatima
rezultati_df.to_csv('rezultati_molske_frakcije_i_frakcijske_razlike_sve.csv', index=False)

# Ispis rezultata
print(rezultati_df.head())


       Ime_fajla Aminokiselina  Molska Frakcija Procenat  \
0  seq_001.fasta             L         0.105036    10.5%   
1  seq_001.fasta             S         0.083453    8.35%   
2  seq_001.fasta             E         0.082014     8.2%   
3  seq_001.fasta             Q         0.069065    6.91%   
4  seq_001.fasta             D         0.067626    6.76%   

   Frakcijska Razlika ISUNSTRUCT  Frakcijska Razlika IUPRED3  \
0                         0.0322                     -0.1901   
1                         0.0322                     -0.1901   
2                         0.0322                     -0.1901   
3                         0.0322                     -0.1901   
4                         0.0322                     -0.1901   

   Frakcijska Razlika VSL2B Procenat ISUNSTRUCT Uredjeni  \
0                    0.0262                       49.21%   
1                    0.0262                       49.21%   
2                    0.0262                       49.21%   
3             