In [9]:
import pandas as pd

# Učitaj podatke iz CSV fajla
podaci_df = pd.read_csv('proteini_spike_glykoprotein.csv')

# Funkcija za izračunavanje molskih frakcija i frakcijske razlike
def izracunaj_molske_frakcije_i_razlike(sekvenca_df):
    ukupno_aminokiselina = len(sekvenca_df)  # Ukupan broj aminokiselina u sekvenci
    
    # Broj svake aminokiseline u sekvenci
    broj_aminokiselina = sekvenca_df['Aminokiselina'].value_counts()

    # Molske frakcije za svaku aminokiselinu
    molska_frakcija = broj_aminokiselina / ukupno_aminokiselina
    
    # Broj uredjenih i neuredjenih tačaka na osnovu "Klasifikacija" kolone
    broj_uredjenih = sekvenca_df[sekvenca_df['Klasifikacija'] == 'uređena'].shape[0]
    broj_neuredjenih = ukupno_aminokiselina - broj_uredjenih
    
    # Molska frakcija za uredjeni deo
    molska_frakcija_uredjeni = broj_uredjenih / ukupno_aminokiselina
    
    # Molska frakcija za neuredjeni deo
    molska_frakcija_neuredjeni = broj_neuredjenih / ukupno_aminokiselina
    
    # Frakcijska razlika prema novoj formuli bez uslova
    frakcijska_razlika = (molska_frakcija_neuredjeni - molska_frakcija_uredjeni) / molska_frakcija_uredjeni
    
    # Procenat molske frakcije uredjenog dela
    procenat_uredjeni = round(molska_frakcija_uredjeni * 100, 2)
    
    # Procenat molske frakcije neuredjenog dela
    procenat_neuredjeni = round(molska_frakcija_neuredjeni * 100, 2)
    
    return molska_frakcija, molska_frakcija_uredjeni, molska_frakcija_neuredjeni, frakcijska_razlika, procenat_uredjeni, procenat_neuredjeni

# Lista za skladištenje rezultata
rezultati = []

# Iteriramo kroz sve proteine u 'Naziv proteina' koloni
for naziv_proteina in podaci_df['Naziv proteina'].unique():
    # Filtriramo podatke za sekvencu iz trenutnog proteina
    sekvenca_df = podaci_df[podaci_df['Naziv proteina'] == naziv_proteina]
    
    # Izračunavamo molske frakcije i razlike za celokupnu sekvencu
    molske_frakcije, molska_frakcija_uredjeni, molska_frakcija_neuredjeni, frakcijska_razlika, procenat_uredjeni, procenat_neuredjeni = izracunaj_molske_frakcije_i_razlike(sekvenca_df)
    
    # Dodajemo osnovne podatke (Naziv proteina, Virus, Aminokiselina, Pozicija) i molske frakcije za svaku aminokiselinu
    for _, red in sekvenca_df.iterrows():
        aminokiselina = red['Aminokiselina']
        pozicija = red['Pozicija']
        virus = red['Virus']
        
        # Dodajemo podatke u listu rezultata
        rezultati.append({
            'Naziv proteina': naziv_proteina,
            'Virus': virus,
            'Aminokiselina': aminokiselina,
            'Pozicija': pozicija,
            'Molska Frakcija Uredjeni': round(molska_frakcija_uredjeni,5),
            'Molska Frakcija Neuredjeni': round(molska_frakcija_neuredjeni,5),
            'Procenat_uredjeni': f"{procenat_uredjeni}%", 
            'Procenat_neuredjeni': f"{procenat_neuredjeni}%",
            'Frakcijska Razlika': round(frakcijska_razlika, 4)
        })

# Kreiramo DataFrame sa rezultatima
rezultati_df = pd.DataFrame(rezultati)

# Čuvanje novog CSV fajla sa rezultatima
rezultati_df.to_csv('Molske_frakcije_i_frakcijske_razlike_SPIKE.csv', index=False)

# Ispis rezultata
print(rezultati_df.head())


                                   Naziv proteina    Virus Aminokiselina  \
0  AJY53714.1|virion spike glycoprotein precursor  Marburg             M   
1  AJY53714.1|virion spike glycoprotein precursor  Marburg             R   
2  AJY53714.1|virion spike glycoprotein precursor  Marburg             T   
3  AJY53714.1|virion spike glycoprotein precursor  Marburg             T   
4  AJY53714.1|virion spike glycoprotein precursor  Marburg             C   

   Pozicija  Molska Frakcija Uredjeni  Molska Frakcija Neuredjeni  \
0         1                   0.50808                     0.49192   
1         2                   0.50808                     0.49192   
2         3                   0.50808                     0.49192   
3         4                   0.50808                     0.49192   
4         5                   0.50808                     0.49192   

  Procenat_uredjeni Procenat_neuredjeni  Frakcijska Razlika  
0            50.81%              49.19%             -0.0318  
1   