In [3]:
import pandas as pd

# Učitaj podatke iz CSV fajla
podaci_df = pd.read_csv('proteini_nucleoprotein.csv')

# Funkcija za izračunavanje molskih frakcija i frakcijske razlike
def izracunaj_molske_frakcije_i_razlike(sekvenca_df):
    ukupno_aminokiselina = len(sekvenca_df)  # Ukupan broj aminokiselina u sekvenci
    
    # Broj uredjenih i neuredjenih tačaka na osnovu "Klasifikacija" kolone
    broj_uredjenih = sekvenca_df[sekvenca_df['Klasifikacija'] == 'uređena'].shape[0]
    broj_neuredjenih = ukupno_aminokiselina - broj_uredjenih
    
    # Molska frakcija za uredjeni deo
    molska_frakcija_uredjeni = broj_uredjenih / ukupno_aminokiselina
    
    # Molska frakcija za neuredjeni deo
    molska_frakcija_neuredjeni = broj_neuredjenih / ukupno_aminokiselina
    
    # Frakcijska razlika prema novoj formuli bez uslova
    frakcijska_razlika = (molska_frakcija_neuredjeni - molska_frakcija_uredjeni) / molska_frakcija_uredjeni
    
    # Procenat molske frakcije uredjenog dela
    procenat_uredjeni = round(molska_frakcija_uredjeni * 100, 2)
    
    # Procenat molske frakcije neuredjenog dela
    procenat_neuredjeni = round(molska_frakcija_neuredjeni * 100, 2)
    
    return molska_frakcija_uredjeni, molska_frakcija_neuredjeni, frakcijska_razlika, procenat_uredjeni, procenat_neuredjeni

# Lista za skladištenje rezultata
rezultati = []

# Iteriramo kroz sve proteine u 'Naziv proteina' koloni
for naziv_proteina in podaci_df['Naziv proteina'].unique():
    # Filtriramo podatke za sekvencu iz trenutnog proteina
    sekvenca_df = podaci_df[podaci_df['Naziv proteina'] == naziv_proteina]
    
    # Izračunavamo molske frakcije i razlike za celokupnu sekvencu
    molska_frakcija_uredjeni, molska_frakcija_neuredjeni, frakcijska_razlika, procenat_uredjeni, procenat_neuredjeni = izracunaj_molske_frakcije_i_razlike(sekvenca_df)
    
    # Dodajemo samo jednu vrednost za svaki protein
    rezultati.append({
        'Naziv proteina': naziv_proteina,
        'Molska Frakcija Uredjeni': round(molska_frakcija_uredjeni, 5),
        'Molska Frakcija Neuredjeni': round(molska_frakcija_neuredjeni, 5),
        'Procenat uredjeni': f"{procenat_uredjeni}%",
        'Procenat neuredjeni': f"{procenat_neuredjeni}%",
        'Frakcijska Razlika': round(frakcijska_razlika, 4)
    })

# Kreiramo DataFrame sa rezultatima
rezultati_df = pd.DataFrame(rezultati)

# Čuvanje novog CSV fajla sa rezultatima
rezultati_df.to_csv('Molske_frakcije_i_frakcijske_razlike_NUCLEOPROTEIN_PROTEINI.csv', index=False)

# Ispis rezultata
print(rezultati_df.head())


              Naziv proteina  Molska Frakcija Uredjeni  \
0  ABA87124.1 |nucleoprotein                   0.53957   
1  ABE27012.1 |nucleoprotein                   0.55827   
2  ABE27019.1 |nucleoprotein                   0.55827   
3  ABE27026.1 |nucleoprotein                   0.55827   
4  ABE27033.1 |nucleoprotein                   0.55827   

   Molska Frakcija Neuredjeni Procenat uredjeni Procenat neuredjeni  \
0                     0.46043            53.96%              46.04%   
1                     0.44173            55.83%              44.17%   
2                     0.44173            55.83%              44.17%   
3                     0.44173            55.83%              44.17%   
4                     0.44173            55.83%              44.17%   

   Frakcijska Razlika  
0             -0.1467  
1             -0.2088  
2             -0.2088  
3             -0.2088  
4             -0.2088  
