In [1]:
import pandas as pd

# Učitavanje
df = pd.read_csv('proteini_spike_glykoprotein.csv')

# Definisanje liste aminokiselina
aminokiseline = ['A', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'K', 'L', 'M', 'N', 'P', 'Q', 'R', 'S', 'T', 'V', 'W', 'Y']

# Inicijalizacija rezultujućeg DataFrame-a sa željenim kolonama
kolone = ['Naziv_proteina'] + [
    f'molska_frakcija_{acid}_uredjen' for acid in aminokiseline
] + [
    f'molska_frakcija_{acid}_neuredjen' for acid in aminokiseline
] + [
    f'frakcijska_razlika_{acid}' for acid in aminokiseline
]
df_result = pd.DataFrame(columns=kolone)

# Grupišemo podatke po proteinu
grouped = df.groupby('Naziv proteina')

# Lista za čuvanje rezultata
rezultati = []

# Obrada svakog proteina
for protein, group in grouped:
    total_count = len(group)

    # Odvajamo podatke na uređene i neuređene regione
    uredjeni_region = group[group['Klasifikacija'] == 'uređena']
    neuredjeni_region = group[group['Klasifikacija'] == 'neuređena']

    total_uredjen = len(uredjeni_region)
    total_neuredjen = len(neuredjeni_region)

    result_row = {'Naziv_proteina': protein}

    for acid in aminokiseline:
        # Broj pojavljivanja aminokiseline u uređenim i neuređenim regionima
        count_uredjen = len(uredjeni_region[uredjeni_region['Aminokiselina'] == acid])
        count_neuredjen = len(neuredjeni_region[neuredjeni_region['Aminokiselina'] == acid])

        # Molske frakcije - normalizujemo prema ukupnom broju u datoj grupi
        mf_uredjen = count_uredjen / total_uredjen if total_uredjen > 0 else 0
        mf_neuredjen = count_neuredjen / total_neuredjen if total_neuredjen > 0 else 0

        # Frakcijska razlika
        frakcijska_razlika = (mf_uredjen - mf_neuredjen) / mf_neuredjen if mf_neuredjen > 0 else 0

        # Zaokruživanje na 4 decimale
        result_row[f'molska_frakcija_{acid}_uredjen'] = round(mf_uredjen, 4)
        result_row[f'molska_frakcija_{acid}_neuredjen'] = round(mf_neuredjen, 4)
        result_row[f'frakcijska_razlika_{acid}'] = round(frakcijska_razlika, 4)

    # Dodajemo red u listu rezultata
    rezultati.append(result_row)

# Kreiramo DataFrame iz rezultata
df_result = pd.DataFrame(rezultati)

# Čuvanje rezultata u CSV fajl
df_result.to_csv('molske_frakcije_i_razlike_za_sve_aminokiseline_spike_proteina_vsl2.csv', index=False)

print("Matrica sa molskim frakcijama i frakcijskim razlikama uspešno sačuvana.")


Matrica sa molskim frakcijama i frakcijskim razlikama uspešno sačuvana.
