In [None]:
# Necessary for Google Colab
# Uncomment before first run, and then comment all again

# Potrebno za Google Colab
# Odkomentarisati komande ispod pre prvog pokretanja, a zatim ponovo zakomentarisati

#! git clone https://github.com/AAnzel/Master_rad.git
#! mkdir ../data
#! mv Master_rad/data/UniProt\ cist ../data/
#! pip install biopython
#! mkdir ../data/Rezultati_Uniprot_cist


In [None]:
import os
import sys
import re
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sn
from sklearn import preprocessing as prep
from sklearn import model_selection as ms
from sklearn import linear_model as lm
from sklearn import metrics as met
from sklearn import svm
from sklearn import utils
from imblearn.over_sampling import SMOTE, ADASYN
from imblearn.under_sampling import RandomUnderSampler

%matplotlib inline
#plt.style.use ('dark_background')

SMALL_SIZE = 14
MEDIUM_SIZE = 16
BIGGER_SIZE = 18

plt.rc('font', size=SMALL_SIZE)          # controls default text sizes
plt.rc('axes', titlesize=SMALL_SIZE)     # fontsize of the axes title
plt.rc('axes', labelsize=MEDIUM_SIZE)    # fontsize of the x and y labels
plt.rc('xtick', labelsize=SMALL_SIZE)    # fontsize of the tick labels
plt.rc('ytick', labelsize=SMALL_SIZE)    # fontsize of the tick labels
plt.rc('legend', fontsize=SMALL_SIZE)    # legend fontsize
plt.rc('figure', titlesize=BIGGER_SIZE)  # fontsize of the figure title


## 1. Importing and visualizing data

In [None]:
# Krecemo sa ucitavanjem podataka i vizualizacijom istih
sve_putanja_ulaza = os.path.join ('..', '..', 'data', 'UniProt cist', 'SVE_FINALNO.csv')
df_sve = pd.read_csv (sve_putanja_ulaza, sep = '\t', index_col = 0)
df_sve

In [None]:
# Extracting the last column of DataFrame (it represents the class)
# Izdvajanje poslednje kolone, koja predstavlja klasu kojoj protein pripada i izbacivanje iste iz DataFrame-a
y = df_sve['Klasa'].values
df_sve = df_sve.drop (labels = ['Klasa'], axis = 1)


In [None]:
# Prvo da vizualizujemo u kakvom su odnosu klase

fig = plt.figure (figsize = (8, 10))
plt.title ('Balansiranost klasa')
plt.xticks (ticks = range (2), labels = ['Negativna', 'Pozitivna'])
plt.bar ([0, 1], [sum(y == 0), sum (y == 1)], color = 'red')
plt.grid (linewidth = 0.3)
plt.show()


In [None]:
# Vizualizacija podataka pomocu matrice korelacije
kolone = df_sve.columns.values

fig = plt.figure (figsize = (20, 20))
plt.title ('Matrica korelacije podataka')
plt.xticks (ticks = range (len (kolone)), labels = kolone, rotation = 90)
plt.yticks (ticks = range (len (kolone)), labels = kolone)
plt.imshow (df_sve.corr(), cmap = 'magma')
plt.colorbar()
plt.show()

# Vidimo da nije velika korelisanost podataka ni u jednom delu, sto je jako dobro


# 2. Preparing data for machine learning models
## 2.1 Training-Test split

In [None]:
# Deljenje podataka na skupove za trening i test, 2:1 odnos
# Bitan parametar predstavlja i stratifikacija po klasi, tako da imamo ujednaceno deljenje na skupove (tj. balansiranost klasa po skupovima)
X = df_sve.values

x_trening, x_test, y_trening, y_test = ms.train_test_split (X, y, train_size = 0.67, test_size = 0.33, stratify = y, random_state = 7)

# Standardizacija podataka
skaler = prep.StandardScaler()
skaler.fit (x_trening)
x_trening = skaler.transform (x_trening)
x_test = skaler.transform (x_test)

print ('Broj proteina u x_trening skupu podataka: ', x_trening.shape)
print ('Broj proteina u y_trening skupu podataka: ', y_trening.shape)
print ('Broj proteina u x_test skupu podataka: ', x_test.shape)
print ('Broj proteina u y_test skupu podataka: ', y_test.shape)

# Vizualizacija podele na trening i test skup i balansiranosti klasa

fig, (ax1, ax2, ax3) = plt.subplots (1, 3, figsize = (20, 10))
plt.suptitle ('Kolicina podataka i balansiranost klasa')

ax1.set_title ('Kolicina podataka u trening i test skupu')
ax1.set_xticks (ticks = range (2))
ax1.set_xticklabels (labels = ['Trening', 'Test'])
ax1.bar ([0, 1], [x_trening.shape[0], x_test.shape[0]], color = 'green')
ax1.grid (linewidth = 0.3)

ax2.set_title ('Klase trening skupa')
ax2.set_xticks (ticks = range (2))
ax2.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax2.bar ([0, 1], [sum(y_trening == 0), sum (y_trening == 1)], color = ['blue', 'red'])
ax2.grid (linewidth = 0.3)

ax3.set_title ('Klase test skupa')
ax3.set_xticks (ticks = range (2))
ax3.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax3.bar ([0, 1], [sum(y_test == 0), sum (y_test == 1)], color = ['blue', 'red'])
ax3.grid (linewidth = 0.3)

plt.show()


## 2.2 Balancing data with random undersampling

In [None]:
# Balansiranje podataka podsempliranjem (nasumicnim podsemplerom) i cuvanje novih podataka (radi se samo za trening skup!)

print ('Broj pozitivnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 1))
print ('Broj negativnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 0))

pod_sempler = RandomUnderSampler(random_state = 7)
x_trening_pod, y_trening_pod = pod_sempler.fit_sample (x_trening, y_trening)

print ('Izgled x_trening skupa nakon podsempliranja:', x_trening_pod.shape)
print ('Izgled y_trening skupa nakon podsempliranja:', y_trening_pod.shape)

print ('Broj pozitivnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_pod == 1))
print ('Broj negativnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_pod == 0))


## 2.3 Balancing data with SMOTE oversampling

In [None]:
# Balansiranje podataka nadsempliranjem (SMOTE algoritmom, a ne nasumicnim nadsemplerom) i cuvanje novih podataka (radi se samo za trening skup!)
# Izabran je SMOTE algoritam jer je on koristi algoritam K najblizih suseda za generisanje novih podataka, samim tim daje relevantnije nove informacije

print ('Broj pozitivnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 1))
print ('Broj negativnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 0))

nad_sempler_smote = SMOTE(random_state = 7, n_jobs = -1)
x_trening_nad_smote, y_trening_nad_smote = nad_sempler_smote.fit_sample (x_trening, y_trening)

print ('Izgled x_trening skupa nakon nadsempliranja:', x_trening_nad_smote.shape)
print ('Izgled y_trening skupa nakon nadsempliranja:', y_trening_nad_smote.shape)

print ('Broj pozitivnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_nad_smote == 1))
print ('Broj negativnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_nad_smote == 0))


## 2.4 Balancing data with ADASYN oversampling

In [None]:
# Balansiranje podataka nadsempliranjem (ADASYN algoritmom, a ne nasumicnim nadsemplerom) i cuvanje novih podataka (radi se samo za trening skup!)
# ADASYN predstavlja poboljsanje SMOTE algoritma koji kreira 'realnije' podatke

print ('Broj pozitivnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 1))
print ('Broj negativnih proteina trening skupa, pre balansiranja: ', sum(y_trening == 0))

nad_sempler_adasyn = ADASYN(random_state = 7, n_jobs = -1)
x_trening_nad_adasyn, y_trening_nad_adasyn = nad_sempler_adasyn.fit_sample (x_trening, y_trening)

print ('Izgled x_trening skupa nakon nadsempliranja:', x_trening_nad_adasyn.shape)
print ('Izgled y_trening skupa nakon nadsempliranja:', y_trening_nad_adasyn.shape)

print ('Broj pozitivnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_nad_adasyn == 1))
print ('Broj negativnih proteina trening skupa, nakon balansiranja: ', sum(y_trening_nad_adasyn == 0))


In [None]:
# Vizualizacija polaznih podataka trening skupa, zatim podataka nakon podsempliranja i nakon nadsempliranja

fig, (ax1, ax2, ax3, ax4) = plt.subplots (1, 4, sharey = True, figsize = (25, 10))
plt.suptitle ('Balansiranost klasa trening skupa pre i posle obrade')

ax1.set_title ('Klase pre obrade')
ax1.set_xticks (ticks = range (2))
ax1.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax1.bar ([0, 1], [sum(y_trening == 0), sum (y_trening == 1)], color = ['blue', 'red'])
ax1.grid (linewidth = 0.3)

ax2.set_title ('Klase nakon nasumicnog podsempliranja')
ax2.set_xticks (ticks = range (2))
ax2.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax2.bar ([0, 1], [sum(y_trening_pod == 0), sum (y_trening_pod == 1)], color = ['blue', 'red'])
ax2.grid (linewidth = 0.3)

ax3.set_title ('Klase nakon SMOTE nadsempliranja')
ax3.set_xticks (ticks = range (2))
ax3.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax3.bar ([0, 1], [sum(y_trening_nad_smote == 0), sum (y_trening_nad_smote == 1)], color = ['blue', 'red'])
ax3.grid (linewidth = 0.3)

ax4.set_title ('Klase nakon ADASYN nadsempliranja')
ax4.set_xticks (ticks = range (2))
ax4.set_xticklabels (labels = ['Negativna', 'Pozitivna'])
ax4.bar ([0, 1], [sum(y_trening_nad_adasyn == 0), sum (y_trening_nad_adasyn == 1)], color = ['blue', 'red'])
ax4.grid (linewidth = 0.3)

plt.show()


In [None]:
# Funkcija za lepo iscrtavanje matrice konfuzije
# Preuzeta i modifikovana za potrebe rada sa zvanicnog sajta biblioteke SciKit-Learn:
# https://scikit-learn.org/0.21/auto_examples/model_selection/plot_confusion_matrix.html
def nacrtaj_matricu_konfuzije (y_test, y_procena, ime_modela):
    
    #plt.style.use ('dark_background')
    mat_konf = met.confusion_matrix(y_test, y_procena)
    
    # Kreiranje normalizovane verzije matrice konfuzije
    norm_mat_konf = mat_konf.astype('float') / mat_konf.sum(axis=1)[:, np.newaxis]
    
    klase = np.unique (np.hstack ((y_test, y_procena)))
    
    # Kreiranje grafika za svaku od matrica
    fig, (ax_1, ax_2) = plt.subplots (1, 2, figsize = (20, 10))
    plt.suptitle ('Matrice konfuzije za model: ' + ime_modela)
    
    slika_1 = ax_1.imshow (mat_konf, interpolation = 'nearest', cmap = 'Reds')
    ax_1.figure.colorbar (slika_1, ax = ax_1, shrink = 0.8)
    
    slika_2 = ax_2.imshow (norm_mat_konf, interpolation = 'nearest', cmap = 'Reds')
    ax_2.figure.colorbar (slika_2, ax = ax_2, shrink = 0.8)
    
    ax_1.set (xticks = np.arange (mat_konf.shape[1]),
              yticks = np.arange (mat_konf.shape[0]),
              xticklabels = klase,
              yticklabels = klase,
              title = 'Matrica konfuzije bez normalizacije',
              ylabel = 'Stvarne vrednosti',
              xlabel = 'Procenjene vrednosti')
    
    ax_2.set (xticks = np.arange (norm_mat_konf.shape[1]),
              yticks = np.arange (norm_mat_konf.shape[0]),
              xticklabels = klase,
              yticklabels = klase,
              title = 'Normalizovana matrica konfuzije',
              ylabel = 'Stvarne vrednosti',
              xlabel = 'Procenjene vrednosti')
    
    # Potrebno zbog baga u trenutnoj verziji Matplotlib-a 3.1.1, izbrisati nakon nadogradnje
    # Bag: https://github.com/matplotlib/matplotlib/issues/15154
    ################################################################
    ax_1.set_ylim (mat_konf.shape[0] - 0.5, -0.5)
    ax_2.set_ylim (norm_mat_konf.shape[0] - 0.5, -0.5)
    ################################################################
    
    plt.setp (ax_1.get_xticklabels(), rotation = 45, ha = "right", rotation_mode = "anchor")
    plt.setp (ax_2.get_xticklabels(), rotation = 45, ha = "right", rotation_mode = "anchor")
    
    tekst = [['Stvarno negativni\n','Lazno pozitivni\n'], ['Lazno negativni\n', 'Stvarno pozitivni\n']]
    
    for i in range (mat_konf.shape[0]):
        for j in range(mat_konf.shape[1]):
            ax_1.text (j, i, str (tekst[i][j]) + format(mat_konf[i, j], 'g'), horizontalalignment = 'center', verticalalignment = 'center', bbox = dict (facecolor = 'gray', alpha = 0.9))
            ax_2.text (j, i, str (tekst[i][j]) + format(norm_mat_konf[i, j], 'g'), horizontalalignment = 'center', verticalalignment = 'center', bbox = dict (facecolor = 'gray', alpha = 0.9))
    
    fig.tight_layout()
    
    return ax_1, ax_2


# 3. Using SVMs to classify proteins with differently balanced data sets
Different SVMs and differently balanced data sets are used in following order:
* 3.1. Source data set without implementing any balancing technique
    * 3.1.1 Linear SVM with deafult value for class_weight parameter
    * 3.1.2 Linear SVM with calculated value for class_weight parameter
    * 3.1.3 Kernelized SVM with deafult value for class_weight parameter
    * 3.1.4 Kernelized SVM with calculated value for class_weight parameter
* 3.2. Data set balanced with random undersampling
    * 3.2.1 Linear SVM
    * 3.2.2 Kernelized SVM
* 3.3. Data set balanced with SMOTE oversampling
    * 3.3.1 Linear SVM
    * 3.3.2 Kernelized SVM
* 3.4. Data set balanced with ADASYN oversampling
    * 3.4.1 Linear SVM
    * 3.4.2 Kernelized SVM

class_weight parameter (when used) is set to 'balanced' value. Documentation says this means:
* The “balanced” mode uses the values of y to automatically adjust weights inversely proportional to class frequencies in the input data as n_samples / (n_classes * np.bincount(y))

This is only done for source data set.


#### Short explanation of used hyperparameters
* Considering the unbalanced data, we evaluate using 'F1 score'
* Number of iterations with Linear SVMs was empirically chosen so that method can converge
* Number of cross-validation splits is mostly restrained by the needed time to evaluate every model. Therefore, with linear SVMs that number is 10, and with kernelized is 5.


## 3.1. Source data set without implementing any balancing technique
### 3.1.1 Linear SVM with deafult value for class_weight parameter 

In [None]:
# Definisanje globalnih parametara
cv_kern = 5
n_jobs_kern = -1
max_iter_lin = 10000


In [None]:
# Za svaku od verzija podataka, isprobavanje razlicitih modela masinskog ucenja
# Za pocetak koristim samo SVM (metod potpornih vektora, sa razlicitim kernelima, ukljucujuci i linearni oblik)

# Definisanje metaparametara linearnog modela
parametri_lin = {'C': [10**i for i in range (-5, 5)]}

# Linearni model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_lin_nebal = ms.GridSearchCV (svm.LinearSVC (random_state = 7, class_weight = None, max_iter = max_iter_lin), param_grid = parametri_lin, scoring = 'f1', n_jobs = 1, cv = 10, verbose = 1)
mpv_lin_nebal.fit (x_trening, y_trening)
y_procena = mpv_lin_nebal.predict (x_test)

print ('Parametri najboljeg modela:', mpv_lin_nebal.best_params_)
print ('Izvestaj klasifikacije linearnog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV linearni nebalansirani ' + str (mpv_lin_nebal.best_params_))
plt.show()


### 3.1.2 Linear SVM with calculated value for class_weight parameter

In [None]:
# Linearni model potpornih vektora sa balansiranim klasama pomocu ugradjenog parametra
mpv_lin_bal = ms.GridSearchCV (svm.LinearSVC (random_state = 7, class_weight = 'balanced', max_iter = max_iter_lin), param_grid = parametri_lin, scoring = 'f1', n_jobs = 1, cv = 10, verbose = 1)
mpv_lin_bal.fit (x_trening, y_trening)
y_procena = mpv_lin_bal.predict (x_test)

print ('Parametri najboljeg modela:', mpv_lin_bal.best_params_)
print ('Izvestaj klasifikacije linearnog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV linearni balansirani ' + str (mpv_lin_bal.best_params_))
plt.show()


### 3.1.3 Kernelized SVM with deafult value for class_weight parameter

In [None]:
# Definisanje metaparametara kernelizovanog modela
parametri_kern = {'kernel': ['poly', 'rbf', 'sigmoid'], 'gamma': [10**i for i in range(-5, 5)], 'C': [10**i for i in range (-5, 5)]}

# Kernelizovani model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_kern_nebal = ms.GridSearchCV (svm.SVC(class_weight = None, random_state = 7), param_grid = parametri_kern, scoring = 'f1', n_jobs = n_jobs_kern, cv = cv_kern, verbose = 2)
mpv_kern_nebal.fit (x_trening, y_trening)
y_procena = mpv_kern_nebal.predict (x_test)

print ('Parametri najboljeg modela:', mpv_kern_nebal.best_params_)
print ('Izvestaj klasifikacije kernelizovanog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV kernelizovan nebalansiran' + str (mpv_kern_nebal.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl
putanja_za_rezultate = os.path.join ('..', 'data', 'Rezultati_Uniprot_cist')

df_mpv_kern_nebal = pd.DataFrame (mpv_kern_nebal.cv_results_)
df_mpv_kern_nebal.to_csv (os.path.join (putanja_za_rezultate, 'MPV_KERN_NEBAL.csv'))
#df_mpv_kern_nebal


### 3.1.4 Kernelized SVM with calculated value for class_weight parameter

In [None]:
# Kernelizovani model potpornih vektora sa balansiranim klasama pomocu ugradjenog parametra

mpv_kern_bal = ms.GridSearchCV (svm.SVC(class_weight = 'balanced', random_state = 7), param_grid = parametri_kern, scoring = 'f1', n_jobs = n_jobs_kern, cv = cv_kern, verbose = 2)
mpv_kern_bal.fit (x_trening, y_trening)
y_procena = mpv_kern_bal.predict (x_test)

print ('Parametri najboljeg modela:', mpv_kern_bal.best_params_)
print ('Izvestaj klasifikacije kernelizovanog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV kernelizovan balansiran ' + str (mpv_kern_bal.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl

df_mpv_kern_bal = pd.DataFrame (mpv_kern_bal.cv_results_)
df_mpv_kern_bal.to_csv (os.path.join (putanja_za_rezultate, 'MPV_KERN_BAL.csv'))
#df_mpv_kern_bal


## 3.2. Data set balanced with random undersampling
### 3.2.1 Linear SVM

In [None]:
# Definisanje metaparametara linearnog modela
parametri_lin = {'C': [10**i for i in range (-5, 5)]}

# Linearni model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_lin_bal_pod = ms.GridSearchCV (svm.LinearSVC (random_state = 7, class_weight = None, max_iter = max_iter_lin), param_grid = parametri_lin, scoring = 'f1', n_jobs = 1, cv = 10, verbose = 1)
mpv_lin_bal_pod.fit (x_trening_pod, y_trening_pod)
y_procena = mpv_lin_bal_pod.predict (x_test)

print ('Parametri najboljeg modela:', mpv_lin_bal_pod.best_params_)
print ('Izvestaj klasifikacije linearnog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV linearan balansiran podsempliranjem ' + str (mpv_lin_bal_pod.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl

df_mpv_lin_bal_pod = pd.DataFrame (mpv_lin_bal_pod.cv_results_)
df_mpv_lin_bal_pod.to_csv (os.path.join (putanja_za_rezultate, 'MPV_LIN_BAL_POD.csv'))
#df_mpv_lin_bal_pod


### 3.2.2 Kernelized SVM

In [None]:
# Definisanje metaparametara kernelizovanog modela
parametri_kern = {'kernel': ['poly', 'rbf', 'sigmoid'], 'gamma': [10**i for i in range(-5, 5)], 'C': [10**i for i in range (-5, 5)]}

# Kernelizovani model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_kern_bal_pod = ms.GridSearchCV (svm.SVC(class_weight = None, random_state = 7), param_grid = parametri_kern, scoring = 'f1', n_jobs = n_jobs_kern, cv = cv_kern, verbose = 2)
mpv_kern_bal_pod.fit (x_trening_pod, y_trening_pod)
y_procena = mpv_kern_bal_pod.predict (x_test)

print ('Parametri najboljeg modela:', mpv_kern_bal_pod.best_params_)
print ('Izvestaj klasifikacije kernelizovanog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV kernelizovan balansiran podsempliranjem ' + str (mpv_kern_bal_pod.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl

df_mpv_kern_bal_pod = pd.DataFrame (mpv_kern_bal_pod.cv_results_)
df_mpv_kern_bal_pod.to_csv (os.path.join (putanja_za_rezultate, 'MPV_KERN_BAL_POD.csv'))
#df_mpv_kern_bal_pod


## 3.3. Data set balanced with SMOTE oversampling
### 3.3.1 Linear SVM

In [None]:
# Definisanje metaparametara linearnog modela
parametri_lin = {'C': [10**i for i in range (-5, 5)]}

# Linearni model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_lin_bal_nad_smote = ms.GridSearchCV (svm.LinearSVC (random_state = 7, class_weight = None, max_iter = max_iter_lin), param_grid = parametri_lin, scoring = 'f1', n_jobs = 1, cv = 10, verbose = 1)
mpv_lin_bal_nad_smote.fit (x_trening_nad_smote, y_trening_nad_smote)
y_procena = mpv_lin_bal_nad_smote.predict (x_test)

print ('Parametri najboljeg modela:', mpv_lin_bal_nad_smote.best_params_)
print ('Izvestaj klasifikacije linearnog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV linearan balansiran nadsempliranjem ' + str (mpv_lin_bal_nad_smote.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl
putanja_za_rezultate = os.path.join ('..', 'data', 'Rezultati_Uniprot_cist')

df_mpv_lin_bal_nad_smote = pd.DataFrame (mpv_lin_bal_nad_smote.cv_results_)
df_mpv_lin_bal_nad_smote.to_csv (os.path.join (putanja_za_rezultate, 'MPV_LIN_BAL_NAD_SMOTE.csv'))
#df_mpv_lin_bal_nad_smote


### 3.3.2 Kernelized SVM

In [None]:
# Definisanje metaparametara kernelizovanog modela
parametri_kern = {'kernel': ['poly', 'rbf', 'sigmoid'], 'gamma': [10**i for i in range(-5, 5)], 'C': [10**i for i in range (-5, 5)]}

# Kernelizovani model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_kern_bal_nad_smote = ms.GridSearchCV (svm.SVC(class_weight = None, random_state = 7), param_grid = parametri_kern, scoring = 'f1', n_jobs = n_jobs_kern, cv = cv_kern, verbose = 2)
mpv_kern_bal_nad_smote.fit (x_trening_nad_smote, y_trening_nad_smote)
y_procena = mpv_kern_bal_nad_smote.predict (x_test)

print ('Parametri najboljeg modela:', mpv_kern_bal_nad_smote.best_params_)
print ('Izvestaj klasifikacije kernelizovanog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV kernelizovan balansiran nadsempliranjem ' + str (mpv_kern_bal_nad_smote.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl
putanja_za_rezultate = os.path.join ('..', 'data', 'Rezultati_Uniprot_cist')

df_mpv_kern_bal_nad_smote = pd.DataFrame (mpv_kern_bal_nad_smote.cv_results_)
df_mpv_kern_bal_nad_smote.to_csv (os.path.join (putanja_za_rezultate, 'MPV_KERN_BAL_NAD_SMOTE.csv'))
#df_mpv_kern_bal_nad_smote


## 3.4. Data set balanced with ADASYN oversampling
### 3.4.1 Linear SVM

In [None]:
# Definisanje metaparametara linearnog modela
parametri_lin = {'C': [10**i for i in range (-5, 5)]}

# Linearni model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_lin_bal_nad_adasyn = ms.GridSearchCV (svm.LinearSVC (random_state = 7, class_weight = None, max_iter = max_iter_lin), param_grid = parametri_lin, scoring = 'f1', n_jobs = 1, cv = 10, verbose = 1)
mpv_lin_bal_nad_adasyn.fit (x_trening_nad_adasyn, y_trening_nad_adasyn)
y_procena = mpv_lin_bal_nad_adasyn.predict (x_test)

print ('Parametri najboljeg modela:', mpv_lin_bal_nad_adasyn.best_params_)
print ('Izvestaj klasifikacije linearnog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV linearan balansiran nadsempliranjem ' + str (mpv_lin_bal_nad_adasyn.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl

df_mpv_lin_bal_nad_adasyn = pd.DataFrame (mpv_lin_bal_nad_adasyn.cv_results_)
df_mpv_lin_bal_nad_adasyn.to_csv (os.path.join (putanja_za_rezultate, 'MPV_LIN_BAL_NAD_ADASYN.csv'))
#df_mpv_lin_bal_nad_adasyn


### 3.4.2 Kernelized SVM

In [None]:
# Definisanje metaparametara kernelizovanog modela
parametri_kern = {'kernel': ['poly', 'rbf', 'sigmoid'], 'gamma': [10**i for i in range(-5, 5)], 'C': [10**i for i in range (-5, 5)]}

# Kernelizovani model potpornih vektora bez aktiviranog ugradjeno parametra class_weight
mpv_kern_bal_nad_adasyn = ms.GridSearchCV (svm.SVC(class_weight = None, random_state = 7), param_grid = parametri_kern, scoring = 'f1', n_jobs = n_jobs_kern, cv = cv_kern, verbose = 2)
mpv_kern_bal_nad_adasyn.fit (x_trening_nad_adasyn, y_trening_nad_adasyn)
y_procena = mpv_kern_bal_nad_adasyn.predict (x_test)

print ('Parametri najboljeg modela:', mpv_kern_bal_nad_adasyn.best_params_)
print ('Izvestaj klasifikacije kernelizovanog mpv-a:\n', met.classification_report (y_test, y_procena))


In [None]:
# Iscrtavanje matrice konfuzije za prethodni model
nacrtaj_matricu_konfuzije (y_test, y_procena, 'MPV kernelizovan balansiran nadsempliranjem ' + str (mpv_kern_bal_nad_adasyn.best_params_))
plt.show()

In [None]:
# Cuvanje rezultata kros-validacije u .csv fajl
putanja_za_rezultate = os.path.join ('..', 'data', 'Rezultati_Uniprot_cist')

df_mpv_kern_bal_nad_adasyn = pd.DataFrame (mpv_kern_bal_nad_adasyn.cv_results_)
df_mpv_kern_bal_nad_adasyn.to_csv (os.path.join (putanja_za_rezultate, 'MPV_KERN_BAL_NAD_ADASYN.csv'))
#df_mpv_kern_bal_nad_adasyn
