# Cevovodi (engl. pipeline)

U ovoj sveci upoznaćemo koncept cevovoda (engl. pipeline) koji se koristi za predstavljanje sekvence koraka. Može se koristiti uključivanjem paketa `pipeline` biblioteke `scikit-learn`.

In [1]:
from sklearn import pipeline

In [2]:
from sklearn import datasets
from sklearn import linear_model
from sklearn import model_selection
from sklearn import preprocessing

Primetili smo da prilikom razvoja modela neke korake ponavljamo. Tako, na primer, vrednosti na osnovu kojih vršimo standardizaciju podataka izračunavamo na skupu za treniranje, a zatim transformišemo i skup za treniranje i skup za testiranje koristeći ove vrednosti pozivom funkcije `transform`. Slično važi i za ostale pripreme i određivanja atributa: nad skupom za treniranje se izdvoje odgovarajući atributi, a zatim se transformiše i skup za treniranje i skup za testiranje u terminima ovih atributa. `Cevovod` je mehanizam koji definiše niz koraka koje treba zajedno sprovesti, jedan za drugim. U cevovod se mogu smesiti sve bibliotečke klase koje raspolažu funkcijama `fit` i `transform`. 

Da bismo demonstrirali kako se radi sa cevovodima, učitaćemo skup koji se koristi za klasifikaciju tumora na benigne i maligne i podelićemo ga na skup za treniranje i skup za testiranje.

In [3]:
data = datasets.load_breast_cancer()

In [4]:
X = data.data
y = data.target

In [5]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size = 0.33, stratify = y, random_state = 10)

Dalje ćemo pripremiti podatke tako što ćemo ih standardizovati. 

In [6]:
scaler = preprocessing.StandardScaler()
scaler.fit(X_train)
X_train_transformed = scaler.transform(X_train)
X_test_transformed = scaler.transform(X_test)

Nad ovim podacima možemo obučiti klasifikacioni model po izboru. Neka to bude model logističke regresije sa regularizacionim parametrom 2 (parametar C odgovara njegovoj recipročnoj vrednosti).

In [7]:
model = linear_model.LogisticRegression(C = 1/2)

In [8]:
model.fit(X_train_transformed, y_train)

LogisticRegression(C=0.5)

Sam model evaluiramo pozivom metode `score` ili pozivom funkcije `predict` i izborom odgovarajuće mere paketa `metrics`.

In [9]:
model.score(X_test_transformed, y_test)

0.973404255319149

Kod koji sledi koristi cevovode i istovetan je sa kodom koji smo opisali. Funkcija `make_pipeline` nam omogućava da kreiramo rudimentarni cevovod koji u našem slučaju čine standardni skaler i sam model. Kada se nad cevovodom pozove funkcija `fit` ona se poziva nad svakim navedenim elementom. Poziv funkcije `score` nad cevovodom podrazumeva pozive funkcije `transform` nad koracima koji prethode poslednjem, a zatim i pozov funkcije `score` nad poslednjim korakom. Prilikom izvršavanja funkcije `transform` koriste se vrednosti koje su izračunate/dobijene prilikom poziva funkcije `fit`. Ovakav opis nam omogućava kompaktniji zapis i sprečava mogućnost previda u vidu izostavljanja nekog od koraka ili njegove primene nad pogrešnim skupom.  

In [10]:
linreg_pipeline = pipeline.make_pipeline(preprocessing.StandardScaler(), linear_model.LogisticRegression(C=1/2))

In [11]:
linreg_pipeline.fit(X_train, y_train)

Pipeline(steps=[('standardscaler', StandardScaler()),
                ('logisticregression', LogisticRegression(C=0.5))])

In [12]:
linreg_pipeline.score(X_test, y_test)

0.973404255319149

Osim funkcije `make_pipeline` može se koristiti i klasa `Pipeline` koja nudi nešto više udobnosti u radu sa cevovodima. Ona omogućava da se prilikom kreiranja cevovoda navede imenovana lista koraka što može biti zgodno zbog pristupa pojedinačnim koracima u cilju podešavanja njihovih hiperparametara ili očitavanju dobijenih vrednosti. 

In [13]:
linreg_pipeline = pipeline.Pipeline(steps=[('scaler', preprocessing.StandardScaler()), ('linreg', linear_model.LogisticRegression())])

Metodom `set_params` možemo podesiti parametre bilo kog elementa cevovoda. Parametri se opisuju imenom elementa cevovoda za kojim se navodi dvostruka podvlaka a zatim i samo ime parametra. Ukoliko je potrebno navesti vrednosti više parametara odjednom, mogu se razdvojiti zarezom.

In [14]:
linreg_pipeline.set_params(linreg__C=2)

Pipeline(steps=[('scaler', StandardScaler()),
                ('linreg', LogisticRegression(C=2))])

Poziv metode `fit` funkcioniše na opisani način.

In [15]:
linreg_pipeline.fit(X_train, y_train)

Pipeline(steps=[('scaler', StandardScaler()),
                ('linreg', LogisticRegression(C=2))])

Pojedinačne elemente cevovoda možemo dohvatiti korišćenjem navedenih imena. Tako se, recimo, sledećim blokom koda mogu izdvojiti naučeni koeficijenti modela logističke regresije.

In [16]:
linreg_pipeline['linreg'].coef_

array([[-0.79251673, -0.46364269, -0.74855091, -0.86833764, -0.30646894,
         0.58060554, -1.1264342 , -0.97423125,  0.46512597,  0.38258632,
        -1.44598332,  0.51297567, -0.94635518, -1.12432812, -0.41213252,
         0.81943926,  0.03968061, -0.0242161 , -0.29270501,  0.88414575,
        -1.29967288, -1.49391187, -1.09956167, -1.23298801, -1.36898131,
         0.26682155, -1.01853841, -0.47128969, -0.80195573, -0.80468404]])

In [17]:
linreg_pipeline['linreg'].intercept_

array([-0.18620725])

Poziv metode `score`, takođe, funkcioniše na način opisan iznad.

In [18]:
linreg_pipeline.score(X_test, y_test)

0.973404255319149

Isto važi i za metod `predict`. 

In [19]:
linreg_pipeline.predict([X_test[0,:]])

array([1])

U slučajevima kada se cevovod sastoji od većeg broja koraka, zgodno je prikazati ga i grafički. To se može postići uključivanjem interaktivnog moda na nivou `scikit-learn` biblioteke.

In [20]:
from sklearn import set_config

In [21]:
set_config(display='diagram')

In [22]:
linreg_pipeline