# Kaip naudoti modelį su naujais duomenimis?

In [1]:
import numpy as np
import pandas as pd
import matplotlib as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

In [2]:
%matplotlib inline

Įsivaizduokime, kad modelio apmokymas užtrunka labai ilgai, dažnai taip ir būna. Kaip padaryti taip, kad kas kartą leidžiant mūsų programą, modelio nereikėtų mokyti iš naujo? Pasimuliuokime pavyzdį:

In [3]:
iris = sns.load_dataset('iris')
cols = iris.columns.tolist()
X = iris[cols[:-1]]
y = iris['species']

In [4]:
X_train, X_test, y_train, y_test = \
train_test_split(X, y, test_size=0.4, random_state=42)
model = RandomForestClassifier(n_estimators = 10000).fit(X_train.values, y_train.values)

### Modelio išsaugojimas
Šiuo atveju, vidutinio pajėgumo nešiojamame kompiuteryje, 'mokslas' trunka apie 10s. Tam, kad kas kartą leidžiant programą nereikėtų laukti, reikėtų modelį išsaugoti, ir vietoje eilinio apmokymo, užkrauti jį iš atminties. Procesas atrodo taip:

In [5]:
import pickle

In [6]:
with open ('iris_predictor.pickle', 'wb') as f:
    pickle.dump(model, f)

dabar, užkraukime modelį iš atminties:

In [7]:
pickled_model = open('iris_predictor.pickle', 'rb')
loaded_model = pickle.load(pickled_model)

In [8]:
loaded_model.score(X_test.values, y_test.values)

0.9833333333333333

*kai kurios kodo eilutės iškomentuotos, nes mums jau nebereikia mokyti modelio ir saugoti jo iš naujo. Leidžiame užkrautą iš failo.*

### Kaip maitinti modelį po vieną eilutę? 

Įsivaizduokite, kad rašote programą, kuri pvz, nustatys gyvybės draudimo kainos koeficientus pagal mašininio mokymo modelio rezultatus. Pvz, jei klientui modelis 'diagnozuoja' ligą, kainos koeficientas x3. Tai tik vienas iš praktinio panaudojimo pavyzdžių. Darbuotojas tiesiog suves duomenis ir gaus atsakymą. Pabandykime mūsų gėlyčių modeliui sumaitinti po vieną kintamąjį:

In [9]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [10]:
sepal_length = float(input('Sepal length: '))
sepal_width = float(input('Sepal width: '))
petal_length = float(input('Petal length: '))
petal_width = float(input('Petal width: '))

prediction = loaded_model.predict([[sepal_length, sepal_width, petal_length, petal_width]])
# metodas reikalauja 2d array, todėl [[]]
print(f'My holy prediction is {prediction}!')

Sepal length:  4.7
Sepal width:  3.2
Petal length:  1.3
Petal width:  0.2


My holy prediction is ['setosa']!


Realybėje, greičiausiai, tai nebus komandinės eilutės programa apie gėlytes, čia pademonstruotas tik kintamųjų perdavimo mechanizmas.