Tìm ra độ chính xác của mô hình machine learning chưa phải điểm kết thúc của dự án. Vậy làm sao để save và load mô hình machine learning của bạn trong Python?
- Tầm quan trọng của làm một chuỗi mô hình để tái sử dụng
- Sử dụng pickle để nén và mở các mô hình machine learning
- Sử dụng joblib để nén và mở các mô hình machine learning

### I. Finalize Your Model with pickle

In [24]:
# Save Model Using Pickle
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
import pickle

names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv('pima-indians-diabetes.csv', names=names)
array = dataframe.values
X = array[:, :8] # input
Y = array[:, 8] # output
test_size = 0.33
seed = 7

# hold oout
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)
# Fit the model on 33%
model = LogisticRegression(solver='liblinear')
model.fit(X_train, Y_train)
# save the model to disk
filename = 'finalized_model1.sav'
pickle.dump(model, open(filename, 'wb'))

# some time later

# load the model
loaded_model = pickle.load(open(filename, 'rb'))
result = loaded_model.score(X_test, Y_test)
print(result)

0.7559055118110236


### II. Finalize Your Model with joblib

In [25]:
# Save Model Using joblib
from sklearn.externals import joblib

# save the model to disk
filename = 'finalized_model2.sav'
joblib.dump(model, filename)

# some time later...

# load the model from disk
loaded_model = joblib.load(filename)
result = loaded_model.score(X_test, Y_test)
print(result)

0.7559055118110236


### III. Split your test set for testing the model

In [26]:
# Ở bước này không tạo ra model mà đơn thuần tách riêng tập test và kiểm thử load model
from sklearn.externals import joblib
# Load data
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv('pima-indians-diabetes.csv', names=names)
array = dataframe.values
X = array[:, :8] # input
Y = array[:, 8] # output
# test harness
test_size = 0.33
seed = 7
# hold out
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=test_size, random_state=seed)

# Dump test set (numpy array) into a csv file
pd.DataFrame(X_test).to_csv('xtest.csv', header=list(range(0,8)), index=None) # tách thành csv file
pd.DataFrame(Y_test).to_csv('ytest.csv', header=['label'], index=None) # tách thành csv file
# còn không, holdout cả bộ dữ liệu ngay từ đầu, sau đó trích xuất thành file csv
# đến khi load model thì, tách riêng input và output trong test set csv rồi dùng model dự đoán

# load test set
x = pd.read_csv('xtest.csv').values
y = pd.read_csv('ytest.csv').values

# load the model from disk
loaded_model = joblib.load('finalized_model2.sav') # tên model đã được lưu từ trước
result = loaded_model.score(x,y)
print(result)

0.7559055118110236


**Note:** những điều cần chú ý
- Phiên bản Python
- Phiên bản library

In [27]:
# Check the versions of libraries
 
# Python version
import sys
print('Python: {}'.format(sys.version))
# numpy
import numpy
print('numpy: {}'.format(numpy.__version__))
# pandas
import pandas
print('pandas: {}'.format(pandas.__version__))
# scikit-learn
import sklearn
print('sklearn: {}'.format(sklearn.__version__))

Python: 3.6.5 |Anaconda custom (64-bit)| (default, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)]
numpy: 1.16.4
pandas: 0.24.2
sklearn: 0.21.1
