# Chương 17: Lưu và Tải Mô Hình Học Máy

Tìm ra một mô hình học máy chính xác không phải là điểm kết thúc của dự án. Trong chương này, bạn sẽ khám phá cách lưu và tải mô hình học máy của bạn trong Python sử dụng scikit-learn. Điều này cho phép bạn lưu mô hình của mình vào tệp và sau đó tải nó lại để thực hiện dự đoán. Sau khi hoàn thành bài học này, bạn sẽ biết:

1. Tầm quan trọng của việc tuần tự hóa (serializing) mô hình để tái sử dụng.
2. Cách sử dụng pickle để tuần tự hóa và khử tuần tự hóa các mô hình học máy.
3. Cách sử dụng Joblib để tuần tự hóa và khử tuần tự hóa các mô hình học máy.

Hãy bắt đầu.

## 17.1 Hoàn thiện Mô Hình của Bạn với Pickle




In [None]:
# Save Model Using Pickle
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from pickle import dump
from pickle import load
import numpy as np

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names, header=None)

# Kiểm tra dòng đầu tiên có phải là header không
if dataframe.iloc[0, 0] == 'Pregnancies':
    dataframe = dataframe[1:]  # Xóa dòng tiêu đề bị lẫn nếu có

# Xóa khoảng trắng và thay '?' bằng NaN, sau đó bỏ hàng bị lỗi
dataframe = dataframe.replace('?', np.nan).dropna()

dataframe = dataframe.astype(float)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Tiền xử lí chuẩn hoá dữ liệu
scaler = StandardScaler()
X = scaler.fit_transform(X)  

# Chia tập dữ liệu
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)

# Huấn luyện mô hình với max_iter tăng để tránh lỗi hội tụ
model = LogisticRegression(max_iter=500)
model.fit(X_train, Y_train)

# Lưu mô hình vào đĩa
filename = 'finalized_model.sav'
dump(model, open(filename, 'wb'))

# Tải mô hình từ đĩa và đánh giá
loaded_model = load(open(filename, 'rb'))
result = loaded_model.score(X_test, Y_test)
print(result)

0.7834645669291339


## 17.2 Hoàn thiện Mô Hình của Bạn với Joblib

In [1]:
# Save Model Using joblib
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from  joblib import dump
from joblib import load
import numpy as np
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Kiểm tra dòng đầu tiên có phải là header không
if dataframe.iloc[0, 0] == 'Pregnancies':
    dataframe = dataframe[1:]  # Xóa dòng tiêu đề bị lẫn nếu có

# Xóa khoảng trắng và thay '?' bằng NaN, sau đó bỏ hàng bị lỗi
dataframe = dataframe.replace('?', np.nan).dropna()

dataframe = dataframe.astype(float)

array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)
# Fit the model on 33%
model = LogisticRegression(max_iter=500)
model.fit(X_train, Y_train)
# save the model to disk
filename = 'finalized_model.sav'
dump(model, filename)
# some time later...
# load the model from disk
loaded_model = load(filename)
result = loaded_model.score(X_test, Y_test)
print(result)

0.7874015748031497
