# Chương 17: Lưu và Tải Mô Hình Học Máy

Tìm được một mô hình học máy chính xác không phải là kết thúc của dự án. Trong chương này, bạn sẽ khám phá cách lưu và tải mô hình học máy của bạn trong Python sử dụng scikit-learn. Điều này cho phép bạn lưu mô hình của mình vào tệp và tải lại sau để thực hiện dự đoán. Sau khi hoàn thành bài học này, bạn sẽ biết:
1. Tầm quan trọng của việc tuần tự hóa (serializing) mô hình để tái sử dụng.
2. Cách sử dụng pickle để tuần tự hóa và giải tuần tự hóa mô hình học máy.
3. Cách sử dụng Joblib để tuần tự hóa và giải tuần tự hóa mô hình học máy.

## 17.1 Hoàn Thiện Mô Hình Với pickle

**Pickle** là cách tiêu chuẩn để tuần tự hóa các đối tượng trong Python. Bạn có thể sử dụng thao tác pickle để tuần tự hóa các thuật toán học máy của mình và lưu định dạng tuần tự hóa vào một tệp. Sau đó, bạn có thể tải tệp này để giải tuần tự hóa mô hình của mình và sử dụng nó để đưa ra các dự đoán mới.

Ví dụ dưới đây cho thấy cách bạn có thể huấn luyện một mô hình hồi quy logistic trên tập dữ liệu Pima Indians về bệnh tiểu đường, lưu mô hình vào tệp và tải nó để đưa ra dự đoán trên tập kiểm tra chưa từng thấy.

In [None]:
# Lưu Mô Hình Sử Dụng Pickle
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from pickle import dump
from pickle import load

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)

# Fit the model on 33%
model = LogisticRegression()
model.fit(X_train, Y_train)

# save the model to disk
filename = 'finalized_model.sav'
dump(model, open(filename, 'wb'))

# some time later...
# load the model from disk
loaded_model = load(open(filename, 'rb'))
result = loaded_model.score(X_test, Y_test)
print(result)

## 17.2 Hoàn Thiện Mô Hình Với Joblib

Thư viện **Joblib** là một phần của hệ sinh thái SciPy và cung cấp các tiện ích để quản lý các công việc Python. Nó cung cấp các tiện ích để lưu và tải các đối tượng Python sử dụng cấu trúc dữ liệu NumPy một cách hiệu quả. Điều này có thể hữu ích cho một số thuật toán học máy yêu cầu nhiều tham số hoặc lưu trữ toàn bộ tập dữ liệu (ví dụ: k-Nearest Neighbors).

Ví dụ dưới đây cho thấy cách bạn có thể huấn luyện một mô hình hồi quy logistic trên tập dữ liệu Pima Indians về bệnh tiểu đường, lưu mô hình vào tệp sử dụng Joblib và tải nó để đưa ra dự đoán trên tập kiểm tra chưa từng thấy.

In [None]:
# Lưu Mô Hình Sử dụng joblib
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.externals.joblib import dump
from sklearn.externals.joblib import load

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)

# Fit the model on 33%
model = LogisticRegression()
model.fit(X_train, Y_train)

# save the model to disk
filename = 'finalized_model.sav'
dump(model, filename)

# some time later...
# load the model from disk
loaded_model = load(filename)
result = loaded_model.score(X_test, Y_test)
print(result)

## 17.3 Mẹo Để Hoàn Thiện Mô Hình Của Bạn

Phần này liệt kê một số lưu ý quan trọng khi hoàn thiện các mô hình học máy của bạn.

- **Phiên Bản Python**: Ghi nhớ phiên bản Python. Bạn gần như chắc chắn cần cùng phiên bản chính (và có thể cả phiên bản phụ) của Python được sử dụng để tuần tự hóa mô hình khi bạn tải lại sau đó và giải tuần tự hóa nó.

- **Phiên Bản Thư Viện**: Phiên bản của tất cả các thư viện chính được sử dụng trong dự án học máy của bạn gần như chắc chắn cần phải giống nhau khi giải tuần tự hóa một mô hình đã lưu. Điều này không chỉ giới hạn ở phiên bản của NumPy và phiên bản của scikit-learn.

- **Tuần Tự Hóa Thủ Công**: Bạn có thể thích xuất thủ công các tham số của mô hình đã học để có thể sử dụng chúng trực tiếp trong scikit-learn hoặc nền tảng khác trong tương lai. Thường thì các kỹ thuật được sử dụng nội bộ bởi các thuật toán học máy để đưa ra dự đoán đơn giản hơn nhiều so với những kỹ thuật được sử dụng để học các tham số và có thể dễ dàng để triển khai trong mã tùy chỉnh mà bạn kiểm soát.

Hãy ghi nhớ phiên bản để bạn có thể tái tạo lại môi trường nếu vì lý do nào đó bạn không thể tải lại mô hình của mình trên một máy khác hoặc nền tảng khác tại một thời điểm sau.

## 17.4 Ví dụ mở rộng: Lưu và tải mô hình trên bộ dữ liệu thực tế

Dưới đây là một ví dụ mở rộng về cách lưu và tải một mô hình Random Forest, một trong những thuật toán phổ biến trong học máy, với bộ dữ liệu Boston Housing.

In [None]:
# Lưu và tải mô hình Random Forest
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import pickle

# Tải bộ dữ liệu Boston Housing
boston = load_boston()
X = boston.data
y = boston.target

# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tạo và huấn luyện mô hình Random Forest
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Đánh giá mô hình trước khi lưu
y_pred = rf_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error (trước khi lưu): {mse}")

# Lưu mô hình vào đĩa
model_filename = 'boston_rf_model.pkl'
with open(model_filename, 'wb') as file:
    pickle.dump(rf_model, file)
    
print(f"Mô hình đã được lưu vào {model_filename}")

# Tải mô hình từ đĩa
with open(model_filename, 'rb') as file:
    loaded_rf_model = pickle.load(file)
    
# Kiểm tra mô hình đã tải
loaded_y_pred = loaded_rf_model.predict(X_test)
loaded_mse = mean_squared_error(y_test, loaded_y_pred)
print(f"Mean Squared Error (sau khi tải): {loaded_mse}")

# So sánh kết quả để xác nhận mô hình đã được tải chính xác
print(f"Dự đoán giống nhau? {np.array_equal(y_pred, loaded_y_pred)}")