### Chương 16: Cải Thiện Hiệu Suất với Điều Chỉnh Thuật Toán

Các mô hình học máy được tham số hóa để hành vi của chúng có thể được điều chỉnh cho một vấn đề cụ thể. Các mô hình có thể có nhiều tham số và việc tìm ra sự kết hợp tốt nhất của các tham số có thể được coi là một bài toán tìm kiếm. Trong chương này, bạn sẽ khám phá cách điều chỉnh các tham số của thuật toán học máy trong Python bằng cách sử dụng scikit-learn. Sau khi hoàn thành bài học này, bạn sẽ biết:

- **Tầm quan trọng của việc điều chỉnh tham số thuật toán để cải thiện hiệu suất thuật toán.**
- **Cách sử dụng chiến lược điều chỉnh tham số tìm kiếm lưới (grid search).**
- Cách sử dụng chiến lược điều chỉnh tham số tìm kiếm ngẫu nhiên (random search).

16.1 Tham Số của Thuật Toán Học Máy

16.2 Điều Chỉnh Tham Số Tìm Kiếm Lưới

In [1]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

# Đọc dữ liệu đúng cách
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = pd.read_csv(filename, names=names, header=None)

# Kiểm tra dòng đầu tiên có phải là header không
if dataframe.iloc[0, 0] == 'Pregnancies':  
    dataframe = dataframe[1:]  # Xóa dòng tiêu đề bị lẫn

# Xóa khoảng trắng và thay '?' bằng NaN, sau đó bỏ hàng bị lỗi
dataframe = dataframe.replace('?', np.nan).dropna()

# Chuyển đổi dữ liệu sang kiểu số
dataframe = dataframe.astype(float)

# Chuyển dữ liệu thành numpy array
array = dataframe.values
X = array[:, 0:8]  
Y = array[:, 8]

# Thiết lập lưới tham số
alphas = np.array([1, 0.1, 0.01, 0.001, 0.0001, 0])
param_grid = dict(alpha=alphas)
model = Ridge()

# Tìm kiếm tham số tốt nhất
grid = GridSearchCV(estimator=model, param_grid=param_grid)
grid.fit(X, Y)

# In kết quả
print( grid.best_score_)
print( grid.best_estimator_.alpha)


0.2761084412929244
1.0


16.3 Điều Chỉnh Tham Số Tìm Kiếm Ngẫu Nhiên

In [7]:
# Tìm Kiếm Ngẫu Nhiên cho Điều Chỉnh Thuật Toán
import numpy
from pandas import read_csv
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)

# Kiểm tra dòng đầu tiên có phải là header không
if dataframe.iloc[0, 0] == 'Pregnancies':  
    dataframe = dataframe[1:]  # Xóa dòng tiêu đề bị lẫn

# Xóa khoảng trắng và thay '?' bằng NaN, sau đó bỏ hàng bị lỗi
dataframe = dataframe.replace('?', np.nan).dropna()

array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

param_grid = {'alpha': uniform()}
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100, random_state=7)
rsearch.fit(X, Y)

print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

0.27610755734028525
0.9779895119966027
