# Chương 15: Tune Hyperparameters of a Classification Model with Grid Search
- Mục tiêu chương:
Tìm kiếm và điều chỉnh các siêu tham số của mô hình phân loại để cải thiện hiệu suất.
- Các bước chính:
  + Sử dụng GridSearchCV để tìm kiếm trên không gian các siêu tham số.
  + Sử dụng k-fold cross-validation để đánh giá hiệu quả của các bộ siêu tham số.
  + Xem xét các mô hình khác nhau với các tham số tối ưu hóa.

In [10]:
# Bagged Decision Trees for Classification
from pandas import read_csv  # Nhập thư viện để đọc file CSV
from sklearn.model_selection import KFold  # Nhập KFold để thực hiện cross-validation
from sklearn.model_selection import cross_val_score  # Nhập cross_val_score để đánh giá mô hình
from sklearn.ensemble import BaggingClassifier  # Nhập BaggingClassifier để tạo mô hình bagging
from sklearn.tree import DecisionTreeClassifier  # Nhập DecisionTreeClassifier để tạo cây quyết định
filename = 'pima-indians-diabetes.data.csv'  # Đường dẫn tới file dữ liệu
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']  # Tên các cột trong dữ liệu
dataframe = read_csv(filename, names=names, header=0)  # Đọc dữ liệu từ file CSV và chỉ định tên cột
array = dataframe.values  # Chuyển đổi DataFrame thành mảng numpy
X = array[:,0:8]  # Tách các đặc trưng (features) từ cột 0 đến cột 7
Y = array[:,8]  # Tách biến mục tiêu (target) từ cột 8
seed = 7  # Đặt giá trị random seed
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)  # Khởi tạo KFold với số n_split và random seed
cart = DecisionTreeClassifier()  # Khởi tạo mô hình cây quyết định
num_trees = 100  # Số lượng cây trong mô hình bagging
model = BaggingClassifier(estimator=cart, n_estimators=num_trees, random_state=seed)  # Sửa lỗi: sử dụng 'estimator' thay vì 'base_estimator'
results = cross_val_score(model, X, Y, cv=kfold)  # Đánh giá mô hình bằng cross-validation
print(results.mean())  # In ra độ chính xác trung bình của mô hình

0.7578263841421736


In [16]:
from sklearn.ensemble import RandomForestClassifier
# Random Forest Classification
max_features = 3
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7630211893369788


In [20]:
# Extra Trees Classification
from sklearn.ensemble import ExtraTreesClassifier
max_features = 7
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7643369788106631


In [26]:
# AdaBoost Classification
from sklearn.ensemble import AdaBoostClassifier
num_trees = 30
seed=7
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)
model = AdaBoostClassifier(algorithm='SAMME', n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7552460697197538


In [28]:
# Stochastic Gradient Boosting Classification
from sklearn.ensemble import GradientBoostingClassifier
seed = 7
num_trees = 100
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())

0.7578947368421053


In [42]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier
# Tập hợp bỏ phiếu (Voting Ensemble) cho bài toán phân loại
kfold = KFold(n_splits=10, shuffle=True, random_state=7)
# tạo các mô hình con
estimators = []
model1 = LogisticRegression(max_iter=200)
estimators.append(('logistic', model1))
model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))
model3 = SVC()
estimators.append(('svm', model3))
# tạo mô hình tổ hợp (ensemble model)
ensemble = VotingClassifier(estimators)
results = cross_val_score(ensemble, X, Y, cv=kfold)
print(results.mean())

0.769583048530417


# Chương 16: Tune Hyperparameters of a Regression Model with Grid Search

- Mục tiêu chương:
  + Tìm kiếm và điều chỉnh các siêu tham số của mô hình hồi quy để tối ưu hóa độ chính xác.
- Các bước chính:
  + Áp dụng GridSearchCV cho các mô hình hồi quy.
  + Tinh chỉnh siêu tham số của mô hình hồi quy như alpha trong Ridge Regression.
  + Sử dụng cross-validation để kiểm tra các mô hình với các tham số tối ưu.

In [49]:
#GridSearchforAlgorithmTuning
import numpy
from pandas import read_csv
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV
filename= 'pima-indians-diabetes.data.csv'
names=['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe=read_csv(filename,names=names,header=0)
array=dataframe.values
X= array[:,0:8]
Y= array[:,8]
alphas=numpy.array([1,0.1,0.01,0.001,0.0001,0])
param_grid=dict(alpha=alphas)
model=Ridge()
grid=GridSearchCV(estimator=model,param_grid=param_grid)
grid.fit(X,Y)
print(grid.best_score_)
print(grid.best_estimator_.alpha)

0.27610844129292433
1.0


In [51]:
#RandomizedforAlgorithmTuning
from scipy.stats import uniform
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV
param_grid={'alpha':uniform()}
model=Ridge()
rsearch=RandomizedSearchCV(estimator=model,param_distributions=param_grid,n_iter=100,
random_state=7)
rsearch.fit(X,Y)
print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

0.2761075573402854
0.9779895119966027


# Chương 17: Evaluate Performance of Classification Algorithms

- Mục tiêu chương:
  + Đánh giá hiệu suất của các thuật toán phân loại qua các chỉ số khác nhau.
- Các bước chính:
  + Sử dụng các thước đo như accuracy, precision, recall, F1-score.
  + Vẽ ma trận nhầm lẫn để hiểu rõ hơn về các dự đoán sai.
  + Áp dụng ROC Curve và AUC để đánh giá mô hình phân loại.

In [56]:
# Lưu Model Using Pickle
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from pickle import dump
from pickle import load
# Đọc dữ liệu từ file CSV
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names, header=0)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
# Chia dữ liệu thành tập huấn luyện và kiểm tra
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)
# Huấn luyện mô hình với Logistic Regression
model = LogisticRegression(max_iter=200)
model.fit(X_train, Y_train)
# Lưu mô hình xuống ổ đĩa
filename = 'finalized_model.sav'
dump(model, open(filename, 'wb'))
# Tải mô hình từ ổ đĩa
loaded_model = load(open(filename, 'rb'))
result = loaded_model.score(X_test, Y_test)
print(result)

0.7874015748031497


In [62]:
# Lưu Model Using joblib
from pandas import read_csv
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from joblib import dump
from joblib import load
# Đọc dữ liệu và chia tập
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names, header=0)
array = dataframe.values
X = array[:,0:8]
Y = array[:,8]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.33, random_state=7)
# Huấn luyện mô hình
model = LogisticRegression(max_iter=200)
model.fit(X_train, Y_train)
# Lưu mô hình bằng joblib
filename = 'finalized_model.sav'
dump(model, filename)
# Tải mô hình từ ổ đĩa và đánh giá
loaded_model = load(filename)
result = loaded_model.score(X_test, Y_test)
print(result)

0.7874015748031497
