15.2: Các thuật toán Bagging

15.2.1: Bagged Decision Trees

In [4]:
#15.2.1 Cây Quyết Định Bagged
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import BaggingClassifier
from sklearn.tree import DecisionTreeClassifier

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:,0:8]  # Các đặc trưng
Y = array[:,8]    # Nhãn

# Khởi tạo mô hình và k-fold cross validation
seed = 7
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)

cart = DecisionTreeClassifier()  # Mô hình cây quyết định
num_trees = 100  # Số cây trong mô hình
model = BaggingClassifier(estimator=cart, n_estimators=num_trees, random_state=seed)


# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold)
print(results.mean())  # In ra độ chính xác trung bình


0.7578263841421736


15.2.2 Rừng Ngẫu Nhiên (Random Forest)

In [9]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Khởi tạo mô hình và K-fold cross validation
seed = 7
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)  # Đảm bảo shuffle=True để random_state có hiệu lực

# Rừng ngẫu nhiên
num_trees = 100
max_features = 3
model = RandomForestClassifier(n_estimators=num_trees, max_features=max_features)

# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold)
print( results.mean())


0.759107997265892


15.2.3 Extra Trees

In [11]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import ExtraTreesClassifier

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Khởi tạo mô hình và K-fold cross validation
seed = 7
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)


# Extra Trees
num_trees = 100
max_features = 7
model = ExtraTreesClassifier(n_estimators=num_trees, max_features=max_features)

# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold)
print( results.mean())


Accuracy: 0.7630211893369789


15.3 Các Thuật toán Boosting

15.3.1 AdaBoost

In [13]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import AdaBoostClassifier

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Khởi tạo mô hình và K-fold cross validation
seed = 7
num_trees = 30
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)

# AdaBoost
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)

# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold)
print( results.mean())


Accuracy: 0.7552460697197538


15.3.2 Stochastic Gradient Boosting

In [14]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Khởi tạo mô hình và K-fold cross validation
seed = 7
num_trees = 100
kfold = KFold(n_splits=10, shuffle=True, random_state=seed)

# Stochastic Gradient Boosting
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)

# Đánh giá mô hình
results = cross_val_score(model, X, Y, cv=kfold)
print("Accuracy:", results.mean())


Accuracy: 0.7578947368421053


15.4 Ensemble Voting

In [20]:
from pandas import read_csv
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import VotingClassifier
from sklearn.preprocessing import StandardScaler

# Đọc dữ liệu
filename = 'pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
dataframe = read_csv(filename, names=names)
array = dataframe.values
X = array[:, 0:8]
Y = array[:, 8]

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Khởi tạo mô hình và K-fold cross validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Tạo các mô hình con
estimators = []
model1 = LogisticRegression(max_iter=1000)  # Tăng max_iter
estimators.append(('logistic', model1))
model2 = DecisionTreeClassifier()
estimators.append(('cart', model2))
model3 = SVC()
estimators.append(('svm', model3))

# Tạo mô hình ensemble
ensemble = VotingClassifier(estimators)

# Đánh giá mô hình
results = cross_val_score(ensemble, X_scaled, Y, cv=kfold)
print( results.mean())


0.7617737525632263
