# Chapter 15

# Improve Performance with Ensembles

## Bagging Algorithms

### Bagged Decision Trees

In [None]:
from pandas import read_csv  # Thư viện để đọc dữ liệu từ file CSV
from sklearn.model_selection import KFold, cross_val_score  # Thư viện để tạo k-fold cross-validation và đánh giá mô hình
from sklearn.ensemble import BaggingClassifier  # Thư viện để tạo mô hình Bagging
from sklearn.tree import DecisionTreeClassifier  # Thư viện để tạo mô hình cây quyết định

# Đọc dữ liệu từ file CSV
filename = 'diabetes.csv'  # Tên file dữ liệu
data = read_csv(filename)  # Đọc dữ liệu

# Chuyển dữ liệu thành mảng numpy
array = data.values  # Chuyển đổi dữ liệu

# Tách dữ liệu thành đặc trưng đầu vào (X) và biến mục tiêu (Y)
X = array[:,0:8]  # 8 cột đầu tiên là đặc trưng đầu vào
Y = array[:,8]    # Cột cuối cùng là biến mục tiêu

# Định nghĩa các tham số cho cross-validation
test_size = 0.33  # Tỷ lệ dữ liệu kiểm tra
num_folds = 10    # Số lượng tập gấp trong cross-validation
seed = 7          # Hạt giống ngẫu nhiên để đảm bảo tính tái lập

# Tạo đối tượng k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)  # Tạo k-fold

# Tạo mô hình cơ sở (Cây quyết định)
cart = DecisionTreeClassifier()  # Mô hình cây quyết định

# Định nghĩa số lượng cây trong mô hình Bagging
num_trees = 100  # Số lượng cây

# Tạo mô hình Bagging sử dụng cây quyết định làm mô hình cơ sở
model = BaggingClassifier(estimator=cart, n_estimators=num_trees, random_state=seed)  # Mô hình Bagging

# Đánh giá mô hình sử dụng cross-validation
results = cross_val_score(model, X, Y, cv=kfold)  # Đánh giá mô hình

# In ra độ chính xác trung bình của mô hình
print(results.mean())  # In kết quả

0.7578263841421736


### Random Forest

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import RandomForestClassifier

# Load the dataset
filename = 'diabetes.csv'
data = read_csv(filename)

# Convert the dataset to a numpy array
array = data.values  # Convert to numpy array

# Split the dataset into input features (X) and target variable (Y)
X = array[:,0:8]  # First 8 columns are input features
Y = array[:,8]    # Last column is the target variable

# Define parameters for cross-validation
test_size = 0.33  # Test size (not used here but defined for consistency)
num_folds = 10    # Number of folds for k-fold cross-validation
seed = 7          # Random seed for reproducibility

# Create a k-fold cross-validation object
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Define the number of trees for the Random Forest ensemble
num_trees = 100

# Create the Random Forest model
model = RandomForestClassifier(n_estimators=num_trees, random_state=seed)

# Evaluate the model using cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# Print the mean accuracy of the model
print(results.mean())

0.7721462747778538


### Extra Trees

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import ExtraTreesClassifier

# Load the dataset
filename = 'diabetes.csv'
data = read_csv(filename)

# Convert the dataset to a numpy array
array = data.values  # Convert to numpy array

# Split the dataset into input features (X) and target variable (Y)
X = array[:,0:8]  # First 8 columns are input features
Y = array[:,8]    # Last column is the target variable

# Define parameters for cross-validation
test_size = 0.33  # Test size (not used here but defined for consistency)
num_folds = 10    # Number of folds for k-fold cross-validation
seed = 7          # Random seed for reproducibility

# Create a k-fold cross-validation object
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Define the number of trees for the Extra Trees ensemble
num_trees = 100

# Create the Extra Trees model
model = ExtraTreesClassifier(n_estimators=num_trees, random_state=seed)

# Evaluate the model using cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# Print the mean accuracy of the model
print(results.mean())

0.7656356801093642


## Boosting Algorithms

### AdaBoost

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import AdaBoostClassifier

# Load the dataset
filename = 'diabetes.csv'
data = read_csv(filename)

# Convert the dataset to a numpy array
array = data.values  # Convert to numpy array

# Split the dataset into input features (X) and target variable (Y)
X = array[:,0:8]  # First 8 columns are input features
Y = array[:,8]    # Last column is the target variable

# Define parameters for cross-validation
test_size = 0.33  # Test size (not used here but defined for consistency)
num_folds = 10    # Number of folds for k-fold cross-validation
seed = 7          # Random seed for reproducibility

# Create a k-fold cross-validation object
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Define the number of trees for the AdaBoost ensemble
num_trees = 30  # Number of weak learners (estimators) in the ensemble

# Create the AdaBoost model
model = AdaBoostClassifier(n_estimators=num_trees, random_state=seed)

# Evaluate the model using cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# Print the mean accuracy of the model
print(results.mean())

0.7552460697197538


### Stochastic Gradient Boosting

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import GradientBoostingClassifier

# Load the dataset
filename = 'diabetes.csv'  # Tên file chứa dữ liệu
data = read_csv(filename)  # Đọc dữ liệu từ file CSV

# Convert the dataset to a numpy array
array = data.values  # Chuyển dữ liệu thành mảng numpy

# Split the dataset into input features (X) and target variable (Y)
X = array[:,0:8]  # 8 cột đầu tiên là các đặc trưng đầu vào
Y = array[:,8]    # Cột cuối cùng là biến mục tiêu

# Define parameters for cross-validation
test_size = 0.33  # Tỷ lệ dữ liệu kiểm tra (không sử dụng trong đoạn code này)
num_folds = 10    # Số lượng tập gấp trong cross-validation
seed = 7          # Hạt giống ngẫu nhiên để đảm bảo tính tái lập

# Create a k-fold cross-validation object
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)  # Tạo đối tượng k-fold cross-validation

# Define the number of trees for the Gradient Boosting ensemble
num_trees = 100  # Số lượng cây trong mô hình Gradient Boosting

# Create the Gradient Boosting model
model = GradientBoostingClassifier(n_estimators=num_trees, random_state=seed)  # Tạo mô hình Gradient Boosting

# Evaluate the model using cross-validation
results = cross_val_score(model, X, Y, cv=kfold)  # Đánh giá mô hình bằng cross-validation

# Print the mean accuracy of the model
print(results.mean())  # In ra độ chính xác trung bình của mô hình

0.7578947368421053


## Voting Ensemble

In [10]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import VotingClassifier
from sklearn.svm import SVC
filename = 'diabetes.csv'
data = read_csv(filename)
array = data.values # convert to numpy array
X = array[:,0:8] # first 8 column
Y = array[:,8] # last column
num_folds = 10
seed = 7
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True) # create k-fold cross-validation
estimators = []
estimators.append(('logistic', LogisticRegression(solver='liblinear'))) # create the model
estimators.append(('cart', DecisionTreeClassifier())) # create the model
estimators.append(('svm', SVC())) # create the model
ensemble = VotingClassifier(estimators) # create the ensemble
results = cross_val_score(ensemble, X, Y, cv=kfold) # evaluate the ensemble
print(results.mean()) # print the mean accuracy

0.7695659603554341
