# Chapter 14

# Automate Machine Learning Workflows with Pipelines

## Data Preparation and Modeling Pipeline

In [None]:
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Đọc dữ liệu từ file CSV
filename = 'diabetes.csv'
data = read_csv(filename)

# Chuyển dữ liệu thành mảng numpy
array = data.values

# Chọn 8 cột đầu tiên làm đặc trưng (features)
X = array[:,0:8]

# Chọn cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Số lượng folds cho cross-validation
num_folds = 10

# Seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7

# Tạo danh sách các bước trong pipeline
estimator = []

# Thêm bước chuẩn hóa dữ liệu (StandardScaler)
estimator.append(('standardize', StandardScaler()))

# Thêm bước phân tích tuyến tính (Linear Discriminant Analysis - LDA)
estimator.append(('lda', LinearDiscriminantAnalysis()))

# Tạo pipeline với các bước đã định nghĩa
model = Pipeline(estimator)

# Tạo k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Đánh giá mô hình bằng cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình
print(results.mean())

0.7669685577580315


## Feature Extraction and Modeling Pipeline

In [None]:
# Import các thư viện cần thiết
from pandas import read_csv
from sklearn.model_selection import KFold, cross_val_score
from sklearn.feature_selection import SelectKBest
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA

# Đọc dữ liệu từ file CSV
filename = 'diabetes.csv'
data = read_csv(filename)

# Chuyển dữ liệu thành mảng numpy
array = data.values

# Chọn 8 cột đầu tiên làm đặc trưng (features)
X = array[:,0:8]

# Chọn cột cuối cùng làm nhãn (labels)
Y = array[:,8]

# Số lượng folds cho cross-validation
num_folds = 10

# Seed để đảm bảo tính ngẫu nhiên có thể tái lập
seed = 7

# Tạo danh sách các bước trích xuất đặc trưng
features = []

# Thêm bước trích xuất đặc trưng bằng PCA (Principal Component Analysis)
features.append(('pca', PCA(n_components=3)))

# Thêm bước trích xuất đặc trưng bằng SelectKBest
features.append(('select_best', SelectKBest(k=6)))

# Kết hợp các bước trích xuất đặc trưng
feathure_union = FeatureUnion(features)

# Tạo danh sách các bước trong pipeline
estimators = []

# Thêm bước kết hợp đặc trưng vào pipeline
estimators.append(('feathure_union', feathure_union))

# Thêm bước xây dựng mô hình Logistic Regression
estimators.append(('logistic', LogisticRegression(solver='liblinear')))

# Tạo pipeline với các bước đã định nghĩa
model = Pipeline(estimators)

# Tạo k-fold cross-validation
kfold = KFold(n_splits=num_folds, random_state=seed, shuffle=True)

# Đánh giá mô hình bằng cross-validation
results = cross_val_score(model, X, Y, cv=kfold)

# In ra độ chính xác trung bình
print(results.mean())

0.7721633629528366
