In [None]:
1. Data Preparation and Modeling Pipeline

In [1]:
# Pipeline chuẩn hóa dữ liệu và huấn luyện Linear Discriminant Analysis trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Tạo Pipeline: Chuẩn hóa dữ liệu rồi huấn luyện mô hình
pipeline = Pipeline([
    ('standardize', StandardScaler()),  # Bước 1: Chuẩn hóa dữ liệu
    ('lda', LinearDiscriminantAnalysis())  # Bước 2: Huấn luyện Linear Discriminant Analysis
])

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Đánh giá Pipeline
results = cross_val_score(pipeline, X, y, cv=kfold, scoring='accuracy')

# In kết quả: Độ chính xác trung bình
print(f"Độ chính xác trung bình: {results.mean():.3f}")

Độ chính xác trung bình: 0.767


2. Feature Extraction and Modeling Pipeline

In [2]:
# Pipeline trích xuất đặc trưng và huấn luyện Logistic Regression trên tập Pima Indians Diabetes
import pandas as pd
from sklearn.model_selection import KFold, cross_val_score
from sklearn.pipeline import Pipeline, FeatureUnion
from sklearn.linear_model import LogisticRegression
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

# Tải dữ liệu
url = "https://raw.githubusercontent.com/jbrownlee/Datasets/master/pima-indians-diabetes.data.csv"
columns = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class']
data = pd.read_csv(url, names=columns)

# Tách features và target
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values

# Tạo FeatureUnion: Kết hợp PCA và SelectKBest
feature_union = FeatureUnion([
    ('pca', PCA(n_components=3)),  # Trích xuất 3 đặc trưng bằng PCA
    ('select_best', SelectKBest(k=6))  # Chọn 6 đặc trưng tốt nhất
])

# Tạo Pipeline: Trích xuất đặc trưng rồi huấn luyện mô hình
pipeline = Pipeline([
    ('feature_union', feature_union),  # Bước 1: Kết hợp các đặc trưng
    ('logistic', LogisticRegression(max_iter=1000))  # Bước 2: Huấn luyện Logistic Regression
])

# Thiết lập cross-validation
kfold = KFold(n_splits=10, shuffle=True, random_state=7)

# Đánh giá Pipeline
results = cross_val_score(pipeline, X, y, cv=kfold, scoring='accuracy')

# In kết quả: Độ chính xác trung bình
print(f"Độ chính xác trung bình: {results.mean():.3f}")

Độ chính xác trung bình: 0.772
