In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [2]:
# Load dữ liệu ví dụ (Iris dataset)
data = load_iris()
X = data.data
y = data.target

In [3]:
# Chia dữ liệu thành tập huấn luyện và tập kiểm tra
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [4]:
# Xây dựng pipeline gồm 3 bước:
# 1. Tiêu chuẩn hóa dữ liệu
# 2. Phân tích thành phần chính (PCA)
# 3. Mô hình hóa logistic regression
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Bước 1: Tiêu chuẩn hóa dữ liệu
    ('pca', PCA(n_components=2)),  # Bước 2: Phân tích thành phần chính (Principal Component Analysis)
    ('classifier', LogisticRegression(random_state=42))  # Bước 3: Mô hình hóa logistic regression
])

In [5]:
# Huấn luyện pipeline trên tập huấn luyện
pipeline.fit(X_train, y_train)

In [6]:
# Dự đoán trên tập kiểm tra
y_pred = pipeline.predict(X_test)

In [7]:
# Đánh giá độ chính xác của mô hình
accuracy = accuracy_score(y_test, y_pred)
print(f"Độ chính xác của mô hình: {accuracy}")

Độ chính xác của mô hình: 0.9


In [8]:
# Tiền xử lý dữ liệu mới (giả sử bạn có một mẫu dữ liệu mới là new_data)
new_data = [[5.1, 3.5, 1.4, 0.2]]  # Thay thế bằng dữ liệu thực tế

# Tiền xử lý dữ liệu mới bằng pipeline (chúng ta chỉ cần sử dụng bước tiêu chuẩn hóa và PCA)
preprocessed_new_data = pipeline.named_steps['scaler'].transform(new_data)  # Tiêu chuẩn hóa
preprocessed_new_data = pipeline.named_steps['pca'].transform(preprocessed_new_data)  # PCA

# Dự đoán trên dữ liệu mới đã tiền xử lý
predicted_class = pipeline.named_steps['classifier'].predict(preprocessed_new_data)

print(f"Dự đoán lớp của dữ liệu mới: {predicted_class}")
print(f"Dự đoán nhãn của dữ liệu mới: {data.target_names[predicted_class]}")

Dự đoán lớp của dữ liệu mới: [0]
Dự đoán nhãn của dữ liệu mới: ['setosa']


In [9]:
predicted_class = pipeline.predict(new_data)
print(f"Dự đoán lớp của dữ liệu mới: {predicted_class}")
print(f"Dự đoán nhãn của dữ liệu mới: {data.target_names[predicted_class]}")

Dự đoán lớp của dữ liệu mới: [0]
Dự đoán nhãn của dữ liệu mới: ['setosa']


In [10]:
import joblib

# Lưu pipeline vào tập tin
joblib.dump(pipeline, 'my_pipeline.pkl')

# Sau khi lưu xong, bạn có thể nạp lại pipeline bất kỳ lúc nào
loaded_pipeline = joblib.load('my_pipeline.pkl')

In [11]:
# giả sử bạn có một mẫu dữ liệu mới là new_data
new_data = [[5.1, 3.5, 1.4, 0.2]]
predicted_class = loaded_pipeline.predict(new_data)
print(f"Dự đoán lớp của dữ liệu mới: {predicted_class}")

Dự đoán lớp của dữ liệu mới: [0]
