In [10]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn.neighbors import NearestNeighbors
import pandas as pd
from sqlalchemy import create_engine

# Kết nối tới cơ sở dữ liệu
engine = create_engine('mysql+pymysql://root:password@localhost:3306/ie221')

# Truy vấn dữ liệu
query = """
    SELECT id, brand_id, category_id, price
    FROM products
"""
df = pd.read_sql(query, engine)

# Tạo ColumnTransformer để tiền xử lý dữ liệu
preprocessor = ColumnTransformer(
    transformers=[
        ("onehot", OneHotEncoder(), ["brand_id", "category_id"]),  # Mã hóa danh mục
        ("scaler", MinMaxScaler(), ["price"])                    # Chuẩn hóa giá
    ],
    remainder="drop"
)

features = df[["brand_id", "category_id", "price"]]

# Thêm bước modeling với NearestNeighbors
pipeline = Pipeline(steps=[
    ("preprocessing", preprocessor),                # Bước tiền xử lý
    ("modeling", NearestNeighbors(n_neighbors=8))   # Mô hình khuyến nghị
])

# Huấn luyện pipeline
pipeline.fit(features)

# In thông tin pipeline
print(pipeline)

import joblib

# Lưu pipeline đã huấn luyện
joblib.dump(pipeline, "recommendation_pipeline.pkl")

print("Pipeline đã được lưu thành công!")



Pipeline(steps=[('preprocessing',
                 ColumnTransformer(transformers=[('onehot', OneHotEncoder(),
                                                  ['brand_id', 'category_id']),
                                                 ('scaler', MinMaxScaler(),
                                                  ['price'])])),
                ('modeling', NearestNeighbors(n_neighbors=8))])
Pipeline đã được lưu thành công!


In [11]:
import joblib
# Tải lại pipeline
loaded_pipeline = joblib.load("recommendation_pipeline.pkl")

print("Pipeline đã được tải thành công!")


# Lấy chỉ số của sản phẩm có id = 1
product_index = df[df['id'] == 1].index[0]

# Lấy đặc trưng của sản phẩm này
query_features = df.iloc[product_index:product_index+1]

# Biến đổi đặc trưng đầu vào
query_transformed = loaded_pipeline.named_steps['preprocessing'].transform(query_features)

# Sử dụng bước modeling để tìm kiếm hàng xóm gần nhất
distances, indices = loaded_pipeline.named_steps['modeling'].kneighbors(query_transformed)

# Lấy thông tin các sản phẩm tương tự
similar_products = df.iloc[indices[0]]

print("Sản phẩm tương tự:")
print(similar_products)


Pipeline đã được tải thành công!
Sản phẩm tương tự:
    id  brand_id  category_id     price
0    1         2            4  31990000
1    2         2            4  28490000
3    4         2            4  38950000
2    3         2            4  72500000
4    5         2            4  72500000
93  94         6            4  31050000
38  39         2            5  32990000
41  42         2            1  34600000
