# Cell 1: Triển khai hệ thống học tăng dần với MongoDB

In [90]:
import threading
import time
import numpy as np
from pymongo import MongoClient
from datetime import datetime
import pandas as pd
import tensorflow as tf
import pickle

# Kết nối tới MongoDB
client = MongoClient(
    "mongodb+srv://nhoktk000:Quan26012004@cluster.ap9ga.mongodb.net/ecommerce_db?retryWrites=true&w=majority",
    connectTimeoutMS=30000,
    socketTimeoutMS=30000
)

# Collections
user_interactions = db["user_interactions"]
embeddings = db["embeddings"]
products = db["products"]
metadata_collection = db["metadata"]

# Khởi tạo database và index
def init_db():
    user_interactions.create_index("user_id")
    products.create_index("keywords")
    products.create_index("category")
    metadata_collection.create_index("key")
    print("Đã khởi tạo database indexes")

# Hàm tải embeddings từ database
def load_embeddings():
    user_embeds = {doc['user_id']: np.array(doc['embedding'])
                  for doc in embeddings.find({'type': 'user'})}
    product_embeds = {doc['product_id']: np.array(doc['embedding'])
                     for doc in embeddings.find({'type': 'product'})}
    return user_embeds, product_embeds

# Hàm lưu embeddings vào database
def save_embeddings(user_id, user_embedding, product_id, product_embedding):
    embeddings.update_one(
        {'type': 'user', 'user_id': user_id},
        {'$set': {'embedding': user_embedding.tolist()}},
        upsert=True
    )
    embeddings.update_one(
        {'type': 'product', 'product_id': product_id},
        {'$set': {'embedding': product_embedding.tolist()}},
        upsert=True
    )

# Hàm ghi tương tác người dùng
def log_interaction(user_id, product_id, interaction_type, rating=None):
    interaction = {
        "user_id": user_id,
        "product_id": product_id,
        "interaction_type": interaction_type,
        "rating": rating,
        "timestamp": datetime.now().isoformat()
    }
    result = user_interactions.insert_one(interaction)
    print(f"Đã lưu tương tác: {interaction_type} của {user_id} với {product_id}")
    return result.inserted_id

# Hàm tải lịch sử người dùng
def load_user_history(user_id):
    history = list(user_interactions.find({"user_id": user_id}).sort("timestamp", -1))
    print(f"Đã tải {len(history)} tương tác cho người dùng {user_id}")
    return history

# Cell 2: Triển khai khởi tạo và cập nhật embedding cho sản phẩm mới

In [91]:
def initialize_product_embedding(product_id, product_name, keywords_new, category=None, top_n_similar=5, latent_dim=32):
    print(f"Khởi tạo embedding cho sản phẩm: {product_id}")

    # Kiểm tra xem sản phẩm đã có embedding chưa
    existing_embedding = embeddings.find_one({'type': 'product', 'product_id': product_id})
    if existing_embedding:
        embedding_vector = np.array(existing_embedding['embedding'])
        # Nếu embedding cũ có kích thước khác, điều chỉnh lại
        if embedding_vector.shape[0] != latent_dim:
            print(f"Điều chỉnh kích thước embedding từ {embedding_vector.shape[0]} thành {latent_dim}")
            new_embedding = np.random.rand(latent_dim)
            # Sao chép giá trị nếu có thể
            min_dim = min(embedding_vector.shape[0], latent_dim)
            new_embedding[:min_dim] = embedding_vector[:min_dim]
            return new_embedding
        else:
            print(f"Sản phẩm {product_id} đã có embedding")
            return embedding_vector

    # Cập nhật hoặc tạo thông tin sản phẩm
    products.update_one(
        {'product_id': product_id},
        {'$set': {
            'product_name': product_name,
            'keywords': keywords_new,
            'category': category,
            'created_at': datetime.now().isoformat()
        }},
        upsert=True
    )

    # Tạo embedding mới
    initial_embedding = np.random.rand(latent_dim)

    # Lưu embedding vào database
    embeddings.insert_one({
        'type': 'product',
        'product_id': product_id,
        'embedding': initial_embedding.tolist()
    })

    print(f"Đã tạo embedding mới cho {product_id}")

    # Kiểm tra xem có cần fine-tune không
    check_and_perform_fine_tune()

    return initial_embedding

# Cell 3: Triển khai hệ thống kiểm tra và thực hiện fine-tune

In [92]:
def check_and_perform_fine_tune(threshold=5):
    distinct_products = user_interactions.distinct("product_id")
    num_interacted_products = len(distinct_products)
    
    fine_tune_state = metadata_collection.find_one({"key": "fine_tune_state"})
    last_fine_tuned_count = 0
    if fine_tune_state:
        last_fine_tuned_count = fine_tune_state.get("last_fine_tuned_count", 0)
    
    # Đồng bộ last_fine_tuned_count nếu lớn hơn num_interacted_products
    if last_fine_tuned_count > num_interacted_products:
        print(f"Cảnh báo: last_fine_tuned_count ({last_fine_tuned_count}) lớn hơn num_interacted_products ({num_interacted_products}). Điều chỉnh về {num_interacted_products}.")
        last_fine_tuned_count = num_interacted_products
        metadata_collection.update_one(
            {"key": "fine_tune_state"},
            {"$set": {"last_fine_tuned_count": last_fine_tuned_count, "last_fine_tuned_at": datetime.now().isoformat()}},
            upsert=True
        )
    
    new_products = max(0, num_interacted_products - last_fine_tuned_count)
    print(f"Số sản phẩm hiện tại: {num_interacted_products}, Lần cuối fine-tune: {last_fine_tuned_count}")
    
    if new_products >= threshold:
        print(f"Đạt ngưỡng {threshold} sản phẩm mới. Bắt đầu fine-tuning...")
        # (Thực hiện fine-tuning)
    else:
        print(f"Chưa đạt ngưỡng {threshold} sản phẩm mới (hiện tại: {new_products})")
        return False

# Cell 4: Triển khai batch fine-tuning

In [93]:
def batch_fine_tune(input_model, user_encoder, product_encoder, rating_scaler, threshold=5, epochs=5):
    global model
    
    # Lấy tất cả ID sản phẩm và người dùng đã tương tác
    distinct_products = user_interactions.distinct("product_id")
    distinct_users = user_interactions.distinct("user_id")
    num_interacted_products = len(distinct_products)

    # Cập nhật encoders để chứa cả ID mới
    try:
        user_encoder.classes_ = np.array(list(set(user_encoder.classes_) | set(distinct_users)))
        product_encoder.classes_ = np.array(list(set(product_encoder.classes_) | set(distinct_products)))
    except Exception as e:
        print(f"Lỗi khi cập nhật encoders: {e}")
        return False

    # Đảm bảo encoder có ít nhất 8500 người dùng
    current_users = list(user_encoder.classes_)
    needed_users = 8500 - len(current_users)
    if needed_users > 0:
        dummy_users = [f"dummy_user_{i}" for i in range(needed_users)]
        user_encoder.classes_ = np.array(current_users + dummy_users)


    # Lấy tất cả tương tác
    interactions = list(user_interactions.find())
    if not interactions:
        print("Không có dữ liệu để fine-tune.")
        return False

    # Chuyển đổi sang DataFrame để xử lý
    interactions_df = pd.DataFrame(interactions)
    print(f"Đã tải {len(interactions_df)} tương tác để fine-tune")

    # Xử lý ratings
    interactions_df['rating'] = interactions_df['rating'].fillna(interactions_df['interaction_type'].map({
        'purchase': 5.0,
        'view': 2.0,
        'add_to_cart': 4.0
    }).fillna(0.0))

    # In thông tin để gỡ lỗi
    print(f"Columns trong DataFrame: {interactions_df.columns.tolist()}")
    print(f"Mẫu user_id: {interactions_df['user_id'].iloc[0] if len(interactions_df) > 0 else 'Không có dữ liệu'}")
    print(f"Mẫu product_id: {interactions_df['product_id'].iloc[0] if len(interactions_df) > 0 else 'Không có dữ liệu'}")

    try:
        from tensorflow.keras.models import Model
        from tensorflow.keras.layers import Input, Embedding, Flatten, Dense, Concatenate, Dropout, BatchNormalization
        from tensorflow.keras.optimizers import Adam
        
        # Tạo model mới với kích thước phù hợp
        user_input = Input(shape=(1,), name='user_input', dtype='int32')
        product_input = Input(shape=(1,), name='product_input', dtype='int32')
        
        old_user_weights = input_model.get_layer('user_embedding').get_weights()[0]
        old_product_weights = input_model.get_layer('product_embedding').get_weights()[0]
        embedding_size = old_user_weights.shape[1]
        
        new_user_dim = max(8500, len(user_encoder.classes_))
        new_product_dim = len(product_encoder.classes_)
        
        print(f"Tạo model mới với kích thước: users={new_user_dim}, products={new_product_dim}, embedding_size={embedding_size}")
        
        user_embedding = Embedding(
            input_dim=new_user_dim,
            output_dim=embedding_size,
            embeddings_initializer='glorot_normal',
            name='user_embedding'
        )(user_input)
        
        product_embedding = Embedding(
            input_dim=new_product_dim,
            output_dim=embedding_size,
            embeddings_initializer='glorot_normal',
            name='product_embedding'
        )(product_input)
        
        user_vector = Flatten()(user_embedding)
        product_vector = Flatten()(product_embedding)
        concat = Concatenate()([user_vector, product_vector])
        
        dense1 = Dense(256, activation='relu')(concat)
        bn1 = BatchNormalization()(dense1)
        dropout1 = Dropout(0.2)(bn1)
        dense2 = Dense(128, activation='relu')(dropout1)
        bn2 = BatchNormalization()(dense2)
        dropout2 = Dropout(0.2)(bn2)
        dense3 = Dense(64, activation='relu')(dropout2)
        bn3 = BatchNormalization()(dense3)
        output = Dense(1, activation='sigmoid')(bn3)
        
        new_model = Model(inputs=[user_input, product_input], outputs=output)
        
        # Biên dịch model mới với learning rate lớn hơn
        optimizer = Adam(learning_rate=0.001) 
        new_model.compile(
            optimizer=optimizer,
            loss='mean_squared_error',
            metrics=['mae']
        )
        
        # Khởi tạo weights mới
        new_user_weights = np.zeros((new_user_dim, embedding_size))
        new_product_weights = np.zeros((new_product_dim, embedding_size))
        
        for i, user_id in enumerate(user_encoder.classes_[:old_user_weights.shape[0]]):
            if i < old_user_weights.shape[0]:
                new_user_weights[i] = old_user_weights[i]
        for i in range(old_user_weights.shape[0], new_user_dim):
            new_user_weights[i] = np.random.normal(0, 0.1, embedding_size)
        
        for i, product_id in enumerate(product_encoder.classes_[:old_product_weights.shape[0]]):
            if i < old_product_weights.shape[0]:
                new_product_weights[i] = old_product_weights[i]
        for i in range(old_product_weights.shape[0], new_product_dim):
            new_product_weights[i] = np.random.normal(0, 0.1, embedding_size)
        
        new_model.get_layer('user_embedding').set_weights([new_user_weights])
        new_model.get_layer('product_embedding').set_weights([new_product_weights])
        
        # Encode dữ liệu để huấn luyện
        user_ids = user_encoder.transform(interactions_df['user_id'])
        product_ids = product_encoder.transform(interactions_df['product_id'])
        ratings = normalize_ratings(interactions_df['rating'].values, min_rating=0, max_rating=5)
        ratings = ratings.reshape(-1, 1)
        
        print(f"Đã encode {len(user_ids)} user_ids, {len(product_ids)} product_ids")
        print(f"Giá trị lớn nhất của user_ids: {max(user_ids)}, product_ids: {max(product_ids)}")
        print(f"Giới hạn của embedding: users={new_user_dim}, products={new_product_dim}")
        print(f"Mẫu ratings: {ratings[:5]}")
        
        # Fine-tune với validation split
        history = new_model.fit(
            [user_ids, product_ids],
            ratings,
            batch_size=64,
            epochs=epochs,
            validation_split=0.2,  # Thêm validation để đánh giá
            verbose=1
        )
        
        print("Kết quả fine-tuning:")
        for i, loss in enumerate(history.history['loss']):
            print(f"Epoch {i+1}/{epochs}: loss = {loss:.4f}, val_loss = {history.history['val_loss'][i]:.4f}")
        
        # Lấy embedding vectors mới
        user_embeddings = new_model.get_layer('user_embedding').get_weights()[0]
        product_embeddings = new_model.get_layer('product_embedding').get_weights()[0]
        
        print(f"Đã cập nhật embedding: user shape {user_embeddings.shape}, product shape {product_embeddings.shape}")
        
        # Cập nhật embeddings trong cơ sở dữ liệu
        for i, user_id in enumerate(user_encoder.classes_):
            if not user_id.startswith("dummy_user_"):
                embeddings.update_one(
                    {'type': 'user', 'user_id': user_id},
                    {'$set': {'embedding': user_embeddings[i].tolist()}},
                    upsert=True
                )
        
        for i, product_id in enumerate(product_encoder.classes_):
            embeddings.update_one(
                {'type': 'product', 'product_id': product_id},
                {'$set': {'embedding': product_embeddings[i].tolist()}},
                upsert=True
            )
        
        # Cập nhật trạng thái fine-tune
        metadata_collection.update_one(
            {"key": "fine_tune_state"},
            {"$set": {
                "last_fine_tuned_count": num_interacted_products,
                "last_fine_tuned_at": datetime.now().isoformat()
            }},
            upsert=True
        )
        
        model = new_model
        print("Batch fine-tuning hoàn tất và đã cập nhật cơ sở dữ liệu!")
        return True
    except Exception as e:
        print(f"Lỗi trong quá trình fine-tune: {e}")
        import traceback
        traceback.print_exc()
        return False

# Cell 5: Theo dõi sản phẩm mới và thực hiện fine-tune tự động

In [94]:
def auto_incremental_fine_tune(change):
    if change['operationType'] == 'insert':
        product = change['fullDocument']
        product_id = product['product_id']
        product_name = product['product_name']
        keywords = product.get('keywords', [])
        category = product.get('category')

        print(f"Phát hiện sản phẩm mới: {product_id} - {product_name}")

        # Khởi tạo embedding cho sản phẩm mới
        initial_embedding = initialize_product_embedding(product_id, product_name, keywords, category)
        print(f"Đã khởi tạo embedding cho {product_id}: {initial_embedding[:5]}...")

        # Kiểm tra và thực hiện fine-tune nếu cần
        check_and_perform_fine_tune()

def watch_products():
    print("Bắt đầu theo dõi collection products...")
    try:
        with products.watch() as stream:
            for change in stream:
                print(f"Phát hiện thay đổi: {change['operationType']}")
                if change['operationType'] == 'insert':
                    auto_incremental_fine_tune(change)
    except Exception as e:
        print(f"Lỗi khi theo dõi collection: {e}")
        # Thử lại sau một khoảng thời gian
        time.sleep(5)
        watch_products()  # Khởi động lại việc theo dõi

# Cell 6: Mở rộng một lớp embedding để chứa các ID mới

In [95]:
def extend_embedding_layer(input_model, layer_name, new_input_dim, old_weights=None):
    try:
        layer = input_model.get_layer(layer_name)
        if old_weights is None:
            old_weights = layer.get_weights()[0]
        
        old_input_dim = old_weights.shape[0]
        output_dim = old_weights.shape[1]
        
        if new_input_dim > old_input_dim:
            print(f"Mở rộng lớp {layer_name} từ {old_input_dim} thành {new_input_dim}")
            
            new_weights = np.zeros((new_input_dim, output_dim))
            new_weights[:old_input_dim] = old_weights
            new_weights[old_input_dim:] = np.random.normal(0, 0.1, (new_input_dim - old_input_dim, output_dim))
            
            from tensorflow.keras.models import Model
            from tensorflow.keras.layers import Input, Embedding, Flatten, Dense, Concatenate, Dropout, BatchNormalization
            
            user_input = Input(shape=(1,), name='user_input', dtype='int32')
            product_input = Input(shape=(1,), name='product_input', dtype='int32')
            
            if layer_name == 'user_embedding':
                user_embedding = Embedding(input_dim=new_input_dim, output_dim=output_dim, name='user_embedding')(user_input)
                product_embedding = input_model.get_layer('product_embedding')(product_input)
            else:
                user_embedding = input_model.get_layer('user_embedding')(user_input)
                product_embedding = Embedding(input_dim=new_input_dim, output_dim=output_dim, name='product_embedding')(product_input)
            
            user_vector = Flatten()(user_embedding)
            product_vector = Flatten()(product_embedding)
            concat = Concatenate()([user_vector, product_vector])
            
            dense1 = Dense(256, activation='relu')(concat)
            bn1 = BatchNormalization()(dense1)
            dropout1 = Dropout(0.2)(bn1)
            dense2 = Dense(128, activation='relu')(dropout1)
            bn2 = BatchNormalization()(dense2)
            dropout2 = Dropout(0.2)(bn2)
            dense3 = Dense(64, activation='relu')(dropout2)
            bn3 = BatchNormalization()(dense3)
            output = Dense(1, activation='sigmoid')(bn3)
            
            new_model = Model(inputs=[user_input, product_input], outputs=output)
            new_model.compile(optimizer=input_model.optimizer, loss=input_model.loss, metrics=input_model.metrics)
            
            # Sao chép weights, bỏ qua BatchNormalization nếu không tương thích
            for old_layer, new_layer in zip(input_model.layers, new_model.layers):
                if old_layer.name == layer_name:
                    new_layer.set_weights([new_weights])
                elif len(old_layer.get_weights()) > 0 and old_layer.name not in ['batch_normalization_40', 'batch_normalization_41', 'batch_normalization_42', 'batch_normalization_43']:
                    try:
                        new_layer.set_weights(old_layer.get_weights())
                    except:
                        print(f"Bỏ qua sao chép weights cho layer {old_layer.name} do không tương thích")
            
            print(f"Đã mở rộng lớp {layer_name} thành công")
            return new_model
        else:
            print(f"Kích thước mới {new_input_dim} không lớn hơn cũ {old_input_dim}, không cần mở rộng")
            return input_model
    except Exception as e:
        print(f"Lỗi khi mở rộng lớp embedding {layer_name}: {e}")
        import traceback
        traceback.print_exc()
        return input_model

# Cell 7: Cập nhật embeddings dựa trên tương tác mới

In [96]:
from pymongo.errors import NetworkTimeout
import time
def load_embeddings_with_retry(max_retries=3, delay=5):
    for attempt in range(max_retries):
        try:
            user_embeds = {doc['user_id']: np.array(doc['embedding'])
                         for doc in embeddings.find({'type': 'user'})}
            product_embeds = {doc['product_id']: np.array(doc['embedding'])
                            for doc in embeddings.find({'type': 'product'})}
            return user_embeds, product_embeds
        except NetworkTimeout as e:
            print(f"Lỗi mạng lần {attempt + 1}/{max_retries}: {e}. Thử lại sau {delay} giây...")
            time.sleep(delay)
    raise Exception("Không thể tải embeddings sau nhiều lần thử.")
def update_embeddings(user_id, product_id, interaction_type, rating=None, learning_rate=0.05, latent_dim=32, steps=3):
   
    global model, user_encoder, product_encoder
    
    user_embeds, product_embeds = load_embeddings()
    
    # Lấy hoặc tạo vector cho người dùng
    user_vector = user_embeds.get(user_id)
    if user_vector is None:
        user_vector = np.random.rand(latent_dim)
        print(f"Tạo embedding mới cho người dùng {user_id} với kích thước {latent_dim}")
    elif len(user_vector) != latent_dim:
        print(f"Điều chỉnh embedding của {user_id} từ {len(user_vector)} thành {latent_dim}")
        new_user_vector = np.zeros(latent_dim)
        min_dim = min(len(user_vector), latent_dim)
        new_user_vector[:min_dim] = user_vector[:min_dim]
        user_vector = new_user_vector

    # Lấy hoặc tạo vector cho sản phẩm
    product_info = products.find_one({'product_id': product_id})
    product_vector = product_embeds.get(product_id)
    if product_vector is None:
        if product_info:
            print(f"Khởi tạo embedding cho sản phẩm có sẵn {product_id}")
            product_vector = initialize_product_embedding(
                product_id, product_info['product_name'],
                product_info.get('keywords', []), product_info.get('category'), latent_dim=latent_dim
            )
        else:
            print(f"Tạo embedding mới cho sản phẩm không xác định {product_id} với kích thước {latent_dim}")
            product_vector = np.random.rand(latent_dim)
    elif len(product_vector) != latent_dim:
        print(f"Điều chỉnh embedding của {product_id} từ {len(product_vector)} thành {latent_dim}")
        new_product_vector = np.zeros(latent_dim)
        min_dim = min(len(product_vector), latent_dim)
        new_product_vector[:min_dim] = product_vector[:min_dim]
        product_vector = new_product_vector

    # Xác định giá trị mục tiêu
    if interaction_type == 'rate' and rating is not None:
        target_value = float(rating)
    elif interaction_type == 'purchase':
        target_value = 5.0
    elif interaction_type == 'view':
        target_value = 2.0
    elif interaction_type == 'add_to_cart':
        target_value = 4.0
    else:
        target_value = 0.0

    # Cập nhật embeddings qua nhiều bước, bỏ chuẩn hóa
    for step in range(steps):
        prediction = np.dot(user_vector, product_vector)
        error = target_value - prediction
        
        if step == 0 or step == steps - 1:
            print(f"Step {step + 1}/{steps} - Prediction: {prediction:.4f}, Target: {target_value}, Error: {error:.4f}")
        
        lr = learning_rate * (1 + abs(error))
        lr = min(lr, 0.5)
        user_vector = user_vector + learning_rate * error * product_vector
        product_vector = product_vector + learning_rate * error * user_vector
    
    user_vector_new = user_vector
    product_vector_new = product_vector
    
    save_embeddings(user_id, user_vector_new, product_id, product_vector_new)
    print(f"Đã cập nhật embeddings cho {user_id} và {product_id}")
    
    user_embed = np.zeros_like(user_vector_new)
    product_embed = np.zeros_like(product_vector_new)
    all_user_embeddings = np.zeros((1, len(user_vector_new)))
    all_product_embeddings = np.zeros((1, len(product_vector_new)))
    
    try:
        if 'model' in globals() and model is not None and 'user_encoder' in globals() and 'product_encoder' in globals():
            new_user = False
            if user_id not in user_encoder.classes_:
                old_classes = user_encoder.classes_.tolist()
                new_classes = old_classes + [user_id]
                user_encoder.classes_ = np.array(new_classes)
                new_user = True
                print(f"Đã thêm {user_id} vào user_encoder")
                user_idx = len(old_classes)
            else:
                user_idx = np.where(user_encoder.classes_ == user_id)[0][0]
            
            new_product = False
            if product_id not in product_encoder.classes_:
                old_classes = product_encoder.classes_.tolist()
                new_classes = old_classes + [product_id]
                product_encoder.classes_ = np.array(new_classes)
                new_product = True
                print(f"Đã thêm {product_id} vào product_encoder")
                product_idx = len(old_classes)
            else:
                product_idx = np.where(product_encoder.classes_ == product_id)[0][0]
            
            if new_user:
                user_embedding_size = len(user_encoder.classes_)
                model = extend_embedding_layer(model, 'user_embedding', user_embedding_size)
            if new_product:
                product_embedding_size = len(product_encoder.classes_)
                model = extend_embedding_layer(model, 'product_embedding', product_embedding_size)
            
            current_user_size = model.get_layer('user_embedding').get_weights()[0].shape[0]
            current_product_size = model.get_layer('product_embedding').get_weights()[0].shape[0]
            
            if user_idx < current_user_size:
                user_embed = model.get_layer('user_embedding').get_weights()[0][user_idx]
                all_user_embeddings = model.get_layer('user_embedding').get_weights()[0]
            if product_idx < current_product_size:
                product_embed = model.get_layer('product_embedding').get_weights()[0][product_idx]
                all_product_embeddings = model.get_layer('product_embedding').get_weights()[0]
    except Exception as e:
        print(f"Lỗi khi xử lý embeddings từ model: {e}")
        import traceback
        traceback.print_exc()

    return user_vector_new, product_vector_new, user_embed, product_embed, all_user_embeddings, all_product_embeddings

# Cell 8: Hàm tích hợp ghi nhận tương tác và cập nhật

In [97]:
def log_and_update(user_id, product_id, interaction_type, rating=None):
    try:
        # Ghi nhận tương tác
        log_interaction(user_id, product_id, interaction_type, rating)
        
        # Tải model nếu cần
        global model, user_encoder, product_encoder
        if 'model' not in globals() or model is None:
            try:
                print("Đang tải model từ file...")
                model = tf.keras.models.load_model('amazon_recommender_model.keras')
                print("Đã tải model thành công")
                
                # Tải metadata
                import pickle
                with open('amazon_recommender_metadata.pkl', 'rb') as f:
                    metadata = pickle.load(f)
                    user_encoder = metadata.get('user_encoder')
                    product_encoder = metadata.get('product_encoder')
                    print("Đã tải metadata thành công")
            except Exception as e:
                print(f"Không thể tải model hoặc metadata: {e}")
                import traceback
                traceback.print_exc()
        
        # Cập nhật embeddings
        user_vector, product_vector, user_embed, product_embed, user_embeddings, product_embeddings = update_embeddings(
            user_id, product_id, interaction_type, rating
        )
        
        return user_vector, product_vector, user_embeddings, product_embeddings
    except Exception as e:
        print(f"Lỗi trong quá trình log_and_update: {e}")
        import traceback
        traceback.print_exc()
        
        # Trả về giá trị mặc định để tránh lỗi
        return np.zeros(32), np.zeros(32), np.zeros((1, 32)), np.zeros((1, 32))

# Cell 9: Khởi tạo database và chạy demo

In [98]:
def main():
    """Hàm khởi tạo và chạy demo"""
    # Khởi tạo database
    init_db()
    
    # Tải model nếu có
    global model, user_encoder, product_encoder
    try:
        model = tf.keras.models.load_model('amazon_recommender_model.keras')
        print("Đã tải model thành công")
        
        # Tải metadata
        import pickle
        with open('amazon_recommender_metadata.pkl', 'rb') as f:
            metadata = pickle.load(f)
            user_encoder = metadata.get('user_encoder')
            product_encoder = metadata.get('product_encoder')
            print("Đã tải metadata thành công")
    except Exception as e:
        print(f"Không thể tải model hoặc metadata (có thể chưa tồn tại): {e}")
        model = None
        user_encoder = None
        product_encoder = None

    # Kiểm tra số lượng sản phẩm hiện tại
    try:
        product_count = products.count_documents({})
        interaction_count = user_interactions.count_documents({})
        print(f"Số lượng sản phẩm hiện tại: {product_count}")
        print(f"Số lượng tương tác hiện tại: {interaction_count}")
    except Exception as e:
        print(f"Lỗi khi đếm sản phẩm: {e}")

    # Chạy theo dõi collection trong thread riêng
    try:
        watch_thread = threading.Thread(target=watch_products, daemon=True)
        watch_thread.start()
        print("Đã bắt đầu thread theo dõi collection products")
    except Exception as e:
        print(f"Lỗi khi khởi động thread theo dõi: {e}")
        print("Tiếp tục chạy không có tính năng theo dõi.")

# Cell 10: Hàm demo tương tác người dùng

In [99]:
def demo_user_interaction(product_id, user_id="user_17123"):
    try:
        # Xem sản phẩm
        print("1. Người dùng xem sản phẩm")
        user_vector, product_vector, user_embeddings, product_embeddings = log_and_update(
            user_id, product_id, "view", 3.0
        )
        time.sleep(1)

        # Thêm vào giỏ hàng
        print("2. Người dùng thêm sản phẩm vào giỏ hàng")
        user_vector, product_vector, user_embeddings, product_embeddings = log_and_update(
            user_id, product_id, "add_to_cart", 4.0
        )
        time.sleep(1)

        # Mua sản phẩm
        print("3. Người dùng mua sản phẩm")
        user_vector, product_vector, user_embeddings, product_embeddings = log_and_update(
            user_id, product_id, "purchase", 5.0
        )
        time.sleep(1)

        # Đánh giá sản phẩm
        print("4. Người dùng đánh giá sản phẩm")
        user_vector, product_vector, user_embeddings, product_embeddings = log_and_update(
            user_id, product_id, "rate", 4.5
        )
        time.sleep(1)

        return user_embeddings, product_embeddings
    except Exception as e:
        print(f"Lỗi trong quá trình demo: {e}")
        return None, None

# Cell 11: Hàm demo chạy hệ thống

In [100]:
import uuid
def run_demo():
    print("\n=== BẮT ĐẦU DEMO HỆ THỐNG ĐỀ XUẤT ===")

    # Thêm một số sản phẩm mới
    product_ids = []
    for i in range(3):
        product_id = demo_add_product()
        product_ids.append(product_id)
        time.sleep(2)  # Đợi để xử lý sự kiện

    # Giả lập tương tác người dùng với các sản phẩm
    for product_id in product_ids:
        demo_user_interaction(product_id)
        time.sleep(2)

    # Kiểm tra lại số lượng
    try:
        new_product_count = products.count_documents({})
        new_interaction_count = user_interactions.count_documents({})
        print(f"\nSau demo:")
        print(f"Số lượng sản phẩm: {new_product_count}")
        print(f"Số lượng tương tác: {new_interaction_count}")
    except Exception as e:
        print(f"Lỗi khi đếm sau demo: {e}")

    # Kiểm tra xem có batch fine-tune không
    print("\nKiểm tra batch fine-tune:")
    check_and_perform_fine_tune(threshold=3)  # Đặt ngưỡng thấp hơn để demo

    print("\n=== DEMO HOÀN TẤT ===")

# Demo thêm sản phẩm mới
def demo_add_product():
    random_id = str(uuid.uuid4()) 
    new_product = {
        "product_id": random_id,
        "product_name": "Smartphone Android Mới 2024",
        "keywords": ["smartphone", "android", "camera", "5G", "2024"],
        "category": "Electronics"
    }
    print(f"Đang thêm sản phẩm mới: {new_product['product_name']}")
    insert_result = products.insert_one(new_product)
    print(f"Đã thêm sản phẩm với ID: {insert_result.inserted_id}")
    return random_id

# Cell 12: Main execution

In [101]:
if __name__ == "__main__":
    main()
    run_demo()

Đã khởi tạo database indexes
Đã tải model thành công
Đã tải metadata thành công
Số lượng sản phẩm hiện tại: 79183
Số lượng tương tác hiện tại: 51
Bắt đầu theo dõi collection products...
Đã bắt đầu thread theo dõi collection products

=== BẮT ĐẦU DEMO HỆ THỐNG ĐỀ XUẤT ===
Đang thêm sản phẩm mới: Smartphone Android Mới 2024
Đã thêm sản phẩm với ID: 67f5396a50351a9c100254cf
Phát hiện thay đổi: insert
Phát hiện sản phẩm mới: cf9dda68-5336-41f7-83d7-20c62782e61d - Smartphone Android Mới 2024
Khởi tạo embedding cho sản phẩm: cf9dda68-5336-41f7-83d7-20c62782e61d
Đã tạo embedding mới cho cf9dda68-5336-41f7-83d7-20c62782e61d
Số sản phẩm hiện tại: 15, Lần cuối fine-tune: 13
Chưa đạt ngưỡng 5 sản phẩm mới (hiện tại: 2)
Đã khởi tạo embedding cho cf9dda68-5336-41f7-83d7-20c62782e61d: [0.03438475 0.63592473 0.75247479 0.20520769 0.5992498 ]...
Số sản phẩm hiện tại: 15, Lần cuối fine-tune: 13
Chưa đạt ngưỡng 5 sản phẩm mới (hiện tại: 2)
Phát hiện thay đổi: update
Phát hiện thay đổi: update
Phát hiện 

KeyboardInterrupt: 

Lỗi khi theo dõi collection: No replica set members match selector "Primary()", Timeout: 30s, Topology Description: <TopologyDescription id: 67f537ad50351a9c100254a1, topology_type: ReplicaSetNoPrimary, servers: [<ServerDescription ('cluster-shard-00-00.ap9ga.mongodb.net', 27017) server_type: RSSecondary, rtt: 0.14396967445610565>, <ServerDescription ('cluster-shard-00-01.ap9ga.mongodb.net', 27017) server_type: Unknown, rtt: None, error=AutoReconnect('cluster-shard-00-01.ap9ga.mongodb.net:27017: [WinError 10061] No connection could be made because the target machine actively refused it (configured timeouts: socketTimeoutMS: 20000.0ms, connectTimeoutMS: 20000.0ms)')>, <ServerDescription ('cluster-shard-00-02.ap9ga.mongodb.net', 27017) server_type: RSSecondary, rtt: 0.047628582192785734>]>
Bắt đầu theo dõi collection products...
