In [1]:
!pip install supabase

Collecting supabase
  Downloading supabase-2.15.1-py3-none-any.whl.metadata (11 kB)
Collecting gotrue<3.0.0,>=2.11.0 (from supabase)
  Downloading gotrue-2.12.0-py3-none-any.whl.metadata (6.1 kB)
Collecting postgrest<1.1,>0.19 (from supabase)
  Downloading postgrest-1.0.1-py3-none-any.whl.metadata (3.5 kB)
Collecting realtime<2.5.0,>=2.4.0 (from supabase)
  Downloading realtime-2.4.3-py3-none-any.whl.metadata (6.7 kB)
Collecting storage3<0.12,>=0.10 (from supabase)
  Downloading storage3-0.11.3-py3-none-any.whl.metadata (1.8 kB)
Collecting supafunc<0.10,>=0.9 (from supabase)
  Downloading supafunc-0.9.4-py3-none-any.whl.metadata (1.2 kB)
Collecting pytest-mock<4.0.0,>=3.14.0 (from gotrue<3.0.0,>=2.11.0->supabase)
  Downloading pytest_mock-3.14.0-py3-none-any.whl.metadata (3.8 kB)
Collecting deprecation<3.0.0,>=2.1.0 (from postgrest<1.1,>0.19->supabase)
  Downloading deprecation-2.1.0-py2.py3-none-any.whl.metadata (4.6 kB)
Collecting aiohttp<4.0.0,>=3.11.18 (from realtime<2.5.0,>=2.4.0-

In [4]:
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from supabase import create_client, Client
import os

In [5]:
url = "https://podtedgvehrktmgegtvw.supabase.co"
key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InBvZHRlZGd2ZWhya3RtZ2VndHZ3Iiwicm9sZSI6InNlcnZpY2Vfcm9sZSIsImlhdCI6MTc0NDk4MzA2MywiZXhwIjoyMDYwNTU5MDYzfQ.MUQ7JFi2XeQWm9oT5ltO_qXKlp4DdBECDYkhpHWMY_E"
supabase: Client = create_client(url, key)

In [6]:
def fetch_articles():
    # Truy vấn tất cả bài báo từ bảng articles
    page_size = 1000
    all_data = []
    offset = 0
    
    while True:
        response = supabase.table("Articles").select("*").range(offset, offset + page_size - 1).execute()
        batch = response.data
        if not batch:
            break
        all_data.extend(batch)
        offset += page_size

    print(f"Total rows: {len(all_data)}")
    if not all_data:
        raise ValueError("Không tìm thấy bài báo nào trong cơ sở dữ liệu.")
    
    return pd.DataFrame(all_data)

In [10]:
def recommend_articles(article_id, num_recommendations=5):
    # Lấy dữ liệu bài báo từ Supabase
    articles_df = fetch_articles()
    
    # Khởi tạo mô hình SentenceTransformer
    model = SentenceTransformer('all-mpnet-base-v2')
    
    # Mã hóa nội dung bài báo thành embeddings
    embeddings = model.encode(articles_df['content'].tolist(), show_progress_bar=True)
    
    # Tính độ tương đồng cosine giữa các embeddings
    cosine_sim = cosine_similarity(embeddings)
    
    # Lấy chỉ số của bài báo cần tìm
    idx = articles_df.index[articles_df['id'] == article_id].tolist()
    if not idx:
        raise ValueError(f"Bài báo với id {article_id} không tồn tại.")
    idx = idx[0]
    
    # Lấy điểm tương đồng của bài báo với tất cả bài báo khác
    sim_scores = list(enumerate(cosine_sim[idx]))
    
    # Sắp xếp theo độ tương đồng giảm dần
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)
    
    # Lấy top bài báo tương đồng (bỏ bài báo gốc)
    sim_scores = sim_scores[1:num_recommendations+1]
    
    # Lấy chỉ số các bài báo được đề xuất
    article_indices = [i[0] for i in sim_scores]
    similarity_scores = [i[1] for i in sim_scores]
    
    # Tạo DataFrame kết quả với id, title và similarity_score
    result_df = articles_df.iloc[article_indices][['id', 'title']].copy()
    result_df['similarity_score'] = similarity_scores

    return result_df


In [None]:
if __name__ == "__main__":
    try:
        recommendations = recommend_articles('00385103-f1ef-467d-bd28-1a65a1eca755', 5)
        print("Bài báo được đề xuất:")
        print(recommendations)
    except Exception as e:
        print(f"Lỗi: {e}")

Total rows: 1929


Batches:   0%|          | 0/61 [00:00<?, ?it/s]

Bài báo được đề xuất:
                                        id  \
485   9ff4d49c-bfd2-4669-94c4-62e055d3b180   
261   465e4f8e-0735-4d3f-966c-bba25ef815ec   
1737  0d2a0670-528f-4ff9-b5cf-facb8415d4e6   
232   d62d8e9e-02ae-40ba-93b3-f53333322634   
1736  f654177e-2134-4589-9c45-ed7d0ccf274a   

                                                  title  similarity_score  
485   A food fight with chopsticks? How the ‘prosper...          0.597872  
261   Vandals target ‘world’s oldest’ Chinese parade...          0.537812  
1737  One of the world’s greatest religious spectacl...          0.510406  
232   Snow joke: Chinese attraction apologizes for w...          0.500392  
1736  A brief history of the Times Square New Year’s...          0.487196  
