In [None]:
! pip install sentence-transformers

In [None]:
from pymongo import MongoClient
import pandas as pd
import pickle
import re
import emoji
from sentence_transformers import SentenceTransformer
import torch

In [None]:
# Kết nối mongodb
MONGO_SOURCE_URI = "mongodb://dsReader:ds_reader_ndFwBkv3LsZYjtUS@178.128.85.210:27017"
source_client = MongoClient(MONGO_SOURCE_URI)
source_db = source_client["cdp_database"]

In [None]:
# lấy các collection cần thiết
projects_collection = source_db["projects_social_media"]
tweets_collection = source_db["tweets"]
users_collection = source_db["twitter_users"]

In [None]:
### CONFIG
project_id: int = "trava"
K: int = 10
userembedding_pkl = "/kaggle/input/user-kol-embedding-project-ba-20241/user_embeddings.pkl"

# Load các embedding của các user (load từ file .pkl của input dataset) ... đang code

In [None]:
def load_userembedding(userembedding_pkl:str):
    with open(userembedding_pkl, "rb") as f:
        user_embeddings = pickle.load(f)

    return user_embeddings

# Lấy embedding của 1 Project (cho nhập id của project vào) ... đang code

In [None]:
### Hàm clean các tweet trước khi đưa vào model tính embedding
def preprocess_tweet(text):
    # Replace URLs and mentions
    text = re.sub(r'http\S+|www\S+', '<URL>', text)

    # bỏ tên user đi
    text = re.sub(r'@\w+', '@username', text)

    # # Remove hashtags but keep the text
    text = re.sub(r'#(\w+)', r'\1', text)

    # Remove special characters and lowercasing
    text = re.sub(r'[^\w\s]', '', text)
    text = text.lower()

    # # Normalize emojis
    text = emoji.demojize(text)

    return text

In [None]:
def infer_project_embedding(_id: str, projects_collection, tweets_collection, model):
    assert type(_id) == str, f"_id phải là string, hiện tại type(_id) = {type(_id)}"

    project_embedding = None
    # tìm id của twitter của project
    twitter_id = projects_collection.find_one({"_id": _id}).get("twitter").get("id")

    # tìm các tweets của project đó
    tweets = tweets_collection.find({"authorName": twitter_id})

    # duyệt từng tweet và lấy text của từng tweets
    sentences = list()
    for tweet in tweets:
        sentences.append(preprocess_tweet(tweet.get("text")))

    # tính embedding của các tweets
    if sentences == []:
        print("PROJECT KHÔNG CÓ TWEETS")
        return project_embedding    
    embeddings = model.encode(sentences)
    print(embeddings.shape)
    
    # tính embedding của project bằng cách tính trung bình các embedding của tweets
    project_embedding = torch.mean(torch.Tensor(embeddings), dim = 0)
    
    return project_embedding

# Tính similarity của 1 project với từng user ... đang code 

In [None]:
def calculate_similarity(project_embedding, user_embeddings):
    if project_embedding == None:
        return None
    list_embeddings = list()
    
    # lấy ra các embedding và normalize lại sao cho //e// = 1
    for user_id in user_embeddings:
        e = user_embeddings[user_id]
        e = e/torch.norm(e, p=2)
        list_embeddings.append(e)

    # stack lại thành 1 ma trận có shape = (số users, 768)
    embedding_matrix = torch.stack(list_embeddings)
    # print(embedding_matrix.shape)

    # tính similarity của project đối với tất cả user 
    similarities = torch.matmul(embedding_matrix, project_embedding)

    return similarities


# Lấy top K user có similarity cao nhất

In [None]:
def get_topK(similarities, K: int, user_embeddings):
    if similarities == None:
        return None
    top_k_values, top_k_indices = torch.topk(similarities, K)
    user_ids = list(user_embeddings.keys())

    user_id_topK = list()
    for i in top_k_indices:
        user_id_topK.append(user_ids[i])
        
    return user_id_topK

# Visualize top K KOL tìm được

In [None]:
def visualize_top_k(chosen_KOLs, users_collection, project_id):
    print(f"The top {K} KOLs and collaborators for the project {project_id} are:")
    for i, user_id in enumerate(chosen_KOLs):
        user = users_collection.find_one({'_id': str(user_id)})
        userName = user.get("userName")
        userURL = user.get("url")

        print(f"{i}. {userName}")
        print(f"You can contact via {userURL}")
        
    return
    

# RUN

In [None]:
user_embeddings = load_userembedding(userembedding_pkl)

model = SentenceTransformer("Twitter/twhin-bert-base")

project_embedding = infer_project_embedding(project_id, projects_collection, tweets_collection, model)

In [None]:
similarities = calculate_similarity(project_embedding, user_embeddings) 

chosen_KOLs = get_topK(similarities, K, user_embeddings)

visualize_top_k(chosen_KOLs, users_collection, project_id)