In [None]:
%%time
!pip install --target=/kaggle/working --extra-index-url=https://pypi.nvidia.com "cudf-cu12==24.12.*" "cuml-cu12==24.12.*"
!rm -rf /kaggle/working/numpy*

import cudf
cudf.__version__

In [None]:
import cuml
cuml.__version__

In [None]:
import pandas as pd
import numpy as np
from cuml.cluster import DBSCAN, KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

In [None]:
from pymongo import MongoClient

# Kết nối mongodb
MONGO_SOURCE_URI = "mongodb://dsReader:ds_reader_ndFwBkv3LsZYjtUS@178.128.85.210:27017"
source_client = MongoClient(MONGO_SOURCE_URI)
source_db = source_client["cdp_database"]

# lấy 2 collection cần thiết
users_collection = source_db["twitter_users"]
projects_collection = source_db["projects_social_media"]

### Lọc ra id của các projects 
projects_id = set()
projects = projects_collection.find() # lấy hết tất cả các project ra 

i = 0
for project in projects:
    twitter_id = project.get("twitter", {}).get("id")
    projects_id.add(twitter_id)
    
    # i += 1
    # if i ==5:
    #     break

projects_id = list(projects_id)

In [None]:
### Duyệt từng user một và lọc (xét theo tiêu chí) -> KOL
output_KOL_userName = list()

# tiêu chí 1: bỏ hết các tài khoản mà của project đi (lấy tài khoản của người thôi)
query = {"userName": {"$nin": projects_id}}
users = users_collection.find(query)

# ### Cách lấy ra các KOLs dựa vào cái list KOLs đã lọc ra từ user
# output_KOL_userName = list(projects_id)
# query = {"userName": {"$in": output_KOL_userName}}
# output_KOLs = users_collection.find(query)

# **Chuẩn bị data để đưa vào thuật toán ML**

In [None]:
### Lấy các attribute ra thành bảng để feed vào DBSCAN
fields = ['_id', 'userName', 'favouritesCount', 'friendsCount', 'listedCount', 'mediaCount', 'followersCount', 'statusesCount']
d = {field: list() for field in fields}

i = 0
for user in users:
    for field in fields:
        d[field].append(user.get(field, None))
    # i += 1
    # if i == 5: break

df = pd.DataFrame(d)
df

In [None]:
# normalize lại các attribute
features = ['favouritesCount', 'friendsCount', 'listedCount', 'mediaCount', 'followersCount', 'statusesCount']
X = df[features]
X = StandardScaler().fit_transform(X)

# Cách 1: phân cụm bằng DBSCAN

In [None]:
# ### tiến hành phân cụm cho users
# # tạo object dbscan
# dbscan = DBSCAN(
#     eps = 0.5,
#     min_samples = 7,
#     metric = 'euclidean',
#     # algorithm = 'auto'
# )


# cluster_id_col= dbscan.fit_predict(X)
# print(set(cluster_id_col))
# print(type(cluster_id_col))
# count = np.sum(cluster_id_col == -1)

In [None]:
# df['cluster_id'] = cluster_id_col

In [None]:
# ### Thống kê các cluster
# cluster_ids = set(df['cluster_id'].unique())
# clusters_df = {cluster_id: df[df['cluster_id'] == cluster_id] for cluster_id in cluster_ids}

# for cluster_id in clusters_df:
#     print("Cluster", cluster_id)
#     print(clusters_df[cluster_id].describe())

# Cách 2: Phân cụm bằng Elbow Method + KMeans

In [None]:
### dùng Elbow method để tìm giá trị K # 16 hoặc 21
wcss = []
for k in range(1, 100, 5):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_)

# Vẽ đồ thị Elbow
plt.plot(range(1, 100, 5), wcss, marker='o')
plt.title("Elbow Method")
plt.xlabel("Number of clusters (k)")
plt.ylabel("WCSS")
plt.show()

In [None]:
# Sử dụng KMeans với cuml
kmeans = KMeans(n_clusters=15, random_state=42)
cluster_id_col = kmeans.fit_predict(X)

# # Hiển thị các cụm trung tâm
# print("Cluster centers:")
# print(kmeans.cluster_centers_)

In [None]:
df['cluster_id'] = cluster_id_col

In [None]:
# Thống kê các cluster
cluster_ids = list(df['cluster_id'].unique())
cluster_ids.sort()
clusters_df = {cluster_id: df[df['cluster_id'] == cluster_id] for cluster_id in cluster_ids}

mean_dict = dict()
for cluster_id in clusters_df:
    print("Cluster", cluster_id, f": {len(clusters_df[cluster_id])} samples")
    # print(clusters_df[cluster_id].describe())
    
for feature in features:
    mean_dict[feature] = dict()
    for cluster_id in clusters_df:
        mean_dict[feature][cluster_id] = round(clusters_df[cluster_id][feature].mean(), 2)

# mean_dict

In [None]:
### Vẽ đồ thị 
fig, axes = plt.subplots(2, 3, figsize=(16, 10))  # Kích thước figure
axes = axes.flatten()  # Làm phẳng mảng các axes để dễ truy cập

# Vẽ từng bar chart
for feature, ax in zip(features,axes):
    values = [mean_dict[feature][cluster_id] for cluster_id in cluster_ids]
    ax.bar([str(i) for i in cluster_ids], values)  # Vẽ bar chart
    ax.set_title(f"Biểu đồ cho mean của {feature}")  # Tiêu đề cho từng chart
    ax.set_xlabel('Cluster_id')  # Nhãn trục x
    ax.set_ylabel('Mean value')  # Nhãn trục y

# Tự động căn chỉnh layout để không bị tràn
plt.tight_layout()
plt.show()

In [None]:
### Vẽ đồ thị CHỈ CHO các CLUSTER NHIỀU sample

fig, axes = plt.subplots(2, 3, figsize=(16, 10))  # Kích thước figure
axes = axes.flatten()  # Làm phẳng mảng các axes để dễ truy cập

# Vẽ từng bar chart
cluster_ids_many_sample = [0, 6, 11, 12, 13]
for feature, ax in zip(features,axes):
    values = [mean_dict[feature][cluster_id] for cluster_id in cluster_ids_many_sample]
    ax.bar([str(i) for i in cluster_ids_many_sample], values)  # Vẽ bar chart
    ax.set_title(f"Biểu đồ cho mean của {feature}")  # Tiêu đề cho từng chart
    ax.set_xlabel('Cluster_id')  # Nhãn trục x
    ax.set_ylabel('Mean value')  # Nhãn trục y

# Tự động căn chỉnh layout để không bị tràn
plt.tight_layout()
plt.show()

# Visualize bằng TSNE (optional)

In [None]:
# from cuml.manifold import TSNE

# # Áp dụng t-SNE
# tsne = TSNE(n_components=2, random_state=42)
# X_embedded = tsne.fit_transform(X)

# # Chuyển kết quả về DataFrame
# df["tsne_x"] = X_embedded[:, 0]
# df["tsne_y"] = X_embedded[:, 1]


In [None]:
# # Trực quan hóa dữ liệu
# plt.figure(figsize=(8, 6))
# scatter = plt.scatter(
#     df["tsne_x"], df["tsne_y"], c=df["cluster_id"], cmap="tab10", s=10
# )
# plt.colorbar(scatter, label="Cluster ID")
# plt.title("t-SNE Visualization with Cluster Colors")
# plt.xlabel("t-SNE X")
# plt.ylabel("t-SNE Y")
# plt.show()


# Ghi các `userName` và `id_` của các KOL vào file .csv

In [None]:
# Theo observe từ đồ thị của Kmeans, ta chọn các cluster 12, 13 và các cluster có 1 vài sampleL 1, 2, 3, 4, 5, 7, 8, 10, 14, 9
kol_clusters = [12, 13, 1, 2, 3, 4, 5, 7, 8, 10, 14, 9]
kol_df = pd.concat([clusters_df[cluster_id] for cluster_id in kol_clusters])
kol_df

In [None]:
data_to_save = kol_df[['_id', 'userName']]
data_to_save.to_csv('/kaggle/output/kols_twitter.csv', index = False)