# ***`Tổng quan về thuật toán Louvain`***

- Thuật toán Louvain là một thuật toán để phát hiện cộng đồng trong đồ thị.
- Được sử dụng rộng rãi do khả năng xử lý đồ thị lớn với thời gian tính toán nhanh.
- Thuật toán này tập trung vào việc tối ưu hóa Modularity, một chỉ số đo lường chất lượng của phân cụm cộng đồng trong đồ thị.
- Nguyên tắc hoạt động:
  - Thuật toán Louvain hoạt động dựa trên hai bước lặp đi lặp lại nhằm cải thiện Modularity:
  - **Bước 1: Gán các đỉnh vào các cộng đồng nhỏ:**
    - Mỗi đỉnh ban đầu được coi như một cộng đồng riêng lẻ.
    - Tiến hành kiểm tra xem việc chuyển một đỉnh từ cộng đồng hiện tại sang một cộng đồng lân cận có làm tăng Modularity không.
    - Nếu việc chuyển này làm tăng Modularity, đỉnh sẽ được di chuyển sang cộng đồng đó.
  - **Bước 2: Xây dựng đồ thị siêu cấp (Supergraph):**
    - Sau khi cộng đồng được xác định, mỗi cộng đồng được gộp lại thành một đỉnh siêu cấp trong một đồ thị mới.
    - Các cạnh giữa các cộng đồng trong đồ thị gốc trở thành trọng số của cạnh giữa các đỉnh trong đồ thị siêu cấp.
    - Quá trình lại tiếp tục từ bước 1 trên đồ thị siêu cấp này.
  - **Bước 3: Thuật toán tiếp tục lặp lại hai bước trên cho đến khi Modularity không thể tăng thêm, tức là đạt đến điểm hội tụ.**
- **Mục tiêu chính:** Tối đa hóa Modularity (đo lường mức độ mà các cộng đồng được xác định trong đồ thị có kết nối nội bộ dày đặc và kết nối bên ngoài lỏng lẻo).
- **Độ phức tạp:** Thuật toán có độ phức tạp thời gian gần tuyến tính, giúp nó xử lý tốt các đồ thị rất lớn.
- **Tự động xác định số cộng đồng:** Không cần cung cấp trước số lượng cộng đồng như nhiều thuật toán khác.

- **Ưu điểm và hạn chế:**
  - **Ưu điểm:**
    - **Hiệu quả cao:** Xử lý tốt với đồ thị lớn nhờ cấu trúc lặp lại đơn giản.
    - **Linh hoạt:** Ứng dụng được cho cả đồ thị không trọng số và đồ thị trọng số.
    - **Chất lượng giải pháp tốt:** Thường tạo ra các cộng đồng có độ chính xác cao và Modularity lớn.

  - **Hạn chế:**
    - **Nhạy cảm với các thông số ban đầu:** Kết quả có thể bị ảnh hưởng bởi cách khởi tạo.
    - **Hiệu ứng độ phân giải (Resolution Limit):** Có thể bỏ qua các cộng đồng nhỏ trong các đồ thị lớn.


# ***`Tóm tắt tổng quan các chỉ số đánh giá việc phát hiện cộng đồng (công thức, phạm vi, như thế nào là tốt, .... )`***

**Modularity:** \\

$Q = \frac{1}{2m} \sum_{i,j} \left[ A_{ij} - \frac{k_i k_j}{2m} \right] \delta(c_i, c_j)$

- $A_{ij}$: Trọng số cạnh giữa nút $i$ và $j$.
- $k_{i}, k_{j}$: Bậc của các nút $i$ và $j$.
- $m$: Tổng trọng số của các cạnh trong đồ thị.
- $\delta(c_i, c_j)$: Bằng 1 nếu $i$, $j$ thuộc cùng cộng đồng, ngược lại bằng 0. \\
- Phạm vi: $[-1, 1]$ \\
    - Càng gần 1, các cộng đồng được phân chia rõ ràng, với các cạnh tập trung bên trong cộng đồng và ít kết nối ra bên ngoài.
    - Càng gần -1, Phân chia không tốt hoặc không có cấu trúc cộng đồng rõ ràng.
\\

**Conductance:** \\
$\phi(S) = \frac{\text{cut}(S, \overline{S})}{\min(\text{vol}(S), \text{vol}(\overline{S}))}$
- ${\text{cut}(S, \overline{S})}$: Tổng trọng số các cạnh giữa cộng đồng $S$ và $\overline{S}$.
- $\text{vol}(S)$: Tổng trọng số các cạnh nối với các nút trong $S$.
- Phạm vi: $[0, 1]$ \\
    - Càng gần 0, các cộng đồng có kết nối nội bộ chặt chẽ và ít cạnh ra bên ngoài.
    - Càng gần 1, cộng đồng bị phân chia kém hoặc không rõ ràng.
    
\\
**Normalized Cut:** \\
$\text{NCut}(S, \overline{S}) = \frac{\text{cut}(S, \overline{S})}{\text{vol}(S)} + \frac{\text{cut}(S, \overline{S})}{\text{vol}(\overline{S})}$
- Phạm vi: Càng nhỏ càng tốt.



# ***`Thực hiện phân tích việc (nhận xét) phát hiện cộng đồng cho mạng xã hội tự chọn`***

In [1]:
import urllib.request
import io
import pandas as pd
import networkx as nx

def download_and_read_data():
    """
    Tải và đọc dữ liệu từ mạng xã hội Facebook (từ SNAP)
    """
    # The original URL was incorrect or the file has been moved.
    # Updated to the correct URL for the dataset.
    url = "https://snap.stanford.edu/data/twitter_combined.txt.gz"
    response = urllib.request.urlopen(url)
    data = response.read()

    df = pd.read_csv(io.BytesIO(data),
                     compression='gzip',
                     sep=" ",
                     names=["source", "target"])
    return df

# Tải dữ liệu từ SNAP
df = download_and_read_data()

# Tạo đồ thị từ dữ liệu SNAP
G = nx.from_pandas_edgelist(df, source='source', target='target')
communities = list(nx.community.girvan_newman(G))

KeyboardInterrupt: 