In [3]:
!pip3 install numpy scikit-learn transformers torch scipy

Defaulting to user installation because normal site-packages is not writeable
Collecting numpy
  Using cached numpy-2.2.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (62 kB)
Collecting scikit-learn
  Downloading scikit_learn-1.6.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (18 kB)
Collecting transformers
  Downloading transformers-4.47.0-py3-none-any.whl.metadata (43 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m43.5/43.5 kB[0m [31m575.0 kB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hCollecting torch
  Downloading torch-2.5.1-cp311-cp311-manylinux1_x86_64.whl.metadata (28 kB)
Collecting scipy
  Downloading scipy-1.14.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.8/60.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.4.2-py3-none-any.whl.meta

In [4]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics.pairwise import cosine_distances
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import linkage, fcluster
from transformers import AutoTokenizer, AutoModel
import torch

  from .autonotebook import tqdm as notebook_tqdm


In [10]:
import re
def _split_sentences(text):
    sentences = re.split(r'(?<=[.?!])\s+', text)
    return sentences
  
def _combine_sentences(sentences):
    combined_sentences = []
    for i in range(len(sentences)):
        combined_sentence = sentences[i]
        if i > 0:
            combined_sentence = sentences[i-1] + ' ' + combined_sentence
        if i < len(sentences) - 1:
            combined_sentence += ' ' + sentences[i+1]
        combined_sentences.append(combined_sentence)
    return combined_sentences


def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0]  
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
  
def get_embeddings(texts, model_name="VoVanPhuc/sup-SimCSE-VietNamese-phobert-base"):
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  model = AutoModel.from_pretrained(model_name)

  encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors="pt")

  with torch.no_grad():
      model_output = model(**encoded_input)
  
  embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

  return embeddings.numpy()

In [11]:

def chunk_text(text, num_clusters=4, distance_threshold=None):

    single_sentences_list = _split_sentences(text)
    print(single_sentences_list)

    combined_sentences = _combine_sentences(single_sentences_list)
    print(combined_sentences)

    
    embeddings = get_embeddings(combined_sentences)


    distance_matrix = cosine_distances(embeddings)

    
    Z = linkage(distance_matrix, method='average')  # 'average' is for average linkage; you can also try 'ward', 'complete', etc.


    if num_clusters:
        cluster_labels = fcluster(Z, t=num_clusters, criterion='maxclust')
    elif distance_threshold:
        cluster_labels = fcluster(Z, t=distance_threshold, criterion='distance')
    else:
        raise ValueError("Either num_clusters or distance_threshold must be specified.")

    
    chunks = []
    current_chunk = []
    current_label = cluster_labels[0]

    for i, sentence in enumerate(single_sentences_list):
        if cluster_labels[i] == current_label:
            current_chunk.append(sentence)
        else:
            # Start a new chunk when the cluster label changes
            chunks.append(' '.join(current_chunk))
            current_chunk = [sentence]
            current_label = cluster_labels[i]

    # Append the last chunk
    if current_chunk:
        chunks.append(' '.join(current_chunk))

 
    return chunks

In [12]:


text = """
Quỹ Hỗ trợ đầu tư được tổ chức theo mô hình mới, tương tự một đơn vị sự nghiệp công lập nhưng có khác biệt. Cụ thể, quỹ này sẽ không cung cấp dịch vụ công, không có bộ máy riêng để quản lý và thực hiện các nhiệm vụ đặc thù trong chi hỗ trợ đầu tư. Hội đồng quản lý quỹ do Thủ tướng quyết định thành lập, nhiệm kỳ 5 năm và được xem xét bổ nhiệm lại. Cơ cấu, tổ chức của Hội đồng quản lý Quỹ thực hiện theo quyết định của Thủ tướng.
Liên quan tới chính sách hỗ trợ, theo Thứ trưởng Bích Ngọc, Quỹ Hỗ trợ đầu tư sẽ dành nguồn lực cho doanh nghiệp công nghệ cao (bán dẫn, AI...), đơn vị có dự án đầu tư sản xuất sản phẩm hoặc ứng dụng công nghệ cao; dự án đầu tư trung tâm nghiên cứu và phát triển (R&D).
Để được hỗ trợ, doanh nghiệp cần có dự án đầu tư sản xuất sản phẩm, ứng dụng công nghệ cao, với vốn tối thiểu 12.000 tỷ đồng hoặc doanh thu ít nhất 20.000 tỷ đồng một năm.
Doanh nghiệp có dự án trong lĩnh vực công nghiệp chip, mạch tích hợp bán dẫn, trung tâm dữ liệu AI cần có vốn tối thiểu 6.000 tỷ đồng hoặc doanh thu 10.000 tỷ đồng một năm.
Tiêu chí về vốn, doanh thu tối thiểu mỗi năm sẽ không áp dụng với doanh nghiệp có dự án đầu tư sản xuất sản phẩm, ứng dụng công nghệ cao thuộc danh mục công nghệ, sản phẩm đột phá được ưu tiên nghiên cứu, phát triển và đơn vị có dự án thiết kế vi mạch.
Khoản hỗ trợ từ quỹ này sẽ được chi trực tiếp bằng tiền và qua các hạng mục hỗ trợ:
"""
chunks = chunk_text(text)
for chunk in chunks:
    print(chunk,"\n----------------------------------------------------------------------------\n")
print(f"\n{len(chunks)} chunks")

['\nQuỹ Hỗ trợ đầu tư được tổ chức theo mô hình mới, tương tự một đơn vị sự nghiệp công lập nhưng có khác biệt.', 'Cụ thể, quỹ này sẽ không cung cấp dịch vụ công, không có bộ máy riêng để quản lý và thực hiện các nhiệm vụ đặc thù trong chi hỗ trợ đầu tư.', 'Hội đồng quản lý quỹ do Thủ tướng quyết định thành lập, nhiệm kỳ 5 năm và được xem xét bổ nhiệm lại.', 'Cơ cấu, tổ chức của Hội đồng quản lý Quỹ thực hiện theo quyết định của Thủ tướng.', 'Liên quan tới chính sách hỗ trợ, theo Thứ trưởng Bích Ngọc, Quỹ Hỗ trợ đầu tư sẽ dành nguồn lực cho doanh nghiệp công nghệ cao (bán dẫn, AI...), đơn vị có dự án đầu tư sản xuất sản phẩm hoặc ứng dụng công nghệ cao; dự án đầu tư trung tâm nghiên cứu và phát triển (R&D).', 'Để được hỗ trợ, doanh nghiệp cần có dự án đầu tư sản xuất sản phẩm, ứng dụng công nghệ cao, với vốn tối thiểu 12.000 tỷ đồng hoặc doanh thu ít nhất 20.000 tỷ đồng một năm.', 'Doanh nghiệp có dự án trong lĩnh vực công nghiệp chip, mạch tích hợp bán dẫn, trung tâm dữ liệu AI cần có

  Z = linkage(distance_matrix, method='average')  # 'average' is for average linkage; you can also try 'ward', 'complete', etc.


In [13]:
from sklearn.metrics import silhouette_score
def determine_optimal_clusters(embeddings, max_clusters=10):
    distance_matrix = cosine_distances(embeddings)
   
    Z = linkage(distance_matrix, method='average')
   
    wcss = []
    for n_clusters in range(2, max_clusters + 1):
        cluster_labels = fcluster(Z, t=n_clusters, criterion='maxclust')
        wcss.append(calculate_wcss(embeddings, cluster_labels))
   
    total_variance = np.sum((embeddings - np.mean(embeddings, axis=0))**2)
    explained_variance = [1 - (w / total_variance) for w in wcss]
   
    optimal_clusters = find_elbow_point(range(2, max_clusters + 1), explained_variance)
   
    return optimal_clusters

def calculate_wcss(data, labels):
    n_clusters = len(set(labels))
    wcss = 0
    for i in range(n_clusters):
        cluster_points = data[labels == i+1]
        cluster_mean = np.mean(cluster_points, axis=0)
        wcss += np.sum((cluster_points - cluster_mean)**2)
    return wcss

def find_elbow_point(x, y):
    diffs = np.diff(y, 2)
    return x[np.argmax(diffs) + 1]

def chunk_text_with_clusters(text, num_clusters):
    single_sentences_list = _split_sentences(text)
    combined_sentences = _combine_sentences(single_sentences_list)
    embeddings = get_embeddings(combined_sentences)

    distance_matrix = cosine_distances(embeddings)
    Z = linkage(distance_matrix, method='average')
    cluster_labels = fcluster(Z, t=num_clusters, criterion='maxclust')

    chunks = []
    current_chunk = []
    current_label = cluster_labels[0]

    for i, sentence in enumerate(single_sentences_list):
        if cluster_labels[i] == current_label:
            current_chunk.append(sentence)
        else:
            chunks.append(' '.join(current_chunk))
            current_chunk = [sentence]
            current_label = cluster_labels[i]

    if current_chunk:
        chunks.append(' '.join(current_chunk))

    return chunks


def chunk_text(text, max_clusters=10):
    single_sentences_list = _split_sentences(text)
    combined_sentences = _combine_sentences(single_sentences_list)
    embeddings = get_embeddings(combined_sentences)
   
    optimal_clusters = determine_optimal_clusters(embeddings, max_clusters)
   
    return chunk_text_with_clusters(text, num_clusters=optimal_clusters)

res = chunk_text(text)
res

  Z = linkage(distance_matrix, method='average')
  Z = linkage(distance_matrix, method='average')


['\nQuỹ Hỗ trợ đầu tư được tổ chức theo mô hình mới, tương tự một đơn vị sự nghiệp công lập nhưng có khác biệt. Cụ thể, quỹ này sẽ không cung cấp dịch vụ công, không có bộ máy riêng để quản lý và thực hiện các nhiệm vụ đặc thù trong chi hỗ trợ đầu tư. Hội đồng quản lý quỹ do Thủ tướng quyết định thành lập, nhiệm kỳ 5 năm và được xem xét bổ nhiệm lại.',
 'Cơ cấu, tổ chức của Hội đồng quản lý Quỹ thực hiện theo quyết định của Thủ tướng.',
 'Liên quan tới chính sách hỗ trợ, theo Thứ trưởng Bích Ngọc, Quỹ Hỗ trợ đầu tư sẽ dành nguồn lực cho doanh nghiệp công nghệ cao (bán dẫn, AI...), đơn vị có dự án đầu tư sản xuất sản phẩm hoặc ứng dụng công nghệ cao; dự án đầu tư trung tâm nghiên cứu và phát triển (R&D). Để được hỗ trợ, doanh nghiệp cần có dự án đầu tư sản xuất sản phẩm, ứng dụng công nghệ cao, với vốn tối thiểu 12.000 tỷ đồng hoặc doanh thu ít nhất 20.000 tỷ đồng một năm.',
 'Doanh nghiệp có dự án trong lĩnh vực công nghiệp chip, mạch tích hợp bán dẫn, trung tâm dữ liệu AI cần có vốn t