In [1]:
import datetime, time
import pandas as pd
import numpy as np
import os
from tqdm.notebook import tqdm
import re

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

import torch

In [2]:
device = torch.device('cuda')

tokenizer = AutoTokenizer.from_pretrained("NlpHUST/vi-word-segmentation")
model = AutoModelForTokenClassification.from_pretrained("NlpHUST/vi-word-segmentation").to(device)

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer)

example = """Tổng bí thư Nguyễn Phú Trọng 20/10/2024,Biểu tình tại Bruxelles đòi trả tự do cho 4 đảng viên Việt Tân,"Trong khi giới chức Việt Nam cho rằng tuyến đường sắt cao tốc nối Hà Nội – Sài Gòn có tầm quan trọng chiến lược và dự đoán những lợi ích to lớn về kinh tế – xã hội, nhiều ý kiến lại băn khoăn về chi phí, tính khả thi về mặt thương mại và tác động hạn chế về kinh tế.
“Một ngày tù bằng nghìn thu ở ngoài.” Có đi tù mới hiểu hết ý nghĩa câu nói ấy. Tôi đã về nhà, nhưng còn hàng trăm anh chị em, bạn bè của chúng ta vẫn đang mòn mỏi trong nhà tù. Mong mọi người tiếp tục đồng hành và giúp đỡ các tù nhân lương tâm cùng gia đình của họ để vượt qua chặng đường khắc nghiệt chông gai. Xin đừng bỏ rơi họ, đừng bỏ rơi một người nào.
Nhiều nhà quan sát đặt ra câu hỏi tại sao Mông Cổ lại là nước được lãnh đạo Việt Nam chọn thăm ngay sau khi thăm Hoa Kỳ, Cuba. Các nhà quan sát đưa ra nhiều giải thích về mặt địa chiến lược và hai con đường trái ngược của Việt Nam và Mông Cổ sau khi Liên Xổ sụp đổ. 
Tôi thấy rất vui và ấm lòng khi có những phái đoàn đến từ Hòa Lan"""

ner_results = nlp(example)
example_tok = ""
for e in ner_results:
    if "##" in e["word"]:
        example_tok = example_tok + e["word"].replace("##","")
    elif e["entity"] =="I":
        example_tok = example_tok + "_" + e["word"]
    elif ("." in e["word"]) or ("/" in e["word"]) or ("%" in e["word"]) or ("-" in e["word"]):
        example_tok = example_tok + "" + e["word"]
    else:
        example_tok = example_tok + " " + e["word"]
    
print(example_tok)

tokenizer_config.json:   0%|          | 0.00/383 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/411k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.40M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/915 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/532M [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


 Tổng_bí_thư Nguyễn_Phú_Trọng 20/ 10/ 2024 , Biểu_tình tại Bruxelles đòi trả tự_do cho 4 đảng_viên Việt_Tân , " Trong khi giới_chức Việt_Nam cho rằng tuyến đường_sắt cao_tốc nối Hà_Nội – Sài_Gòn có tầm quan_trọng chiến_lược và dự_đoán những lợi_ích to_lớn về kinh_tế – xã_hội , nhiều ý_kiến lại băn_khoăn về chi_phí , tính khả_thi về mặt thương_mại và tác_động hạn_chế về kinh_tế. “ Một ngày tù bằng nghìn thu ở ngoài. ” Có đi tù mới hiểu hết ý_nghĩa câu nói ấy. Tôi đã về nhà , nhưng còn hàng trăm anh_chị_em , bạn_bè của chúng_ta vẫn đang mòn_mỏi trong nhà_tù. Mong mọi người tiếp_tục đồng_hành và giúp_đỡ các tù_nhân lương_tâm cùng gia_đình của họ để vượt qua chặng đường khắc_nghiệt chông_gai. Xin đừng bỏ_rơi họ , đừng bỏ_rơi một người nào. Nhiều nhà_quan_sát đặt ra câu hỏi tại_sao Mông_Cổ lại là nước được lãnh_đạo Việt_Nam chọn thăm ngay sau khi thăm Hoa_Kỳ , Cuba. Các nhà_quan_sát đưa ra nhiều giải_thích về mặt địa_chiến_lược và hai con đường trái_ngược của Việt_Nam và Mông_Cổ sau khi Liê

In [3]:
def word_weg(text, nlp):
  ner_results = nlp(text)
  example_tok = ""
  for e in ner_results:
      if "##" in e["word"]:
          example_tok = example_tok + e["word"].replace("##","")
      elif e["entity"] =="I":
          example_tok = example_tok + "_" + e["word"]
      elif ("." in e["word"]) or ("/" in e["word"]) or ("%" in e["word"]) or ("-" in e["word"]):
        example_tok = example_tok + "" + e["word"]
      else:
        example_tok = example_tok + " " + e["word"]
  return example_tok

In [4]:
# Hàm tiền xử lý cho text
def preprocessing_text(text, nlp):
    # lower text
    text = text.lower()

    # remove special char
    allowed_special_chars = r"\%.-/"
    allowed_chars = r"[^a-zA-Z0-9\s" + re.escape(allowed_special_chars) + r"àáạảãâầấậẩẫăằắặẳẵèéẹẻẽêềếệểễìíịỉĩòóọỏõôồốộổỗơờớợởỡùúụủũưừứựửữỳýỵỷỹđÀÁẠẢÃÂẦẤẬẨẪĂẰẮẶẲẴÈÉẸẺẼÊỀẾỆỂỄÌÍỊỈĨÒÓỌỎÕÔỒỐỘỔỖƠỜỚỢỞỠÙÚỤỦŨƯỪỨỰỬỮỲÝỴỶỸĐ]"
    text = re.sub(allowed_chars, '', text)

    # word segmentor
    text = word_weg(text, nlp)

    # remove stop word
    with open('/kaggle/input/dataset-pbl6-v4/data_v4/vietnamese.txt', 'r', encoding='utf-8') as f:
        stop_words = set(f.read().strip().split('\n'))
    words = text.split()
    filtered_words = [word for word in words if word not in stop_words]
    text =' '.join(filtered_words)

    return text

In [5]:
def split_sentence_into_chunks(sentence, max_length=512):
    """Cắt câu dài thành các đoạn nhỏ hơn hoặc bằng max_length ký tự."""
    chunks = []
    while len(sentence) > max_length:
        # Tìm vị trí dấu cách gần nhất trước giới hạn max_length
        split_pos = sentence[:max_length].rfind(" ")
        if split_pos == -1:  # Nếu không tìm thấy dấu cách
            split_pos = max_length
        chunks.append(sentence[:split_pos].strip())
        sentence = sentence[split_pos:].strip()
    if sentence:  # Thêm phần còn lại của câu
        chunks.append(sentence)
    return chunks

def split_text_with_long_sentences(text, max_length=512):
    """Cắt văn bản thành nhiều đoạn nhỏ hơn hoặc bằng max_length ký tự, bao gồm cả câu dài."""
    text = text.strip()
    sentences = re.split(r'(?<=[.])', text)  # Tách theo câu, giữ lại dấu chấm
    chunks = []
    for sentence in sentences:
        sentence = sentence.strip()
        if len(sentence) > max_length:
            # Nếu câu vượt quá max_length, cắt thành các đoạn nhỏ
            chunks.extend(split_sentence_into_chunks(sentence, max_length))
        else:
            # Nếu câu không vượt quá max_length, thêm vào danh sách
            chunks.append(sentence)
    return chunks

In [6]:
def preprocessing_data(path, nlp):
    # path
    root = '/kaggle/input/dataset-pbl6-v4/data_v4/'+path
    # load dataset
    df = pd.read_csv(root)
    # create processed dataset
    new_data = pd.DataFrame(columns=['Title', 'Content', 'Source', 'Label', 'DataTime'])
    # processing = tqdm(total=len(df), desc='Word segmentaion', position=1, leave=True)
    for i, row in enumerate(df.iterrows()):
        # processing text
        title = preprocessing_text(str(row[1]['Title']), nlp)
        # print(title)
        # Loại bỏ khoảng trắng thừa trước và sau
        content = str(row[1]['Content'])
        # print(content)
        sentences = split_text_with_long_sentences(content, max_length=512)
        
        # Loại bỏ các câu rỗng hoặc chỉ chứa khoảng trắng
        sentences = [sentence.strip() for sentence in sentences if sentence.strip()]
    
        # Nối kết quả sau xử lý bằng dấu cách
        content = " ".join(preprocessing_text(sentence, nlp) for sentence in sentences)
        # print(content)
        # content = preprocessing_text(, nlp)
        # add row for new dataset
        new_data.loc[len(new_data)] = [title, content, row[1]['Source'], row[1]['Label'], row[1]['DateTime']]
        # processing.update()
        # print(content)
        if i % 100 == 0:
            print(f'Processing: {i}/{len(df)}')
        

    new_data.to_csv('/kaggle/working/'+path, index=False)

In [7]:

listpath = ['news.csv','fakenews.csv']

for path in listpath:
  print(path)
  preprocessing_data(path, nlp)

news.csv


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Processing: 0/16258
Processing: 100/16258
Processing: 200/16258
Processing: 300/16258
Processing: 400/16258
Processing: 500/16258
Processing: 600/16258
Processing: 700/16258
Processing: 800/16258
Processing: 900/16258
Processing: 1000/16258
Processing: 1100/16258
Processing: 1200/16258
Processing: 1300/16258
Processing: 1400/16258
Processing: 1500/16258
Processing: 1600/16258
Processing: 1700/16258
Processing: 1800/16258
Processing: 1900/16258
Processing: 2000/16258
Processing: 2100/16258
Processing: 2200/16258
Processing: 2300/16258
Processing: 2400/16258
Processing: 2500/16258
Processing: 2600/16258
Processing: 2700/16258
Processing: 2800/16258
Processing: 2900/16258
Processing: 3000/16258
Processing: 3100/16258
Processing: 3200/16258
Processing: 3300/16258
Processing: 3400/16258
Processing: 3500/16258
Processing: 3600/16258
Processing: 3700/16258
Processing: 3800/16258
Processing: 3900/16258
Processing: 4000/16258
Processing: 4100/16258
Processing: 4200/16258
Processing: 4300/16258
