In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
%cd /content/drive/MyDrive/Big Data

/content/drive/.shortcut-targets-by-id/1TAu4SZhWrKc1p8Qzg_DxD4pH9EarDytY/Big Data


# Setup

In [None]:
!pip install wget
!pip install vncorenlp



In [None]:
import os
import wget
import shutil
import gdown

directory_path = "./vncorenlp/models/wordsegmenter"

# Check if the directory exists
if not os.path.exists(directory_path):
    # Download necessary file
    wget.download("https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/VnCoreNLP-1.1.1.jar")
    wget.download("https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/vi-vocab")
    wget.download("https://raw.githubusercontent.com/vncorenlp/VnCoreNLP/master/models/wordsegmenter/wordsegmenter.rdr")
    gdown.download("https://drive.google.com/uc?id=1f5t9kOLOHwF3qeYgN4eyycPUXnBtnbWm", "abbreviation_dictionary_vn.csv", quiet=False)

    os.makedirs(directory_path)
    print(f"Directory '{directory_path}' created.")
    # Move to directory
    shutil.move("VnCoreNLP-1.1.1.jar", "./vncorenlp/")
    shutil.move("vi-vocab", "./vncorenlp/models/wordsegmenter/")
    shutil.move("wordsegmenter.rdr", "./vncorenlp/models/wordsegmenter/")
    shutil.move("abbreviation_dictionary_vn.csv", "./vncorenlp/")
else:
    print(f"Directory '{directory_path}' already exists.")

Directory './vncorenlp/models/wordsegmenter' already exists.


In [None]:
from vncorenlp import VnCoreNLP
annotator = VnCoreNLP("vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx500m')

In [None]:
import pandas as pd

# Đọc tệp CSV chứa từ điển các từ viết tắt
df = pd.read_csv('/content/drive/MyDrive/Big Data/vncorenlp/abbreviation_dictionary_vn.csv')
abbreviation_dict = df.set_index("abbreviation")["meaning"].to_dict()
abbreviation_dict = {f" {k} ": f" {v} " for k, v in abbreviation_dict.items()}

# In ra từ điển để kiểm tra
print("Abbreviation Dictionary:")
print(abbreviation_dict)

Abbreviation Dictionary:
{' dấu bé 3 ': ' <3 ', ' dấu bé ba ': ' <3 ', ' ă ': ' á ', ' â ': ' á ', ' ák ': ' á ', ' ế ': ' á ', ' í ': ' á ', ' àh ': ' à ', ' ak ': ' à ', ' àk ': ' à ', ' òh ': ' à ', ' uh ': ' à ', ' ạh ': ' ạ ', ' nạ ': ' ạ ', ' ợ ': ' ạ ', ' adidaphat ': ' a di đà phật ', ' adu ': ' á đù ', ' a&f ': ' abercrombie & fitch ', ' anlonroi ': ' ăn lồn rồi ', ' annd ': ' an ninh nhân dân ', ' asxh ': ' an sinh xã hội ', ' a ': ' anh ', ' ank ': ' anh ', ' bro ': ' anh ', ' broh ': ' anh ', ' ãnh ': ' ảnh ', ' a/c ': ' anh chị ', ' ac ': ' anh chị ', ' ảnh cap ': ' ảnh chụp màn hình ', ' avt ': ' ảnh đại diện ', ' ae ': ' anh em ', ' anhem ': ' anh em ', ' ahbp ': ' anh hùng bàn phím ', ' av ': ' anh văn ', ' ộp pa ': ' anh yêu ', ' oppa ': ' anh yêu ', ' atsm ': ' ảo tưởng sức mạnh ', ' stress ': ' áp lực ', ' xì choét ': ' áp lực ', ' xì trét ': ' áp lực ', ' ars ': ' arsenal ', ' ái zà ': ' ấy chà ', ' be ': ' ba ', ' pa ': ' ba ', ' bã ': ' bà ấy ', ' bả ': ' bà ấy 

In [None]:
stopwords_dict = {}
with open('/content/drive/MyDrive/Big Data/vncorenlp/vietnamese-stopwords.txt', 'r') as file:
    for line in file:
        key = line.strip()
        stopwords_dict[f" {key} "] = " "

In [None]:
# Define the base Vietnamese alphabet without tone marks
vietnamese_alphabet = "aăâbcdđeêghiklmnoôơpqrstuưvwxy"
vietnamese_letter_with_tone = "áàạãảắằẵẳặấầẩẫậéèẻẽẹềếểễệòóỏõọồốổỗộờớởỡợúùũủụứừửữựíìĩỉịýỳỹỷỵ"

# Create uppercase Vietnamese letters with tone marks
uppercase_vietnamese_letters_with_tone = [char.upper() for char in vietnamese_letter_with_tone]
uppercase_vietnamese_alphabet = vietnamese_alphabet.upper()

# Combine the lists into strings
lowercase_string = vietnamese_alphabet + "".join(vietnamese_letter_with_tone)
uppercase_string = uppercase_vietnamese_alphabet + "".join(uppercase_vietnamese_letters_with_tone)
allcase_string = lowercase_string + uppercase_string

print("Lowercase Vietnamese Letters with Tone Marks:")
print(lowercase_string)

print("\nUppercase Vietnamese Letters with Tone Marks:")
print(uppercase_string)

Lowercase Vietnamese Letters with Tone Marks:
aăâbcdđeêghiklmnoôơpqrstuưvwxyáàạãảắằẵẳặấầẩẫậéèẻẽẹềếểễệòóỏõọồốổỗộờớởỡợúùũủụứừửữựíìĩỉịýỳỹỷỵ

Uppercase Vietnamese Letters with Tone Marks:
AĂÂBCDĐEÊGHIKLMNOÔƠPQRSTUƯVWXYÁÀẠÃẢẮẰẴẲẶẤẦẨẪẬÉÈẺẼẸỀẾỂỄỆÒÓỎÕỌỒỐỔỖỘỜỚỞỠỢÚÙŨỦỤỨỪỬỮỰÍÌĨỈỊÝỲỸỶỴ


In [None]:
from string import punctuation
punctuation = "!\"#$%&'()*+,./:;<=>?@[\]^_`{|}~"

In [None]:
pd.set_option('display.max_rows', 10)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)
pd.options.display.max_rows

10

# Preprocess

In [None]:
train = pd.read_csv("/content/drive/MyDrive/Big Data/Data/labeled_data.csv")


In [None]:
train

Unnamed: 0,text,Label
0,Đức đá này thua Pháp r,0.0
1,"Cr7 đã khác ngày sưa rồi,a biết mình giờ không còn là siêu sao như trk nữa a đã thay đổi để phù hợp hơn",1.0
2,Pape ban do oy,2.0
3,Hy vọng EURO năm nay thì CHÂU Á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất . Kkkkkkkkkk,0.0
4,đen cho bỉ,0.0
...,...,...
4181,"Đức lấy lại phong độ rồi, hay quá đi",1.0
4182,tui đã SAI LẦM khi mất 2h thức khuya chứng kiến đội tuyển Anh thi đấu với lối đá xúc phạm người hâm mộ...,2.0
4183,May mà Quang Huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết,2.0
4184,Rất thích nghe chú Quang Huy vs Quang Tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn,1.0


### 1 - Unicode fix

In [None]:
def unicodeReplace(text):
    replacements = {
        "òa": "oà", "óa": "oá", "ỏa": "oả", "õa": "oã", "ọa": "oạ",
        "òe": "oè", "óe": "oé", "ỏe": "oẻ", "õe": "oẽ", "ọe": "oẹ",
        "ùy": "uỳ", "úy": "uý", "ủy": "uỷ", "ũy": "uỹ", "ụy": "uỵ",
        "Ủy": "Uỷ", "\n": "." , "\t": "."  # Add more replacements as needed
    }
    for old, new in replacements.items():
        text = text.replace(old, new)
    return text

def clean_text(text):
    text = re.sub(r'([.,!?;:])(?=\S)', r'\1 ', text)
    text = re.sub(r'\s+([.,!?;:])', r'\1', text)
    text = re.sub(r'\s+', ' ', text)
    text = text.strip()
    return text

def unicode(data):
    data['text'] = data['text'].apply(unicodeReplace)
    data['text'] = data['text'].apply(clean_text)
    return data

In [None]:
import re
train = unicode(train)
# val = unicode(val)
# test = unicode(test)

In [None]:
# train.to_csv("./Data processing/Dữ liệu để chạy model/1.csv")

###2 - Remove emoji & url

In [None]:
import re

def remove_emojis_url(text):
    emoji_pattern = re.compile("["
                               u"\U0001F600-\U0001F64F"  # emoticons
                               u"\U0001F300-\U0001F5FF"  # symbols & pictographs
                               u"\U0001F680-\U0001F6FF"  # transport & map symbols
                               u"\U0001F700-\U0001F77F"  # alchemical symbols
                               u"\U0001F780-\U0001F7FF"  # Geometric Shapes Extended
                               u"\U0001F800-\U0001F8FF"  # Supplemental Arrows-C
                               u"\U0001F900-\U0001F9FF"  # Supplemental Symbols and Pictographs
                               u"\U0001FA00-\U0001FA6F"  # Chess Symbols
                               u"\U0001FA70-\U0001FAFF"  # Symbols and Pictographs Extended-A
                               u"\U00002702-\U000027B0"  # Dingbats
                               u"\U000024C2-\U0001F251"
                               "]+", flags=re.UNICODE)
    text = emoji_pattern.sub(r'', text)

    url_pattern = re.compile(r'https?://\S+|www\.\S+')
    return url_pattern.sub('', text)

In [None]:
train['text'] = train['text'].apply(remove_emojis_url)


###3 - Abbreviation replace

In [None]:
def abbreviationReplace(text):
    text = f" {text.lower()} "  # Thêm khoảng trắng vào đầu và cuối văn bản để đảm bảo thay thế chính xác
    for old, new in abbreviation_dict.items():
        text = text.replace(old, new)
    return text.strip()  # Loại bỏ khoảng trắng thừa ở đầu và cuối văn bản

def abbreviationPreprocess(data):
    data['text'] = data['text'].apply(abbreviationReplace)
    return data

In [None]:
train = abbreviationPreprocess(train)


In [None]:
train

Unnamed: 0,text,Label
0,đức đá này thua pháp rồi,0.0
1,"ronaldo đã khác ngày sưa rồi, anh biết mình giờ không còn là siêu sao như trước nữa anh đã thay đổi để phù hợp hơn",1.0
2,pape ban do ơi,2.0
3,hy vọng euro năm nay thì châu á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất. kkkkkkkkkk,0.0
4,đen cho bỉ,0.0
...,...,...
4181,"đức lấy lại phong độ rồi, hay quá đi",1.0
4182,tui đã sai lầm khi mất 2h thức khuya chứng kiến đội tuyển anh thi đấu với lối đá xúc phạm người hâm mộ...,2.0
4183,may mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết,2.0
4184,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn,1.0


### 4 - Remove punctuation

In [None]:
def remove_punctuation_and_numbers(text):
    # Define the regular expression pattern to match punctuation
    pattern = r'[!\"#$%&\'()*+,\-./:;<=>?@\[\\\]^`{|}~\“\”\₫]'

    #lowcase
    text = text.lower()

    # Remove punctuation from the text
    text = re.sub(pattern, '', text)

    return re.sub(r'\s+', ' ', text).strip()

In [None]:
train['preprocess_data'] = train['text'].apply(remove_punctuation_and_numbers)


In [None]:
train

Unnamed: 0,text,Label,preprocess_data
0,đức đá này thua pháp rồi,0.0,đức đá này thua pháp rồi
1,"ronaldo đã khác ngày sưa rồi, anh biết mình giờ không còn là siêu sao như trước nữa anh đã thay đổi để phù hợp hơn",1.0,ronaldo đã khác ngày sưa rồi anh biết mình giờ không còn là siêu sao như trước nữa anh đã thay đổi để phù hợp hơn
2,pape ban do ơi,2.0,pape ban do ơi
3,hy vọng euro năm nay thì châu á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất. kkkkkkkkkk,0.0,hy vọng euro năm nay thì châu á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất kkkkkkkkkk
4,đen cho bỉ,0.0,đen cho bỉ
...,...,...,...
4181,"đức lấy lại phong độ rồi, hay quá đi",1.0,đức lấy lại phong độ rồi hay quá đi
4182,tui đã sai lầm khi mất 2h thức khuya chứng kiến đội tuyển anh thi đấu với lối đá xúc phạm người hâm mộ...,2.0,tui đã sai lầm khi mất 2h thức khuya chứng kiến đội tuyển anh thi đấu với lối đá xúc phạm người hâm mộ
4183,may mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết,2.0,may mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết
4184,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn,1.0,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn


### 5 - Tokenize

In [None]:
def tokenizeText(text):
    annotator_text = annotator.tokenize(text)
    tokens = [it for sublist in annotator_text for it in sublist if it != '_']
    return ' '.join(tokens)

def tokenizePreprocess(data):
    data['preprocess_data'] = data['preprocess_data'].apply(tokenizeText)
    return data

In [None]:
train = tokenizePreprocess(train)


In [None]:
train

Unnamed: 0,text,Label,preprocess_data
0,đức đá này thua pháp rồi,0.0,đức đá này thua pháp rồi
1,"ronaldo đã khác ngày sưa rồi, anh biết mình giờ không còn là siêu sao như trước nữa anh đã thay đổi để phù hợp hơn",1.0,ronaldo đã khác ngày sưa rồi anh biết mình giờ không còn là siêu_sao như trước nữa anh đã thay_đổi để phù_hợp hơn
2,pape ban do ơi,2.0,pape ban do ơi
3,hy vọng euro năm nay thì châu á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất. kkkkkkkkkk,0.0,hy_vọng euro năm nay thì châu_á sẽ có một đội_tuyển lọt vào vòng 4 đội mạnh nhất kkkkkkkkkk
4,đen cho bỉ,0.0,đen cho bỉ
...,...,...,...
4181,"đức lấy lại phong độ rồi, hay quá đi",1.0,đức lấy lại phong_độ rồi hay quá đi
4182,tui đã sai lầm khi mất 2h thức khuya chứng kiến đội tuyển anh thi đấu với lối đá xúc phạm người hâm mộ...,2.0,tui đã sai_lầm khi mất 2h thức khuya chứng_kiến đội_tuyển anh thi_đấu với lối đá xúc_phạm người hâm_mộ
4183,may mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết,2.0,may_mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết
4184,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn,1.0,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn_tuổi nhưng vẫn rất hay và chuyên_môn thì khỏi phải bàn


In [None]:
train.to_csv("/content/drive/MyDrive/Big Data/Data/train.csv")


### 6 - Remove stopwords

In [None]:
train_data = pd.read_csv("/content/drive/MyDrive/Big Data/Data/train.csv")

In [None]:
def stopwordRemove(text):
    for old, new in stopwords_dict.items():
        text = text.replace(old, new)
    return text

def stopwordPreprocess(data):
    data['preprocess_data'] = data['preprocess_data'].apply(stopwordRemove)
    return data

In [None]:
train = stopwordPreprocess(train)

In [None]:
train

Unnamed: 0,text,Label,preprocess_data
0,đức đá này thua pháp rồi,0.0,đức đá này thua pháp rồi
1,"ronaldo đã khác ngày sưa rồi, anh biết mình giờ không còn là siêu sao như trước nữa anh đã thay đổi để phù hợp hơn",1.0,ronaldo đã khác ngày sưa rồi anh biết mình giờ không còn là siêu_sao như trước nữa anh đã thay_đổi để phù_hợp hơn
2,pape ban do ơi,2.0,pape ban do ơi
3,hy vọng euro năm nay thì châu á sẽ có một đội tuyển lọt vào vòng 4 đội mạnh nhất. kkkkkkkkkk,0.0,hy_vọng euro năm nay thì châu_á sẽ có một đội_tuyển lọt vào vòng 4 đội mạnh nhất kkkkkkkkkk
4,đen cho bỉ,0.0,đen cho bỉ
...,...,...,...
4181,"đức lấy lại phong độ rồi, hay quá đi",1.0,đức lấy lại phong_độ rồi hay quá đi
4182,tui đã sai lầm khi mất 2h thức khuya chứng kiến đội tuyển anh thi đấu với lối đá xúc phạm người hâm mộ...,2.0,tui đã sai_lầm khi mất 2h thức khuya chứng_kiến đội_tuyển anh thi_đấu với lối đá xúc_phạm người hâm_mộ
4183,may mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết,2.0,may_mà quang huy bl trận 20h chứ nếu 2h sáng mà bl kiểu này chắc ngủ gục hết
4184,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn tuổi nhưng vẫn rất hay và chuyên môn thì khỏi phải bàn,1.0,rất thích nghe chú quang huy với quang tùng bl giọng 2 chú dù có lớn_tuổi nhưng vẫn rất hay và chuyên_môn thì khỏi phải bàn


In [None]:
train.to_csv("/content/drive/MyDrive/Big Data/Data/train.csv")
