In [1]:
# -*- coding: utf-8 -*-
from underthesea import word_tokenize
import re
import VietnameseTextNormalizer.ReleasePython3.VietnameseTextNormalizer as nm
import pandas as pd
import numpy as np

In [2]:
def removeConsecutiveDuplicates(S): 
    S = list(S.rstrip()) 
    
    n = len(S)  
    
    if (n < 2) : 
        return S[0]
           
    j = 0
       
    for i in range(n):  
        if (S[j] != S[i]): 
            j += 1
            S[j] = S[i]  
      
    j += 1
    S = S[:j]
    return "".join(S)

In [3]:
def preprocessing(s, show_stepbystep=False, remove_stop_words=True):
    if show_stepbystep:
        print("original:")
        print(s)
        print()
    
    # remove 'Xem thêm'
    s = re.sub('Xem thêm', '', s)
    if show_stepbystep:
        print("remove xt:")
        print(s)
        print()

    # convert to lower case
    s = s.lower()
    if show_stepbystep:
        print("lowercase:")
        print(s)
        print()
    
    # normalize Vietnamese
    s = nm.ASRNormalize(s)
    if show_stepbystep:
        print("normalized Vietnamese:")
        print(s)
        print()
        
    # remove urls and hashtags
    s = re.sub(r'http\S+', '', s)
    s = re.sub(r'#\S+', '', s)
    if show_stepbystep:
        print('remove urls and hashtags:')
        print(s)
        print()
    
    # remove email address
    s = re.sub(r'\S*@\S*\s?', '', s)
    if show_stepbystep:
        print('remove email addresses:')
        print(s)
        print()
    
    # split into words
    tokens = word_tokenize(s)
    if show_stepbystep:
        print('tokenize:')
        print(tokens)
        print()
    
    # remove punctuation and number
    words = [word for word in tokens if re.sub(r"\s+", "", word).isalpha()]
    if show_stepbystep:
        print('remove punctuation:')
        print(words)
        print()
    
    # remove stop words
    if remove_stop_words:
        words = [word for word in words if not word in stop_words]
        if show_stepbystep:
            print('remove stop words:')
            print(words)
            print()
    
    # remove consecutive duplicates character
    words = [removeConsecutiveDuplicates(word) for word in words]
    if show_stepbystep:
        print('remove consecutive duplicates character:')
        print(words)
        print()
        
    # remove single character
    words = [word for word in words if len(word)>1]
    if show_stepbystep:
        print('remove single character:')
        print(words)
        print()
    
    return words

In [4]:
# load stop words list
file = open('vietnamese-stopwords.txt')
stop_words = file.readlines()
file.close()

stop_words = set([word.strip('\n') for word in stop_words])
stop_words

{'sau',
 'tốt bộ',
 'khi nào',
 'lấy số',
 'như nhau',
 'cao răng',
 'hỗ trợ',
 'gần bên',
 'nhà việc',
 'sớm',
 'biết mình',
 'nghen',
 'sở dĩ',
 'đặt ra',
 'việc',
 'tăng thêm',
 'ngọn nguồn',
 'thế lại',
 'trệu trạo',
 'theo tin',
 'từ loại',
 'giữ lấy',
 'mới hay',
 'là ít',
 'đưa về',
 'có chứ',
 'ở nhờ',
 'chung',
 'chùn chùn',
 'tôi con',
 'bấy lâu nay',
 'hỏi',
 'ăn làm',
 'lớn lên',
 'xăm xắm',
 'cây nước',
 'có thế',
 'hết ý',
 'tính cách',
 'qua',
 'nguồn',
 'tấn',
 'chính thị',
 'dạ',
 'chưa cần',
 'tuốt tuột',
 'còn',
 'ba bản',
 'lại ăn',
 'ấy',
 'cảm ơn',
 'nhớ',
 'nữa là',
 'lại đây',
 'ngoài này',
 'không có gì',
 'cả ăn',
 'ăn ngồi',
 'vở',
 'quá nhiều',
 'nghĩ ra',
 'việc gì',
 'muốn',
 'phía trước',
 'ái dà',
 'mang nặng',
 'thường thôi',
 'cu cậu',
 'luôn',
 'lần nào',
 'phỏng tính',
 'thà rằng',
 'đơn vị',
 'chọn ra',
 'thật tốt',
 'vừa qua',
 'nói tốt',
 'thường xuất hiện',
 'đều',
 'ít khi',
 'thật lực',
 'ối giời ơi',
 'tuy vậy',
 'bấy nhiêu',
 'hoàn toàn',
 'n

In [5]:
k10 = pd.read_csv("k10/posts_1594272491_8.csv", header=None)
k11 = pd.read_csv("k11/posts_1594251010_7.csv", header=None)
k12 = pd.read_csv("k12/posts_1594208046_4.csv", header=None)
k13 = pd.read_csv("k13/posts_1594221437_4.csv", header=None)
k14 = pd.read_csv("k14/posts_1594216235_5.csv", header=None)

In [6]:
dataset = pd.concat([k10, k11, k12, k13, k14], ignore_index=True)

In [7]:
dataset

Unnamed: 0,0
0,[TSSĐH]-THÔNG BÁO TỔ CHỨC LỚP ÔN TẬP CHUẨN BỊ ...
1,💗💗 Giao lưu cùng Nhà báo- Nhà thơ Nguyễn P...
2,Phòng Công tác Sinh viên thông tin đến sinh vi...
3,🔬 Các chuyên ngành đào tạo trường Đại học Kans...
4,👉 Bật mí với các bạn một chương trình vô cùng ...
...,...
13149,Bạn này vừa đến Trường nộp Giấy kết quả thi TH...
13150,Các em nhỏ nhớ đi MHX2020 nha\nChị share để ki...
13151,# chào mình đỗ ktpm clc ... bác nào chung khoa...
13152,"Chào các bạn, phòng Công tác Sinh viên đã đăng..."


In [8]:
dataset[1] = [preprocessing(dataset.iloc[i][0]) for i in range(dataset.shape[0])]

In [9]:
dataset[2] = [' '.join(dataset.iloc[i][1]) for i in range(dataset.shape[0])]

In [10]:
dataset

Unnamed: 0,0,1,2
0,[TSSĐH]-THÔNG BÁO TỔ CHỨC LỚP ÔN TẬP CHUẨN BỊ ...,"[tsđh, thông báo, tổ chức, lớp, ôn tập, tuyển ...",tsđh thông báo tổ chức lớp ôn tập tuyển sinh c...
1,💗💗 Giao lưu cùng Nhà báo- Nhà thơ Nguyễn P...,"[giao lưu, nhà báo, nhà thơ, nguyễn phong việt...",giao lưu nhà báo nhà thơ nguyễn phong việt phò...
2,Phòng Công tác Sinh viên thông tin đến sinh vi...,"[phòng, công tác, sinh viên, thông tin, sinh v...",phòng công tác sinh viên thông tin sinh viên l...
3,🔬 Các chuyên ngành đào tạo trường Đại học Kans...,"[chuyên ngành, đào tạo, trường, đại học, kansa...",chuyên ngành đào tạo trường đại học kansai osa...
4,👉 Bật mí với các bạn một chương trình vô cùng ...,"[bật mí, chương trình, vô cùng, hấp dẫn, diễn,...",bật mí chương trình vô cùng hấp dẫn diễn nhà v...
...,...,...,...
13149,Bạn này vừa đến Trường nộp Giấy kết quả thi TH...,"[trường, nộp, giấy, kết quả, thi, thpt, quốc g...",trường nộp giấy kết quả thi thpt quốc gia xác ...
13150,Các em nhỏ nhớ đi MHX2020 nha\nChị share để ki...,"[đi, nha, share, kiểu, khai trương, group, sha...",đi nha share kiểu khai trương group share mấy ...
13151,# chào mình đỗ ktpm clc ... bác nào chung khoa...,"[chào, đỗ, ktpm, clc, khoa, làm quen, mail, ed...",chào đỗ ktpm clc khoa làm quen mail edu trường...
13152,"Chào các bạn, phòng Công tác Sinh viên đã đăng...","[chào, phòng, công tác, sinh viên, đăng tải, h...",chào phòng công tác sinh viên đăng tải hướng d...


In [11]:
dataset = dataset.drop_duplicates(ignore_index=True, subset=2)
dataset.shape

(9141, 3)

In [12]:
np.where(dataset.applymap(lambda x: x == ''))

(array([61]), array([2]))

In [13]:
dataset.iloc[61]

0    https://forms.gle/PgdEEVyyeeSjczSy7
1                                     []
2                                       
Name: 61, dtype: object

In [14]:
dataset = dataset.drop([61])
dataset.shape

(9140, 3)

In [15]:
np.where(dataset.applymap(lambda x: x == ''))

(array([], dtype=int64), array([], dtype=int64))

In [16]:
dataset.isna().sum()

0    0
1    0
2    0
dtype: int64

In [17]:
dataset.reset_index(drop=True, inplace=True)

In [18]:
dataset

Unnamed: 0,0,1,2
0,[TSSĐH]-THÔNG BÁO TỔ CHỨC LỚP ÔN TẬP CHUẨN BỊ ...,"[tsđh, thông báo, tổ chức, lớp, ôn tập, tuyển ...",tsđh thông báo tổ chức lớp ôn tập tuyển sinh c...
1,💗💗 Giao lưu cùng Nhà báo- Nhà thơ Nguyễn P...,"[giao lưu, nhà báo, nhà thơ, nguyễn phong việt...",giao lưu nhà báo nhà thơ nguyễn phong việt phò...
2,Phòng Công tác Sinh viên thông tin đến sinh vi...,"[phòng, công tác, sinh viên, thông tin, sinh v...",phòng công tác sinh viên thông tin sinh viên l...
3,🔬 Các chuyên ngành đào tạo trường Đại học Kans...,"[chuyên ngành, đào tạo, trường, đại học, kansa...",chuyên ngành đào tạo trường đại học kansai osa...
4,👉 Bật mí với các bạn một chương trình vô cùng ...,"[bật mí, chương trình, vô cùng, hấp dẫn, diễn,...",bật mí chương trình vô cùng hấp dẫn diễn nhà v...
...,...,...,...
9135,Bạn này vừa đến Trường nộp Giấy kết quả thi TH...,"[trường, nộp, giấy, kết quả, thi, thpt, quốc g...",trường nộp giấy kết quả thi thpt quốc gia xác ...
9136,Các em nhỏ nhớ đi MHX2020 nha\nChị share để ki...,"[đi, nha, share, kiểu, khai trương, group, sha...",đi nha share kiểu khai trương group share mấy ...
9137,# chào mình đỗ ktpm clc ... bác nào chung khoa...,"[chào, đỗ, ktpm, clc, khoa, làm quen, mail, ed...",chào đỗ ktpm clc khoa làm quen mail edu trường...
9138,"Chào các bạn, phòng Công tác Sinh viên đã đăng...","[chào, phòng, công tác, sinh viên, đăng tải, h...",chào phòng công tác sinh viên đăng tải hướng d...


In [19]:
dataset.to_csv('dataset.csv', index=False)