In [1]:
from collections import Counter

import re  

import numpy as np
import pandas as pd
from underthesea import word_tokenize
from pyvi import ViTokenizer

In [2]:
raw_text = """Việt Nam là quốc gia đa tôn giáo và tín ngưỡng. 
Đa số người Việt Nam không thuộc tổ chức tôn giáo nào nhưng đồng thời nhiều người trong số họ thực hành tín ngưỡng dân gian. 
Phật giáo du nhập vào cùng với Nho giáo và Đạo giáo (gọi chung là tam giáo) có ảnh hưởng tới văn hóa Việt Nam. 
Phật giáo Việt Nam đa số thuộc Đại thừa và từng có vị thế như quốc giáo thời Nhà Lý và Nhà Trần. 
Nho giáo đạt vị trí độc tôn dưới thời Lê sơ và Nguyễn sơ."""

In [3]:
clean_text = re.sub(r'[^A-Za-zÀ-ỹ0-9\s]', '', raw_text)
clean_text = re.sub(r'\s+', ' ', clean_text).strip()

clean_text

'Việt Nam là quốc gia đa tôn giáo và tín ngưỡng Đa số người Việt Nam không thuộc tổ chức tôn giáo nào nhưng đồng thời nhiều người trong số họ thực hành tín ngưỡng dân gian Phật giáo du nhập vào cùng với Nho giáo và Đạo giáo gọi chung là tam giáo có ảnh hưởng tới văn hóa Việt Nam Phật giáo Việt Nam đa số thuộc Đại thừa và từng có vị thế như quốc giáo thời Nhà Lý và Nhà Trần Nho giáo đạt vị trí độc tôn dưới thời Lê sơ và Nguyễn sơ'

# Tách từ với 2 cấp độ từ đơn, từ ghép 2 chữ

In [4]:
single_word_list = clean_text.split()
print(f"Số lượng từ: {len(single_word_list)}")

for w in single_word_list:
    print(w)

Số lượng từ: 99
Việt
Nam
là
quốc
gia
đa
tôn
giáo
và
tín
ngưỡng
Đa
số
người
Việt
Nam
không
thuộc
tổ
chức
tôn
giáo
nào
nhưng
đồng
thời
nhiều
người
trong
số
họ
thực
hành
tín
ngưỡng
dân
gian
Phật
giáo
du
nhập
vào
cùng
với
Nho
giáo
và
Đạo
giáo
gọi
chung
là
tam
giáo
có
ảnh
hưởng
tới
văn
hóa
Việt
Nam
Phật
giáo
Việt
Nam
đa
số
thuộc
Đại
thừa
và
từng
có
vị
thế
như
quốc
giáo
thời
Nhà
Lý
và
Nhà
Trần
Nho
giáo
đạt
vị
trí
độc
tôn
dưới
thời
Lê
sơ
và
Nguyễn
sơ


In [5]:
double_word_list = [" ".join([single_word_list[i], single_word_list[i+1]]) for i in range(len(single_word_list)-1)]
print(f"Số lượng từ: {len(double_word_list)}")

for w in double_word_list:
    print(w)

Số lượng từ: 98
Việt Nam
Nam là
là quốc
quốc gia
gia đa
đa tôn
tôn giáo
giáo và
và tín
tín ngưỡng
ngưỡng Đa
Đa số
số người
người Việt
Việt Nam
Nam không
không thuộc
thuộc tổ
tổ chức
chức tôn
tôn giáo
giáo nào
nào nhưng
nhưng đồng
đồng thời
thời nhiều
nhiều người
người trong
trong số
số họ
họ thực
thực hành
hành tín
tín ngưỡng
ngưỡng dân
dân gian
gian Phật
Phật giáo
giáo du
du nhập
nhập vào
vào cùng
cùng với
với Nho
Nho giáo
giáo và
và Đạo
Đạo giáo
giáo gọi
gọi chung
chung là
là tam
tam giáo
giáo có
có ảnh
ảnh hưởng
hưởng tới
tới văn
văn hóa
hóa Việt
Việt Nam
Nam Phật
Phật giáo
giáo Việt
Việt Nam
Nam đa
đa số
số thuộc
thuộc Đại
Đại thừa
thừa và
và từng
từng có
có vị
vị thế
thế như
như quốc
quốc giáo
giáo thời
thời Nhà
Nhà Lý
Lý và
và Nhà
Nhà Trần
Trần Nho
Nho giáo
giáo đạt
đạt vị
vị trí
trí độc
độc tôn
tôn dưới
dưới thời
thời Lê
Lê sơ
sơ và
và Nguyễn
Nguyễn sơ


# Use the `Viet74K.txt`

In [6]:
with open("assets/Viet74K.txt", "r", encoding="utf-8") as f:
    dictionary = f.read().splitlines()
    dictionary = [w.lower() for w in dictionary]
    
print(f"Số lượng từ: {len(dictionary)}")

Số lượng từ: 73902


In [7]:
single_word_list_exist = [word for word in single_word_list if word.lower() in dictionary]
print(f"Số lượng từ: {len(single_word_list_exist)}")
for w in single_word_list_exist:
    print(w)

Số lượng từ: 97
Việt
Nam
là
quốc
gia
đa
tôn
giáo
và
tín
ngưỡng
Đa
số
người
Việt
Nam
không
thuộc
tổ
chức
tôn
giáo
nào
nhưng
đồng
thời
nhiều
người
trong
số
họ
thực
hành
tín
ngưỡng
dân
gian
Phật
giáo
du
nhập
vào
cùng
với
Nho
giáo
và
Đạo
giáo
gọi
chung
là
tam
giáo
có
ảnh
hưởng
tới
văn
Việt
Nam
Phật
giáo
Việt
Nam
đa
số
thuộc
Đại
thừa
và
từng
có
vị
thế
như
quốc
giáo
thời
Nhà
Lý
và
Nhà
Trần
Nho
giáo
đạt
vị
trí
độc
tôn
dưới
thời
Lê
sơ
và
sơ


In [8]:
double_word_list_exist = [word for word in double_word_list if word.lower() in dictionary]
print(f"Số lượng từ: {len(double_word_list_exist)}")
for w in double_word_list_exist:
    print(w)

Số lượng từ: 30
Việt Nam
quốc gia
tôn giáo
tín ngưỡng
Đa số
Việt Nam
tổ chức
tôn giáo
đồng thời
thực hành
tín ngưỡng
dân gian
Phật giáo
du nhập
cùng với
Nho giáo
Đạo giáo
tam giáo
ảnh hưởng
Việt Nam
Phật giáo
Việt Nam
đa số
Đại thừa
có vị
vị thế
quốc giáo
Nho giáo
vị trí
độc tôn


In [9]:
manually_word_list = single_word_list_exist + double_word_list_exist
print(f"Số lượng từ: {len(manually_word_list)}")

Số lượng từ: 127


# Sử dụng pyvi hoặc underthesea để tách từ

In [10]:
word_tokenized = word_tokenize(clean_text)
print(f"Số lượng từ: {len(word_tokenized)}")
for w in word_tokenized:
    print(w)

Số lượng từ: 64
Việt Nam
là
quốc gia
đa
tôn giáo
và
tín ngưỡng
Đa số
người
Việt Nam
không
thuộc
tổ chức
tôn giáo
nào
nhưng
đồng thời
nhiều
người
trong
số
họ
thực hành
tín ngưỡng
dân gian
Phật giáo
du nhập
vào
cùng
với
Nho giáo
và
Đạo giáo
gọi
chung
là
tam giáo
có
ảnh hưởng
tới
văn hóa
Việt Nam
Phật giáo
Việt Nam
đa số
thuộc
Đại thừa
và
từng
có
vị thế
như
quốc giáo thời
Nhà Lý
và
Nhà Trần Nho giáo
đạt
vị trí
độc tôn
dưới
thời
Lê sơ
và
Nguyễn sơ


# Thống kê số lượng từ tách đúng trong hai phương án kể trên

In [11]:
statistic_manually = Counter(manually_word_list)
for key, value in statistic_manually.items():
    print(f"{key}: {value}")

Việt: 4
Nam: 4
là: 2
quốc: 2
gia: 1
đa: 2
tôn: 3
giáo: 9
và: 5
tín: 2
ngưỡng: 2
Đa: 1
số: 3
người: 2
không: 1
thuộc: 2
tổ: 1
chức: 1
nào: 1
nhưng: 1
đồng: 1
thời: 3
nhiều: 1
trong: 1
họ: 1
thực: 1
hành: 1
dân: 1
gian: 1
Phật: 2
du: 1
nhập: 1
vào: 1
cùng: 1
với: 1
Nho: 2
Đạo: 1
gọi: 1
chung: 1
tam: 1
có: 2
ảnh: 1
hưởng: 1
tới: 1
văn: 1
Đại: 1
thừa: 1
từng: 1
vị: 2
thế: 1
như: 1
Nhà: 2
Lý: 1
Trần: 1
đạt: 1
trí: 1
độc: 1
dưới: 1
Lê: 1
sơ: 2
Việt Nam: 4
quốc gia: 1
tôn giáo: 2
tín ngưỡng: 2
Đa số: 1
tổ chức: 1
đồng thời: 1
thực hành: 1
dân gian: 1
Phật giáo: 2
du nhập: 1
cùng với: 1
Nho giáo: 2
Đạo giáo: 1
tam giáo: 1
ảnh hưởng: 1
đa số: 1
Đại thừa: 1
có vị: 1
vị thế: 1
quốc giáo: 1
vị trí: 1
độc tôn: 1


In [12]:
statistic_lib = Counter(word_tokenized)
for key, value in statistic_lib.items():
    print(f"{key}: {value}")

Việt Nam: 4
là: 2
quốc gia: 1
đa: 1
tôn giáo: 2
và: 5
tín ngưỡng: 2
Đa số: 1
người: 2
không: 1
thuộc: 2
tổ chức: 1
nào: 1
nhưng: 1
đồng thời: 1
nhiều: 1
trong: 1
số: 1
họ: 1
thực hành: 1
dân gian: 1
Phật giáo: 2
du nhập: 1
vào: 1
cùng: 1
với: 1
Nho giáo: 1
Đạo giáo: 1
gọi: 1
chung: 1
tam giáo: 1
có: 2
ảnh hưởng: 1
tới: 1
văn hóa: 1
đa số: 1
Đại thừa: 1
từng: 1
vị thế: 1
như: 1
quốc giáo thời: 1
Nhà Lý: 1
Nhà Trần Nho giáo: 1
đạt: 1
vị trí: 1
độc tôn: 1
dưới: 1
thời: 1
Lê sơ: 1
Nguyễn sơ: 1
