In [352]:

from collections import Counter

import re  

import numpy as np
import pandas as pd
from underthesea import word_tokenize
from pyvi import ViTokenizer

In [353]:
raw_text = """Việt Nam là quốc gia đa tôn giáo và tín ngưỡng. 
Đa số người Việt Nam không thuộc tổ chức tôn giáo nào nhưng đồng thời nhiều người trong số họ thực hành tín ngưỡng dân gian. 
Phật giáo du nhập vào cùng với Nho giáo và Đạo giáo (gọi chung là tam giáo) có ảnh hưởng tới văn hóa Việt Nam. 
Phật giáo Việt Nam đa số thuộc Đại thừa và từng có vị thế như quốc giáo thời Nhà Lý và Nhà Trần. 
Nho giáo đạt vị trí độc tôn dưới thời Lê sơ và Nguyễn sơ.
Một số tư tưởng Nho giáo cho tới nay vẫn giữ vai trò nhất định trong trật tự xã hội Việt Nam.
Công giáo truyền vào từ thế kỷ 16; nền tảng của Công giáo Việt Nam được thiết lập vững chắc vào thế kỷ 17 bởi các thừa sai Dòng Tên Bồ Đào Nha và Ý.
Tin Lành truyền giảng tại Việt Nam từ đầu thế kỷ 20 bởi Hội Truyền giáo Phúc âm Liên hiệp. Ấn Độ giáo và sau này Hồi giáo truyền vào Chăm Pa.
Bên cạnh các tôn giáo thế giới, Việt Nam còn có một số tôn giáo nội sinh như đạo Cao Đài và đạo Hòa Hảo."""


In [354]:
raw_text = """Việt Nam là quốc gia đa tôn giáo và tín ngưỡng. 
Đa số người Việt Nam không thuộc tổ chức tôn giáo nào nhưng đồng thời nhiều người trong số họ thực hành tín ngưỡng dân gian. 
Phật giáo du nhập vào cùng với Nho giáo và Đạo giáo (gọi chung là tam giáo) có ảnh hưởng tới văn hóa Việt Nam."""

In [355]:
clean_text = re.sub(r'[^A-Za-zÀ-ỹ0-9\s]', '', raw_text)
clean_text = re.sub(r'\s+', ' ', clean_text).strip()

clean_text

'Việt Nam là quốc gia đa tôn giáo và tín ngưỡng Đa số người Việt Nam không thuộc tổ chức tôn giáo nào nhưng đồng thời nhiều người trong số họ thực hành tín ngưỡng dân gian Phật giáo du nhập vào cùng với Nho giáo và Đạo giáo gọi chung là tam giáo có ảnh hưởng tới văn hóa Việt Nam'

# Tách từ với 2 cấp độ từ đơn, từ ghép 2 chữ

In [356]:
single_word_list = clean_text.split()
print(f"Số lượng từ: {len(single_word_list)}")

for w in single_word_list:
    print(w)

Số lượng từ: 62
Việt
Nam
là
quốc
gia
đa
tôn
giáo
và
tín
ngưỡng
Đa
số
người
Việt
Nam
không
thuộc
tổ
chức
tôn
giáo
nào
nhưng
đồng
thời
nhiều
người
trong
số
họ
thực
hành
tín
ngưỡng
dân
gian
Phật
giáo
du
nhập
vào
cùng
với
Nho
giáo
và
Đạo
giáo
gọi
chung
là
tam
giáo
có
ảnh
hưởng
tới
văn
hóa
Việt
Nam


In [357]:
double_word_list = [" ".join([single_word_list[i], single_word_list[i+1]]) for i in range(len(single_word_list)-1)]
print(f"Số lượng từ: {len(double_word_list)}")

for w in double_word_list:
    print(w)

Số lượng từ: 61
Việt Nam
Nam là
là quốc
quốc gia
gia đa
đa tôn
tôn giáo
giáo và
và tín
tín ngưỡng
ngưỡng Đa
Đa số
số người
người Việt
Việt Nam
Nam không
không thuộc
thuộc tổ
tổ chức
chức tôn
tôn giáo
giáo nào
nào nhưng
nhưng đồng
đồng thời
thời nhiều
nhiều người
người trong
trong số
số họ
họ thực
thực hành
hành tín
tín ngưỡng
ngưỡng dân
dân gian
gian Phật
Phật giáo
giáo du
du nhập
nhập vào
vào cùng
cùng với
với Nho
Nho giáo
giáo và
và Đạo
Đạo giáo
giáo gọi
gọi chung
chung là
là tam
tam giáo
giáo có
có ảnh
ảnh hưởng
hưởng tới
tới văn
văn hóa
hóa Việt
Việt Nam


# Use the `Viet74K.txt`

In [358]:
with open("assets/Viet74K.txt", "r", encoding="utf-8") as f:
    dictionary = f.read().splitlines()
    dictionary = set([w.lower() for w in dictionary])
    
print(f"Số lượng từ: {len(dictionary)}")

Số lượng từ: 72548


In [359]:
single_word_list_exist = [word for word in single_word_list if word.lower() in dictionary]
print(f"Số lượng từ: {len(single_word_list_exist)}")
for w in single_word_list_exist:
    print(w)

Số lượng từ: 61
Việt
Nam
là
quốc
gia
đa
tôn
giáo
và
tín
ngưỡng
Đa
số
người
Việt
Nam
không
thuộc
tổ
chức
tôn
giáo
nào
nhưng
đồng
thời
nhiều
người
trong
số
họ
thực
hành
tín
ngưỡng
dân
gian
Phật
giáo
du
nhập
vào
cùng
với
Nho
giáo
và
Đạo
giáo
gọi
chung
là
tam
giáo
có
ảnh
hưởng
tới
văn
Việt
Nam


In [360]:
double_word_list_exist = [word for word in double_word_list if word.lower() in dictionary]
print(f"Số lượng từ: {len(double_word_list_exist)}")
for w in double_word_list_exist:
    print(w)

Số lượng từ: 20
Việt Nam
quốc gia
tôn giáo
tín ngưỡng
Đa số
Việt Nam
tổ chức
tôn giáo
đồng thời
thực hành
tín ngưỡng
dân gian
Phật giáo
du nhập
cùng với
Nho giáo
Đạo giáo
tam giáo
ảnh hưởng
Việt Nam


In [361]:
manually_word_list = single_word_list_exist + double_word_list_exist
print(f"Số lượng từ: {len(manually_word_list)}")

Số lượng từ: 81


# Sử dụng pyvi hoặc underthesea để tách từ

In [362]:
word_tokenized = word_tokenize(clean_text)
print(f"Số lượng từ: {len(word_tokenized)}")
for w in word_tokenized:
    print(w)

Số lượng từ: 42
Việt Nam
là
quốc gia
đa
tôn giáo
và
tín ngưỡng
Đa số
người
Việt Nam
không
thuộc
tổ chức
tôn giáo
nào
nhưng
đồng thời
nhiều
người
trong
số
họ
thực hành
tín ngưỡng
dân gian
Phật giáo
du nhập
vào
cùng
với
Nho giáo
và
Đạo giáo
gọi
chung
là
tam giáo
có
ảnh hưởng
tới
văn hóa
Việt Nam


# Thống kê số lượng từ tách đúng trong hai phương án kể trên

In [363]:
statistic_manually = Counter(manually_word_list)
for key, value in statistic_manually.items():
    print(f"{key}: {value}")

Việt: 3
Nam: 3
là: 2
quốc: 1
gia: 1
đa: 1
tôn: 2
giáo: 6
và: 2
tín: 2
ngưỡng: 2
Đa: 1
số: 2
người: 2
không: 1
thuộc: 1
tổ: 1
chức: 1
nào: 1
nhưng: 1
đồng: 1
thời: 1
nhiều: 1
trong: 1
họ: 1
thực: 1
hành: 1
dân: 1
gian: 1
Phật: 1
du: 1
nhập: 1
vào: 1
cùng: 1
với: 1
Nho: 1
Đạo: 1
gọi: 1
chung: 1
tam: 1
có: 1
ảnh: 1
hưởng: 1
tới: 1
văn: 1
Việt Nam: 3
quốc gia: 1
tôn giáo: 2
tín ngưỡng: 2
Đa số: 1
tổ chức: 1
đồng thời: 1
thực hành: 1
dân gian: 1
Phật giáo: 1
du nhập: 1
cùng với: 1
Nho giáo: 1
Đạo giáo: 1
tam giáo: 1
ảnh hưởng: 1


In [364]:
statistic_lib = Counter(word_tokenized)
for key, value in statistic_lib.items():
    print(f"{key}: {value}")

Việt Nam: 3
là: 2
quốc gia: 1
đa: 1
tôn giáo: 2
và: 2
tín ngưỡng: 2
Đa số: 1
người: 2
không: 1
thuộc: 1
tổ chức: 1
nào: 1
nhưng: 1
đồng thời: 1
nhiều: 1
trong: 1
số: 1
họ: 1
thực hành: 1
dân gian: 1
Phật giáo: 1
du nhập: 1
vào: 1
cùng: 1
với: 1
Nho giáo: 1
Đạo giáo: 1
gọi: 1
chung: 1
tam giáo: 1
có: 1
ảnh hưởng: 1
tới: 1
văn hóa: 1
