In [25]:
# Sử dụng pyvi

import fitz  # PyMuPDF
import re
from pyvi import ViTokenizer

def extract_text_from_pdf(pdf_path):
    pdf_document = fitz.open(pdf_path)
    text = ""
    for page_num in range(pdf_document.page_count):
        page = pdf_document.load_page(page_num)
        text += page.get_text()
    return text

def clean_text_vietnamese(text, stopwords):
    # Loại bỏ các ký tự đặc biệt và khoảng trắng thừa
    text = re.sub(r'\s+', ' ', text)  # Thay thế nhiều khoảng trắng bằng một khoảng trắng
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ các ký tự không phải chữ cái, chữ số và khoảng trắng
    
    # Chuyển văn bản thành chữ thường
    text = text.lower()
    
    # Tách từ
    text = ViTokenizer.tokenize(text)
    
    # Loại bỏ từ dừng (stopwords)
    words = text.split()
    words = [word.replace('_', ' ') for word in words if word not in stopwords]
    cleaned_text = '\n'.join(words)  # Tách từ thành từng dòng
    
    return cleaned_text

# Đường dẫn đến file PDF
pdf_path = "./Data/SKL007296.pdf"

# Danh sách từ dừng tiếng Việt
vietnamese_stopwords = [
    "và", "là", "của", "có", "trong", "với", "một", "các", "những", "được", 
    "cho", "đã", "này", "trên", "từ", "khi", "đến", "để", "như", "năm", "ra", 
    "vào", "vì", "nên", "nếu", "mà", "thì", "bị", "qua", "lại", "cũng", "sẽ", 
    "gì", "nào", "bao", "biết", "sao", "ai", "đâu", "đi", "gì", "đấy", "ấy"
]

# Trích xuất và làm sạch văn bản
extracted_text = extract_text_from_pdf(pdf_path)
cleaned_text = clean_text_vietnamese(extracted_text, vietnamese_stopwords)

print(cleaned_text)


thành phố
hồ
chí
minh
bộ
giáo dục
đào tạo
trường
đại học
sư phạm
kỹ thuật
quy trình
kiểm toán
khoản
mục
doanh thu
bán
hàng
cung cấp
dịch vụ
tại
công ty tnhh
kiểm toán
dịch vụ
tin học
tphcm
khóa
luận
tốt nghiệp
ngành
kế toán
skl
0
0
7
2
9
6
tp
hồ
chí
minh
tháng
072020
gvhd
nguyễn
thị
thu
hồng
svth
nguyễn
thị
lý
mssv
16125144
i
bộ
giáo dục
đào tạo
trƣờng
đại học
sƣ
phạm
kỹ thuật
thành phố
hồ
chí
minh
khoa
kinh tế
khóa
luận
tốt nghiệp
đề tài
sinh viên
nguyễn
thị
lý
lớp
161250b
khóa
k16
hệ
đại học
chính quy
thành phố
hồ
chí
minh
tháng
7
2020
quy trình
kiểm toán
khoản
mục
doanh thu
bán
hàng
cung cấp
dịch vụ
tại
công ty tnhh
kiểm toán
dịch vụ
tin học
tphcm
ii
lời
cảm ơn
sau
gầnbốn
năm học tập
rèn luyện
kiến thức
do
thầy
cô
trường
đại học
sư phạm
kỹ thuật
tp
hồ
chí
minh
truyền đạt
trở thành
hành trang
quý báu
giúp
tôi
có thể
tiếp cận
làm việc
môi trường
thực tế
quá trình
làm việc
tại
công ty tnhh
kiểm toán
dịch vụ
tin học
tphcm
tuy
không
dài
nhưng
tôi
rất
nhiều
kiến thức
bổ ích
về
kế toán
kiể

In [26]:
# Sử dụng Spacy

import fitz  # PyMuPDF
import re
import spacy

def extract_text_from_pdf(pdf_path):
    pdf_document = fitz.open(pdf_path)
    text = ""
    for page_num in range(pdf_document.page_count):
        page = pdf_document.load_page(page_num)
        text += page.get_text()
    return text

def clean_text_vietnamese(text, stopwords, nlp):
    # Loại bỏ các ký tự đặc biệt và khoảng trắng thừa
    text = re.sub(r'\s+', ' ', text)  # Thay thế nhiều khoảng trắng bằng một khoảng trắng
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ các ký tự không phải chữ cái, chữ số và khoảng trắng
    
    # Chuyển văn bản thành chữ thường
    text = text.lower()
    
    # Xử lý văn bản sử dụng Spacy
    doc = nlp(text)
    
    # Loại bỏ từ dừng (stopwords)
    words = [token.text for token in doc if token.text not in stopwords]
    cleaned_text = '\n'.join(words)  # Tách từ thành từng dòng
    
    return cleaned_text

# Đường dẫn đến file PDF
pdf_path = "./Data/SKL007296.pdf"

# Danh sách từ dừng tiếng Việt
vietnamese_stopwords = [
    "và", "là", "của", "có", "trong", "với", "một", "các", "những", "được", 
    "cho", "đã", "này", "trên", "từ", "khi", "đến", "để", "như", "năm", "ra", 
    "vào", "vì", "nên", "nếu", "mà", "thì", "bị", "qua", "lại", "cũng", "sẽ", 
    "gì", "nào", "bao", "biết", "sao", "ai", "đâu", "đi", "gì", "đấy", "ấy"
]

# Load model tiếng Việt của Spacy
nlp = spacy.blank("vi")

# Trích xuất và làm sạch văn bản
extracted_text = extract_text_from_pdf(pdf_path)
cleaned_text = clean_text_vietnamese(extracted_text, vietnamese_stopwords, nlp)

print(cleaned_text)


thành phố
hồ
chí
minh
bộ
giáo dục
đào tạo
trường
đại học
sư phạm
kỹ thuật
quy trình
kiểm toán
khoản
mục
doanh thu
bán
hàng
cung cấp
dịch vụ
tại
công ty tnhh
kiểm toán
 
dịch vụ
tin học
tphcm
khóa
luận
tốt nghiệp
ngành
kế toán
skl
0
0
7
2
9
6
tp
hồ
chí
minh
tháng
072020
gvhd
nguyễn
thị
thu
hồng
svth
nguyễn
thị
lý
mssv
16125144
i
bộ
giáo dục
đào tạo
trƣờng
đại học
sƣ
phạm
kỹ thuật
thành phố
hồ
chí
minh
khoa
kinh tế
khóa
luận
tốt nghiệp
đề tài
sinh viên
 
nguyễn
thị
lý
lớp
 
161250b
khóa
 
k16
hệ
 
đại học
chính quy
thành phố
hồ
chí
minh
tháng
7
2020
quy trình
kiểm toán
khoản
mục
doanh thu
bán
hàng
cung cấp
dịch vụ
tại
công ty tnhh
kiểm toán
 
dịch vụ
tin học
tphcm
ii
lời
cảm ơn
sau
gầnbốn
năm học tập
rèn luyện
kiến thức
do
thầy
cô
trường
đại học
sư phạm
kỹ thuật
tp
hồ
chí
minh
truyền đạt
trở thành
hành trang
quý báu
giúp
tôi
có thể
tiếp cận
làm việc
môi trường
thực tế
quá trình
làm việc
tại
công ty tnhh
kiểm toán
dịch vụ
tin học
tphcm
tuy
không
dài
nhưng
tôi
rất
nhiều
kiến thức
bổ ích
về