In [1]:
import os
import matplotlib.pyplot as plt
import numpy as np

from pyvi import ViTokenizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
from sklearn.datasets import load_files


%matplotlib inline

INPUT = 'data/news_vnexpress'
os.makedirs("images",exist_ok=True)  # thư mục lưu các các hình ảnh kết quả trong quá trình huấn luyện và đánh giá

# số liệu thống kê
print('Các nhãn và số văn bản tương ứng trong dữ liệu')
print('----------------------------------------------')
n = 0
for label in os.listdir(INPUT):
    print(f'{label}: {len(os.listdir(os.path.join(INPUT, label)))}')
    n += len(os.listdir(os.path.join(INPUT, label)))

print('-------------------------')
print(f"Tổng số văn bản: {n}")

# load data
print('\n-----------Load Data-----------')
data_train = load_files(container_path=INPUT, encoding="utf-8")
print('mapping:')
for i in range(len(data_train.target_names)):
    print(f'{data_train.target_names[i]} - {i}')

print('Bài viết đầu tiên')
print(data_train.filenames[0:1]) #in đường dẫn
# print(data_train.data[0:1])
print(data_train.target[0:1]) #nhãn
print(data_train.data[0:1]) #nội dung

print("\nTổng số  văn bản:", len(data_train.filenames))


# load dữ liệu các stopwords 
print("\n-------------Load Stopwords-------------")
with open("data/vietnamese-stopwords.txt", encoding="utf-8") as f:
    stopwords = f.readlines()
stopwords = [x.strip().replace(" ", "_") for x in stopwords] 
print(f"Số lượng stopwords trong file vietnamese-stopwords.txt: {len(stopwords)}")
print("10 từ đầu tiên:")
print(stopwords[:10])

# Chuyển hoá dữ liệu text về dạng vector TF 
#     - loại bỏ từ dừng
#     - sinh từ điển
module_count_vector = CountVectorizer(stop_words=stopwords) #tại đây sinh từ điển và loại bỏ từ dùng
model_rf_preprocess = Pipeline([('vect', module_count_vector), #tạo một Pipeline trong Scikit-learn để kết hợp hai bước tiền xử lý dữ liệu là cái sinh từ điển và kỹ thuật TF-IDF
                    ('tfidf', TfidfTransformer()),
                    ])

print(model_rf_preprocess)
# Hàm thực hiện chuyển đổi dữ liệu text thành dữ liệu số dạng ma trận 
# Input: Dữ liệu 2 chiều dạng numpy.array, mảng nhãn id dạng numpy.array 
data_preprocessed = model_rf_preprocess.fit_transform(data_train.data, data_train.target)

print(f"\nSố lượng từ trong từ điển: {len(module_count_vector.vocabulary_)}") #là những từ chỉ xuất hiện 1 lần, xuật hiện nữa thì ko +
print(f"Kích thước dữ liệu sau khi xử lý: {data_preprocessed.shape}")
print(f"Kích thước nhãn tương ứng: {data_train.target.shape}")

X = data_preprocessed
Y = data_train.target

X.shape, Y.shape
print("Vectơ TF-IDF của văn bản thứ 100 dưới dạng mảng numpy.")


sum(sum(X[100].toarray() != 0)) #tính tổng số lần xuất hiện của các từ khác không trong văn bản thứ 100

print("Vectơ TF-IDF của văn bản thứ 100 dưới dạng mảng numpy.") 
#dòng đầu tiên (0, 12794) có nghĩa là từ có chỉ số 12794 trong từ điển xuất hiện trong văn bản này, 
#và giá trị TF-IDF tương ứng của từ đó là 0.14048828324700804.
print(X[100])

Các nhãn và số văn bản tương ứng trong dữ liệu
----------------------------------------------
doi-song: 120
du-lich: 54
giai-tri: 201
giao-duc: 105
khoa-hoc: 144
kinh-doanh: 262
phap-luat: 59
suc-khoe: 162
the-thao: 173
thoi-su: 59
-------------------------
Tổng số văn bản: 1339

-----------Load Data-----------
mapping:
doi-song - 0
du-lich - 1
giai-tri - 2
giao-duc - 3
khoa-hoc - 4
kinh-doanh - 5
phap-luat - 6
suc-khoe - 7
the-thao - 8
thoi-su - 9
Bài viết đầu tiên
['data/news_vnexpress\\khoa-hoc\\00133.txt']
[4]
['Mời độc giả đặt câu hỏi tại đây\n']

Tổng số  văn bản: 1339

-------------Load Stopwords-------------
Số lượng stopwords trong file vietnamese-stopwords.txt: 2063
10 từ đầu tiên:
['a_lô', 'a_ha', 'ai', 'ai_ai', 'ai_nấy', 'ai_đó', 'alô', 'amen', 'anh', 'anh_ấy']
Pipeline(steps=[('vect',
                 CountVectorizer(stop_words=['a_lô', 'a_ha', 'ai', 'ai_ai',
                                             'ai_nấy', 'ai_đó', 'alô', 'amen',
                                    