# Chuẩn bị dữ liệu

## Import các thư viện cần dùng

In [1]:
import os
import pickle
import warnings

import pandas as pd
import numpy as np

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

## Khai báo các giá trị hằng số

In [2]:
warnings.filterwarnings("ignore")
np.random.seed(42)

DATA_PATH = "../data/"
MODEL_PATH = "../models/"

## Đọc dữ liệu từ DATA_PATH

In [3]:
data = pd.read_json(os.path.join(DATA_PATH, 'dantri.json'))
data.head()

Unnamed: 0,title,category,content
0,"Thi hành án dứt điểm những vụ lớn, phức tạp li...",Xã hội,"Ông Nguyễn Văn Sơn, Phó Tổng cục trưởng Tổng c..."
1,"Món quà của Thủ tướng dành cho những người ""kh...",Xã hội,"Sáng 12/2 (mùng 3 Tết Giáp Thìn), Thủ tướng Ph..."
2,Thủ tướng thị sát đường sắt Nhổn - ga Hà Nội: ...,Xã hội,"Sáng 12/2 (mùng 3 Tết Giáp Thìn), Thủ tướng Ph..."
3,Đại sứ Saudi Arabia: Mong muốn Việt Nam sớm vư...,Xã hội,Thủ tướng Phạm Minh Chính tiếp Đại sứ Saudi Ar...
4,"Tổng Thanh tra Chính phủ nói về giải pháp ""trị...",Xã hội,Tổng Thanh tra Chính phủ Đoàn Hồng Phong vừa c...


In [4]:
def save_pkl_file(object, model_path: str, pkl_name: str):
    with open(os.path.join(model_path, pkl_name), 'wb') as f:
        pickle.dump(object, f)

In [5]:
X, label = data['content'].values, data['category'].values

In [6]:
le = LabelEncoder()
le.fit(label)

save_pkl_file(le, MODEL_PATH, 'label_encoder.pkl')

y = le.transform(label)

In [7]:
X[:5], y[:5]

(array(['Ông Nguyễn Văn Sơn, Phó Tổng cục trưởng Tổng cục Thi hành án dân sự (Bộ Tư pháp) vừa ký ban hành kế hoạch công tác năm 2024 của Tổ công tác chỉ đạo xử lý các vụ việc liên quan đến hoạt động tín dụng, ngân hàng (Tổ xử lý nợ xấu). Tổ xử lý nợ xấu có trách nhiệm phối hợp với Vụ Pháp chế (Ngân hàng Nhà nước), Hiệp hội Ngân hàng tổ chức tọa đàm, đối thoại giữa các cơ quan thi hành án với tổ chức tín dụng, Công ty quản lý tài sản (VAMC) để trao đổi, tháo gỡ khó khăn, vướng mắc liên quan đến các vụ việc thi hành án tín dụng, ngân hàng. Trong đó, tập trung rà soát, tổng hợp các vụ việc trên cơ sở thông báo kết luận kiểm tra các năm 2022, 2023 hoặc đề nghị của Hiệp hội Ngân hàng, các tổ chức tín dụng, VAMC. "Phối hợp chỉ đạo tổ chức thi hành dứt điểm đối với những vụ việc có điều kiện, nhất là những đơn vị có nhiều vụ việc lớn, phức tạp liên quan đến các tổ chức tín dụng như Agribank, Vietcombank, VPBank, BIDV, Vietinbank", lãnh đạo Tổng cục Thi hành án dân sự nêu rõ. Ông Nguyễn Văn Sơ

In [8]:
le.classes_

array(['An sinh', 'Bất động sản', 'Giáo dục', 'Giải trí', 'Kinh doanh',
       'Nhân ái', 'Pháp luật', 'Sức khỏe', 'Sức mạnh số', 'Thế giới',
       'Thể thao', 'Việc làm', 'Văn hóa', 'Xe ++', 'Xã hội'], dtype=object)

In [9]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
print(X_train.shape, X_test.shape)

(11144,) (2787,)


In [13]:
# Save Train Set and Test Set
save_pkl_file(X_train, MODEL_PATH, "X_train.pkl")
save_pkl_file(X_test, MODEL_PATH, "X_test.pkl")
save_pkl_file(y_train, MODEL_PATH, "y_train.pkl")
save_pkl_file(y_test, MODEL_PATH, "y_test.pkl")

In [14]:
pickle.load(open(os.path.join(MODEL_PATH, 'X_train.pkl'), 'rb'))

array(['Haruki Murakami, 74 tuổi, là tiểu thuyết gia có sách bán chạy nhất tại Nhật Bản. Ông bắt đầu sự nghiệp viết lách năm 30 tuổi và trở thành một hiện tượng văn học vào năm 1987 khi cuốn tiểu thuyết thứ 5 - Rừng Na Uy được xuất bản.\xa0 Sự pha trộn giữa những câu chuyện thực tế và mơ mộng của Haruki Murakami\xa0đã mang đến cho ông một lượng người hâm mộ đông đảo. Tên của ông thường nổi lên như một ứng cử viên cho giải thưởng Nobel Văn học.\xa0 Chân dung Haruki Murakami (Thiết kế: The Guardian). Sách cho người mới bắt đầu đọc\xa0 Tiểu thuyết của Murakami có thể được chia thành 2 loại: kỳ ảo và hiện thực. Nhiều cuốn nằm ở giữa 2 thể loại này.\xa0 Được xuất bản năm 1987,\xa0Rừng Na Uy là một hồi ức đơn giản về tình yêu tuổi trẻ. Hạ cánh trên một đường băng ở Đức, người kể chuyện Toru Watanabe nghe bài hát nổi tiếng của The Beatles, cảm tưởng như trở lại những năm tháng sinh viên và mối tình đầy sóng gió với 2 cô gái.\xa0 Hoài cổ và ngọt ngào, Rừng Na Uy là cuốn tiểu thuyết dễ tiếp cận