# News Preprocessing

1. Load Dataset
2. Remove Stopwords
3. TF-IDF Encoding

## TF-IDF
* Cho tập gồm $n$ văn bản: $D = \{d_1, d_2, ... d_n\}$. Tập từ điển tương ứng được xây dựng từ $n$ văn bản này có độ dài là $m$
* Xét văn bản $d$ có $|d|$ từ và $t$ là một từ trong $d$. Mã hóa TF-IDF của $t$ trong văn bản $d$ được biểu diễn:
\begin{equation}
    \begin{split}
        \text{tf}_{t, d} &= \frac{f_t}{|d|} \\
        \text{idf}_{t, d} &= \log\frac{n}{n_t}, \ \ \ \ n_t = |\{d\in D: t\in d\}| \\
        \text{tf-idf}_{t d} &= \text{tf}_{t, d} \times \text{idf}_{t, d}
    \end{split}
\end{equation}
* Khi đó văn bản $d$ được mã hóa là một vector $m$ chiều. Các từ xuất hiện trong d sẽ được thay bằng giá trị tf-idf tương ứng. Các từ không xuất hiện trong $d$ thì thay là 0

In [1]:
import os
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import load_files
from pyvi import ViTokenizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.pipeline import Pipeline
%matplotlib inline

In [2]:
_input = 'news_vnexpress'
os.makedirs("images", exist_ok = True) # create a new folder to save image data

In [None]:
# Remove the hidden file .ipynb_checkpoints
import shutil

checkpoints_path = os.path.join(_input, '.ipynb_checkpoints')

if os.path.exists(checkpoints_path):
    shutil.rmtree(checkpoints_path)

In [22]:
# Number of samples of each label
n = 0
for label in os.listdir(_input):
    print(f'{label}: {len(os.listdir(os.path.join(_input, label)))}')
    n += len(os.listdir(os.path.join(_input, label)))
print('-----------------------------')
print(f'Total number of samples: {n}')

doi-song: 120
du-lich: 54
phap-luat: 59
the-thao: 173
thoi-su: 59
suc-khoe: 162
giai-tri: 201
giao-duc: 105
kinh-doanh: 262
khoa-hoc: 144
-----------------------------
Total number of samples: 1339


In [23]:
data_train = load_files(container_path = _input, encoding = "utf-8")
print('mapping:')
for i in range(len(data_train.target_names)):
        print(f'{data_train.target_names[i]}- {i}')

print('---------------------------')
# print(data_train.filenames[0:1])
# print(data_train.target[0:1])
# print(data_train.data[0:1])
print("Total number of texts: {}".format(len(data_train.filenames)))

mapping:
doi-song- 0
du-lich- 1
giai-tri- 2
giao-duc- 3
khoa-hoc- 4
kinh-doanh- 5
phap-luat- 6
suc-khoe- 7
the-thao- 8
thoi-su- 9
---------------------------
Total number of texts: 1339


In [30]:
# Load Stopwords data 
with open("vietnamese-stopwords.txt", encoding = "utf-8") as f:
    stopwords = f.readlines()
stopwords = [x.strip().replace(" ", "_") for x in stopwords] 

# Vectorization
count_vector_module = CountVectorizer(stop_words = stopwords) # module process text to count vector
rf_preprocess_module = Pipeline([('vect', count_vector_module), ('tfidf', TfidfTransformer()),]) # convert text -> TF vector -> normalized by TF-IDF
 
data_preprocessed = rf_preprocess_module.fit_transform(data_train.data, data_train.target)

X = data_preprocessed # features
Y = data_train.target # labels

print(f"\nSố lượng từ trong từ điển: {len(count_vector_module.vocabulary_)}")
print(f"Kích thước dữ liệu sau khi xử lý: {X.shape}")
print(f"Kích thước nhãn tương ứng: {Y.shape}")


Số lượng từ trong từ điển: 12797
Kích thước dữ liệu sau khi xử lý: (1339, 12797)
Kích thước nhãn tương ứng: (1339,)


In [31]:
data_train.target

array([4, 7, 5, ..., 8, 4, 5])

In [32]:
print(X[100].toarray())
print(Y[100])

[[0.         0.         0.         ... 0.         0.14048828 0.        ]]
5


In [33]:
# Number of non-zero features in the 101th sample
sum(sum(X[100].toarray() != 0))

np.int64(289)

In [34]:
print(X[100])

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 289 stored elements and shape (1, 12797)>
  Coords	Values
  (0, 81)	0.015211595534715633
  (0, 100)	0.020769547555053954
  (0, 156)	0.023262873797037953
  (0, 188)	0.04722498744523733
  (0, 269)	0.03324036700472501
  (0, 392)	0.024783841259467605
  (0, 397)	0.034232954192352914
  (0, 418)	0.048918066523847725
  (0, 662)	0.022769929356223215
  (0, 909)	0.033182248640039956
  (0, 1194)	0.05117031195708949
  (0, 1209)	0.10234062391417897
  (0, 1219)	0.05117031195708949
  (0, 1271)	0.016005705134410072
  (0, 1590)	0.034926623903062066
  (0, 1631)	0.023493949966261335
  (0, 1783)	0.04734509560871461
  (0, 1866)	0.05117031195708949
  (0, 2076)	0.014547704347804936
  (0, 2101)	0.02693672471116765
  (0, 2111)	0.02577563465433512
  (0, 2135)	0.04322051581452055
  (0, 2140)	0.01566196368628259
  (0, 2159)	0.01608450478874651
  (0, 2170)	0.02950839772591026
  :	:
  (0, 12272)	0.021259537682082122
  (0, 12454)	0.0758997005019029
  (0, 1