# Bag of Words

In [2]:
import os, unicodedata
from collections import Counter

import numpy as np
import pandas as pd
from pyvi.ViPosTagger import postagging
from pyvi.ViTokenizer import tokenize

In [26]:
from sklearn.svm import SVC
from sklearn.cluster import k_means

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfTransformer, TfidfVectorizer

from imblearn.over_sampling import SMOTE, ADASYN
from sklearn.decomposition import TruncatedSVD
from sklearn.decomposition import PCA
from sklearn.metrics import accuracy_score

In [4]:
dt = pd.read_csv('best.csv')
txt = pd.DataFrame(dt,columns=['text']).values.tolist()
lbl = pd.DataFrame(dt,columns=['label']).values.tolist()
text = [t[0] for t in txt]
label = [l[0] for l in lbl]

In [5]:
dt.label.value_counts()

thanh_nien                        2649
thanh_tra                         2068
suc_khoe                          1906
y_te                              1774
kiem_toan                         1680
bat_dong_san                      1549
hai_quan                          1532
chinh_tri                         1508
bien_dao                          1475
quoc_phong                        1473
chinh_sach                        1434
giao_duc                          1416
quoc_hoi                          1416
phu_nu                            1385
phap_luat                         1370
giao_thong_van_tai                1319
tai_nguyen_moi_truong             1300
the_thao                          1261
cong_nghiep                       1200
khoa_hoc_cong_nghe                1188
thuong_mai                        1180
thoi_trang                        1178
kinh_doanh                        1128
giai_tri                          1108
xa_hoi                            1031
tre_em                   

# TF - IDF

In [6]:
vectorizer = TfidfVectorizer(ngram_range=(1,2), min_df=2, max_features=20000)
vectorizer.fit(text)
_train = vectorizer.transform(text)

# SMOTE

In [7]:
sm = SMOTE()
x, y = sm.fit_sample(_train, label)

In [8]:
Counter(y)

Counter({'khoa_hoc_cong_nghe': 2649,
         'an_ninh': 2649,
         'an_ninh_trat_tu': 2649,
         'bat_dong_san': 2649,
         'bien_dao': 2649,
         'buu_chinh_vien_thong': 2649,
         'chinh_sach': 2649,
         'chinh_tri': 2649,
         'cong_nghiep': 2649,
         'giai_tri': 2649,
         'giao_duc': 2649,
         'giao_thong_van_tai': 2649,
         'hai_quan': 2649,
         'kiem_toan': 2649,
         'kinh_doanh': 2649,
         'kinh_te': 2649,
         'lao_dong': 2649,
         'lao_dong_thuong_binh_va_xa_hoi': 2649,
         'nang_luong': 2649,
         'nong_nghiep': 2649,
         'phap_luat': 2649,
         'phu_nu': 2649,
         'quoc_hoi': 2649,
         'quoc_phong': 2649,
         'so_huu_tri_tue': 2649,
         'suc_khoe': 2649,
         'tai_chinh': 2649,
         'tai_nguyen_moi_truong': 2649,
         'thanh_nien': 2649,
         'thanh_tra': 2649,
         'the_thao': 2649,
         'thoi_trang': 2649,
         'thong_tin_va_truyen_tho

# Dimension Reduction

In [9]:
svd = TruncatedSVD(n_components=200)
x_embedded = svd.fit_transform(x)

# Split data

In [10]:
x_train, x_test, y_train, y_test = train_test_split(x_embedded, y, test_size=0.35)

In [19]:
x.shape

(105960, 20000)

# Training

In [48]:
clr = SVC()
clr.fit(x_train, y_train)

SVC()

In [None]:
t = clr.predict(x_test)
accuracy_score(y_test, t)

In [None]:
def fit(x_train, y_train, batch_size, max_iter=1000):
    start = 0
    batch_count = len(x_train)//batch_size+1
    w = np.random.rand()
    for i in range(batch_count):
        clr.fit(x_train[start:start+batch_size], y_train[start:start+batch_size])
        w

In [25]:
t[0]

'phap_luat'

# Others

In [None]:
import matplotlib.pyplot as plt

In [None]:
ite = list(range(len(x_train[0].toarray()[0])))

In [None]:
plot_data = []
for i in range(40000):
    if y_train[i]=='the_thao':
        plot_data.append(x_train[i].toarray()[0])

In [None]:
mean_nl = np.mean(plot_data, axis=0)

In [None]:
plt.plot(ite, mean_nl, linewidth=0.5)
# plt.scatter(ite, plot_data[1], s=2, c='r')
# plt.scatter(ite, plot_data[2], s=2, c='r')
plt.savefig('the_thao.png')

In [None]:
plot_data_gd = []
for i in range(40000):
    if y_train[i]=='van_hoa':
        plot_data_gd.append(x_train[i].toarray()[0])

In [None]:
mean_gd = np.mean(plot_data_gd, axis=0)

In [None]:
plt.plot(ite, mean_gd, linewidth=0.5)
# plt.scatter(ite, plot_data_gd[1], s=2, c='r')
# plt.scatter(ite, plot_data_gd[2], s=2, c='r')
plt.savefig('van_hoa.png')

In [None]:
new_text = "Tờ El Mundo của Tây Ban Nha đưa tin lực lượng cảnh sát Catalunya đã đệ trình một lá đơn lên thẩm phán để điều tra việc CLB Barca trả quá nhiều tiền cho công ty tư vấn truyền thông xã hội I3 Ventures.Theo cáo buộc, Barca đã trả cao hơn 600% cho công ty này dẫn đến nghi ngờ rằng đang có hành động tham nhũng tại CLB. Tranh cãi xung quanh mối quan hệ giữa Barca với I3 Ventures đã nổi lên từ tháng 2 khi đài Cadena Ser cho biết công ty này được thuê với mục đích chính là đăng những câu chuyện tiêu cực về các nhân vật có ảnh hưởng tại Camp Nou. Barca đã thanh toán 6 hóa đơn khác nhau với tổng cộng chi phí gần 1 triệu euro cho I3 Ventures. Sau thông tin trên, đội chủ sân Camp Nou đã nhanh chóng cắt đứt hợp đồng với I3 Ventures. Chủ tịch Bartomeu dính cáo buộc tham nhũng, cuộc khủng hoảng Barca càng phức tạp - 1 Bartomeu và ban quản trị Barca đối mặt với cáo buộc tham nhũng. Vào tháng 7, Barca đã công khai kết quả điều tra của công ty kiểm toán PWC cho biết họ không trả cao hơn giá thị trường cho các dịch vụ của I3 Ventures. Tuy nhiên, El Mundo đưa tin cảnh sát lập luận rằng cuộc kiểm toán chỉ do một bên thứ 3 thực hiện không thể được coi là “kết luận cuối cùng” của vụ việc. Đáng chú ý, vụ bê bối này đến trong bối cảnh Lionel Messi đang ra quyết định cuối cùng về tương lai của mình. Siêu sao người Argentina từng gửi fax để yêu cầu được ra đi. Nhưng theo các nguồn tin từ quê hương Messi, “90% anh sẽ ở lại CLB” sau khi cha Jorge của anh có cuộc nói chuyện dài 90 phút với ban quản trị Barca vào hôm thứ Tư. Giờ đây, Messi sẽ chờ đợi xem tình hình nội bộ ở Barca ra sao rồi mới đưa ra quyết định nên ở lại hay không. Nếu ra đi, Messi được cho sẽ đến Man City."

In [None]:
new_data = vectorizer.transform([new_text])

In [None]:
new_data.toarray()

In [None]:
plt.plot(ite, mean_gd, linewidth=0.5)
# plt.plot(ite, mean_nl, linewidth=0.5, c='r')
plt.scatter(ite, new_data.toarray()[0], c='g', s=3)
plt.plot(ite, new_data.toarray()[0], c='g', linewidth=0.2)
plt.savefig('mixed.svg')

In [None]:
new_data

In [None]:
vectorizer.get_feature_names()