# Neural Network for Text Classification using Pytorch

In [261]:
import pandas as pd

df = pd.read_csv('output.csv')

df['label'] = df.label_txt.map({'PHAP_LUAT.txt': 0, 'DU_LICH.txt': 1, 'KINH_DOANH.txt': 2,
                                'THE_THAO.txt': 3, 'GIAI_TRI.txt': 4, 'SUC_KHOE.txt': 5,
                                'GIAO_DUC.txt': 6, 'KHOA_HOC.txt': 7})
df.head()


Unnamed: 0,text,label_txt,label
0,"Casper lần đầu tấn công thị trường điện tử, đi...",KINH_DOANH.txt,2
1,Thủ tướng yêu cầu gỡ khó quy định phòng cháy c...,KINH_DOANH.txt,2
2,Thành tỷ phú Hong Kong từ số vốn 1.000 USD,KINH_DOANH.txt,2
3,Bất động sản công nghiệp bất ngờ giảm tốc,KINH_DOANH.txt,2
4,Người dân miền Nam chi gần 35.000 tỷ mua vé số...,KINH_DOANH.txt,2


In [262]:
df.label_txt.value_counts()

label_txt
PHAP_LUAT.txt     1268
DU_LICH.txt       1250
KINH_DOANH.txt    1248
THE_THAO.txt      1248
GIAI_TRI.txt      1246
SUC_KHOE.txt      1238
GIAO_DUC.txt      1226
KHOA_HOC.txt      1210
Name: count, dtype: int64

In [263]:
# remove punc and special character
import re
def remove_punc_and_special_characters(text):
    text = text.lower()
    cleaned_text = re.sub(r'[^\w\s]', '', text)
    return cleaned_text

df['text_processed'] = df.text.apply(lambda x: remove_punc_and_special_characters(str(x)))
df.head()

Unnamed: 0,text,label_txt,label,text_processed
0,"Casper lần đầu tấn công thị trường điện tử, đi...",KINH_DOANH.txt,2,casper lần đầu tấn công thị trường điện tử điệ...
1,Thủ tướng yêu cầu gỡ khó quy định phòng cháy c...,KINH_DOANH.txt,2,thủ tướng yêu cầu gỡ khó quy định phòng cháy c...
2,Thành tỷ phú Hong Kong từ số vốn 1.000 USD,KINH_DOANH.txt,2,thành tỷ phú hong kong từ số vốn 1000 usd
3,Bất động sản công nghiệp bất ngờ giảm tốc,KINH_DOANH.txt,2,bất động sản công nghiệp bất ngờ giảm tốc
4,Người dân miền Nam chi gần 35.000 tỷ mua vé số...,KINH_DOANH.txt,2,người dân miền nam chi gần 35000 tỷ mua vé số ...


In [264]:
from vncorenlp import VnCoreNLP
import argparse

rdrsegmenter = VnCoreNLP("../vncorenlp/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx500m')
print(' '.join(rdrsegmenter.tokenize('a lô')[0]))
# df['text_processed_segment'] = df.text_processed.apply(lambda x: ' '.join(rdrsegmenter.tokenize(x)[0]))
df.head()

a lô


Unnamed: 0,text,label_txt,label,text_processed
0,"Casper lần đầu tấn công thị trường điện tử, đi...",KINH_DOANH.txt,2,casper lần đầu tấn công thị trường điện tử điệ...
1,Thủ tướng yêu cầu gỡ khó quy định phòng cháy c...,KINH_DOANH.txt,2,thủ tướng yêu cầu gỡ khó quy định phòng cháy c...
2,Thành tỷ phú Hong Kong từ số vốn 1.000 USD,KINH_DOANH.txt,2,thành tỷ phú hong kong từ số vốn 1000 usd
3,Bất động sản công nghiệp bất ngờ giảm tốc,KINH_DOANH.txt,2,bất động sản công nghiệp bất ngờ giảm tốc
4,Người dân miền Nam chi gần 35.000 tỷ mua vé số...,KINH_DOANH.txt,2,người dân miền nam chi gần 35000 tỷ mua vé số ...


In [265]:
def replace_numbers_with_token(text, token="<num>"):
    cleaned_text = re.sub(r'\b\d+\b|\b\d+\w+\b', token, text)
    return cleaned_text

df['text_final'] = df.text_processed.apply(lambda x: replace_numbers_with_token(str(x)))
df.head()

Unnamed: 0,text,label_txt,label,text_processed,text_final
0,"Casper lần đầu tấn công thị trường điện tử, đi...",KINH_DOANH.txt,2,casper lần đầu tấn công thị trường điện tử điệ...,casper lần đầu tấn công thị trường điện tử điệ...
1,Thủ tướng yêu cầu gỡ khó quy định phòng cháy c...,KINH_DOANH.txt,2,thủ tướng yêu cầu gỡ khó quy định phòng cháy c...,thủ tướng yêu cầu gỡ khó quy định phòng cháy c...
2,Thành tỷ phú Hong Kong từ số vốn 1.000 USD,KINH_DOANH.txt,2,thành tỷ phú hong kong từ số vốn 1000 usd,thành tỷ phú hong kong từ số vốn <num> usd
3,Bất động sản công nghiệp bất ngờ giảm tốc,KINH_DOANH.txt,2,bất động sản công nghiệp bất ngờ giảm tốc,bất động sản công nghiệp bất ngờ giảm tốc
4,Người dân miền Nam chi gần 35.000 tỷ mua vé số...,KINH_DOANH.txt,2,người dân miền nam chi gần 35000 tỷ mua vé số ...,người dân miền nam chi gần <num> tỷ mua vé số ...


In [266]:
df = df.drop(['text', 'label_txt', 'text_processed'], axis=1)
df

Unnamed: 0,label,text_final
0,2,casper lần đầu tấn công thị trường điện tử điệ...
1,2,thủ tướng yêu cầu gỡ khó quy định phòng cháy c...
2,2,thành tỷ phú hong kong từ số vốn <num> usd
3,2,bất động sản công nghiệp bất ngờ giảm tốc
4,2,người dân miền nam chi gần <num> tỷ mua vé số ...
...,...,...
9929,1,khách tây đến hà giang tăng thích phượt bằng x...
9930,1,<num> cung đường đẹp nhất việt nam để ngắm cảnh
9931,1,các quán cà phê mở xuyên tết ở hà nội và tp hcm
9932,1,cách sun hospitality đưa chuẩn mực nghỉ dưỡng ...


In [267]:
text = df['text_final'].to_list()
text

['casper lần đầu tấn công thị trường điện tử điện lạnh cao cấp',
 'thủ tướng yêu cầu gỡ khó quy định phòng cháy chữa cháy',
 'thành tỷ phú hong kong từ số vốn <num> usd',
 'bất động sản công nghiệp bất ngờ giảm tốc',
 'người dân miền nam chi gần <num> tỷ mua vé số trong ba tháng',
 'tín hiệu phục hồi việc làm trong ngành sản xuất',
 'doanh nghiệp ngành điều lo phá sản',
 'bộ xây dựng số doanh nghiệp địa ốc ngừng hoạt động tăng',
 'phí vận chuyển đường biển xuống mức trước covid19',
 'sab  sức mua giảm bia sài gòn vẫn lãi hơn <num> tỷ đồng mỗi ngày',
 'hàng việt xuất sang nga giảm mạnh',
 'đại gia sân bay acv dự kiến doanh thu vượt mức trước dịch',
 'vib báo lãi quý i tăng <num>',
 'vre  vincom retail đặt mục tiêu doanh thu kỷ lục hơn <num> tỷ đồng',
 'chứng khoán sẽ thế nào sau chuỗi tăng dài nhất <num> tháng',
 'sun property cùng ncb tri ân khách hàng bằng loạt ưu đãi',
 'giá nhà ở các nước giàu đang ra sao',
 'đề xuất tp hcm thí điểm mô hình đô thị phát triển theo dự án giao thông',


In [268]:
df.to_csv("dataset.csv")

In [269]:
import numpy as np
import random
import pandas as pd

class Dataset:
    def __init__(self, path=None, tablesize=1000000):
        if not path:
            path = "/home/tiendat/AI-LAB/NLP/pytorch/nn"
        
        self.path = path
        self.tablesize = tablesize
    
    def tokens(self):
        if hasattr(self, "_tokens") and self._tokens:
            return self._tokens

        tokens = dict()
        tokenfreq = dict()
        wordcount = 0
        revtokens = []
        idx = 0

        for sentence in self.sentences():
            for w in sentence:
                wordcount += 1
                if not w in tokens:
                    # tokens[w] = idx
                    revtokens += [w]
                    tokenfreq[w] = 1
                    idx += 1
                else:
                    tokenfreq[w] += 1
        revtokens = sorted(list(set(revtokens)))
        print(len(revtokens))
        for i, word in enumerate(revtokens):
            tokens[word] = i
        tokens["UNK"] = len(revtokens)
        revtokens += ["UNK"]
        tokenfreq["UNK"] = 1
        wordcount += 1

        self._tokens = tokens
        self._tokenfreq = tokenfreq
        self._wordcount = wordcount
        self._revtokens = revtokens
        return self._tokens
    
    def revtokens(self):
        if hasattr(self, "_revtokens") and self._revtokens:
            return self._revtokens

        tokens = dict()
        tokenfreq = dict()
        wordcount = 0
        revtokens = []
        idx = 0

        for sentence in self.sentences():
            for w in sentence:
                wordcount += 1
                if not w in tokens:
                    # tokens[w] = idx
                    revtokens += [w]
                    tokenfreq[w] = 1
                    idx += 1
                else:
                    tokenfreq[w] += 1
        revtokens = sorted(list(set(revtokens)))
        print(len(revtokens))
        for i, word in enumerate(revtokens):
            tokens[word] = i
        tokens["UNK"] = len(revtokens)
        revtokens += ["UNK"]
        tokenfreq["UNK"] = 1
        wordcount += 1

        self._tokens = tokens
        self._tokenfreq = tokenfreq
        self._wordcount = wordcount
        self._revtokens = revtokens
        return self._revtokens
    
    def label(self):
        if hasattr(self, "_label") and self._label:
            return self._label 

        df = pd.read_csv(self.path + '/dataset.csv')
        label = df["label"].to_list()
        self._label = label
        return self._label



    def sentences(self):
        if hasattr(self, "_sentences") and self._sentences:
            return self._sentences

        sentences = []
        df = pd.read_csv(self.path + '/dataset.csv')
        all_text = df['text_final'].to_list()
        for sent in all_text:
            splitted = sent.split(' ')
            sentences += [[w for w in splitted]]
        # with open(self.path + '/dataset_segment.txt', 'r') as f:
        #     lines = f.readlines()
        #     for line in lines:
        #         splitted = line.split("\n")[0].split(' ')
        #         sentences += [[w for w in splitted]]
        
        self._sentences = sentences
        self._sentlengths = np.array([len(s) for s in sentences])
        self._cumsentlen = np.cumsum(self._sentlengths)

        return self._sentences
        

    def numSentences(self):
        if hasattr(self, "_numSentences") and self._numSentences:
            return self._numSentences
        else:
            self._numSentences = len(self.sentences())
            return self._numSentences
        
    def allSentences(self):
        pass

    def getRandomContext(self, C=5):
        allsent = self.sentences()
        sentID = random.randint(0, len(allsent) - 1)
        sent = allsent[sentID]
        wordID = random.randint(0, len(sent) - 1)

        context = sent[max(0, wordID - C):wordID]
        if wordID+1 < len(sent):
            context += sent[wordID+1:min(len(sent), wordID + C + 1)]

        centerword = sent[wordID]
        context = [w for w in context if w != centerword]

        if len(context) > 0:
            return centerword, context
        else:
            return self.getRandomContext(C)

    def dataset_split(self):
        pass

    def getRandomTrainSentence(self):
        pass

    def getDevSentences(self):
        return self.getSplitSentences(2)

    def getTestSentences(self):
        return self.getSplitSentences(1)

    def getTrainSentences(self):
        return self.getSplitSentences(0)

    def getSplitSentences(self, split=0):
        ds_split = self.dataset_split()
        return [(self.sentences()[i], self.categorify(self.sent_labels()[i])) for i in ds_split[split]]
    
    def sampleTable(self):
        if hasattr(self, '_sampleTable') and self._sampleTable is not None:
            return self._sampleTable

        nTokens = len(self.tokens())
        samplingFreq = np.zeros((nTokens,))
        self.allSentences()
        i = 0
        for w in range(nTokens):
            w = self._revtokens[i]
            if w in self._tokenfreq:
                freq = 1.0 * self._tokenfreq[w]
                # Reweigh
                freq = freq ** 0.75
            else:
                freq = 0.0
            samplingFreq[i] = freq
            i += 1

        samplingFreq /= np.sum(samplingFreq)
        samplingFreq = np.cumsum(samplingFreq) * self.tablesize

        self._sampleTable = [0] * self.tablesize

        j = 0
        for i in range(self.tablesize):
            while i > samplingFreq[j]:
                j += 1
            self._sampleTable[i] = j

        return self._sampleTable
    
    def rejectProb(self):
        if hasattr(self, '_rejectProb') and self._rejectProb is not None:
            return self._rejectProb

        threshold = 1e-5 * self._wordcount

        nTokens = len(self.tokens())
        rejectProb = np.zeros((nTokens,))
        for i in range(nTokens):
            w = self._revtokens[i]
            freq = 1.0 * self._tokenfreq[w]
            # Reweigh
            rejectProb[i] = max(0, 1 - np.sqrt(threshold / freq))

        self._rejectProb = rejectProb
        return self._rejectProb

    def sampleTokenIdx(self):
        return self.sampleTable()[random.randint(0, self.tablesize-1)]

In [270]:
dataset = Dataset()

tokenizer = dataset.tokens()
all_sentences = dataset.sentences()
all_sentences

3744


[['casper',
  'lần',
  'đầu',
  'tấn',
  'công',
  'thị',
  'trường',
  'điện',
  'tử',
  'điện',
  'lạnh',
  'cao',
  'cấp'],
 ['thủ',
  'tướng',
  'yêu',
  'cầu',
  'gỡ',
  'khó',
  'quy',
  'định',
  'phòng',
  'cháy',
  'chữa',
  'cháy'],
 ['thành', 'tỷ', 'phú', 'hong', 'kong', 'từ', 'số', 'vốn', '<num>', 'usd'],
 ['bất', 'động', 'sản', 'công', 'nghiệp', 'bất', 'ngờ', 'giảm', 'tốc'],
 ['người',
  'dân',
  'miền',
  'nam',
  'chi',
  'gần',
  '<num>',
  'tỷ',
  'mua',
  'vé',
  'số',
  'trong',
  'ba',
  'tháng'],
 ['tín',
  'hiệu',
  'phục',
  'hồi',
  'việc',
  'làm',
  'trong',
  'ngành',
  'sản',
  'xuất'],
 ['doanh', 'nghiệp', 'ngành', 'điều', 'lo', 'phá', 'sản'],
 ['bộ',
  'xây',
  'dựng',
  'số',
  'doanh',
  'nghiệp',
  'địa',
  'ốc',
  'ngừng',
  'hoạt',
  'động',
  'tăng'],
 ['phí', 'vận', 'chuyển', 'đường', 'biển', 'xuống', 'mức', 'trước', 'covid19'],
 ['sab',
  '',
  'sức',
  'mua',
  'giảm',
  'bia',
  'sài',
  'gòn',
  'vẫn',
  'lãi',
  'hơn',
  '<num>',
  'tỷ',
  'đồn

In [271]:
tokenizer["PAD"] = len(tokenizer) -1
tokenizer["PAD"]

3744

In [272]:
sent2ind = []
for sentence in all_sentences:
    idx = []
    for word in sentence:
        idx += [tokenizer[word]]
    sent2ind += [idx]

sent2ind

[[333, 1622, 3647, 3138, 569, 2865, 3000, 3569, 3191, 3569, 1616, 323, 607],
 [2882, 3122, 3504, 613, 1024, 1376, 2358, 3675, 2284, 400, 486, 400],
 [2796, 3194, 2289, 1095, 1437, 3189, 2694, 3375, 1, 3215],
 [250, 3695, 2674, 569, 1943, 250, 2013, 941, 3167],
 [1992, 737, 1753, 1912, 356, 1011, 1, 3194, 1779, 3322, 2694, 2956, 88, 2801],
 [3094, 1080, 2315, 1225, 3280, 1555, 2956, 1971, 2674, 3444],
 [704, 1943, 1971, 3565, 1525, 2272, 2674],
 [290, 3452, 806, 2694, 704, 1943, 3673, 3730, 2021, 1113, 3695, 3114],
 [2282, 3356, 384, 3631, 142, 3445, 1900, 2999, 517],
 [2501,
  0,
  2712,
  1779,
  941,
  127,
  2632,
  998,
  3355,
  1567,
  1182,
  1,
  3194,
  3687,
  1887,
  1972],
 [1146, 3282, 3444, 2514, 1934, 941, 1846],
 [3633, 912, 2646, 110, 5, 805, 1424, 704, 2781, 3347, 1900, 2999, 784],
 [3241, 200, 1567, 2374, 1246, 3114, 1],
 [3299,
  0,
  3262,
  2412,
  3660,
  1897,
  2903,
  704,
  2781,
  1475,
  1673,
  1182,
  1,
  3194,
  3687],
 [480, 1343, 2691, 2862, 2138, 251

In [273]:
a = [1,2,3,4,5]
a = a[:2]
a

[1, 2]

In [274]:
sent_padded = []
for sent in sent2ind:
    while(len(sent) < 128):
        sent.append(tokenizer["PAD"])
    if len(sent) > 128:
        sent = sent[:128]
    sent_padded.append(sent)
sent_padded



[[333,
  1622,
  3647,
  3138,
  569,
  2865,
  3000,
  3569,
  3191,
  3569,
  1616,
  323,
  607,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  3744,
  37

In [275]:
import torch
import torch.nn as nn

max_len = 128
emb_dim = 100
num_classes = 8
class Chang(nn.Module):
    def __init__(self, num_vocab, emb_dim, output_features, vocab_ebedded):
        super().__init__()

        # self.max_len = max_len
        self.num_vocab = num_vocab
        self.emd_dim = emb_dim
        self.output_feature = output_features
        self.vocab_ebedded = vocab_ebedded

        # self.emb = nn.Embedding(num_embeddings=num_vocab, embedding_dim=emb_dim, sparse=False)
        self.model = nn.Sequential(
            nn.LeakyReLU(),
            nn.Linear(in_features=emb_dim, out_features=emb_dim*2),
            nn.LeakyReLU(),
            nn.Linear(in_features=emb_dim*2, out_features=emb_dim*2),
            nn.LeakyReLU(),
            nn.Linear(in_features=emb_dim*2, out_features=emb_dim),
            nn.LeakyReLU(),
            nn.Linear(in_features=emb_dim, out_features=output_features),
            nn.Softmax(dim=1)
        )
    
    def forward(self, x):
        try:
            emb_text = self.vocab_ebedded[]
        # print(emb_text.shape)
        a = torch.sum(emb_text, axis=1).type(torch.float)
        # print(type(a[0][0]))
        output = self.model(a)
        return output

In [276]:
model_2 = Chang(num_vocab=8000, emb_dim=emb_dim, output_features=num_classes)
model_2

Chang(
  (emb): Embedding(8000, 50)
  (model): Sequential(
    (0): LeakyReLU(negative_slope=0.01)
    (1): Linear(in_features=50, out_features=100, bias=True)
    (2): LeakyReLU(negative_slope=0.01)
    (3): Linear(in_features=100, out_features=100, bias=True)
    (4): LeakyReLU(negative_slope=0.01)
    (5): Linear(in_features=100, out_features=50, bias=True)
    (6): LeakyReLU(negative_slope=0.01)
    (7): Linear(in_features=50, out_features=8, bias=True)
    (8): Softmax(dim=1)
  )
)

In [277]:
model_2(X_train.to(device)[:1]).shape

torch.Size([1, 8])

In [278]:
sent_tensor = torch.tensor(sent_padded)
sent_tensor

tensor([[ 333, 1622, 3647,  ..., 3744, 3744, 3744],
        [2882, 3122, 3504,  ..., 3744, 3744, 3744],
        [2796, 3194, 2289,  ..., 3744, 3744, 3744],
        ...,
        [ 547, 2368,  540,  ..., 3744, 3744, 3744],
        [ 548, 2615, 1098,  ..., 3744, 3744, 3744],
        [ 547, 2368,  540,  ..., 3744, 3744, 3744]])

In [279]:
len(sent_tensor)

9934

In [280]:
label = torch.tensor(dataset.label()).type(torch.LongTensor)
label

tensor([2, 2, 2,  ..., 1, 1, 1])

In [281]:
len(label)

9934

In [282]:
device = "cuda" if torch.cuda.is_available() else "cpu"

In [283]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(sent_tensor, label, test_size=0.2, random_state=42)

In [284]:
print(X_train.shape)

torch.Size([7947, 128])


In [285]:
X_train, y_train, X_test, y_test = X_train.to(device), y_train.to(device), X_test.to(device), y_test.to(device)

In [286]:
loss_fn = nn.CrossEntropyLoss()

optimizer = torch.optim.SGD(model_2.parameters(), lr = 1e-2)

In [287]:
# Calculate accuracy (a classification metric)
def accuracy_fn(y_true, y_pred):
    correct = torch.eq(y_true, y_pred).sum().item() # torch.eq() calculates where two tensors are equal
    acc = (correct / len(y_pred)) * 100 
    return acc

In [288]:
# Fit the model
torch.manual_seed(42)

# Set number of epochs
epochs = 10



for epoch in range(epochs):
    ### Training
    model_2.train()

    # 1. Forward pass
    y_logits = model_2(X_train) # model outputs raw logits 
    y_pred = y_logits.argmax(dim=1) # go from logits -> prediction probabilities -> prediction labels
    # print(y_logits.shape)
    # 2. Calculate loss and accuracy
    # print(y_train.shape)
    loss = loss_fn(y_logits, y_train) 
    acc = accuracy_fn(y_true=y_train,
                      y_pred=y_pred)

    # 3. Optimizer zero grad
    optimizer.zero_grad()

    # 4. Loss backwards
    loss.backward()

    # 5. Optimizer step
    optimizer.step()

    ### Testing
    model_2.eval()
    with torch.inference_mode():
      # 1. Forward pass
      test_logits = model_2(X_test)
      test_pred = test_logits.argmax(dim=1)
      # 2. Calculate test loss and accuracy
      test_loss = loss_fn(test_logits, y_test)
      test_acc = accuracy_fn(y_true=y_test,
                             y_pred=test_pred)

    # Print out what's happening
    if epoch % 10 == 0:
        print(f"Epoch: {epoch} | Loss: {loss:.5f}, Acc: {acc:.2f}% | Test Loss: {test_loss:.5f}, Test Acc: {test_acc:.2f}%") 

Epoch: 0 | Loss: 2.14027, Acc: 12.73% | Test Loss: 2.13572, Test Acc: 11.98%


# Neural Network for text classification and using word2vec pretrained

In [289]:
with open('/home/tiendat/Downloads/word2vec_vi_syllables_100dims.txt') as f:
        lines = f.readlines()
len(lines)

979461

In [290]:
def word_vectors(lines, vocab):
    vocab_copy = vocab.copy()
    vocab_ebedded = {}
    for line in lines[1:]:
        l = line.split(' ')
         
        if l[0] in vocab_copy:

            vocab_ebedded[l[0]] = np.array(l[1:], dtype ='float32')
            vocab_copy.remove(l[0])
    return vocab_ebedded, vocab_copy

In [291]:
vocab_word = dataset.revtokens()
len(set(vocab_word))

3745

In [292]:
vocab_ebedded, vocab_copy = word_vectors(lines,vocab_word)

In [293]:
vocab_ebedded.keys()

dict_keys(['và', 'của', 'có', 'là', 'các', 'được', 'trong', 'cho', 'với', 'một', 'đã', 'không', 'người', 'những', 'này', 'để', 'công', 'ở', 'khi', 'năm', 'về', 'đến', 'ra', 'tại', 'vào', 'từ', 'thể', 'cũng', 'trên', 'đó', 'nhiều', 'sẽ', 'đầu', 'bị', 'hiện', 'việc', 'như', 'làm', 'đồng', 'nhà', 'sự', 'nước', 'động', 'lại', 'số', 'thành', 'ngày', 'phải', 'quan', 'định', 'ông', 'chỉ', 'gia', 'học', 'nhân', 'chính', 'hàng', 'hơn', 'trường', 'nhất', 'còn', 'thời', 'dân', 'cơ', 'thực', 'tôi', 'biết', 'con', 'thông', 'sau', 'nhưng', 'hợp', 'đang', 'mới', 'thì', 'đi', 'hành', 'viên', 'phát', 'điều', 'sinh', 'theo', 'giá', 'vụ', 'mà', 'qua', 'thế', 'nhận', 'hình', 'cao', 'rất', 'dụng', 'lý', 'cùng', 'hội', 'chức', 'mình', 'sản', 'đối', 'trình', 'bộ', 'trước', 'cả', 'tế', 'nên', 'lên', 'xe', 'tin', 'xuất', 'lượng', 'tiếp', 'do', 'điểm', 'anh', 'đường', 'tác', 'nghiệp', 'vì', 'cuộc', 'giải', 'dự', 'tình', 'kết', 'cấp', 'tư', 'đây', 'tới', 'vẫn', 'tháng', 'án', 'bạn', 'cầu', 'cách', 'khác', 'năng'

In [294]:
len(vocab_ebedded)

3322

In [296]:
torch.tensor(vocab_ebedded["UNK"])

tensor([ 0.0298,  0.0616, -0.0232, -0.1004,  0.0862,  0.0134,  0.0609,  0.0525,
        -0.1674, -0.0825, -0.1146, -0.0171, -0.0607, -0.2394,  0.0015, -0.0298,
         0.0849,  0.1481, -0.0184,  0.0193, -0.1270,  0.2512, -0.0845, -0.0167,
        -0.1020,  0.0700,  0.0303,  0.1006, -0.0703,  0.1418, -0.0460, -0.0009,
        -0.0104,  0.1171, -0.1271,  0.0674,  0.0821,  0.0992,  0.0830, -0.1174,
        -0.1585,  0.1003, -0.0993, -0.0626,  0.0738,  0.0101, -0.2228, -0.0643,
        -0.0698,  0.0351, -0.1758,  0.1407, -0.0874,  0.0511, -0.0228, -0.1345,
        -0.1515, -0.0429, -0.0423, -0.0362, -0.0485,  0.0759,  0.0548,  0.0544,
        -0.0672, -0.0914,  0.0245, -0.1078, -0.1080, -0.2125,  0.0161, -0.1069,
         0.1390, -0.0346,  0.0125, -0.0663,  0.0237, -0.0789,  0.0606,  0.1111,
        -0.0671,  0.1185,  0.0714, -0.2199, -0.0927,  0.1283,  0.0741, -0.2105,
         0.1066, -0.0757,  0.0276,  0.0088,  0.1084,  0.2105, -0.0235,  0.0896,
         0.0728, -0.0303, -0.0632, -0.04

In [298]:
all_sentences[:5]

[['casper',
  'lần',
  'đầu',
  'tấn',
  'công',
  'thị',
  'trường',
  'điện',
  'tử',
  'điện',
  'lạnh',
  'cao',
  'cấp'],
 ['thủ',
  'tướng',
  'yêu',
  'cầu',
  'gỡ',
  'khó',
  'quy',
  'định',
  'phòng',
  'cháy',
  'chữa',
  'cháy'],
 ['thành', 'tỷ', 'phú', 'hong', 'kong', 'từ', 'số', 'vốn', '<num>', 'usd'],
 ['bất', 'động', 'sản', 'công', 'nghiệp', 'bất', 'ngờ', 'giảm', 'tốc'],
 ['người',
  'dân',
  'miền',
  'nam',
  'chi',
  'gần',
  '<num>',
  'tỷ',
  'mua',
  'vé',
  'số',
  'trong',
  'ba',
  'tháng']]

In [314]:
embd_sent = []
for sent in all_sentences:
    word_embd = []
    for word in sent:
        try:
            word_embd.append(vocab_ebedded[word])
        except:
            word_embd.append(vocab_ebedded["UNK"])

    # word_embd = torch.tensor(word_embd)
    word_embd = np.sum(word_embd, axis=0)
    print(word_embd.shape)

    embd_sent.append(word_embd)
embd_sent

(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)
(100,)

[array([-6.6840857e-01, -6.1285889e-01,  2.4312161e-01, -4.2826033e-01,
         1.1909913e+00,  1.7552973e-01,  7.8709888e-01,  1.8610065e+00,
        -1.9974750e-01, -1.1453907e+00, -2.4420850e+00,  5.0079441e-01,
         7.2912002e-01, -2.1716735e+00,  8.3251876e-01,  2.7367145e-01,
        -9.6390843e-03,  5.9919947e-01, -1.9733900e-01,  3.0802020e-01,
        -7.3509872e-01,  3.3819193e-01, -1.2664372e+00,  1.4949507e+00,
        -7.7993345e-01, -5.5139594e-02, -1.1143523e+00,  5.3221703e-01,
         4.6692812e-01, -5.6370556e-02,  3.8039312e-04,  1.1180086e+00,
        -1.2716442e+00,  1.4660895e+00,  7.4308193e-01, -6.3706690e-01,
         1.1664536e+00,  2.4280813e+00,  9.1814291e-01,  8.8337541e-01,
         5.8771316e-02, -3.7488633e-01, -2.9373890e-01, -2.8989229e-01,
        -4.9450061e-01,  1.3393599e-01, -1.7679975e+00, -1.4090936e+00,
         2.9194981e-01, -9.5632017e-01, -2.2507865e+00,  5.7292724e-01,
        -8.4034339e-02,  2.2762749e-01, -8.8184172e-01, -4.68421

In [335]:
embd_sent = torch.tensor(embd_sent)

  embd_sent = torch.tensor(embd_sent)


In [336]:
embd_sent.shape

torch.Size([9934, 100])

In [355]:
X_train_, X_test_, y_train_, y_test_ = train_test_split(embd_sent, label, test_size=0.2, random_state=42, shuffle=True)

In [356]:
X_train_, X_test_, y_train_, y_test_ = X_train_.to(device), X_test_.to(device), y_train_.to(device), y_test_.to(device)

In [385]:
import torch
import torch.nn as nn

max_len = 128
emb_dim = 100
num_classes = 8
class Chang(nn.Module):
    def __init__(self,  emb_dim, hidden_size, output_features):
        super().__init__()

        self.emb_dim = emb_dim
        self.hidden_size = hidden_size
        self.output_features = output_features

        self.model = nn.Sequential(
            nn.Linear(in_features=emb_dim, out_features=hidden_size),
            nn.ReLU(),
            nn.Linear(in_features=hidden_size, out_features=int(hidden_size/2)),
            nn.ReLU(),
            # nn.Linear(in_features=hidden_size, out_features=int(hidden_size/2)),
            # nn.ReLU(),
            nn.Linear(in_features=int(hidden_size/2), out_features=output_features),
            nn.Softmax(dim=1)
        )
    
    def forward(self, x):
        output = self.model(x)
        return output

In [386]:
model_3 = Chang(emb_dim=100, hidden_size=200, output_features=8)
model_3

Chang(
  (model): Sequential(
    (0): Linear(in_features=100, out_features=200, bias=True)
    (1): ReLU()
    (2): Linear(in_features=200, out_features=100, bias=True)
    (3): ReLU()
    (4): Linear(in_features=100, out_features=8, bias=True)
    (5): Softmax(dim=1)
  )
)

In [387]:
loss_fn = nn.CrossEntropyLoss()

optimizer = torch.optim.Adam(model_3.parameters(), lr = 1e-5)

In [389]:
# Fit the model
torch.manual_seed(42)

# Set number of epochs
epochs = 10000



for epoch in range(epochs):
    ### Training
    model_3.train()

    # 1. Forward pass
    y_logits = model_3(X_train_) # model outputs raw logits 
    y_pred = y_logits.argmax(dim=1) # go from logits -> prediction probabilities -> prediction labels
    # print(y_logits.shape)
    # 2. Calculate loss and accuracy
    # print(y_train.shape)
    loss = loss_fn(y_logits, y_train_) 
    acc = accuracy_fn(y_true=y_train_,
                      y_pred=y_pred)

    # 3. Optimizer zero grad
    optimizer.zero_grad()

    # 4. Loss backwards
    loss.backward()

    # 5. Optimizer step
    optimizer.step()

    ### Testing
    model_3.eval()
    with torch.inference_mode():
      # 1. Forward pass
      test_logits = model_3(X_test_)
      test_pred = test_logits.argmax(dim=1)
      # 2. Calculate test loss and accuracy
      test_loss = loss_fn(test_logits, y_test_)
      test_acc = accuracy_fn(y_true=y_test_,
                             y_pred=test_pred)

    # Print out what's happening
    if epoch % 10 == 0:
        print(f"Epoch: {epoch} | Loss: {loss:.5f}, Acc: {acc:.2f}% | Test Loss: {test_loss:.5f}, Test Acc: {test_acc:.2f}%") 

Epoch: 0 | Loss: 2.00979, Acc: 39.55% | Test Loss: 2.00940, Test Acc: 37.34%
Epoch: 10 | Loss: 2.00826, Acc: 39.90% | Test Loss: 2.00789, Test Acc: 37.70%
Epoch: 20 | Loss: 2.00671, Acc: 40.22% | Test Loss: 2.00637, Test Acc: 37.95%
Epoch: 30 | Loss: 2.00513, Acc: 40.56% | Test Loss: 2.00483, Test Acc: 38.35%
Epoch: 40 | Loss: 2.00354, Acc: 40.78% | Test Loss: 2.00327, Test Acc: 38.60%
Epoch: 50 | Loss: 2.00193, Acc: 41.17% | Test Loss: 2.00171, Test Acc: 39.61%
Epoch: 60 | Loss: 2.00030, Acc: 41.53% | Test Loss: 2.00012, Test Acc: 40.16%
Epoch: 70 | Loss: 1.99866, Acc: 41.92% | Test Loss: 1.99852, Test Acc: 40.16%
Epoch: 80 | Loss: 1.99699, Acc: 41.99% | Test Loss: 1.99690, Test Acc: 40.61%
Epoch: 90 | Loss: 1.99530, Acc: 42.51% | Test Loss: 1.99526, Test Acc: 40.61%
Epoch: 100 | Loss: 1.99360, Acc: 42.78% | Test Loss: 1.99362, Test Acc: 41.27%
Epoch: 110 | Loss: 1.99187, Acc: 43.14% | Test Loss: 1.99195, Test Acc: 41.72%
Epoch: 120 | Loss: 1.99012, Acc: 43.20% | Test Loss: 1.99026, T