<a href="https://colab.research.google.com/github/yosarawut/notebook/blob/main/model_multi_class_text_classification.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


Multi Class Text Classification
===

In [None]:
import csv
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from sklearn.preprocessing import OneHotEncoder
import nltk
nltk.download('stopwords')

import pandas as pd
import numpy as np
import joblib
from time import time
from nltk.corpus import stopwords
STOPWORDS = set(stopwords.words('english'))
%matplotlib inline

print(tf.__version__)

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
2.3.0


In [None]:
## Load data
def load_data_train(files): 
  print("Load DataFrame")
  df = joblib.load(files)

  return df

In [None]:
import urllib.request
def download_files(urls,paths):
  print ("download start!")
  data = urllib.request.urlretrieve(urls, filename='./content/sample_data')
 
  print ("download file location: ", paths)
  print ("download complete!")
  

  return load_data_train(paths)

 

## ดึงข้อมูลจาก Excel

ดึงข้อมูลจากไฟล์ Excel ที่ upload ไว้บน GitHub

In [None]:
def get_datas(urls, sheets, types):
    data = ""
    t0 = time()
    a = []
    i = 0
    for s in sheets:
        s = pd.read_excel(urls, sheet_name=s)
        s = s[[types, 'description']]
        s['description'] = s['description'].str.lower()
        if i == 0:
            data = s.copy()
        else:
            data = pd.concat([data, s], ignore_index=True)
        i += 1
    data.columns = ['target', 'data']
    data['target'] = data['target'].apply(str)
    load_time = time() - t0
    print("Load dataset time:  %0.3fs" % load_time)

    return data

In [None]:
t0 = time()
urls = 'https://github.com/dragon-library/work_space/raw/main/HS_Code/data/hs_code.xlsx'

types = 'section'
#sheets = ['8_digit','6_digit','4_digit', 'test_01', 'Declaration_2019_10']
sheets = ['8_digit','6_digit','4_digit', '2_digit']
df = get_datas(urls,sheets,types)

print(len(df))
df.columns = ['category', 'text']



load_time = time() - t0
print("Load data time:  %0.3fs" % load_time)
df.sample(10)

In [None]:
def get_decl(urls, sheets):
    data = ""
    t0 = time()
    a = []
    i = 0
    for s in sheets:
        dfs = pd.read_excel(urls, sheet_name=s)
        dfs = dfs[['target', 'data']]
        dfs['data'] = dfs['data'].str.lower()
        if i == 0:
            data = dfs.copy()
        else:
            data = pd.concat([data, dfs], ignore_index=True)
        i += 1
   
    data['target'] = data['target'].apply(str)
    load_time = time() - t0
    print("Load dataset time:  %0.3fs" % load_time)

    return data

In [None]:
t0 = time()
urls = 'https://github.com/dragon-library/work_space/raw/main/HS_Code/data/decl_data.xlsx'
sheets = ['decx','deci']
df_decl = get_decl(urls,sheets)

print(len(df_decl))
df_decl.columns = ['category', 'text']
load_time = time() - t0
print("Load data time:  %0.3fs" % load_time)

df_decl.sample(10)

In [None]:
df = pd.concat([df, df_decl], ignore_index=True)
df

## Load Data

สามารถนำไฟล์ที่ได้จัดการ clean data พร้อมทั้งจัดรูปแบบตามที่เรากำหนด แล้ว Save ไว้ใช้งานในภายหลัง โดยสามารถ download ข้อมูลดังกล่าวมาใช้ในภายหลัง โดย pack ข้อมูลให้อยู่ในไฟล์ full_train_section.pkl เพียงไฟล์เดียว มีข้อมูลประมาณ 90,000 row

In [None]:
files="/content/sample_data/full_train_section.pkl"
df = load_data_train(files)
df.sample(20)

Load DataFrame


Unnamed: 0,target,data
56404,16,heating pad
97317,17,gn1z74291a09 a moulding lh
79068,16,machinery for filling
52005,4,peanut butter flavor
14222,15,"steel, alloy; bars and rods, cold-formed or co..."
88253,16,"unit assy, headlamp rh"
86561,6,fresh fish ( threadfin bream.)
102280,17,brkt asy rr bmpr cvr mtng
48974,15,aluminium profiles yajk079
85693,6,goat milk


In [None]:
vocab_size = 5000
embedding_dim = 64
max_length = 100
trunc_type = 'post'
padding_type = 'post'
oov_tok = '<OOV>'
training_portion = .8

labels = df.target
articles = df.data

train_size = int(len(articles) * training_portion)

train_articles = articles[0: train_size]
train_labels = labels[0: train_size]

validation_articles = articles[train_size:]
validation_labels = labels[train_size:]

print(train_size)
print(len(train_articles))
print(len(train_labels))
print(len(validation_articles))
print(len(validation_labels))

72185
72185
72185
18047
18047


## Clean Data

ทำความสะอาดข้อมูล เพื่อเตรียมพร้อมก่อนประมวลผลข้อมูล ได้ทำการ Preprocessing data โดยตรวจสอบรายละเอียดข้อมูลว่า เป็นข้อความภาษาอังกฤษหรือไม่ ถ้าใช่ก็จะนำข้อมูลไปตรวจสอบความถูกต้องของตัวสะกด กำหนดมาตรฐานสร้างโทเค็นและกำหนดเวกเตอร์ข้อมูลโดยใช้เลเยอร์การ preprocessing.TextVectorization

- Standardization หมายถึงการประมวลผลข้อความ โดยทั่วไปจะลบเครื่องหมายวรรคตอนหรือองค์ประกอบ HTML เพื่อลดความซับซ้อนของชุดข้อมูล

- Tokenization หมายถึงการแยกสตริงออกเป็นโทเค็น (ตัวอย่างเช่นการแยกประโยคออกเป็นคำแต่ละคำโดยการแบ่งช่องว่าง)

- Vectorization หมายถึงการแปลงโทเค็นเป็นตัวเลขเพื่อให้สามารถป้อนเข้าใน neural network (โครงข่ายประสาทเทียม) ได้

และกำหนดมาตรฐาน ให้แปลงข้อความเป็นตัวพิมพ์เล็กและลบเครื่องหมายวรรคตอนและเริ่มต้นจะแบ่งช่องว่าง และ vectorization จะจัดทำดัชนีคำศัพท์ เพื่อสร้างโมเดลที่คำนึงถึงลำดับคำ เป็นต้น

In [None]:
tokenizer = Tokenizer(num_words = vocab_size, oov_token=oov_tok)
tokenizer.fit_on_texts(train_articles)
word_index = tokenizer.word_index
dict(list(word_index.items())[0:10])

{'<OOV>': 1,
 'aluminium': 9,
 'and': 4,
 'for': 7,
 'in': 8,
 'not': 5,
 'of': 3,
 'or': 2,
 'other': 6,
 'than': 10}

In [None]:
train_sequences = tokenizer.texts_to_sequences(train_articles)
print(train_sequences[10])

[568, 640, 303, 6, 10, 4705, 4, 1190, 2804, 1733, 640]


In [None]:
train_padded = pad_sequences(train_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
print(len(train_sequences[0]))
print(len(train_padded[0]))

print(len(train_sequences[1]))
print(len(train_padded[1]))

print(len(train_sequences[10]))
print(len(train_padded[10]))

8
100
8
100
11
100


ตัวอย่างข้อมูล ที่ทำการ Preprocessing data แล้ว ก่อนจะนำข้อมูลเข้าไป train model ต่อไป

In [None]:
print(train_padded[10])

[ 568  640  303    6   10 4705    4 1190 2804 1733  640    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0    0    0    0    0    0    0    0    0    0    0    0    0
    0    0]


In [None]:
#train_sequences = tokenizer.texts_to_sequences(train_articles)
#train_padded = pad_sequences(train_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)
validation_sequences = tokenizer.texts_to_sequences(validation_articles)
validation_padded = pad_sequences(validation_sequences, maxlen=max_length, padding=padding_type, truncating=trunc_type)

print(len(validation_sequences))
print(validation_padded.shape)

18047
(18047, 100)


In [None]:
label_tokenizer = Tokenizer()
label_tokenizer.fit_on_texts(labels)
training_label_seq = np.array(label_tokenizer.texts_to_sequences(train_labels))
validation_label_seq = np.array(label_tokenizer.texts_to_sequences(validation_labels))
print(training_label_seq[0])
print(training_label_seq[1])
print(training_label_seq[2])
print(training_label_seq.shape)

print(validation_label_seq[0])
print(validation_label_seq[1])
print(validation_label_seq[2])
print(validation_label_seq.shape)

[11]
[11]
[11]
(72185, 1)
[1]
[1]
[2]
(18047, 1)


In [None]:
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

def decode_article(text):
    return ' '.join([reverse_word_index.get(i, '?') for i in text])
print(decode_article(train_padded[10]))
print('---')
print(train_articles[10])

bovine animals live other than cattle and buffalo purebred breeding animals ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
---
bovine animals; live, other than cattle and buffalo - purebred breeding animals


In [None]:
def load_model(paths=None):
  loaded_keras_model = tf.keras.models.load_model(paths)

  return loaded_keras_model


def save_model(models,paths = None):
  keras_model_path = paths
  models.save(keras_model_path)
  print("save model success")


In [None]:
model = tf.keras.Sequential([
    # Add an Embedding layer expecting input vocab of size 5000, and output embedding dimension of size 64 we set at the top
    tf.keras.layers.Embedding(vocab_size, embedding_dim),
    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(embedding_dim)),
#    tf.keras.layers.Bidirectional(tf.keras.layers.LSTM(32)),
    # use ReLU in place of tanh function since they are very good alternatives of each other.
    tf.keras.layers.Dense(embedding_dim, activation='relu'),
    # Add a Dense layer with 6 units and softmax activation.
    # When we have multiple outputs, softmax convert outputs layers into a probability distribution.
    tf.keras.layers.Dense(25, activation='softmax')
])
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, None, 64)          320000    
_________________________________________________________________
bidirectional (Bidirectional (None, 128)               66048     
_________________________________________________________________
dense (Dense)                (None, 64)                8256      
_________________________________________________________________
dense_1 (Dense)              (None, 25)                1625      
Total params: 395,929
Trainable params: 395,929
Non-trainable params: 0
_________________________________________________________________


## Train Model

โดยครั้งนี้ได้กำหนดให้ train 20 รอบ โดยแต่ละรอบระบบจะปรับปรุง parametor ต่าง ๆ เพื่อให้ model มีความแม่นยำขึ้น สังเกตุได้จากค่า accuracy ที่เพิ่มขึ้นเรื่อย ๆ และค่า loss ก็จะลดลงเรื่อย ๆ ตามจำนวนรอบในการ Train

In [None]:

model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
num_epochs = 20
history = model.fit(train_padded, training_label_seq, epochs=num_epochs, validation_data=(validation_padded, validation_label_seq), verbose=2)

Epoch 1/20
2256/2256 - 215s - loss: 1.0134 - accuracy: 0.7007 - val_loss: 1.4114 - val_accuracy: 0.5726
Epoch 2/20
2256/2256 - 220s - loss: 0.5562 - accuracy: 0.8322 - val_loss: 1.4005 - val_accuracy: 0.5774
Epoch 3/20
2256/2256 - 215s - loss: 0.4796 - accuracy: 0.8508 - val_loss: 1.4071 - val_accuracy: 0.5825
Epoch 4/20
2256/2256 - 214s - loss: 0.4314 - accuracy: 0.8628 - val_loss: 1.4019 - val_accuracy: 0.5880
Epoch 5/20
2256/2256 - 215s - loss: 0.3936 - accuracy: 0.8729 - val_loss: 1.4775 - val_accuracy: 0.5910
Epoch 6/20
2256/2256 - 215s - loss: 0.3627 - accuracy: 0.8823 - val_loss: 1.5500 - val_accuracy: 0.5849
Epoch 7/20
2256/2256 - 215s - loss: 0.3362 - accuracy: 0.8902 - val_loss: 1.5878 - val_accuracy: 0.5874
Epoch 8/20
2256/2256 - 215s - loss: 0.3126 - accuracy: 0.8969 - val_loss: 1.7501 - val_accuracy: 0.5824
Epoch 9/20
2256/2256 - 215s - loss: 0.2914 - accuracy: 0.9042 - val_loss: 1.8286 - val_accuracy: 0.5729
Epoch 10/20
2256/2256 - 215s - loss: 0.2716 - accuracy: 0.9097 -

เมื่อ train เรียบร้อย ผลลัพธ์คือได้ model ที่มีค่า accuracy 94.50% ใช้เวลาในการ train รอบละประมาณ 3 นาทีกว่า ๆ รวมก็ประมาณ 1 ชั่วโมงนิด ๆ เมื่อ Train เสร็จเราสามารถ save model ดังกล่าวเพื่อนำไปใช้ในการทำนาย หรือเก็บไว้เพื่อใช้ในการเรียนเพิ่มเติมในอนาคตได้  โดยจัดเก็บเป็นไฟล์ model_master.pkl เพียงไฟล์เดียว มีขนาดไม่เกิน 20 MB

## Save Model

In [None]:
 #save the model
 print("Save Model")

 joblib.dump(model, 'data/model/model_master.pkl', compress=1)
 print("Create Model.. success")

INFO:tensorflow:Assets written to: /content/data/assets
save model success
