In [78]:
import csv
import pandas as pd
import nltk
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import preprocessing

from pythainlp.tokenize import Tokenizer
from pythainlp import word_tokenize
from pythainlp.corpus import thai_stopwords
from pythainlp.tokenize import dict_trie

from nltk.corpus import words
from stop_words import get_stop_words

# Load data

In [127]:
file_name = './Data/attributes_category1.txt'
with open(file_name, 'r', encoding='utf-8') as f:
    x = f.read().splitlines()

# Tokenize

In [13]:
# download stopwords of TH and EN
nltk.download('words')
th_stop = tuple(thai_stopwords())
en_stop = tuple(get_stop_words('en'))

# path of custom dictionary for word tokenize
PATH_TO_CUSTOM_DICT = './Data/custom_dict.txt'

# split text to words 
def split_word(text):
    
    # Split text to words
    _tokenizer = Tokenizer(custom_dict=PATH_TO_CUSTOM_DICT, engine='newmm')
    words = _tokenizer.word_tokenize(text)

    # Remove stop words in TH and EN
    words = [i for i in words if not i in th_stop and not i in en_stop]
    
    # Delete whitespace
    words = [i for i in words if not ' ' in i]

    return words

[nltk_data] Downloading package words to
[nltk_data]     C:\Users\super\AppData\Roaming\nltk_data...
[nltk_data]   Package words is already up-to-date!


In [14]:
token = {}
for key,value in x_train.items():
    tmp = [split_word(txt) for txt in value if not txt == '-']
    token[key] = tmp

In [15]:
token

{'category_0_0': [['โทรศัพท์มือถือและแท็บเล็ต'],
  ['smartphones'],
  ['samsung', 'galaxy', 'm', '30', 's', '4', '64', 'gb', 'โทรศัพท์มือถือ'],
  ['แบต',
   'อึดอยู่นาน',
   'สนุกได้ทั้งวัน',
   'กับความจุ',
   '6000',
   'mah',
   'และสามารถชาร์จ',
   'แบต',
   'fast',
   'charging'],
  ['ระบบ',
   'กล้องหลัง',
   '3',
   'ตัว',
   'ที่มีกล้องชัดสูงสุดถึง',
   '48',
   'mp',
   'มาพร้อมกับเลนส์มุมกว้างพิเศษ',
   'ultra',
   'wide'],
  ['exynos',
   '9611',
   'สเป็กแรงขึ้นเล่นเกมส์ได้ไม่มีสะดุด',
   'ram',
   '4',
   'gb',
   'rom',
   '64',
   'gb'],
  ['หน้าจอแสดงผล', 'super', 'amoled', 'infinity', 'u', 'ขนาด', '6.4', 'นิ้ว'],
  ['brand', 'ซัมซุง'],
  ['sku', '480942616', 'th', '870640886'],
  ['ประเภทของการรับประกัน', 'มีการรับประกัน'],
  ['model', 'galaxy', 'm', '30', 's', '4', '64', 'gb'],
  ['ระยะเวลาการรับประกัน', '1', 'ปี'],
  ['793']],
 'category_0_1': [['โทรศัพท์มือถือและแท็บเล็ต'],
  ['smartphones'],
  ['โทรศัพท์มือถือ',
   'samsung',
   'galaxy',
   '50',
   's',
   'ram',

# Create BOW and train-test split

In [133]:
tokens_list = []
for i,v in enumerate(x):
    tmp = [','.join(tkn) for tkn in v]
    tokens_list.append(tmp)

In [137]:
tokens_list

['เ,ล,น,ส,์']

In [None]:
for i,v in token.items():
    tokens_list_j = [','.join(tkn) for tkn in tokens_list]

In [135]:
cvec = CountVectorizer(analyzer=lambda x:x.split(','))
c_feat = cvec.fit(x)

In [136]:
# bag of words
cvec.vocabulary_

{'โทรศัพท์มือถือและแท็บเล็ต': 44,
 'สมาร์ทโฟน': 35,
 'แบรนด์': 41,
 'รุ่น': 33,
 'กล้องหน้า': 12,
 'กล้องหลัง': 13,
 'โมเดล': 45,
 'ระบบ': 30,
 'ขนาด': 15,
 'ขนาดหน้าจอ': 16,
 'หน่วยประมวลผล': 36,
 'แบตเตอรี่': 40,
 'น้ำหนัก': 26,
 'sku': 4,
 'ระยะเวลาการรับประกัน': 32,
 'ระบบปฏิบัติการ': 31,
 'ความจุแบตเตอรี่': 18,
 'จอแสดงผล': 25,
 'แรม': 42,
 'รอม': 29,
 'ความจุ': 17,
 'มาตรฐานการกันน้ำและกันฝุ่น': 27,
 'รองรับ': 28,
 'แท็บเล็ต': 39,
 'gpu': 2,
 'cpu': 1,
 'ความละเอียด': 19,
 'หน้าจอ': 37,
 'คอมพิวเตอร์': 22,
 'แล็ปท็อป': 43,
 'จอ': 23,
 'ความสว่าง': 20,
 'จอภาพ': 24,
 'graphics': 3,
 'กล้องถ่ายภาพและโดรน': 10,
 'กล้อง': 8,
 'สนับสนุน': 34,
 'ความเร็วถ่ายภาพต่อเนื่อง': 21,
 'กล้องคอมแพค': 9,
 'chipset': 0,
 'wireless': 7,
 'sound': 5,
 'usb': 6,
 'กล้องอินสแตนท์': 14,
 'กล้องวิดีโอ': 11,
 'เลนส์': 38}

In [98]:
# จะแบ่ง train test split ข้อมูล แล้วเอาไป fit กับ bag of words ที่สร้างไว้ เพื่อแปลงเป็นตัวเลขก่อนเอาไปเข้าโมเดล
# https://realpython.com/python-keras-text-classification/

des_train, des_test, y_train, y_test = train_test_split(pd_des, pd_label, test_size=0.1, random_state=47)

In [99]:
X_train = c_feat.transform(des_train)
X_test  = c_feat.transform(des_test)

In [100]:
le = preprocessing.LabelEncoder()
le.fit(y_train)
Y_train = le.transform(y_train)
Y_test = le.transform(y_test)

In [121]:
list(le.classes_)

['-', 'attr', 'cat', 'name', 'o', 'sku', 'sub']

# Logistic regression model

In [115]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression()
classifier.fit(X_train, Y_train)
score = classifier.score(X_test, Y_test)

print("Accuracy:", score)

Accuracy: 0.5517241379310345


In [119]:
testtest = x['category_0_40'].values
a = c_feat.transform(testtest)

In [120]:
classifier.predict(a)

array([2, 6, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [15]:
# Save to csv file (label)
#pd.DataFrame.from_dict(label,orient='index').transpose().to_csv('./Data/536-585-label.csv')

In [29]:
# Save to csv file (word)
#pd.DataFrame.from_dict(groupProduct,orient='index').transpose().to_csv('./Data/536-585-processed.csv')