# Classify Category (Decision Tree)
##### Mr.Jakkrit Sonsanit

***

### Import Library 

In [2]:
import pandas as pd
import numpy as np
from pythainlp.corpus.common import thai_words
from pythainlp.tokenize import dict_trie, word_tokenize
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

### Import data

In [53]:
df = pd.read_csv("Expenses.csv")
df.tail()

Unnamed: 0,date,text,money,cate
71,13/10/2019,เสื้อ,580.0,Shopping
72,13/10/2019,ราเมง,115.0,Food
73,13/10/2019,กระเป๋าอิเกีย,89.0,Shopping
74,13/10/2019,ค่าแท๊กซี่,106.0,Transportation
75,14/10/2019,กระเพรา,50.0,Food


### Create Corpus

In [73]:
custom_dict = set(thai_words())
word = ['ราเมง', 'อิเกีย', 'คาปูชิโน่', 'น้ำมัน','หอยลาย', 'ปุ้มปุ้ย']
for i in word:
    custom_dict.add(i)
trie = dict_trie(dict_source=custom_dict)

corpus = []
for i in df.text:
    for j in word_tokenize(i, engine='dict', custom_dict=trie):
        if j not in corpus:
            corpus.append(j)
corpus
print(corpus)

['นม', 'ช็อคโกแลต', 'ข้าว', 'เที่ยง', 'น้ำ', 'กระเจี๊ยบ', 'ชา', 'ข้าวเย็น', 'ค่า', 'อินเตอร์เน็ต', 'ค่าโทรศัพท์', 'หมา', 'ล่า', 'ไอติม', 'ตัดผม', 'ซาลาเปา', 'ไส้กรอก', 'ดอย', 'คำ', 'ใบมีดโกน', 'ห้อง', 'Netflix', 'เงินเก็บ', 'ราเมง', 'นมเปรี้ยว', 'ขนมปัง', 'ขนม', 'arl', 'mrt', 'ซื้อ', 'กางเกง', 'ถั่ว', 'มาม่า', 'อิชิตัน', 'คาปูชิโน่', 'viu', 'บัวลอย', 'ค่ารถ', 'โกโก้', 'หนัง', 'เติม', 'เกม', 'ดู', 'โอ้', 'เด้ง', 'ป็อป', 'คอน', 'เหล้า', 'กระ', 'เพรา', 'หอมมะลิ', 'หอยลาย', 'ปุ้มปุ้ย', 'พริก', 'แกง', 'หมู', 'น้ำเปล่า', 'กระทะ', 'เสื้อ', 'กระเป๋า', 'อิเกีย', 'แท๊กซี่']


### Create Bag of Word

In [74]:
BOW = [list() for i in range(len(df.text))]
l = 0
count = 1
for i in df.text:
    tmp = word_tokenize(i, engine='dict', custom_dict=trie)
    for j in corpus:

        if j in tmp:

            BOW[l].append(tmp.count(j))
            tmp.remove(j)
            
        else:
            BOW[l].append(0)
        
    if len(tmp) != 0:
        BOW[l].append(len(tmp))
    elif len(tmp) == 0:
        BOW[l].append(0)
    l += 1

### Train Decision Tree model

In [75]:
ytarget = df.cate
xtrain = BOW

dtree = DecisionTreeClassifier()
dtree.fit(X=xtrain,y=ytarget)
predictiontree = dtree.predict(xtrain)

### Create Bag of Word form Test data

In [76]:
txt = ['ดูหนัง']
BOW_t = [list() for i in range(len(txt))]
l = 0
for i in txt:
    tmp = word_tokenize(i, engine='dict', custom_dict=trie)
    for j in corpus:

        if j in tmp:

            BOW_t[l].append(tmp.count(j))
            tmp.remove(j)
        else:
            BOW_t[l].append(0)
        
    if len(tmp) != 0:
        BOW_t[l].append(len(tmp))
    elif len(tmp) == 0:
        BOW_t[l].append(0)
    l += 1

### Map Bag of word with corpus

In [78]:
# corpus_t = corpus.append('Other')
# ch = pd.DataFrame({
#     'train':corpus,
#     'target':BOW_t[0]
# })
# ch

### Predict Category 

In [60]:
predictiontree = dtree.predict(BOW_t)
predictiontree

array(['Entertainment'], dtype=object)