In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import pythainlp
import nltk
from keras import *
from keras.utils import to_categorical
from pythainlp import word_tokenize
from pythainlp.corpus import thai_stopwords
from pythainlp.corpus import wordnet
from nltk.stem.porter import PorterStemmer
from nltk.corpus import words
from stop_words import get_stop_words
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import confusion_matrix, classification_report
from pythainlp.corpus.common import thai_words
from pythainlp.tokenize import dict_trie

from sklearn.model_selection import train_test_split

Using TensorFlow backend.


In [2]:
# import data
df = pd.read_csv('../Description_classification/Product_description.csv')
df.describe()

Unnamed: 0,Category
count,61.0
mean,6.47541
std,4.064507
min,1.0
25%,3.0
50%,6.0
75%,10.0
max,13.0


In [3]:
df.head()

Unnamed: 0,Product,Description,Category
0,INOVO,INOVO I 812 V1 (Ram:3GB/Rom:32GB) รับประกัน 1 ...,1
1,Pinno,"ขนาดหน้าจอ 2.4 นิ้ว,ระบบ Dual SIM (2 ซิม),รองร...",1
2,R9,มือถือจอหยดน้ำหน้าจอใหญ่สุดและสเปคแท้คุ้มค่าที...,1
3,J5pro (OEM),สินค้าลดล้างสต๊อกประกัน 7 วันเท่านั้น ไม่รองรั...,1
4,J9 Plus,J9 Plusมือถือ OEM ตอบโจทย์ทางเลือกสำหรับงบจำกั...,1


In [23]:
x = df['Description'].values
y = df['Category'].values

In [24]:
y.shape

(61,)

In [6]:
x[0]

'INOVO I 812 V1 (Ram:3GB/Rom:32GB) รับประกัน 1 ปี ,จอ 6.0" QHD  Quad-Core Processor Ram 3 GB/Rom 32 GB แบต 2500 mAh Battery ,5.0 MP+8.0MP Pixel , Face uniock, Android 8'

In [7]:
# custom dictionary
new_words = {"ขนาดหน้าจอ", "อะแดปเตอร์แปลงไฟ", "กล้องหน้า","วีดิโอคอล"}
words = new_words.union(thai_words())

custom_dictionary = dict_trie(words)

In [8]:
import re
import string

# clean the text
def clean_msg(msg): 
    
    
    # ลบ text ที่อยู่ในวงเล็บ <> ทั้งหมด
    msg = re.sub(r'<.*?>','', msg)
    
    # ลบ hashtag
    msg = re.sub(r'#','',msg)
    
    # ลบ เครื่องหมายคำพูด (punctuation)
    for c in string.punctuation:
        msg = re.sub(r'\{}'.format(c),'',msg)
    
    # ลบ separator เช่น \n \t
    msg = ' '.join(msg.split())
    
    return msg

# split to words from text
def split_word(text):
    words = word_tokenize(text,engine='newmm',custom_dict=custom_dictionary)

    # Remove stop words TH and EN
    words = [i for i in words if not i in th_stop and not i in en_stop]

    # รากศัพท์
    # EN
    words = [p_stemmer.stem(i) for i in words]
    
    # TH
    tokens_temp=[]
    for i in words:
        w_syn = wordnet.synsets(i)
        if (len(w_syn)>0) and (len(w_syn[0].lemma_names('tha'))>0) and (len(w_syn[0].lemma_names('tha'))!=3):
            if(w_syn[0].lemma_names('tha')[0]=='แบต'):
                tokens_temp.append(w_syn[0].lemma_names('tha')[1])
            else:
                tokens_temp.append(w_syn[0].lemma_names('tha')[0])
        else:
            tokens_temp.append(i)
    
    words = tokens_temp
    
    # ลบช่องว่าง
    words = [i for i in words if not ' ' in i]

    return words

In [9]:
clean_des = [clean_msg(text) for text in x]

In [10]:
# download stopwords of TH and EN
nltk.download('words')
th_stop = tuple(thai_stopwords())
en_stop = tuple(get_stop_words('en'))
p_stemmer = PorterStemmer()

[nltk_data] Downloading package words to
[nltk_data]     C:\Users\super\AppData\Roaming\nltk_data...
[nltk_data]   Package words is already up-to-date!


In [11]:
word_list = [split_word(txt) for txt in clean_des]
print(word_list)

[['inovo', 'I', '812', 'V', '1', 'ram', '3', 'gbrom', '32', 'GB', 'รับประกัน', '1', 'ปี', 'จอ', '60', 'qhd', 'quadcor', 'processor', 'ram', '3', 'gbrom', '32', 'GB', 'แบตเตอรี่', '2500', 'mah', 'batteri', '50', 'MP', '80', 'MP', 'pixel', 'face', 'uniock', 'android', '8'], ['ขนาดหน้าจอ', '24', 'นิ้ว', 'ระบบ', 'dual', 'sim', '2', 'ซิม', 'ค้ำ', 'SD', 'card', '8', 'GB', 'ปุ่มกด', 'สะใจ', 'กด', 'เห็นชัด', 'ช่อง', 'สอด', 'หูฟัง', 'ขนาด', '35', 'mm', 'ฟัง', 'ค์ชั่น', 'เครื่อง', 'MP', '3', 'MP', '4', 'FM', 'กล้อง', 'อัดเทป', 'นาฬิกาปลุก', 'ไฟฉาย', 'ภาษา', 'ค้ำ', 'english', 'russian', 'french', 'spanish', 'indonesiamelayu', 'thai', 'ความถี่', 'dual', 'band', 'gsm', '900', '1800', 'mhz'], ['มือถือ', 'จอ', 'หยดน้ำ', 'หน้าจอ', 'สเปค', 'คุ้มค่า', 'ตลาด', 'ตอนนี้', 'หน้า', 'จอแสดงผล', '626', 'นิ้ว', 'ระบบปฏิบัติการ', 'android', 'ของแท้', 'ดี', 'สำหรับ', 'ธุรกรรม', 'การเงิน', 'ปลอดภัย', 'No', 'root', 'googl', 'play', 'protect', 'ป้องกัน', 'แอ', 'ป', 'ทำอันตราย', 'ซอ', 'ฟแวร์', 'อัพเดท', 'ลอยแพ', 'ฝา'




In [12]:
tokens_list_j = [','.join(tkn) for tkn in word_list]
cvec = CountVectorizer(analyzer=lambda x:x.split(','))
c_feat = cvec.fit_transform(tokens_list_j)

In [13]:
cvec.vocabulary_

{'inovo': 530,
 'I': 285,
 '812': 223,
 'V': 315,
 '1': 11,
 'ram': 687,
 '3': 106,
 'gbrom': 478,
 '32': 114,
 'GB': 279,
 'รับประกัน': 1411,
 'ปี': 1263,
 'จอ': 998,
 '60': 194,
 'qhd': 682,
 'quadcor': 684,
 'processor': 671,
 'แบตเตอรี่': 1844,
 '2500': 90,
 'mah': 578,
 'batteri': 356,
 '50': 161,
 'MP': 293,
 '80': 219,
 'pixel': 659,
 'face': 448,
 'uniock': 783,
 'android': 337,
 '8': 218,
 'ขนาดหน้าจอ': 905,
 '24': 81,
 'นิ้ว': 1198,
 'ระบบ': 1399,
 'dual': 428,
 'sim': 725,
 '2': 64,
 'ซิม': 1055,
 'ค้ำ': 991,
 'SD': 306,
 'card': 378,
 'ปุ่มกด': 1265,
 'สะใจ': 1524,
 'กด': 836,
 'เห็นชัด': 1807,
 'ช่อง': 1041,
 'สอด': 1515,
 'หูฟัง': 1613,
 'ขนาด': 904,
 '35': 124,
 'mm': 595,
 'ฟัง': 1326,
 'ค์ชั่น': 992,
 'เครื่อง': 1690,
 '4': 135,
 'FM': 277,
 'กล้อง': 861,
 'อัดเทป': 1643,
 'นาฬิกาปลุก': 1193,
 'ไฟฉาย': 1937,
 'ภาษา': 1339,
 'english': 439,
 'russian': 702,
 'french': 469,
 'spanish': 740,
 'indonesiamelayu': 527,
 'thai': 767,
 'ความถี่': 948,
 'band': 355,
 'gsm': 498

In [14]:
len(cvec.vocabulary_)

1971

In [37]:
for a in c_feat: print(a)

  (0, 530)	1
  (0, 285)	1
  (0, 223)	1
  (0, 315)	1
  (0, 11)	2
  (0, 687)	2
  (0, 106)	2
  (0, 478)	2
  (0, 114)	2
  (0, 279)	2
  (0, 1411)	1
  (0, 1263)	1
  (0, 998)	1
  (0, 194)	1
  (0, 682)	1
  (0, 684)	1
  (0, 671)	1
  (0, 1844)	1
  (0, 90)	1
  (0, 578)	1
  (0, 356)	1
  (0, 161)	1
  (0, 293)	2
  (0, 219)	1
  (0, 659)	1
  (0, 448)	1
  (0, 783)	1
  (0, 337)	1
  (0, 218)	1
  (0, 106)	1
  (0, 279)	1
  (0, 293)	2
  (0, 218)	1
  (0, 905)	1
  (0, 81)	1
  (0, 1198)	1
  (0, 1399)	1
  (0, 428)	2
  (0, 725)	1
  (0, 64)	1
  (0, 1055)	1
  (0, 991)	2
  (0, 306)	1
  (0, 378)	1
  (0, 1265)	1
  (0, 1524)	1
  (0, 836)	1
  (0, 1807)	1
  (0, 1041)	1
  (0, 1515)	1
  (0, 1613)	1
  (0, 904)	1
  (0, 124)	1
  (0, 595)	1
  (0, 1326)	1
  (0, 992)	1
  (0, 1690)	1
  (0, 135)	1
  (0, 277)	1
  (0, 861)	1
  (0, 1643)	1
  (0, 1193)	1
  (0, 1937)	1
  (0, 1339)	1
  (0, 439)	1
  (0, 702)	1
  (0, 469)	1
  (0, 740)	1
  (0, 527)	1
  (0, 767)	1
  (0, 948)	1
  (0, 355)	1
  (0, 498)	1
  (0, 236)	1
  (0, 58)	1
  (0, 590)	1

  (0, 1569)	1
  (0, 687)	1
  (0, 106)	4
  (0, 279)	2
  (0, 1411)	1
  (0, 218)	1
  (0, 905)	1
  (0, 64)	3
  (0, 306)	1
  (0, 378)	2
  (0, 1690)	2
  (0, 135)	1
  (0, 1581)	1
  (0, 1230)	1
  (0, 401)	2
  (0, 398)	2
  (0, 202)	1
  (0, 1105)	1
  (0, 1544)	2
  (0, 291)	2
  (0, 816)	1
  (0, 359)	1
  (0, 577)	1
  (0, 1721)	2
  (0, 1846)	1
  (0, 309)	1
  :	:
  (0, 789)	1
  (0, 423)	1
  (0, 547)	1
  (0, 574)	1
  (0, 730)	1
  (0, 690)	1
  (0, 587)	1
  (0, 543)	1
  (0, 791)	1
  (0, 710)	1
  (0, 502)	1
  (0, 1421)	1
  (0, 373)	1
  (0, 429)	1
  (0, 1464)	1
  (0, 517)	1
  (0, 486)	1
  (0, 826)	1
  (0, 515)	1
  (0, 187)	1
  (0, 16)	1
  (0, 608)	1
  (0, 203)	3
  (0, 499)	1
  (0, 670)	1
  (0, 687)	1
  (0, 279)	4
  (0, 1263)	1
  (0, 218)	1
  (0, 905)	1
  (0, 64)	2
  (0, 135)	1
  (0, 590)	1
  (0, 202)	1
  (0, 1544)	1
  (0, 210)	1
  (0, 291)	1
  (0, 816)	1
  (0, 359)	1
  (0, 1846)	1
  (0, 309)	1
  (0, 1024)	2
  (0, 881)	3
  (0, 1404)	1
  (0, 860)	1
  (0, 12)	3
  (0, 1423)	1
  (0, 473)	1
  (0, 282)	1
  (0, 

  (0, 497)	1
  (0, 11)	15
  (0, 106)	1
  (0, 1844)	3
  (0, 356)	1
  (0, 219)	1
  (0, 218)	1
  (0, 81)	3
  (0, 64)	1
  (0, 991)	2
  (0, 904)	1
  (0, 135)	4
  (0, 861)	7
  (0, 1581)	2
  (0, 1580)	2
  (0, 1542)	1
  (0, 1858)	2
  (0, 1105)	3
  (0, 1544)	1
  (0, 1236)	1
  (0, 816)	13
  (0, 927)	4
  (0, 1846)	1
  (0, 309)	1
  (0, 1024)	2
  (0, 881)	1
  :	:
  (0, 1655)	1
  (0, 831)	2
  (0, 1046)	1
  (0, 1208)	1
  (0, 1235)	1
  (0, 559)	2
  (0, 268)	1
  (0, 618)	1
  (0, 960)	1
  (0, 1217)	1
  (0, 1125)	1
  (0, 986)	1
  (0, 1096)	1
  (0, 1843)	1
  (0, 1943)	1
  (0, 803)	1
  (0, 179)	1
  (0, 259)	1
  (0, 270)	1
  (0, 72)	1
  (0, 649)	7
  (0, 406)	1
  (0, 314)	1
  (0, 456)	1
  (0, 809)	1
  (0, 106)	2
  (0, 1411)	2
  (0, 1263)	1
  (0, 1399)	1
  (0, 64)	1
  (0, 836)	1
  (0, 861)	1
  (0, 1366)	1
  (0, 913)	2
  (0, 1105)	3
  (0, 1544)	6
  (0, 1210)	1
  (0, 210)	3
  (0, 1315)	1
  (0, 193)	1
  (0, 1721)	2
  (0, 927)	2
  (0, 1846)	1
  (0, 309)	1
  (0, 1024)	2
  (0, 881)	3
  (0, 1404)	1
  (0, 1776)	1
  (

  (0, 1951)	1
  (0, 11)	2
  (0, 106)	1
  (0, 1263)	1
  (0, 64)	1
  (0, 904)	1
  (0, 1366)	1
  (0, 1075)	1
  (0, 1132)	1
  (0, 1544)	2
  (0, 1914)	2
  (0, 927)	1
  (0, 1846)	1
  (0, 309)	1
  (0, 1024)	1
  (0, 881)	3
  (0, 1404)	1
  (0, 860)	1
  (0, 1550)	3
  (0, 1518)	1
  (0, 1423)	6
  (0, 1416)	1
  (0, 1663)	1
  (0, 1942)	1
  (0, 1800)	1
  (0, 1620)	1
  :	:
  (0, 994)	1
  (0, 1036)	1
  (0, 1631)	1
  (0, 1494)	1
  (0, 1795)	1
  (0, 1367)	1
  (0, 286)	1
  (0, 1686)	1
  (0, 1784)	1
  (0, 1151)	1
  (0, 1089)	2
  (0, 1050)	1
  (0, 1826)	1
  (0, 1207)	1
  (0, 1490)	1
  (0, 1697)	1
  (0, 1376)	1
  (0, 1002)	1
  (0, 1625)	1
  (0, 1567)	1
  (0, 1523)	1
  (0, 1444)	1
  (0, 640)	1
  (0, 105)	1
  (0, 167)	1
  (0, 1515)	1
  (0, 1542)	1
  (0, 1511)	2
  (0, 1914)	2
  (0, 1024)	1
  (0, 1368)	1
  (0, 316)	1
  (0, 1936)	2
  (0, 1423)	2
  (0, 1157)	1
  (0, 1504)	1
  (0, 1852)	1
  (0, 1633)	1
  (0, 980)	1
  (0, 941)	2
  (0, 1725)	1
  (0, 1626)	1
  (0, 1623)	2
  (0, 886)	2
  (0, 749)	3
  (0, 932)	1
  (0, 1

  (0, 1051)	1
  (0, 11)	1
  (0, 904)	1
  (0, 572)	1
  (0, 1105)	1
  (0, 1544)	4
  (0, 816)	2
  (0, 927)	1
  (0, 1944)	1
  (0, 1550)	1
  (0, 889)	1
  (0, 1961)	1
  (0, 1433)	3
  (0, 1963)	1
  (0, 1157)	2
  (0, 977)	1
  (0, 1517)	1
  (0, 1529)	2
  (0, 1187)	1
  (0, 1931)	1
  (0, 1745)	1
  (0, 1142)	2
  (0, 1799)	1
  (0, 980)	1
  (0, 1481)	3
  (0, 1875)	1
  :	:
  (0, 1742)	1
  (0, 1676)	1
  (0, 1932)	1
  (0, 1535)	1
  (0, 1806)	1
  (0, 1847)	1
  (0, 1886)	2
  (0, 1615)	2
  (0, 1091)	1
  (0, 1512)	2
  (0, 1101)	2
  (0, 387)	2
  (0, 1290)	2
  (0, 959)	1
  (0, 1418)	2
  (0, 1821)	2
  (0, 616)	1
  (0, 1863)	1
  (0, 1148)	1
  (0, 1830)	1
  (0, 328)	1
  (0, 827)	1
  (0, 1687)	1
  (0, 1274)	1
  (0, 1410)	1
  (0, 296)	1
  (0, 160)	1
  (0, 1236)	1
  (0, 1453)	2
  (0, 1709)	1
  (0, 1846)	1
  (0, 309)	1
  (0, 1024)	1
  (0, 881)	1
  (0, 1944)	1
  (0, 860)	1
  (0, 1116)	1
  (0, 368)	1
  (0, 1423)	1
  (0, 1157)	1
  (0, 906)	2
  (0, 1633)	1
  (0, 1353)	1
  (0, 1674)	1
  (0, 980)	1
  (0, 1003)	1
  (0, 72

In [15]:
c_feat[:,:10].todense()

matrix([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],


In [16]:
tvec = TfidfVectorizer(analyzer=lambda x:x.split(','))
t_feat = tvec.fit_transform(tokens_list_j)

In [17]:
len(tvec.idf_)

1971

In [38]:
for a in t_feat: print(a)

  (0, 218)	0.10446977107130428
  (0, 337)	0.14487934053609333
  (0, 783)	0.2019326820359821
  (0, 448)	0.1834669867201567
  (0, 659)	0.2019326820359821
  (0, 219)	0.15189967207509755
  (0, 293)	0.26686795351854437
  (0, 161)	0.1602029619265291
  (0, 356)	0.14487934053609333
  (0, 578)	0.12429503028245138
  (0, 90)	0.17036536739092295
  (0, 1844)	0.10446977107130428
  (0, 671)	0.1834669867201567
  (0, 684)	0.1602029619265291
  (0, 682)	0.1834669867201567
  (0, 194)	0.1602029619265291
  (0, 998)	0.13879805274586376
  (0, 1263)	0.09484633057520878
  (0, 1411)	0.12863564728146995
  (0, 279)	0.19880866454952764
  (0, 114)	0.3037993441501951
  (0, 478)	0.3669339734403134
  (0, 106)	0.16348942249195
  (0, 687)	0.22662405178206832
  (0, 11)	0.14852404064313365
  (0, 315)	0.13879805274586376
  (0, 223)	0.2019326820359821
  (0, 285)	0.1602029619265291
  (0, 530)	0.2019326820359821
  (0, 590)	0.13046683400226106
  (0, 58)	0.14941269882570088
  (0, 236)	0.16445087774907802
  (0, 498)	0.16445087774

  (0, 687)	0.10383347138390611
  (0, 985)	0.12520036612968719
  (0, 1809)	0.17450414690530863
  (0, 1477)	0.15854664871525698
  (0, 56)	0.15854664871525698
  (0, 1640)	0.15854664871525698
  (0, 269)	0.34900829381061726
  (0, 1964)	0.34900829381061726
  (0, 787)	0.16776706382990828
  (0, 1534)	0.10083743859245968
  (0, 570)	0.29444924713538984
  (0, 1609)	0.17450414690530863
  (0, 432)	0.17450414690530863
  (0, 538)	0.17450414690530863
  (0, 860)	0.06075058051236414
  (0, 584)	0.15854664871525698
  (0, 23)	0.13126712537764326
  (0, 541)	0.34900829381061726
  (0, 598)	0.17450414690530863
  (0, 225)	0.17450414690530863
  (0, 149)	0.17450414690530863
  (0, 728)	0.14722462356769492
  (0, 1877)	0.15854664871525698
  (0, 1404)	0.0751014869374408
  (0, 881)	0.1890003268073733
  (0, 1024)	0.058622709165832905
  (0, 309)	0.06663555637460379
  (0, 1846)	0.0630001089357911
  (0, 669)	0.15854664871525698
  (0, 34)	0.12520036612968719
  (0, 1544)	0.05285297799219994
  (0, 904)	0.06926026431265582
  

  (0, 285)	0.10202337430633078
  (0, 1569)	0.08627644981334517
  (0, 1768)	0.08627644981334517
  (0, 848)	0.08180475739556559
  (0, 568)	0.10874976778108224
  (0, 412)	0.10874976778108224
  (0, 188)	0.32624930334324675
  (0, 607)	0.10874976778108224
  (0, 258)	0.10874976778108224
  (0, 178)	0.10874976778108224
  (0, 472)	0.10874976778108224
  (0, 1526)	0.09880516615807997
  (0, 393)	0.09880516615807997
  (0, 1037)	0.08180475739556559
  (0, 1504)	0.09174935901856786
  (0, 1743)	0.10874976778108224
  (0, 1942)	0.07802399532716064
  (0, 66)	0.09174935901856786
  (0, 1325)	0.08180475739556559
  (0, 249)	0.21749953556216448
  (0, 977)	0.07186015577256333
  (0, 1243)	0.10874976778108224
  (0, 1157)	0.05933143942782853
  (0, 1025)	0.07802399532716064
  (0, 1963)	0.08180475739556559
  (0, 363)	0.10874976778108224
  :	:
  (0, 1779)	0.08627644981334517
  (0, 1034)	0.0692760410508308
  (0, 1404)	0.04680272308309373
  (0, 881)	0.11778368603471409
  (0, 1024)	0.07306652731801995
  (0, 309)	0.041526

  (0, 11)	0.10866795387304924
  (0, 326)	0.25415560907284496
  (0, 312)	0.25415560907284496
  (0, 255)	0.25415560907284496
  (0, 176)	0.25415560907284496
  (0, 715)	0.2144244967064993
  (0, 477)	0.23091439822659413
  (0, 332)	0.2144244967064993
  (0, 1240)	0.14686413519283845
  (0, 1577)	0.15145217349390286
  (0, 500)	0.2144244967064993
  (0, 1423)	0.09009460153416174
  (0, 368)	0.17469338434015366
  (0, 300)	0.20163393539464594
  (0, 810)	0.16190282302830028
  (0, 787)	0.12217171066195463
  (0, 860)	0.08847985028130644
  (0, 1404)	0.10938114935010126
  (0, 881)	0.2752684909015959
  (0, 1024)	0.17076144742425323
  (0, 309)	0.09705099114627468
  (0, 1846)	0.0917561636338653
  (0, 1721)	0.15643965507542315
  (0, 215)	0.23091439822659413
  (0, 1544)	0.07697743034273187
  (0, 398)	0.15145217349390286
  (0, 296)	0.14686413519283845
  (0, 135)	0.10938114935010126
  (0, 218)	0.13148727600021093
  (0, 684)	0.20163393539464594
  (0, 279)	0.1251118360784723
  (0, 687)	0.14261627521236075
  (0, 1

  (0, 1198)	0.02833310211706373
  (0, 1965)	0.024898209465792145
  (0, 1772)	0.027404179385089926
  (0, 963)	0.024898209465792145
  (0, 1113)	0.027404179385089926
  (0, 1638)	0.027404179385089926
  (0, 104)	0.027404179385089926
  (0, 434)	0.027404179385089926
  (0, 241)	0.027404179385089926
  (0, 737)	0.027404179385089926
  (0, 1551)	0.04979641893158429
  (0, 614)	0.027404179385089926
  (0, 778)	0.027404179385089926
  (0, 505)	0.019661500046521296
  (0, 920)	0.027404179385089926
  (0, 656)	0.027404179385089926
  (0, 1463)	0.027404179385089926
  (0, 369)	0.027404179385089926
  (0, 299)	0.027404179385089926
  (0, 555)	0.027404179385089926
  (0, 1068)	0.024898209465792145
  (0, 633)	0.027404179385089926
  (0, 1327)	0.027404179385089926
  (0, 1905)	0.027404179385089926
  (0, 1506)	0.021741060745556016
  (0, 1363)	0.027404179385089926
  :	:
  (0, 1132)	0.021741060745556016
  (0, 1646)	0.04348212149111203
  (0, 1230)	0.019661500046521296
  (0, 1268)	0.04122845118593101
  (0, 1580)	0.01810825

  (0, 11)	0.3618012237442374
  (0, 1306)	0.09355241077431725
  (0, 909)	0.09355241077431725
  (0, 1060)	0.09355241077431725
  (0, 1134)	0.09355241077431725
  (0, 1094)	0.09355241077431725
  (0, 1446)	0.08499752854325938
  (0, 1760)	0.09355241077431725
  (0, 1276)	0.08499752854325938
  (0, 1264)	0.1578554860082838
  (0, 1225)	0.09355241077431725
  (0, 932)	0.0789277430041419
  (0, 956)	0.08499752854325938
  (0, 214)	0.09355241077431725
  (0, 1220)	0.09355241077431725
  (0, 112)	0.09355241077431725
  (0, 140)	0.09355241077431725
  (0, 69)	0.09355241077431725
  (0, 1177)	0.09355241077431725
  (0, 1007)	0.09355241077431725
  (0, 466)	0.09355241077431725
  (0, 1485)	0.08499752854325938
  (0, 220)	0.09355241077431725
  (0, 1405)	0.16999505708651877
  (0, 1737)	0.2806572323229518
  (0, 322)	0.0789277430041419
  :	:
  (0, 193)	0.052495777726258255
  (0, 1328)	0.13424089099286723
  (0, 1740)	0.07037286077308402
  (0, 1462)	0.06712044549643362
  (0, 1313)	0.05959498380035337
  (0, 816)	0.0471933

  (0, 315)	0.04187526089466066
  (0, 123)	0.13797187360247637
  (0, 76)	0.13797187360247637
  (0, 531)	0.13797187360247637
  (0, 409)	0.13797187360247637
  (0, 729)	0.13797187360247637
  (0, 414)	0.12535506212644734
  (0, 264)	0.12535506212644734
  (0, 1359)	0.12535506212644734
  (0, 74)	0.12535506212644734
  (0, 506)	0.12535506212644734
  (0, 815)	0.12535506212644734
  (0, 1730)	0.11640329192335212
  (0, 1883)	0.12535506212644734
  (0, 814)	0.12535506212644734
  (0, 691)	0.12535506212644734
  (0, 311)	0.2507101242528947
  (0, 505)	0.19797958268581942
  (0, 1506)	0.10945975951396919
  (0, 1009)	0.23280658384670425
  (0, 1167)	0.19797958268581942
  (0, 265)	0.12535506212644734
  (0, 1532)	0.10945975951396919
  (0, 216)	0.10945975951396919
  (0, 37)	0.10945975951396919
  (0, 562)	0.32837927854190757
  :	:
  (0, 738)	0.12535506212644734
  (0, 282)	0.06960108729216984
  (0, 1423)	0.04890909557527828
  (0, 1308)	0.21891951902793838
  (0, 1936)	0.08789117783484494
  (0, 787)	0.13264519231144

  (0, 64)	0.04381988635358672
  (0, 151)	0.1667961610927845
  (0, 134)	0.1667961610927845
  (0, 318)	0.333592322185569
  (0, 98)	0.08339808054639225
  (0, 1395)	0.5003884832783535
  (0, 1927)	0.42216478745482616
  (0, 1834)	0.07577175909229532
  (0, 1568)	0.08339808054639225
  (0, 1734)	0.07577175909229532
  (0, 1176)	0.08339808054639225
  (0, 1143)	0.08339808054639225
  (0, 1205)	0.07577175909229532
  (0, 1741)	0.08339808054639225
  (0, 1739)	0.08339808054639225
  (0, 1840)	0.08339808054639225
  (0, 870)	0.08339808054639225
  (0, 1503)	0.0703607979091377
  (0, 1033)	0.06273447645504078
  (0, 1458)	0.06616373034721826
  (0, 1286)	0.049697193817786235
  (0, 923)	0.0703607979091377
  (0, 1071)	0.0598350836016941
  (0, 1341)	0.07577175909229532
  (0, 121)	0.15154351818459064
  (0, 113)	0.15154351818459064
  (0, 1922)	0.0703607979091377
  (0, 290)	0.0703607979091377
  (0, 141)	0.15154351818459064
  (0, 1550)	0.04105393156831287
  (0, 157)	0.0703607979091377
  (0, 291)	0.055108155000943855


  (0, 11)	0.07153477231252924
  (0, 1465)	0.08664333647444367
  (0, 1902)	0.08664333647444367
  (0, 1432)	0.08147500484973745
  (0, 997)	0.08147500484973745
  (0, 1587)	0.08147500484973745
  (0, 1251)	0.08147500484973745
  (0, 1333)	0.07725217043532497
  (0, 1252)	0.08147500484973745
  (0, 1022)	0.1629500096994749
  (0, 1267)	0.1629500096994749
  (0, 1746)	0.08147500484973745
  (0, 1199)	0.1411780641832278
  (0, 1573)	0.2823561283664556
  (0, 902)	0.24442501454921237
  (0, 1384)	0.24442501454921237
  (0, 1571)	0.24442501454921237
  (0, 1288)	0.1629500096994749
  (0, 1273)	0.08147500484973745
  (0, 400)	0.07725217043532497
  (0, 240)	0.08664333647444367
  (0, 1729)	0.08147500484973745
  (0, 1915)	0.07725217043532497
  (0, 1286)	0.4895829284199617
  (0, 1090)	0.1473636296215102
  (0, 1672)	0.1473636296215102
  (0, 986)	0.06321317704291458
  (0, 1039)	0.0705890320916139
  (0, 1517)	0.0736818148107551
  (0, 1037)	0.30900868174129986
  (0, 977)	0.13572200879241253
  (0, 1502)	0.077252170435

  (0, 296)	0.04596088560081401
  (0, 1316)	0.12552910230995845
  (0, 1775)	0.12552910230995845
  (0, 842)	0.11405011766441342
  (0, 1320)	0.12552910230995845
  (0, 1115)	0.12552910230995845
  (0, 1842)	0.12552910230995845
  (0, 892)	0.12552910230995845
  (0, 1497)	0.12552910230995845
  (0, 1704)	0.12552910230995845
  (0, 1597)	0.12552910230995845
  (0, 1549)	0.12552910230995845
  (0, 878)	0.12552910230995845
  (0, 1752)	0.12552910230995845
  (0, 1801)	0.12552910230995845
  (0, 1819)	0.12552910230995845
  (0, 967)	0.12552910230995845
  (0, 1849)	0.12552910230995845
  (0, 1557)	0.12552910230995845
  (0, 1377)	0.5021164092398338
  (0, 1226)	0.12552910230995845
  (0, 1270)	0.11405011766441342
  (0, 1194)	0.11405011766441342
  (0, 1821)	0.21181129689029848
  (0, 1921)	0.11405011766441342
  (0, 857)	0.11405011766441342
  :	:
  (0, 1114)	0.19917661465468234
  (0, 1319)	0.09958830732734117
  (0, 1164)	0.10590564844514924
  (0, 1715)	0.09958830732734117
  (0, 1797)	0.09958830732734117
  (0, 118

In [18]:
t_feat[:,:10].todense()

matrix([[0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.        , 0.    

In [19]:
maxwords = len(cvec.vocabulary_)
maxlen = 1971

In [32]:
# Define model
lstm = models.Sequential()
lstm.add(layers.Embedding(maxwords,128))
lstm.add(layers.LSTM(128))
lstm.add(layers.Dense(128,activation='relu'))
lstm.add(layers.Dense(14,activation='softmax'))

In [33]:
# Compile model
lstm.compile(optimizer='rmsprop',loss='sparse_categorical_crossentropy',metrics=['acc'])
lstm.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_6 (Embedding)      (None, None, 128)         252288    
_________________________________________________________________
lstm_6 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dense_7 (Dense)              (None, 128)               16512     
_________________________________________________________________
dense_8 (Dense)              (None, 14)                1806      
Total params: 402,190
Trainable params: 402,190
Non-trainable params: 0
_________________________________________________________________


In [34]:
# Fit model
his =  lstm.fit(t_feat,y,epochs=10,batch_size=32)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


In [None]:
# Define an evaluation function to print the evaluation result
def evaluation_report(model,features,labels):
    
    # Calculate result
    result = model.evaluate(features,labels,verbose=False)
    
    # Predict and convert into a class
    pred_class = model.predict(features).argmax(axis=1)
    
    # Show report
    print(confusion_matrix(labels,pred_class))
    print(classification_report(labels,pred_class))
    print("Loss: %s Accuracy: %s" %(result[0],result[1]))
    
    return pred_class

In [None]:
evaluation_report(model,t_feat,y)