In [1]:
# 訊息辨識模型 - 資料前處理

In [2]:
import numpy
import pandas as pd

In [3]:
# 讀出 excel 中所有欄位資料
file_path = "/Users/Bob/pywork/Dataset/im_ds.xlsx"
data_frame = pd.read_excel(file_path)

In [4]:
# question : 使用者問題
# flag : 問題分類
# flag = 0 : IM 問題
# flag = 1 : EC 問題
# flag = 2 : 物流 問題
data_frame[:2] # 顯示前 2 筆資料

Unnamed: 0,question,flag
0,如何將官方帳號加為好友,0
1,請問如何領取50元積點,0


In [5]:
# 共 2072 筆資料、2 個欄位
data_frame.shape

(2072, 2)

In [6]:
# 查看所有欄位有幾筆資料含有 null 值
data_frame.isnull().sum()

question    0
flag        0
dtype: int64

In [7]:
# 將 df 轉換成 nd_array
nd_array = data_frame.values

In [8]:
# 取出 features 和 labels，並轉成標準 list
features = nd_array[:,0].tolist() # 取第 0 欄作為 features
labels = nd_array[:,1].tolist() # 取第 1 欄作為 labels

In [9]:
# raw data
features[2053]

'感恩買1送1 讚嘆買1送1 😍\n9/21-9/30超優惠5折下殺\n人氣超夯商品 一次購足\n搶券滿$1000 再現折$100\n👉https://goo.gl/1Y7pH1 \n\n✔KAFEN蝸牛極致洗髮精/護髮素↘2入$945\nhttps://goo.gl/RXEHjq\n✔IS愛思 皇家騎士II通話平板↘2入$5980\nhttps://goo.gl/nvYzve\n✔美國PRIME板腱沙朗↘2入$649\nhttps://goo.gl/2He6Vj\n✔途訊K068藍牙掌上KTV↘2入$1988\nhttps://goo.gl/8VaJG3\n✔ Diadora男女通用慢跑鞋↘2雙$1880\nhttps://goo.gl/4sKcQ1\n✔億光LED 9.5W廣角燈泡↘2入$188\nhttps://goo.gl/E75TyX\n✔點我看更多買1送1\nhttps://goo.gl/MGF7wa\n\n#PChome商店街\n#四大超商取貨0元免運\n#限時買1送1\n#滿1000現折100\n11:00\n怎樣可折\n還有嗎'

In [10]:
# 將訊息中的中文字過濾出來
import re
def filter_chinese_letter(contexts):
    # \u4E00-\u9FA5 Chinese unicode range
    # a-zA-Z English range
    filter_re = re.compile('[^\u4E00-\u9FA5]') # non Chinese
    i = 0
    for context in contexts:
        contexts[i] = filter_re.sub('', str(context)) # remove all non Chinese letters                   
        i = i + 1
    return contexts
features = filter_chinese_letter(features)

In [11]:
# processed data
features[2053]

'感恩買送讚嘆買送超優惠折下殺人氣超夯商品一次購足搶券滿再現折蝸牛極致洗髮精護髮素入愛思皇家騎士通話平板入美國板腱沙朗入途訊藍牙掌上入男女通用慢跑鞋雙億光廣角燈泡入點我看更多買送商店街四大超商取貨元免運限時買送滿現折怎樣可折還有嗎'

In [12]:
from keras.preprocessing.text import Tokenizer
token = Tokenizer(num_words=1000, # 將最常出現的 1000 字作為 Token
                  char_level=True) # 以單個字分 Token
token.fit_on_texts(features)
token.word_index

Using TensorFlow backend.


{'薦': 1282,
 '複': 678,
 '饋': 636,
 '充': 544,
 '旅': 1255,
 '櫃': 601,
 '十': 628,
 '資': 233,
 '君': 934,
 '擇': 927,
 '喔': 267,
 '緣': 873,
 '樓': 242,
 '您': 72,
 '苦': 1291,
 '硬': 1379,
 '貝': 1252,
 '素': 757,
 '还': 1090,
 '指': 484,
 '拒': 781,
 '哇': 1306,
 '支': 713,
 '次': 170,
 '度': 249,
 '求': 572,
 '匙': 1397,
 '逢': 884,
 '靠': 1019,
 '説': 1085,
 '於': 260,
 '逛': 648,
 '越': 1344,
 '總': 774,
 '催': 1063,
 '七': 641,
 '率': 666,
 '窗': 687,
 '存': 626,
 '轉': 246,
 '調': 663,
 '許': 990,
 '推': 518,
 '後': 90,
 '絡': 212,
 '參': 655,
 '傻': 839,
 '考': 1101,
 '刻': 747,
 '孟': 1210,
 '匣': 879,
 '議': 689,
 '欄': 712,
 '漱': 1045,
 '久': 146,
 '面': 250,
 '丫': 1295,
 '導': 899,
 '決': 829,
 '機': 77,
 '慮': 1102,
 '尋': 438,
 '精': 809,
 '齡': 810,
 '粉': 448,
 '採': 1145,
 '良': 838,
 '記': 305,
 '收': 38,
 '翻': 1390,
 '文': 415,
 '位': 651,
 '試': 399,
 '販': 1115,
 '砲': 1237,
 '罐': 777,
 '品': 40,
 '帳': 31,
 '聾': 1275,
 '奌': 976,
 '級': 825,
 '貓': 203,
 '難': 528,
 '訊': 101,
 '衣': 492,
 '皇': 1421,
 '餐': 872,
 '塑': 1394,
 '有': 5,
 '談':

In [13]:
# 根據字典，將訊息文字轉成數字 list，不在字典中的文字不轉換。
train_seq = token.texts_to_sequences(features)
train_seq[0]

[22, 12, 383, 79, 71, 31, 17, 39, 41, 19, 69]

In [14]:
# 每個訊息文字的數字 list 長度不同，要進行深度學習，長度必須固定。
from keras.preprocessing import sequence
train_features = sequence.pad_sequences(train_seq, maxlen=20)
train_features[0]

array([  0,   0,   0,   0,   0,   0,   0,   0,   0,  22,  12, 383,  79,
        71,  31,  17,  39,  41,  19,  69], dtype=int32)

In [15]:
# 將 label 轉換成 onehot 格式
from keras.utils import np_utils
train_labels = np_utils.to_categorical(labels)
train_labels[0]

array([ 1.,  0.,  0.])