### Accusation benchmark using TFIDF

- [Jieba Tokenizer](https://github.com/fxsjy/jieba)
- The data only includes three big classes
- Use all data to train a model and submit

In [49]:
import jieba
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cross_validation import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.linear_model import LogisticRegression

### Data Loading 

In [34]:
data = pd.read_csv("../Data/sample/data_tokenized_large_group.csv")
train_df, test_df = train_test_split(data, test_size=0.3)
train_df.shape, test_df.shape

((620606, 8), (265975, 8))

In [36]:
tfidf_vectorizer = TfidfVectorizer(min_df=2, max_df=0.8)
%time train_X = tfidf_vectorizer.fit_transform(train_df.fact.values)

  if np.rank(self.data) != 1 or np.rank(self.indices) != 1 or np.rank(self.indptr) != 1:
  if np.rank(self.data) != 1 or np.rank(self.row) != 1 or np.rank(self.col) != 1:


CPU times: user 1min 3s, sys: 3.23 s, total: 1min 6s
Wall time: 1min 7s


In [40]:
classifier = LogisticRegression()
%time classifier.fit(train_X, train_df.accusation.values)

CPU times: user 45.3 s, sys: 496 ms, total: 45.8 s
Wall time: 46.1 s


LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [42]:
# test
test_X = tfidf_vectorizer.transform(test_df.fact.values)
pred = classifier.predict(test_X)

print "Accuracy: ", accuracy_score(test_df.accusation.values, pred)
confusion_matrix(test_df.accusation.values, pred)

Accuracy:  0.9985788137982893


array([[100283,     49,    107],
       [    29,  56688,    102],
       [    50,     41, 108626]])

### Important words

In [58]:
feature_names = np.array(tfidf_vectorizer.get_feature_names())

def find_important_words(coef, top_n=50):
    sorted_idx = np.argsort(np.abs(coef))[::-1]
    for token in feature_names[sorted_idx[:top_n]]:
        print token

In [59]:
for c, coef in enumerate(classifier.coef_):
    print "------------------------"
    print "       Class {}     ".format(c)
    print find_important_words(coef)

------------------------
       Class 0     
驾驶
含量
100ml
血液
乙醇
醉酒
行驶
mg
被害人
价值
酒后
查获
盗窃
酒精
交通事故
事故
轻伤
检验
血样
小型
一年
机动车
盗走
道路
人民币
饮酒
责任
民警
被盗
浓度
轿车
路段
现金
价格
二个月
二级
二轮
损伤
手机
窃得
陈述
普通
一个月
碰撞
无证
三个
大队
检出
司法鉴定
打伤
None
------------------------
       Class 1     
轻伤
盗窃
价值
盗走
殴打
重伤
二级
损伤
驾驶
发生争执
现金
人民币
处罚金
打伤
血液
发生
含量
100ml
伤情
事故
乙醇
交通事故
法医鉴定
醉酒
被盗
价格
死亡
口角
窃得
头部
故意伤害
琐事
行驶
责任
mg
手机
争吵
程度
砍伤
身体
窃取
纠纷
持刀
双方
进入
酒精
被害人
法医学
菜刀
赃款
None
------------------------
       Class 2     
轻伤
价值
盗窃
盗走
驾驶
损伤
人民币
现金
被盗
发生
二级
价格
窃得
100ml
含量
重伤
乙醇
行驶
血液
殴打
程度
醉酒
法医鉴定
窃取
发生争执
mg
手机
伤情
司法鉴定
酒后
查获
骨折
进入
鉴定
打伤
赔偿
扒窃
受伤
赃款
头部
死亡
发现
检验
抓获
放在
之机
酒精
一年
小型
琐事
None
