# 开始特征提取(TSR)：

## 采用方法：df，卡方检验
## 相关概念
分类状态得分（CSV，Categorization Status Value)：用于描述将文档归于某个类别下有多大的可信度  
降维(TSR, term space reduction)：包括特征选择和特征抽取两大类方法  
F1测度，综合召回率和准确率  
召回率：在所有确实正确的文档中，多大比例被我们判断为正确  
准确率：在所有被判断为正确的文档中，有多大的比例是确实正确的  


## 卡方检验

  || 体育类 | 其他类 | 总数
 - | - | - | -
 `篮球` | A | B | A + B
 `非篮球`| C | D | C + D
 总数 | A + C | B + D | N

$$
K ^ 2 = \frac{N(AD - BC)^2}{(A + B)(A + C)(B + C)(B + D)}
$$

## 用时：11 分钟


In [2]:
import pandas as pd
import pickle
import string
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [3]:
# 加载一个存好的pickles数组
def openDataFrame(path):
    with open(path, 'rb') as f:
        genList = pickle.load(f)
        dbFrame = pd.DataFrame(genList, columns=['index', 'content', 'tag'])
    return dbFrame

trainFrame = openDataFrame('DB/trainDB/words.pkl')
testFrame = openDataFrame('DB/testDB/words.pkl')
print(trainFrame.info())
print(testFrame.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 549972 entries, 0 to 549971
Data columns (total 3 columns):
index      549972 non-null object
content    549972 non-null object
tag        549972 non-null object
dtypes: object(3)
memory usage: 12.6+ MB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 739840 entries, 0 to 739839
Data columns (total 3 columns):
index      739840 non-null object
content    739840 non-null object
tag        739840 non-null object
dtypes: object(3)
memory usage: 16.9+ MB
None


In [4]:
trainFrame.tag.unique()

array(['教育', '股票', '汽车', '娱乐', '社会', '科技', '财经', '时政', '军事', '游戏', '体育'], dtype=object)

In [5]:
# 建立数字化标签
label_map = {'财经':0, '股票':1, '教育':2, '科技':3, '时政':4,'体育':5,'游戏':6,'娱乐':7,'汽车':8,'社会':9,'军事':10}
trainFrame['y_target'] = trainFrame['tag'].map(label_map)
testFrame['y_target'] = testFrame['tag'].map(label_map)
print(trainFrame)
print(testFrame)

index                                            content tag  y_target
0           1  [标题, 月薪, 年头, 金融, 学历, 留学生, 月薪, 话题, 留学生, 高校, 毕业生...  教育         2
1           2  [综合报道, 澳大利亚, 节目, 事业, SBS, 报告, 英国, 政府, 外国, 留学生,...  教育         2
2           3  [中国, 行业, 论坛, 素质, 行业, 论坛, 总部, 大厦, 论坛, 主题, 行业, 素...  教育         2
3           4  [桃李, 芬芳, 书院, 时期, 潍坊, 一中, 时代, 面貌, 部长, 教育部, 党组, ...  教育         2
4           5  [渠道, ETS, 世贸, 媒体, 见面会, 媒体, 老师, 中国, 现状, 观点, ETS...  教育         2
5           6  [作者, 徐丁丁, 房地产, 市场, 能力, 危机, 事件, 金融, 危机, 美国, 房产,...  教育         2
6           7  [北京市, 初中, 学生, 社会, 开放性, 科学, 成绩, 科目, 成绩, 总分, 北京市...  教育         2
7           8  [GRE, 美国, 研究生, 资格, 美国, 学校, GRE, 分数, 美国, 学校, GR...  教育         2
8           9  [地区, 气温, 气息, 柳枝, 春风, 绿色, 时光, 英语, 单词, Vernalagn...  教育         2
9          10  [职业, 规划, 职业, 规划, 经济, 国民, 水平, 家长, 孩子, 人生, 契机, 学...  教育         2
10         11  [英语, 基础, 知识, 同学, 同学, 考研, 英语, 阶段, 万学海, 考研, 英语, ...  教育         2
11         12  [观点, 考研, 印象, 游戏, 考研, 过程, 镜头, 观众, 作秀, 流量, 互联网,

In [6]:
trainls = [' '.join(x) for x in trainFrame.content.tolist()]
testls = [' '.join(x) for x in testFrame.content.tolist()]

## 设置`df(document frequency)`阈值在0.001 到 0.5之间进行基于df的特征选取(CSV)

In [7]:
trainTarget = trainFrame.y_target.tolist()

vecMethod = CountVectorizer(min_df = 0.001, max_df = 0.5)
trainMatrix = vecMethod.fit_transform(trainls)

print(trainMatrix.shape)

(549972, 7547)


In [8]:
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics

clsfMachine = MultinomialNB().fit(trainMatrix, trainTarget)
clsfMachine

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [9]:
outPut = pd.DataFrame(columns=('准确率', '召回率', 'F1-score'))

In [10]:
relabel_map = {0:'财经', 1:'股票', 2:'教育', 3:'科技', 4:'时政', 5:'体育', 6:'游戏', 7:'娱乐', 8:'汽车', 9:'社会', 10:'军事'}

In [11]:
from scipy.sparse.csr import csr_matrix
from sklearn.datasets.base import Bunch
import time
import os

dbPath = 'DB/testDB/matrix/dfTSR'

all_hit = dict()
all_predict_as_right = dict()
all_count = dict()

for i in range(11):
    all_hit[i] = 0
    all_predict_as_right[i] = 0
    all_count[i] = 0

beg = time.time()

for i in range(11):
    clsFrame = testFrame.loc[testFrame['y_target'] == i]
    # 输出每个类别的标签号
    tagName = clsFrame.tag.unique()[0]
    print(tagName)
    testOutPath = os.path.join(dbPath, tagName + '.pkl')

    # 进行词向量表示
    clsList = [' '.join(x) for x in clsFrame.content.tolist()]
    # 注意设置词典为训练集词典
    clsVecMethod = CountVectorizer(min_df = 0.001, max_df = 0.5, vocabulary=vecMethod.vocabulary_)
    clsMatrix = clsVecMethod.fit_transform(clsList)
    clsTarget = clsFrame.y_target.tolist()
    print(clsMatrix.shape)

    # 输出备份的测试集
    bunchObj = Bunch(matrix=clsMatrix, y_target=clsTarget, vocabulary=clsVecMethod.vocabulary_)
    with open(testOutPath, 'wb') as fout:
        pickle.dump(bunchObj, fout)
    
    predict = clsfMachine.predict(clsMatrix)

    cnt = 0
    pridicted_as_right = 0
    for preIndex in predict:
        if preIndex == i:
            all_hit[preIndex] += 1
        all_predict_as_right[preIndex] += 1
        cnt += 1
    all_count[i] += cnt

print('cost time: %.2lf' % (time.time() - beg,))

财经
(53512, 7547)
股票
(104399, 7547)
教育
(51359, 7547)
科技
(112930, 7547)
时政
(54869, 7547)
体育
(81604, 7547)
游戏
(55662, 7547)
娱乐
(56001, 7547)
汽车
(51704, 7547)
社会
(66895, 7547)
军事
(50905, 7547)
cost time: 331.90


In [15]:
print(all_hit)
hit_sum = 0
predict_sum = 0
all_sum = 0
for i in range(11):
    tag = relabel_map[i]
    precision = all_hit[i] / all_predict_as_right[i]
    recall = all_hit[i] / all_count[i]
    outPut.loc[tag] = [precision, recall, 2 * precision * recall / (precision + recall)]
    hit_sum += all_hit[i]
    predict_sum += all_predict_as_right[i]
    all_sum += all_count[i]

precision = hit_sum / predict_sum
recall = hit_sum / all_sum
outPut.loc['合计'] = precision, recall, 2 * precision * recall/ (precision + recall)
print(outPut)

{0: 36358, 1: 91463, 2: 42949, 3: 91506, 4: 39116, 5: 79023, 6: 53372, 7: 53160, 8: 47044, 9: 61338, 10: 43910}
         准确率       召回率  F1-score
财经  0.667683  0.679436  0.673508
股票  0.874123  0.876091  0.875106
教育  0.872575  0.836251  0.854027
科技  0.931501  0.810290  0.866678
时政  0.739699  0.712898  0.726051
体育  0.979571  0.968372  0.973939
游戏  0.954384  0.958859  0.956616
娱乐  0.877025  0.949269  0.911718
汽车  0.913937  0.909872  0.911900
社会  0.771373  0.916930  0.837876
军事  0.840946  0.862587  0.851629
合计  0.864023  0.864023  0.864023


In [16]:
outPut.to_csv('result/BaselineResult.csv')
with open('result/BaselineMachine.pkl', 'xb') as f:
    pickle.dump(clsfMachine, f)

In [18]:
bunchObj = Bunch(matrix = trainMatrix, y_target = trainTarget, vocabulary = vecMethod.vocabulary_)
with open('DB/trainDB/matrix/dfTSR.pkl', 'wb') as f:
    pickle.dump(bunchObj, f)