In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from icecream import ic
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score
from sklearn.metrics import precision_score
from sklearn.metrics import f1_score

### 设置路径

In [2]:
TRAIN_CORPUS = 'dataset/train_after_analysis.csv'
STOP_WORDS = 'dataset/stopwords.txt'
WORDS_COLUMN = 'words_keep'

In [3]:
content = pd.read_csv(TRAIN_CORPUS)
corpus = content[WORDS_COLUMN].values

查看corpus

In [4]:
corpus

array(['上课时 学生 手机 响个 不停 ， 老师 一怒之下 把 手机 摔 了 ， 家长 拿 发票 让 老师 赔 ，',
       '商赢 环球 股份 有限公司 关于 延期 回复 上海证券交易所 对 公司 2017 年 年度报告 的 事后 审核 问询 函 的 公告',
       '通过 中介 公司 买 了 二手房 ， 首付 都 付 了 ， 现在 卖家 不想 卖 了 。 怎么 处理', ...,
       '端州 ｜ 莫让 网事 随 “ 疯 ” ！ 检察官 老师 和 你 探讨 网 事 知多少 ~ 了解 一下',
       '国产 最 霸气 的 东风 越野车 ， 150 万 还 买不到 ， 武装 全身 高大威猛 ！',
       '极限 竞速 地平线 3 ， 原创 娱乐 游戏 视频'], dtype=object)

In [5]:
stop_words_size = 100
words_long_tail_begin = 10000
word_size = words_long_tail_begin - stop_words_size

In [6]:
stop_words = open(STOP_WORDS).read().split()[:stop_words_size]

查看stop_words

In [7]:
stop_words

['，',
 '？',
 '的',
 '！',
 '：',
 '了',
 '是',
 '“',
 '”',
 '你',
 '有',
 '在',
 '吗',
 '什么',
 '中国',
 '为什么',
 '如何',
 '都',
 '和',
 '人',
 '怎么',
 '《',
 '被',
 '不',
 '》',
 '、',
 '会',
 '对',
 '我',
 '美国',
 '年',
 '上',
 '—',
 '看',
 '最',
 '能',
 '这',
 '一个',
 '要',
 '好',
 '还',
 '就',
 '将',
 '后',
 '与',
 '大',
 '中',
 '让',
 '哪些',
 '5',
 '他',
 '世界',
 '却',
 '去',
 '新',
 '到',
 '月',
 '2018',
 '谁',
 '可以',
 '多',
 '说',
 '也',
 '又',
 '上联',
 '个',
 '来',
 '网友',
 '如果',
 '手机',
 '下联',
 '日本',
 '做',
 '用',
 '没有',
 '还是',
 '万',
 '现在',
 '为',
 '农村',
 '为何',
 '买',
 '…',
 '「',
 '」',
 '给',
 '这个',
 '3',
 '把',
 '岁',
 '-',
 '怎样',
 '呢',
 '多少',
 '一',
 '｜',
 '10',
 '（',
 '很',
 '）']

### max_features：
默认为None，可设为int，对所有关键词的term frequency进行降序排序，只取前max_features个作为关键词集
停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）

### fit_transform()的作用
就是先拟合数据，然后转化它将其转化为标准形式。

In [8]:
tfidf = TfidfVectorizer(max_features=word_size, stop_words=stop_words)
text_vectors = tfidf.fit_transform(corpus)
print(text_vectors.shape)

(53360, 9900)


In [9]:
targets = content['label']

In [10]:
x_train, x_test, y_train, y_test = train_test_split(text_vectors, targets, test_size=0.2, random_state=0)

## 使用了随机森林

In [11]:
rf = RandomForestClassifier()
rf.fit(x_train, y_train)
acc = accuracy_score(rf.predict(x_test), y_test)

## 使用了icecream 输出

In [12]:
acc

0.5020614692653673

In [13]:
ic(acc)

ic| acc: 0.5020614692653673


0.5020614692653673

## cecream是一个python的库，可以用最小的代码打印出更多debug的可读信息。

让我们尝试用它输出一个Python函数

In [14]:
def plus_five(num):
    return num+5

ic(plus_five(4)) 
ic(plus_five(5)) 

ic| plus_five(4): 9
ic| plus_five(5): 10


10

通过使用ic，我们不仅看到了结果，也看到了函数形式和参数。这是多么简洁，在你终端的颜色可以显示出具体参数。