## 文本分类模型的构建

#### 加载训练集并查看样本数量 

In [3]:
#加载训练集到变量中
import pandas as pd
train_df = pd.read_csv('testcsens1129.txt', sep='\t', header=None)
train_df.head()

Unnamed: 0,0,1
0,type,sen
1,【爱情语句】,恬恬静静温柔，端端正正品优，实实在在德厚。清清秀秀，纯纯洁洁明眸。
2,【爱情语句】,你喜欢长长的夏季吗?因为一阵风，因为一场梦。哈哈 ，我喜欢你。清晨，午后和伴晚。都喜欢你!
3,【爱情语句】,我喜欢你，所以静静的等你，不论春秋，不分白昼，就在那每时每刻，每分每秒，每一个呼吸，等你。
4,【爱情语句】,那天，你问我下雨了吗，我在心里默默告诉自己，那天下了两滴雨，一滴滴在你心里，一滴滴在我心里。


In [4]:
#查看训练集每个分类的名字以及样本数量
for type,group in train_df.groupby(0):
    print(type,len(group))

type 1
【优美语句】 421
【伤感语句】 218
【励志的话】 351
【爱情语句】 371


#### 分词

In [23]:
import jieba
import time

train_df.columns = ['type', 'sen']
stopword_list = [k.strip() for k in open('chineseStopWords.txt', encoding='utf8').readlines() if k.strip() != '']
cutWords_list = []
i = 0
startTime = time.time()
for article in train_df['sen']:
    cutWords = [k for k in jieba.cut(article) if k not in stopword_list]
    i += 1
    if i % 50 == 0:
        print('前%d个句子分词共花费%.2f秒' %(i, time.time()-startTime))
    cutWords_list.append(cutWords)
cutWords_list[:30]

前50个句子分词共花费0.04秒
前100个句子分词共花费0.07秒
前150个句子分词共花费0.10秒
前200个句子分词共花费0.13秒
前250个句子分词共花费0.16秒
前300个句子分词共花费0.19秒
前350个句子分词共花费0.23秒
前400个句子分词共花费0.27秒
前450个句子分词共花费0.30秒
前500个句子分词共花费0.34秒
前550个句子分词共花费0.37秒
前600个句子分词共花费0.42秒
前650个句子分词共花费0.46秒
前700个句子分词共花费0.50秒
前750个句子分词共花费0.54秒
前800个句子分词共花费0.57秒
前850个句子分词共花费0.60秒
前900个句子分词共花费0.63秒
前950个句子分词共花费0.67秒
前1000个句子分词共花费0.71秒
前1050个句子分词共花费0.74秒
前1100个句子分词共花费0.78秒
前1150个句子分词共花费0.81秒
前1200个句子分词共花费0.84秒
前1250个句子分词共花费0.87秒
前1300个句子分词共花费0.89秒
前1350个句子分词共花费0.91秒


[['sen'],
 [' ',
  '恬',
  '恬静',
  '静',
  '温柔',
  '端端正正',
  '品优',
  '实实在在',
  '德厚',
  '清',
  '清秀',
  '秀',
  '纯',
  '纯洁',
  '洁',
  '明眸'],
 [' ', '喜欢', '长长的', '夏季', '一阵风', '一场', '梦', ' ', '喜欢', '清晨', '午后', '伴晚', '喜欢'],
 [' ', '喜欢', '静静的', '春秋', '分', '白昼', '每时每刻', '每分', '每秒', '一个', '呼吸'],
 [' ', '那天', '问', '下雨', '默默', '告诉', '天下', '两滴', '雨', '滴滴', '滴滴'],
 [' ', '从来不', '记得', '回家', '路', '总会', '地方', '傻傻'],
 [' ', '追', '公交车', '追', '走', '很慢', '可爱'],
 [' ', '可知', '百年', '孤寂', '只为', '一人', '守候', '千夜', '恋歌', '只为', '一人', '唱'],
 [' ', '天空', '少', '色彩', ';', '世界', '一种', '思念'],
 [' ', '做好', '一辈子', '打算', '做好', '随时', '走', '大概', '爱情', '观', '深情', '纠缠'],
 [' ', '一生', '很多', '幸运', '遇见', '想', '留住', '幸运'],
 [' ', '白发苍苍', '容颜', '迟暮', '牵', '双手', '倾世', '温柔'],
 [' ',
  '我行',
  '地方',
  '桥',
  '看过',
  '次数',
  '云',
  '喝',
  '种类',
  '酒',
  '爱过',
  '一个',
  '正当',
  '年龄'],
 [' ', '早上', '阳光', '想要', '未来'],
 [' ', '喜欢', '笑容', '喜欢', '静静的', '看着', '忧愁', '云', '飞去'],
 [' ', '嘴巴', '情话', '身上', '阳光', '脑子里', '爱情', '灵魂', '中有', '慌乱', '有个'

In [7]:
with open('cutWords_list.txt', 'w') as file:
    for cutWords in cutWords_list:
        file.write(' '.join(cutWords) + '\n')


#### 运用word2vec训练词向量模型

In [8]:
#实例化词向量模型对象
from gensim.models import Word2Vec

word2vec_model = Word2Vec(cutWords_list, size=100, iter=10, min_count=3)

In [27]:
word2vec_model.wv.most_similar('目标')

[(' ', 0.9995880126953125),
 ('一个', 0.9995020627975464),
 ('好', 0.9994383454322815),
 ('想', 0.9993307590484619),
 ('希望', 0.999306857585907),
 ('爱', 0.9992737770080566),
 ('生活', 0.9992696046829224),
 ('事', 0.9992365837097168),
 ('幸福', 0.9991884827613831),
 ('笑', 0.9991754293441772)]

In [28]:
word2vec_model.wv.most_similar(positive=['爱情', '心'], negative=['目标'], topn=1)

[('生活', 0.9979250431060791)]

In [29]:
word2vec_model.wv.similarity("爱情","抑郁")

KeyError: "word '抑郁' not in vocabulary"