# 中文情感分析
Chinese sentiment analysis

### 载入所需的库

In [3]:
import sys
# reload(sys)
# sys.setdefaultencoding('utf8')
import numpy as np 
import pandas as pd
import jieba

from sklearn.model_selection import train_test_split
from sklearn.externals import joblib  # 可以把数据用二进制形式存储，读取
from sklearn.svm import SVC

from gensim.models.word2vec import Word2Vec


### 加载数据，做预处理（分词），切分训练集和测试集
下面内容均为分步解析，函数load_file_and_preprocessing才是主体。

In [6]:
neg = pd.read_excel('data/neg.xls', header=None, index=None)
pos = pd.read_excel('data/pos.xls', header=None, index=None)

neg.head()

Unnamed: 0,0
0,做为一本声名在外的流行书，说的还是广州的外企，按道理应该和我的生存环境差不多啊。但是一看之下...
1,作者有明显的自恋倾向，只有有老公养不上班的太太们才能像她那样生活。很多方法都不实用，还有抄袭...
2,作者完全是以一个过来的自认为是成功者的角度去写这个问题，感觉很不客观。虽然不是很喜欢，但是，...
3,作者提倡内调，不信任化妆品，这点赞同。但是所列举的方法太麻烦，配料也不好找。不是太实用。
4,作者的文笔一般，观点也是和市面上的同类书大同小异，不推荐读者购买。


In [7]:
pos.head()

Unnamed: 0,0
0,做父母一定要有刘墉这样的心态，不断地学习，不断地进步，不断地给自己补充新鲜血液，让自己保持一...
1,作者真有英国人严谨的风格，提出观点、进行论述论证，尽管本人对物理学了解不深，但是仍然能感受到...
2,作者长篇大论借用详细报告数据处理工作和计算结果支持其新观点。为什么荷兰曾经县有欧洲最高的生产...
3,作者在战几时之前用了＂拥抱＂令人叫绝．日本如果没有战败，就有会有美军的占领，没胡官僚主义的延...
4,作者在少年时即喜阅读，能看出他精读了无数经典，因而他有一个庞大的内心世界。他的作品最难能可贵...


In [9]:
print(neg.shape)
print(pos.shape)

(10428, 1)
(10677, 1)


In [15]:
' '.join(list(jieba.cut(pos[0][0])))

'做 父母 一定 要 有 刘墉 这样 的 心态 ， 不断 地 学习 ， 不断 地 进步 ， 不断 地 给 自己 补充 新鲜血液 ， 让 自己 保持 一颗 年轻 的 心 。 我 想 ， 这 是 他 能 很 好 的 和 孩子 沟通 的 一个 重要 因素 。 读 刘墉 的 文章 ， 总能 让 我 看到 一个 快乐 的 平易近人 的 父亲 ， 他 始终 站 在 和 孩子 同样 的 高度 ， 给 孩子 创造 着 一个 充满 爱 和 自由 的 生活 环境 。 很 喜欢 刘墉 在 字里行间 流露出 的 做 父母 的 那种 小 狡黠 ， 让 人 总是 忍俊不禁 ， 父母 和 子女 之间 有时候 也 是 一种 战斗 ， 武力 争斗 过于 低级 了 ， 智力 较量 才 更 有 趣味 。 所以 ， 做 父母 的 得 加把劲 了 ， 老 思想 老 观念 注定 会 一败涂地 ， 生命不息 ， 学习 不止 。 家庭教育 ， 真的 是 乐在其中 。'

In [18]:
y = np.concatenate((np.ones(len(pos)), np.zeros(len(neg))))
y

array([1., 1., 1., ..., 0., 0., 0.])

以上内容均为分步解析，函数load_file_and_preprocessing才是主体。

In [17]:
def load_file_and_preprocessing():
    # 读取neg, pos内容
    neg = pd.read_excel('data/neg.xls', header=None, index=None)
    pos = pd.read_excel('data/pos.xls', header=None, index=None)
    
    # 分词
    cw = lambda x: list(jieba.cut(x))
    pos['words'] = pos[0].apply(cw)
    neg['words'] = neg[0].apply(cw)
    
    # 生成对应的pos:1 , neg: 0 的label
    y = np.concatenate((np.ones(len(pos)), np.zeros(len(neg))))
    new_df = np.concatenate((pos['words'], neg['words']))
    
    x_train, x_test, y_train, y_test = train_test_split(new_df, y, test_size=0.2)
    
    np.save('svm_data/y_train.npy', y_train)
    np.save('svm_data/y_test.npy', y_test)
    
    return x_train, x_test

In [33]:
x_train, x_test = load_file_and_preprocessing()

In [34]:
print('x_train\'s shape: ', x_train.shape)
print('x_test\'s shape: ', x_test.shape)

x_train's shape:  (16884,)
x_test's shape:  (4221,)


In [47]:
print(np.load('svm_data/y_train.npy'))
print(np.load('svm_data/y_train.npy').shape)

[1. 0. 1. ... 0. 0. 1.]
(16884,)


### 对每个句子的所有词向量取均值，来生成一个句子的vector

In [21]:
def build_sentence_vector(text, size, imdb_w2v):
    vec = np.zeros(size).reshape((1,size))
    count = 0
    for word in text:
        try:
            vec += imdb_w2v[word].reshape((1, size))
            count += 1
        except KeyError:
            continue
    if count != 0:
        vec /= count
    return vec

In [56]:
imdb_w2v = Word2Vec(x_train, size=300, min_count=10)
imdb_w2v.save('word2vec_chinese.model')

In [67]:
imdb_w2v.wv.most_similar('唯一')

[('免费', 0.5681514143943787),
 ('内容', 0.5449368357658386),
 ('文革', 0.5410823225975037),
 ('usb', 0.5306174755096436),
 ('离', 0.5206846594810486),
 ('错', 0.5091327428817749),
 ('并且', 0.5090796947479248),
 ('书店', 0.49472928047180176),
 ('房门', 0.4929763376712799),
 ('上升', 0.49076980352401733)]

In [64]:
imdb_w2v.wv.vocab

{'技术': <gensim.models.keyedvectors.Vocab at 0x1a246e2dd8>,
 '唯一': <gensim.models.keyedvectors.Vocab at 0x1a246e2da0>,
 '的': <gensim.models.keyedvectors.Vocab at 0x1a246e2d68>,
 '四星级': <gensim.models.keyedvectors.Vocab at 0x1a246e2d30>,
 '酒店': <gensim.models.keyedvectors.Vocab at 0x1a246e2cf8>,
 ',': <gensim.models.keyedvectors.Vocab at 0x1a246e2cc0>,
 '外观': <gensim.models.keyedvectors.Vocab at 0x1a246e2c88>,
 '但': <gensim.models.keyedvectors.Vocab at 0x1a246e2c50>,
 '服务': <gensim.models.keyedvectors.Vocab at 0x1a246e2c18>,
 '感觉': <gensim.models.keyedvectors.Vocab at 0x1a246e2be0>,
 '很': <gensim.models.keyedvectors.Vocab at 0x1a246e2ba8>,
 '不错': <gensim.models.keyedvectors.Vocab at 0x1a246e2b70>,
 '尤其': <gensim.models.keyedvectors.Vocab at 0x1a246e2b38>,
 '?': <gensim.models.keyedvectors.Vocab at 0x1a246e2b00>,
 '这': <gensim.models.keyedvectors.Vocab at 0x1a246e2ac8>,
 '套书': <gensim.models.keyedvectors.Vocab at 0x1a246e2a90>,
 '也': <gensim.models.keyedvectors.Vocab at 0x1a246e2a58>,
 '是

In [None]:
build_sentence_vector(z, n_dim, imdb_w2v)

In [None]:
build_sentence_vector(x_train[0])

### 计算词向量

In [23]:
def get_train_vecs(x_train, x_test):
    n_dim = 300
    
    # 初始化模型和词表
    imdb_w2v = Word2Vec(size=n_dim, min_count=10)
    imdb_w2v.build_vocab(x_train)
    
    # 在评论训练集上建模
    imdb_w2v.train(x_train)
    
    train_vecs = np.concatenate([build_sentence_vector(z, n_dim, imdb_w2v) for z in x_train])
    
    np.save('svm_data/train_vecs.npy', train_vecs)
    
    print(train_vecs.shape)
    
    # 在测试集上训练
    imdb_w2v.train(x_test)
    imdb_w2v.save('svm_data/w2v_model/w2v_model.pkl')
    
    # Build test tweet vectors then scale
    test_vecs = np.concatenate([build_sentence_vector(z, n_dim, imdb_w2v) for z in x_test])
    
    np.save('svm_data/test_vecs.npy', test_vecs)
    
    print(test_vecs.shape)

In [24]:
def get_data():
    train_vecs = np.load('svm_data/train_vecs.npy')
    y_train = np.load('svm_data/y_train.npy')
    test_vecs = np.load('svm_data/test_vecs.npy')
    y_test = np.load('svm_data/y_test.npy')
    return train_vecs, y_train, test_vecs, y_test

### 训练SVM模型

In [25]:
def svm_train(train_vecs, y_train, test_vecs, y_test):
    clf = SVC(kernel='rbf', verbose=True)
    clf.fit(train_vecs, y_train)
    joblib.dump(clf, 'svm_data/svm_model/model.pkl')
    print(clf.score(test_vecs, y_test))

### 构建待预测句子的向量

In [26]:
def get_predict_vecs(words):
    n_dim = 300
    imdb_w2v = Word2Vec.load('svm_data/w2v_model/w2v_model.pkl')
    train_vecs = build_sentence_vector(words, n_dim, imdb_w2v)
    
    return train_vecs

### 对单个句子进行情感分析

In [27]:
def svm_predict(string):
    words = jieba.lcut(string)
    words_vecs = get_predict_vecs(words)
    clf = joblib.load('svm_data/svm_model/model.pkl')
    
    result = clf.predict(words_vecs)
    
    if int(result[0]) == 1:
        print(string, 'postive')
    else:
        print(string, 'negative')

In [30]:
string = '电池充完了电连手机都打不开.简直烂的要命.真是金玉其外,败絮其中!连5号电池都不如'
svm_predict(string)

FileNotFoundError: [Errno 2] No such file or directory: 'svm_data/w2v_model/w2v_model.pkl'