In [2]:
import pandas as pd
import numpy as np
import xgboost as xgb
from tqdm import tqdm
from sklearn.svm import SVC
from keras.models import Sequential
from keras.layers.recurrent import LSTM, GRU
from keras.layers.core import Dense, Activation, Dropout
from keras.layers.embeddings import Embedding
from keras.layers.normalization import BatchNormalization
from keras.utils import np_utils
from sklearn import preprocessing, decomposition, model_selection, metrics, pipeline
from sklearn.model_selection import GridSearchCV
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.naive_bayes import MultinomialNB
from keras.layers import GlobalMaxPooling1D, Conv1D, MaxPooling1D, Flatten, Bidirectional, SpatialDropout1D
from keras.preprocessing import sequence, text
from keras.callbacks import EarlyStopping
from nltk import word_tokenize

import jieba
import re

In [23]:
data = pd.read_excel('../weiboData.xlsx', 'Sheet1', encoding='utf-8-sig')
for index, row in data.iterrows():
    data.loc[index, 'segmentation'] = re.sub('\u3000', '', data.loc[index, 'text'])
    data.loc[index, 'segmentation'] = re.sub('\s+', ' ', data.loc[index, 'text'])
    data.loc[index, 'segmentation'] = re.sub('[a-zA-Z0-9’!"#$·_－＿＊%&\'()*+,-./:;<=>?@：（），。?★、…【】《》？“”‘’！[\\]^_`{|}~\s]+', " ", data.loc[index, 'text'])

In [24]:
data.head()

Unnamed: 0,text,category,segmentation
0,8.21中午求拼车南安普顿大学二手社区,二手,中午求拼车南安普顿大学二手社区
1,如今二手房市场惨淡的原因你知道吗？这是否反映了当今楼市的残酷现实？#二手房#涨知识##快手#...,二手,如今二手房市场惨淡的原因你知道吗 这是否反映了当今楼市的残酷现实 二手房 涨知识 快手 快手...
2,伊犁理论上说，每卖出一套新房，就会多出一套二手房。但是二手房价似乎一点都没跌啊？你有感觉么？,二手,伊犁理论上说 每卖出一套新房 就会多出一套二手房 但是二手房价似乎一点都没跌啊 你有感觉么
3,#美国##我的vlog生活##福特野马#买二手车要砍价！L小水水iii的微博视频,二手,美国 我的 生活 福特野马 买二手车要砍价 小水水 的微博视频
4,周二休息周一晚就跑去鱼鱼家度假叻测试完麦克风和二手音响都没毛病之后就困困了抱着小恐龙等鱼鱼下...,二手,周二休息周一晚就跑去鱼鱼家度假叻测试完麦克风和二手音响都没毛病之后就困困了抱着小恐龙等鱼鱼下...


In [25]:
data.info

<bound method DataFrame.info of                                                    text category  \
0                                   8.21中午求拼车南安普顿大学二手社区       二手   
1     如今二手房市场惨淡的原因你知道吗？这是否反映了当今楼市的残酷现实？#二手房#涨知识##快手#...       二手   
2        伊犁理论上说，每卖出一套新房，就会多出一套二手房。但是二手房价似乎一点都没跌啊？你有感觉么？       二手   
3              #美国##我的vlog生活##福特野马#买二手车要砍价！L小水水iii的微博视频       二手   
4     周二休息周一晚就跑去鱼鱼家度假叻测试完麦克风和二手音响都没毛病之后就困困了抱着小恐龙等鱼鱼下...       二手   
...                                                 ...      ...   
7874  #房产微盘点#最近，南京高考成绩出炉，不少学区房家长开始新一轮焦虑，学区房一直是社会热点，但...     社会热点   
7875  #粉笔挖媒#今日聚焦社会热点——屡被质疑的青霉面包做汉堡，道歉不能代替严惩。小粉笔和你一起进...     社会热点   
7876  【老人摔倒敢不敢扶？遇到小偷敢不敢追？民事检察官这样说……】近年来，老人倒地扶不扶、遇见小偷...     社会热点   
7877  #社会热点#据媒体报道，腾讯将牵头合并斗鱼和虎牙的谈判。据新京报6月11日报道，腾讯正推动斗...     社会热点   
7878  @秦淮发布#民法典与百姓生活#【老人摔倒敢不敢扶？遇到小偷敢不敢追？民事检察官这样说……】近...     社会热点   

                                           segmentation  
0                                       中午求拼车南安普顿大学二手社区  
1     如今二手房市场惨淡的原因你知道吗 这是否反映了当今楼市的残

In [26]:
data.category.unique()许

array(['二手', '体育', '娱乐', '学术', '招聘', '时政', '游戏', '社会热点'], dtype=object)

In [27]:
# 开启并行分词
jieba.enable_parallel(64)
data['segmentation'] = data['segmentation'].apply(lambda i : jieba.cut(i))

# 值得注意的是，分词是任何中文文本分类的起点，分词的质量会直接影响到后面的模型效果。在这里，作为演示，笔者有点偷懒，其实你还可以：

# 1. 设置可靠的自定义词典，以便分词更精准；
# 2. 采用分词效果更好的分词器，如pyltp、THULAC、Hanlp等；
# 3. 编写预处理类，就像下面要谈到的数字特征归一化，去掉文本中的#@￥%……&等等。



In [28]:
data['segmentation'] = [' '.join(i) for i in data['segmentation']]

In [29]:
data.head()

Unnamed: 0,text,category,segmentation
0,8.21中午求拼车南安普顿大学二手社区,二手,中午 求 拼车 南安普顿 大学 二手 社区
1,如今二手房市场惨淡的原因你知道吗？这是否反映了当今楼市的残酷现实？#二手房#涨知识##快手#...,二手,如今 二手房 市场 惨淡 的 原因 你 知道 吗 这 是否 反映 了 当今 楼市 的 残...
2,伊犁理论上说，每卖出一套新房，就会多出一套二手房。但是二手房价似乎一点都没跌啊？你有感觉么？,二手,伊犁 理论 上 说 每 卖出 一套 新房 就 会 多出 一套 二手房 但是 二手...
3,#美国##我的vlog生活##福特野马#买二手车要砍价！L小水水iii的微博视频,二手,美国 我 的 生活 福特 野马 买 二手车 要 砍价 小水水 的...
4,周二休息周一晚就跑去鱼鱼家度假叻测试完麦克风和二手音响都没毛病之后就困困了抱着小恐龙等鱼鱼下...,二手,周二 休息 周一 晚 就 跑 去 鱼 鱼家 度假 叻 测试 完 麦克风 和 二手 音响 都 ...


In [30]:
# 这是一个典型的文本多分类问题，需要将文本划分到给定的14个主题上。 
# 针对该问题，采用了kaggle上通用的 Multi-Class Log-Loss 作为评测指标）

def multiclass_logloss(actual, predicted, eps=1e-15):
    """对数损失度量（Logarithmic Loss  Metric）的多分类版本。
    :param actual: 包含actual target classes的数组
    :param predicted: 分类预测结果矩阵, 每个类别都有一个概率
    """
    # Convert 'actual' to a binary array if it's not already:
    if len(actual.shape) == 1:
        actual2 = np.zeros((actual.shape[0], predicted.shape[1]))
        for i, val in enumerate(actual):
            actual2[i, val] = 1
        actual = actual2
    
    clip = np.clip(predicted, eps, 1 - eps)
    rows = actual.shape[0]
    vsota = np.sum(actual * np.log(clip))
    return -1.0 / rows * vsota

# def multiclass_precision(actual, predicted, eps=1e-15e):
    

In [31]:
# 接下来用scikit-learn中的LabelEncoder将文本标签（Text Label）转化为数字(Integer)

lbl_enc = preprocessing.LabelEncoder()
y = lbl_enc.fit_transform(data.category.values)

In [32]:
y

array([0, 0, 0, ..., 7, 7, 7])

In [34]:
xtrain, xvalid, ytrain, yvalid = train_test_split(data.segmentation, y,
                                                      stratify = y,
                                                      random_state = 42,
                                                      test_size = 0.1,
                                                      shuffle = True)


In [35]:
print(xtrain.shape)
print(xvalid.shape)

(7091,)
(788,)


In [36]:
def number_normalizer(tokens):
    """ 将所有数字标记映射为一个占位符（Placeholder）。
    对于许多实际应用场景来说，以数字开头的tokens不是很有用，
    但这样tokens的存在也有一定相关性。 通过将所有数字都表示成同一个符号，可以达到降维的目的。
    """
    return ("#NUMBER" if token[0].isdigit() else token for token in tokens)


class NumberNormalizingVectorizer(TfidfVectorizer):
    def build_tokenizer(self):
        tokenize = super(NumberNormalizingVectorizer, self).build_tokenizer()
        return lambda doc: list(number_normalizer(tokenize(doc)))
        

In [37]:
# 利用刚才创建的NumberNormalizingVectorizer类来提取文本特征，注意里面各类参数的含义

stwlist=[line.strip() for line in open('/Users/xudeyan/Desktop/NLP/文本分类练习/停用词汇总.txt',
                                       'r',
                                       encoding='utf-8').readlines()]
tfv = NumberNormalizingVectorizer(min_df=3,
                                 max_df=0.5,
                                 max_features=None,
                                 ngram_range=(1, 2),
                                 use_idf=True,
                                 smooth_idf=True,
                                 stop_words=stwlist)


In [38]:
# 使用TF-IDF来fit训练集和测试集（半监督学习）
tfv.fit(list(xtrain) + list(xvalid))
xtrain_tfv =  tfv.transform(xtrain) 
xvalid_tfv = tfv.transform(xvalid)

  'stop_words.' % sorted(inconsistent))


In [121]:
#利用提取的TFIDF特征来fit一个简单的Logistic Regression 

clf = LogisticRegression(C=1.0,solver='lbfgs',multi_class='multinomial')
clf.fit(xtrain_tfv, ytrain)
predictions = clf.predict_proba(xvalid_tfv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))
# print(classification_report(predictions, yvalid)) 

logloss: 0.321 


ValueError: Classification metrics can't handle a mix of continuous-multioutput and multiclass targets

In [109]:
actual = yvalid
predicted = predictions
eps=1e-15
print(yvalid)

if len(actual.shape) == 1:
    actual2 = np.zeros((actual.shape[0], predicted.shape[1]))
    for i, val in enumerate(actual):
        actual2[i, val] = 1
    actual = actual2

clip = np.clip(predicted, eps, 1 - eps)
rows = yvalid.shape[0]
v = (actual * np.log(clip))
print(v[2, :])
# vs = np.sum(v)
# print(vs)
# re = -1.0 / rows * vs
# print(re)

[6 6 2 1 2 6 6 2 6 6 6 2 2 4 0 6 6 2 6 2 1 6 6 6 5 1 6 6 6 2 2 6 6 3 6 6 2
 6 6 2 6 6 6 6 2 2 6 2 6 6 7 5 1 6 6 6 2 6 6 6 6 6 6 6 6 6 6 2 2 2 2 3 6 6
 6 6 6 6 6 6 2 6 2 1 4 6 1 2 6 2 2 6 2 6 2 4 2 2 2 6 6 6 6 2 2 2 6 6 2 6 2
 2 6 3 0 6 7 6 6 6 6 6 6 6 2 2 3 2 6 6 6 2 6 4 6 6 5 3 6 6 6 6 2 6 6 6 6 3
 2 2 6 6 6 6 6 2 2 2 6 6 2 6 1 2 6 2 2 6 2 6 6 3 6 6 2 6 6 6 6 2 6 2 6 6 6
 6 6 2 6 2 2 6 2 6 6 6 1 2 0 6 6 6 1 1 1 6 2 6 6 4 1 2 6 1 6 1 1 3 6 6 6 2
 6 2 6 6 6 2 1 6 6 2 2 2 6 1 3 4 6 2 6 2 2 2 1 3 2 4 6 2 2 2 6 2 6 6 3 2 6
 6 2 3 6 6 6 6 6 5 6 6 6 2 6 2 6 2 1 2 6 2 6 2 0 6 6 2 2 6 2 2 6 1 6 6 6 6
 6 2 6 6 6 6 2 2 2 5 2 6 6 0 6 2 6 2 6 3 6 6 6 6 6 2 6 0 6 6 2 3 0 2 1 2 2
 6 2 6 6 1 2 6 6 5 1 6 1 6 0 6 6 6 6 2 6 6 6 6 6 6 2 2 6 5 4 6 6 6 4 2 6 0
 6 2 2 2 2 6 6 6 3 6 6 4 4 6 5 1 2 4 2 6 2 2 6 2 1 2 3 2 6 1 2 2 2 2 6 2 6
 1 2 1 6 4 6 6 4 6 6 6 1 6 6 1 6 6 2 6 6 6 6 6 6 2 6 1 6 6 6 2 6 6 6 6 2 2
 6 0 2 6 1 6 6 3 6 2 3 2 6 6 6 2 2 2 2 2 6 4 2 5 6 4 6 0 6 2 6 6 2 2 6 6 6
 6 6 0 6 6 2 6 2 6 1 1 3 

In [40]:
ctv = CountVectorizer(min_df=3,
                      max_df=0.5,
                      ngram_range=(1,2),
                      stop_words = stwlist)

# 使用Count Vectorizer来fit训练集和测试集（半监督学习）
ctv.fit(list(xtrain) + list(xvalid))
xtrain_ctv =  ctv.transform(xtrain) 
xvalid_ctv = ctv.transform(xvalid)

  'stop_words.' % sorted(inconsistent))


<788x12767 sparse matrix of type '<class 'numpy.int64'>'
	with 12911 stored elements in Compressed Sparse Row format>

In [122]:
#利用提取的word counts特征来fit一个简单的Logistic Regression 

clf = LogisticRegression(C=1.0,solver='lbfgs',multi_class='multinomial')
clf.fit(xtrain_ctv, ytrain)
predictions = clf.predict_proba(xvalid_ctv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))
# print(classification_report(predictions, yvalid)) 

logloss: 0.094 


ValueError: Classification metrics can't handle a mix of continuous-multioutput and multiclass targets

[[3.00594431e-04 6.19102211e-04 2.67899391e-04 ... 7.13164554e-05
  9.98458385e-01 1.16589354e-05]
 [5.99671148e-05 2.20135204e-04 1.01900936e-04 ... 3.21291562e-04
  9.99246716e-01 1.32777122e-05]
 [2.81881457e-05 1.24903730e-04 9.99534011e-01 ... 7.42338671e-05
  2.17739609e-04 5.63131562e-06]
 ...
 [1.01280741e-04 1.66555095e-04 2.15258522e-04 ... 4.96890643e-05
  9.99366462e-01 7.17242438e-06]
 [1.04441067e-04 2.01985822e-04 9.99392390e-01 ... 2.49375062e-05
  1.62355893e-04 4.07682228e-06]
 [8.94505574e-05 1.53670451e-04 1.12317211e-04 ... 3.26032678e-05
  9.99460876e-01 8.16204101e-06]]
0
(788,)


In [62]:
# from sklearn.metrics import f1_score, precision_score, recall_score

# f1 = f1_score(yvalid, predictions, average='macro')

ValueError: Classification metrics can't handle a mix of multiclass and continuous-multioutput targets

In [120]:
#利用提取的TFIDF特征来fitNaive Bayes
clf = MultinomialNB()
clf.fit(xtrain_tfv, ytrain)
predictions = clf.predict_proba(xvalid_tfv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

print(classification_report(predictions, yvalid))

logloss: 0.507 


ValueError: Classification metrics can't handle a mix of continuous-multioutput and multiclass targets

In [119]:
# 朴素贝叶斯模型的表现也不咋地！让我们在基于词汇计数的基础上使用朴素贝叶斯模型，看会发生什么？
clf = MultinomialNB()
clf.fit(xtrain_ctv, ytrain)
predictions = clf.predict_proba(xvalid_ctv)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

# print(classification_report(predictions, yvalid))

logloss: 0.580 


ValueError: Classification metrics can't handle a mix of continuous-multioutput and multiclass targets

In [44]:
#使用SVD进行降维，components设为120，对于SVM来说，SVD的components的合适调整区间一般为120~200 
svd = decomposition.TruncatedSVD(n_components=120)
svd.fit(xtrain_tfv)
xtrain_svd = svd.transform(xtrain_tfv)
xvalid_svd = svd.transform(xvalid_tfv)

In [45]:
#对从SVD获得的数据进行缩放
scl = preprocessing.StandardScaler()
scl.fit(xtrain_svd)
xtrain_svd_scl = scl.transform(xtrain_svd)
xvalid_svd_scl = scl.transform(xvalid_svd)

In [123]:
# 调用下SVM模型
clf = SVC(C=1.0, probability=True) # since we need probabilities
clf.fit(xtrain_svd_scl, ytrain)
predictions = clf.predict_proba(xvalid_svd_scl)
prediction = clf.predict_log_proba(xvalid_svd_scl)

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

# print(classification_report(predictions, yvalid))

logloss: 0.184 


ValueError: Classification metrics can't handle a mix of continuous-multioutput and multiclass targets

In [113]:
clf.score(xvalid_svd_scl, yvalid)

0.9378172588832487

In [110]:
predictions[0]

array([3.0059443e-04, 6.1910221e-04, 2.6789939e-04, 2.5470569e-04,
       1.6388774e-05, 7.1316455e-05, 9.9845839e-01, 1.1658935e-05],
      dtype=float32)

In [47]:
# 基于tf-idf特征，使用xgboost
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1)
clf.fit(xtrain_tfv.tocsc(), ytrain)
predictions = clf.predict_proba(xvalid_tfv.tocsc())

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))

#print(classification_report(predictions, yvalid))

logloss: 0.092 


In [48]:
# 基于word counts特征，使用xgboost
clf = xgb.XGBClassifier(max_depth=7, n_estimators=200, colsample_bytree=0.8, 
                        subsample=0.8, nthread=10, learning_rate=0.1)
clf.fit(xtrain_ctv.tocsc(), ytrain)
predictions = clf.predict_proba(xvalid_ctv.tocsc())

print ("logloss: %0.3f " % multiclass_logloss(yvalid, predictions))


#print(classification_report(predictions, yvalid))

logloss: 0.085 
