A Comprehensive Guide to Understand and Implement Text Classification in Python

https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/

介绍：
一个被广泛使用的nlp任务就是文本分类。文本分类的目标是自动将文本内容分配到几个定义好的类别中。一些文本分类的例子如下：
- 社交媒体中的用户情感分析
- 垃圾邮件识别
- 用户query进行自动打标签
- 新闻文章进行自动归类 

Table of Contents
在这里，我会解释文本分类，并一步一步的实现它
![image.png](attachment:image.png)

文本分类是一个监督机器学习的例子。因为被打好标签的数据集合包括文本和他们的标签都被用来训练分类器官。一个端到端的文本分类流程一般包含三个主要的组件：
- 数据集合准备：第一步就是数据集合准备。这里包括了加载数据集的过程，以及实现基础的预处理的过程。这个数据集之后会被划分为训练集合和验证集合
- 特征工程：第二步就是特征工程。这特征工程中，原始数据集合被转化为特征，这些特征可以被机器学习模型使用。这一步也包括了从已存在的数据中创建新特征的步骤
- 模型训练：第三步就是利用文本分类器训练一个机器学习模型
- 提升文本分类器的性能：在这里我们也会看一下不同的方式来提升文本分类器的性能

Note：这里并不会深入的讲述nlp任务。如果想要复习一些基础，可以多看几遍这个文章。


# Getting your machine ready
让我们一步一步的实现一些基础组件，来创建一个文本分类框架。首先，我们需要导入一些必要的lib

你需要使用lib来run这些code。你可以通过pip或者别的来安装他们的官方包
- Pandas
- Sciki-learn
- XGBoost
- TextBlob
- Keras




In [9]:
# libraries for dataset preparation, feature engineering, model training
from sklearn import model_selection, preprocessing, linear_model, naive_bayes, metrics, svm
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn import decomposition, ensemble

import pandas as pd
import xgboost as xgb
import numpy as np
import textblob
import string
from keras.preprocessing import text, sequence
from keras import layers, models, optimizers

# 1.数据集准备

为了实现我们这个文章中的目的，我使用了亚马逊的评论数据，可以从后面的链接下载。数据集包含3.6M的文本评论以及他们的标签。我们将会使用其中的一个片段进行实验。为了准备数据集，加载已经下载的数据到pandas dataframe 中，包含两列：文本和标签。


In [None]:
# load the dataset
# 这个是原作者使用的代码。放在这里可以学习一下怎么自己生成dataframe。我使用的数据是csv格式的可以直接读取
# data = open('data/corpus').read()
# labels, texts = [], []
# for i, line in enumerate(data.split("\n")):
#     content = line.split()
#     labels.append(content[0])
#     texts.append(content[1])

# # create a dataframe using texts and lables
# trainDF = pandas.DataFrame()
# trainDF['text'] = texts
# trainDF['label'] = labels

In [17]:
!ls ../../data

In [22]:
# load the dataset
trainDF = pd.read_csv('../../data/train_review.csv')
trainDF.head()

Unnamed: 0,label,title,content
0,2,Stuning even for the non-gamer,This sound track was beautiful! It paints the ...
1,2,The best soundtrack ever to anything.,I'm reading a lot of reviews saying that this ...
2,2,Amazing!,This soundtrack is my favorite music of all ti...
3,2,Excellent Soundtrack,I truly like this soundtrack and I enjoy video...
4,2,"Remember, Pull Your Jaw Off The Floor After He...","If you've played the game, you know how divine..."


接下来，我们将会把数据集切分成为训练集和验证集，这样就可以训练并且测试分类器。我们也会编码我们的目标列，这样就可以使用机器学习模型

In [27]:
# split the dataset into training and validation datasets
train_x, valid_x, train_y, valid_y = model_selection.train_test_split(trainDF['content'],trainDF['label'])

# 编码目标变量
# 原因是我们使用了pd dataframe 读取的数据，所以就导致了我们split出来的结果也是带有序号的
encoder = preprocessing.LabelEncoder()
train_y = encoder.fit_transform(train_y)
valid_y = encoder.fit_transform(valid_y)

# 2 特征工程

下一步是做特征工程。在这一步中，原始数据将会被转换为特征向量，并且新的特征将会被使用已有的数据集合进行创建。我们将会实现下列的不同想法来从我们的数据集中得到相关特征

2.1 Count Vectors as features
2.2 TF-IDF Vectors as features
- word level
- N-gram level
- Character level
2.3 Word Embeddings as features
2.4 Text/NLP based features
2.5 Topic Models as features

接下来看一些这些想法是如何实现的


### 2.1 Count Vectors as features
Count Vectors 是数据集的一个矩阵表示，在这个表示中，每一行代表一个从数据集中获取的文本，每一列代表一个项，并且每一个cell代表了一个项在一个特定文本中的频次

In [31]:
# create a count vectorizer object
count_vect = CountVectorizer(analyzer = 'word', token_pattern = r'\w{1,}')
count_vect.fit(trainDF['content'])

# transform the training and validation data using count vectorizer object
xtrain_count = count_vect.transform(train_x)
xvalid_count = count_vect.transform(valid_x)

### 2.2 TF-IDF Vectors as features
TF-IDF 得分代表了一个项在文本中和整个文件中的相对重要程度。TF-IDF的得分被两个因素影响。第一个计算了归一化后的Term Grequency(TF)，第二个计算了Inverse Document Frequency（INF）。计算如下：

TF(t) = (Number of times term t appears in a document) / (Total number of terms in the document)

IDF(t) = log_e(Total number of documents / Number of documents with term t in it)

TF-IDF Vectors 可以在不同的级别的输入tokens（words，characters，n-grams）上被生成
- Word level tf-idf: Matrix representing tf-idf scores of every term in different documents
- N-gram level tf-idf: N-grams are the combination of N terms together. This Matrix representing tf-idf scores of N-grams
- Character level tf-idf: Matrix representing tf-idf scores of character level n-grams in the corpus

我们可以理解成就是在不同程度上将词作为一个term（注意这里是英语而不是中文，中文涉及到一个切词的问题）

In [33]:
# word level tf-idf
tfidf_vect = TfidfVectorizer(analyzer = 'word', token_pattern = r'\w{1,}', max_features = 5000) # 限制了最多只有5k个term
tfidf_vect.fit(trainDF['content'])
xtrain_tfidf = tfidf_vect.transform(train_x)
xvalid_tfidf = tfidf_vect.transform(valid_x)

# ngram level tf-idf 
tfidf_vect_ngram = TfidfVectorizer(analyzer='word', token_pattern=r'\w{1,}', ngram_range=(2,3), max_features=5000)
tfidf_vect_ngram.fit(trainDF['content']) # 这里使用了2-gram
xtrain_tfidf_ngram =  tfidf_vect_ngram.transform(train_x)
xvalid_tfidf_ngram =  tfidf_vect_ngram.transform(valid_x)

# characters level tf-idf
tfidf_vect_ngram_chars = TfidfVectorizer(analyzer='char', token_pattern=r'\w{1,}', ngram_range=(2,3), max_features=5000)
tfidf_vect_ngram_chars.fit(trainDF['content']) # 使用char 级别的 2-gram
xtrain_tfidf_ngram_chars =  tfidf_vect_ngram_chars.transform(train_x) 
xvalid_tfidf_ngram_chars =  tfidf_vect_ngram_chars.transform(valid_x) 

### 2.3 word embedding

word embedding 是利用稠密向量对词和文本的进行的一种表示。在向量空间中词语的位置会从文本中学习基于词语被使用时周边的词语。word embedding 可以使用输入数据进行训练或者可以使用与训练的word embedding 例如（Glove, FastText, and Word2Vec)。他们中的任何一个都可以被下载并且用来前一学习。关于word embedding 可以参考这里：
https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/

下面的一些观点表明了如何在模型中使用预训练的word embedding。这是四个重要的步骤：
- 加载预训练的word embedding
- 创建tokenizer 的 object
- 转化文本为token 的 sequence 并且 对他们进行pad操作
- 创建token 和他们 各自 embedding 的map（映射）

可以在这里下载预训练的word embedding： https://s3-us-west-1.amazonaws.com/fasttext-vectors/wiki-news-300d-1M.vec.zip

In [51]:
# load the pre-trained word-embedding vectors
embeddings_index = {}
for i,line in enumerate(open('../../../../NLP/wiki-news-300d-1M.vec')): # enumerate 多了一个序号
    # 词向量中有999994个单词，后面跟着300d的数字作为它的向量表示
    values = line.split()
    embeddings_index[values[0]] = np.asarray(values[1:], dtype = 'float32') # 词语和对应的向量
    
# create a tokenizer
token = text.Tokenizer() #  Tokenizer是一个用于向量化文本，或将文本转换为序列（即单词在字典中的下标构成的列表，从1算起）的类。
token.fit_on_texts(trainDF['content'])
word_index = token.word_index # 单词的index的list

# covert text to sequence of tokens and pad them to ensure equal length vectors
train_seq_x = sequence.pad_sequences(token.texts_to_sequences(train_x),maxlen=70) # texts_to_sequences 返回值：序列的列表，列表中每个序列对应于一段输入文本
valid_seq_x = sequence.pad_sequences(token.texts_to_sequences(valid_x), maxlen=70) # 

'''
keras.preprocessing.sequence.pad_sequences(sequences, maxlen=None, dtype='int32',
    padding='pre', truncating='pre', value=0.)
将长为nb_samples的序列（标量序列）转化为形如(nb_samples,nb_timesteps)2D numpy array。
如果提供了参数maxlen，nb_timesteps=maxlen，否则其值为最长序列的长度。其他短于该长度的序列都会在后部填充0以达到该长度。
长于nb_timesteps的序列将会被截断，以使其匹配目标长度。padding和截断发生的位置分别取决于padding和truncating.
'''


# create token-embedding mapping
embedding_matrix = np.zeros((len(word_index) + 1, 300)) 
# 因为本身是一个300d的词向量，所以这里token和对应的词向量的映射所组成的matrix的大小应该是词语的数量*300
# 为什么要加1呢??? 之后测试一下没有1
# 创建一个embedding的matrix 全部为0 300

for word, i in word_index.items():
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None: # 词向量中有这个词语，就可以保存到我们的词矩阵中
        embedding_matrix[i] = embedding_vector

In [47]:
!head ../../../../NLP/wiki-news-300d-1M.vec

999994 300
, 0.1073 0.0089 0.0006 0.0055 -0.0646 -0.0600 0.0450 -0.0133 -0.0357 0.0430 -0.0356 -0.0032 0.0073 -0.0001 0.0258 -0.0166 0.0075 0.0686 0.0392 0.0753 0.0115 -0.0087 0.0421 0.0265 -0.0601 0.2420 0.0199 -0.0739 -0.0031 -0.0263 -0.0062 0.0168 -0.0357 -0.0249 0.0190 -0.0184 -0.0537 0.1420 0.0600 0.0226 -0.0038 -0.0675 -0.0036 -0.0080 0.0570 0.0208 0.0223 -0.0256 -0.0153 0.0022 -0.0482 0.0131 -0.6016 -0.0088 0.0106 0.0229 0.0336 0.0071 0.0887 0.0237 -0.0290 -0.0405 -0.0125 0.0147 0.0475 0.0647 0.0474 0.0199 0.0408 0.0322 0.0036 0.0350 -0.0723 -0.0305 0.0184 -0.0026 0.0240 -0.0160 -0.0308 0.0434 0.0147 -0.0457 -0.0267 -0.1703 -0.0099 0.0417 0.0235 -0.0260 -0.1519 -0.0116 -0.0306 -0.0413 0.0330 0.0723 0.0365 -0.0001 0.0042 0.0346 0.0277 -0.0305 0.0784 -0.0404 0.0187 -0.0225 -0.0206 -0.0179 -0.2428 0.0669 0.0523 0.0527 0.0149 -0.0708 -0.0987 0.0263 -0.0611 0.0302 0.0216 0.0313 -0.0140 -0.2495 -0.0346 -0.0480 0.0250 0.2130 -0.0330 -0.1553 -0.0292 -0.0346 0.1074 0.0010 -0.0117 -0.005

### 2.4 Text / NLP based features

大量额外的基于文本的特征也可以被用来创建文本分类模型用以提升效果。一些例子如下：

Word Count of the documents – 文本中的单词总数

Character Count of the documents – 文本中的字母（汉字）总数

Average Word Density of the documents – 文本中用到的平均单词长度

Puncutation Count in the Complete Essay – 文本中用到的标点符号个数

Upper Case Count in the Complete Essay – 文本中大写单词的个数

Title Word Count in the Complete Essay – 文本中某些特定格式的单词的 （例如title）

Frequency distribution of Part of Speech Tags:

Noun Count：名词个数

Verb Count：动词个数

Adjective Count：形容词个数

Adverb Count：副词个数

Pronoun Count：代词个数

These features are highly experimental ones and should be used according to the problem statement only.
这些特征是高度实验化的特征并且应该根据实际情况来使用

所以我们需要思考一下中文是否有一些特征可以使用

In [None]:
# import numpy as np
# import pandas as pd
# df=pd.DataFrame(np.random.randn(4,3),columns=list('bde'),index=['utah','ohio','texas','oregon'])
# print(df)
# 将函数应用到由各列或行形成的一维数组上。DataFrame的apply方法可以实现此功能
# f=lambda x:x.max()-x.min()
# #默认情况下会以列为单位，分别对列应用函数
# t1=df.apply(f)
# print(t1)
# t2=df.apply(f,axis=1)
# print(t2)

trainDF['char_count'] = trainDF['content'].apply(len)
trainDF['word_count'] = trainDF['content'].apply(lambda x: len(x.split()))
trainDF['word_density'] = trainDF['char_count'] / (trainDF['word_count']+1) # 平滑防止为0
trainDF['punctuation_count'] = trainDF['content'].apply(lambda x: len("".join(_ for _ in x if _ in string.punctuation))) 
trainDF['title_word_count'] = trainDF['content'].apply(lambda x: len([wrd for wrd in x.split() if wrd.istitle()]))
trainDF['upper_case_word_count'] = trainDF['content'].apply(lambda x: len([wrd for wrd in x.split() if wrd.isupper()]))

In [None]:
pos_family = {
    'noun' : ['NN','NNS','NNP','NNPS'],
    'pron' : ['PRP','PRP$','WP','WP$'],
    'verb' : ['VB','VBD','VBG','VBN','VBP','VBZ'],
    'adj' :  ['JJ','JJR','JJS'],
    'adv' : ['RB','RBR','RBS','WRB']
}

# function to check and get the part of speech tag count of a words in a given sentence
def check_pos_tag(x, flag):
    cnt = 0
    try:
        wiki = textblob.TextBlob(x)
        for tup in wiki.tags:
            ppo = list(tup)[1]
            if ppo in pos_family[flag]:
                cnt += 1
    except:
        pass
    return cnt

trainDF['noun_count'] = trainDF['content'].apply(lambda x: check_pos_tag(x, 'noun'))
trainDF['verb_count'] = trainDF['content'].apply(lambda x: check_pos_tag(x, 'verb'))
trainDF['adj_count'] = trainDF['content'].apply(lambda x: check_pos_tag(x, 'adj'))
trainDF['adv_count'] = trainDF['content'].apply(lambda x: check_pos_tag(x, 'adv'))
trainDF['pron_count'] = trainDF['content'].apply(lambda x: check_pos_tag(x, 'pron'))

### 2.5 Topic Models as features

主题模型是一种用来从一个文本的collection中识别特定词群（被称为topic）的技术，这些词群包含了collection中最多的信息。我们使用Latent Dirichlet Allocation 来生成主题模型特征。LDA是一种迭代模型，开始入一些固定数量的主题。每一个主题被一种词语的分布所代表，并且每一个文档会被一个主题的分布所代表。尽管tokens本身是没有意义的，topics提供的在词级别上的概率分布提供了被包含在文档中的不同想法的感觉。可以在这里看到更多关于主题模型的信息：
https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/

Topic Modelling is a technique to identify the groups of words (called a topic) from a collection of documents that contains best information in the collection. I have used Latent Dirichlet Allocation for generating Topic Modelling Features. LDA is an iterative model which starts from a fixed number of topics. Each topic is represented as a distribution over words, and each document is then represented as a distribution over topics. Although the tokens themselves are meaningless, the probability distributions over words provided by the topics provide a sense of the different ideas contained in the documents. One can read more about topic modelling here

Lets see its implementation:

In [53]:
# train a LDA Model
lda_model = decomposition.LatentDirichletAllocation(n_components=20, learning_method='online', max_iter=20)
X_topics = lda_model.fit_transform(xtrain_count)
topic_word = lda_model.components_ 
vocab = count_vect.get_feature_names()

# view the topic models
n_top_words = 10
topic_summaries = []
for i, topic_dist in enumerate(topic_word):
    topic_words = np.array(vocab)[numpy.argsort(topic_dist)][:-(n_top_words+1):-1]
    topic_summaries.append(' '.join(topic_words))

KeyboardInterrupt: 