# 分析文本数据

文本分析和NLP（Natural Language Processing，自然语言处理）是现代人工智能系统不可分割的一部分。计算机擅长于用有限的多样性来理解结构死板的数据。然而，当我们用计算机处理非结构化的自由文本时，就会变得很困难。开发NLP应用程序是一种挑战，因为计算机很难理解隐含的概念，而且语言交流方式也有很多细微的差异。这些差异的形式可以是方言、语境、俚语等。

为了解决这个问题，基于机器学习的NLP应运而生。这些算法检测文本数据的模式，以便可以从中得到了解。人工智能公司大量地使用了NLP和文本分析来推送相关结果。NLP最常用的领域包括搜索引擎、情感分析、主题建模、词性标注、实体识别等。NLP的目标是开发出一组算法，以便可以用简单的英文和计算机交流。

### 1 用标记解析的方法预处理数据

标记解析是将文本分割成一组有意义的片段的过程。这些片段被称作标记，例如可以将一段文字分割成单词或者句子。根据手头的任务需要，可以自定义将输入的文本分割成有意义的标记。

In [1]:
text = "Are you curious about tokenization? Let's see how it works! We need to analyze a couple of sentences with punctuations to see it in action."

In [2]:
# 对句子进行解析
from nltk.tokenize import sent_tokenize

In [3]:
sent_tokenize_list = sent_tokenize(text)

In [4]:
print('\nSentence tokenizer: \n', sent_tokenize_list)


Sentence tokenizer: 
 ['Are you curious about tokenization?', "Let's see how it works!", 'We need to analyze a couple of sentences with punctuations to see it in action.']


In [5]:
# 建立一个新的单词解析器
from nltk.tokenize import word_tokenize
print('\nWord tokenizer: \n', word_tokenize(text))


Word tokenizer: 
 ['Are', 'you', 'curious', 'about', 'tokenization', '?', 'Let', "'s", 'see', 'how', 'it', 'works', '!', 'We', 'need', 'to', 'analyze', 'a', 'couple', 'of', 'sentences', 'with', 'punctuations', 'to', 'see', 'it', 'in', 'action', '.']


> 单词解析在NLP中是非常常用的。NLTK附带了几个不同的单词解析器。

In [6]:
# 创建一个带标点的单词解析器
from nltk.tokenize import wordpunct_tokenize
print('\nPunkt word tokenizer: \n', wordpunct_tokenize(text))


Punkt word tokenizer: 
 ['Are', 'you', 'curious', 'about', 'tokenization', '?', 'Let', "'", 's', 'see', 'how', 'it', 'works', '!', 'We', 'need', 'to', 'analyze', 'a', 'couple', 'of', 'sentences', 'with', 'punctuations', 'to', 'see', 'it', 'in', 'action', '.']


> 如果需要将标点符号保留到不同的句子标记中，可以用WordPunct标记解析器。

In [7]:
# 创建一个新的WordPunct标记解析器
from nltk.tokenize import WordPunctTokenizer
word_punct_tokenizer = WordPunctTokenizer()
print('\nWord punct tokenizer: \n', word_punct_tokenizer.tokenize(text))


Word punct tokenizer: 
 ['Are', 'you', 'curious', 'about', 'tokenization', '?', 'Let', "'", 's', 'see', 'how', 'it', 'works', '!', 'We', 'need', 'to', 'analyze', 'a', 'couple', 'of', 'sentences', 'with', 'punctuations', 'to', 'see', 'it', 'in', 'action', '.']


### 2 提取文本数据的词干

处理文本文档时，可能会碰到单词的不同形式。以单词“play”为例，这个单词可能以各种形式出现，例“play”“plays”“player”“playing”等，这些是具有同样含义的单词家族。在文本分析中，提取这些单词的原形非常有用，它有助于我们提取一些统计信息来分析整个文本。词干提取的目标是将不同词形的单词都变成其原形。词干提取使用启发式处理方法截取单词的尾部，以提取单词的原形。

In [8]:
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem.snowball import SnowballStemmer

In [9]:
words = ['table', 'probably', 'wolves', 'playing', 'is','dog', 'the', 'beaches', 'grounded', 'dreamt', 'envision']

In [10]:
# 对比不同的词干提取算法
stemmers = ['PORTER', 'LANCASTER', 'SNOWBALL']

In [11]:
# 初始化3个词干提取器对象
stemmer_porter = PorterStemmer()
stemmer_lancaster = LancasterStemmer()
stemmer_snowball = SnowballStemmer('english')

In [12]:
# 设定打印排版格式
formatted_row = '{:>16}' * (len(stemmers) + 1)
print('\n', formatted_row.format('WORD', *stemmers), '\n')

# 输出结果
for word in words:
    stemmed_words = [stemmer_porter.stem(word), stemmer_lancaster.stem(word), stemmer_snowball.stem(word)]
    print(formatted_row.format(word, *stemmed_words))


             WORD          PORTER       LANCASTER        SNOWBALL 

           table            tabl            tabl            tabl
        probably         probabl            prob         probabl
          wolves            wolv            wolv            wolv
         playing            play            play            play
              is              is              is              is
             dog             dog             dog             dog
             the             the             the             the
         beaches           beach           beach           beach
        grounded          ground          ground          ground
          dreamt          dreamt          dreamt          dreamt
        envision           envis           envid           envis


### 3 用词形还原的方法还原文本的基本形式

词形还原的目标也是将单词转换为其原形，但它是一个更结构化的方法。上面用词根还原得到的单词原形并不是有意义的，例如单词“wolves”被还原成“wolv”，还原出的单词根本不是一个真实的单词。词形还原通过对单词进行词汇和语法分析来实现，因此可以圆满解决这一问题。词形还原变形词的结尾，例如“ing”或“ed”，然后返回单词的原形形式，这个原形也就是词根（lemma）。如果对单词“wolves”做词根还原，可以得到“wolf”的输出。输出结果取决于标记是一个动词还是一个名词。

In [13]:
from nltk.stem import WordNetLemmatizer

In [14]:
words = ['table', 'probably', 'wolves', 'playing', 'is', 'dog', 'the', 'beaches', 'grounded', 'dreamt', 'envision']

In [15]:
# 对比不同的词形还原器：名词还原器与动词还原器
lemmatizers = ['NOUN LEMMATIZER', 'VERB LEMMATIZER']

In [16]:
# 基于WordNet词形还原器创建一个对象
lemmatizer_wordnet = WordNetLemmatizer()

In [17]:
# 格式化
formatted_row = '{:>24}' * (len(lemmatizers) + 1)
print('\n', formatted_row.format('WORD', *lemmatizers), '\n')

for word in words:
    lemmatized_words = [lemmatizer_wordnet.lemmatize(word, pos='n'), lemmatizer_wordnet.lemmatize(word, pos='v')]
    print(formatted_row.format(word, *lemmatized_words))


                     WORD         NOUN LEMMATIZER         VERB LEMMATIZER 

                   table                   table                   table
                probably                probably                probably
                  wolves                    wolf                  wolves
                 playing                 playing                    play
                      is                      is                      be
                     dog                     dog                     dog
                     the                     the                     the
                 beaches                   beach                   beach
                grounded                grounded                  ground
                  dreamt                  dreamt                   dream
                envision                envision                envision


### 4 用分块的方法划分文本

分块是指基于任意随机条件将输入文本分割成块。与标记解析不同的是，分块没有条件约束，分块的结果不需要有实际意义。分块在文本分析中经常使用。当处理非常大的文本文档时，就需要将文本进行分块，以便进行下一步分析。

In [18]:
import numpy as np
from nltk.corpus import brown

In [19]:
# 将文本分割成块
def splitter(data, num_words):
    words = data.split(' ')
    output = []
    
    cur_count = 0
    cur_words = []
    
    for word in words:
        cur_words.append(word)
        cur_count += 1        
        if cur_count == num_words:
            output.append(' '.join(cur_words))
            cur_words = []
            cur_count = 0
        
    output.append(' '.join(cur_words))
    return output

In [20]:
# 从布朗语料库加载数据
data = ' '.join(brown.words()[:10000])

# 每块包含的单词数目
num_words = 2000

chunks = []
counter = 0

text_chunks = splitter(data, num_words)
print("Number of text chunks =", len(text_chunks))

Number of text chunks = 6


### 5 创建词袋模型

如果需要处理包含数百万单词的文本文档，需要将其转化成某种数值表示形式，以便让机器用这些数据来学习算法。这些算法需要数值数据，以便可以对这些数据进行分析，并输出有用的信息。这里需要用到词袋（bag-of-words）。词袋是从所有文档的所有单词中学习词汇的模型。学习之后，词袋通过构建文档中所有单词的直方图来对每篇文档进行建模。

In [21]:
import numpy as np
from nltk.corpus import brown
# from chunking import splitter

In [22]:
# 布朗语料库读取数据
data = ' '.join(brown.words()[:10000])
# 每块包含的单词数量
num_words = 2000
chunks = []
counter = 0
text_chunks = splitter(data, num_words)

In [23]:
for text in text_chunks:
    chunk = {'index': counter, 'text': text}
    chunks.append(chunk)
    counter += 1

In [24]:
# 提取文档-词矩阵
from sklearn.feature_extraction.text import CountVectorizer

In [25]:
vectorizer = CountVectorizer(min_df=5, max_df=.95)
doc_term_matrix = vectorizer.fit_transform([chunk['text'] for chunk in chunks])

In [26]:
# 从vectorizer对象中提取词汇，并打印
vocab = np.array(vectorizer.get_feature_names())
print("\nVocabulary:", vocab)


Vocabulary: ['about' 'after' 'against' 'aid' 'all' 'also' 'an' 'and' 'are' 'as' 'at'
 'be' 'been' 'before' 'but' 'by' 'committee' 'congress' 'did' 'each'
 'education' 'first' 'for' 'from' 'general' 'had' 'has' 'have' 'he'
 'health' 'his' 'house' 'in' 'increase' 'is' 'it' 'last' 'made' 'make'
 'may' 'more' 'no' 'not' 'of' 'on' 'one' 'only' 'or' 'other' 'out' 'over'
 'pay' 'program' 'proposed' 'said' 'similar' 'state' 'such' 'take' 'than'
 'that' 'the' 'them' 'there' 'they' 'this' 'time' 'to' 'two' 'under' 'up'
 'was' 'were' 'what' 'which' 'who' 'will' 'with' 'would' 'year' 'years']


In [27]:
print("\nDocument term matrix:")
chunk_names = ['Chunk-0', 'Chunk-1', 'Chunk-2', 'Chunk-3', 'Chunk-4']
formatted_row = '{:>12}' * (len(chunk_names) + 1)
print('\n', formatted_row.format('Word', *chunk_names), '\n')

for word, item in zip(vocab, doc_term_matrix.T):
# “item”是压缩的稀疏矩阵（csr_matrix）数据结构
    output = [str(x) for x in item.data]
    print(formatted_row.format(word, *output))


Document term matrix:

         Word     Chunk-0     Chunk-1     Chunk-2     Chunk-3     Chunk-4 

       about           1           1           1           1           3
       after           2           3           2           1           3
     against           1           2           2           1           1
         aid           1           1           1           3           5
         all           2           2           5           2           1
        also           3           3           3           4           3
          an           5           7           5           7          10
         and          34          27          36          36          41
         are           5           3           6           3           2
          as          13           4          14          18           4
          at           5           7           9           3           6
          be          20          14           7          10          18
        been           7

### 6 创建文本分类器

文本分类的目的是将文本文档分为不同的类，这是NLP中非常重要的分析手段。这里将使用一种技术，它基于一种叫作tf-idf的统计数据，它表示词频-逆文档频率（term frequency—inverse document frequency）。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。

In [28]:
from sklearn.datasets import fetch_20newsgroups

In [29]:
category_map = {'misc.forsale': 'Sales', 'rec.motorcycles': 'Motorcycles', 'rec.sport.baseball': 'Baseball', 'sci.crypt': 'Cryptography', 'sci.space': 'Space'}

In [None]:
# 基于刚刚定义的类型加载训练数据
training_data = fetch_20newsgroups(subset='train', categories=category_map.keys(), shuffle=True, random_state=7)

In [None]:
# 特征提取
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
vectorizer = CountVectorizer()
X_train_termcounts = vectorizer.fit_transform(training_data.data)
print("\nDimensions of training data:", X_train_termcounts.shape)

In [None]:
# 训练分类器
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer

In [None]:
# 定义一些随机输入的句子
input_data = [
    "The curveballs of right handed pitchers tend to curve to the left",
    "Caesar cipher is an ancient form of encryption",
    "This two-wheeler is really good on slippery roads"
]

In [None]:
# tf-idf变换器
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_ termcounts)

In [None]:
# 多项式朴素贝叶斯分类器
classifier = MultinomialNB().fit(X_train_tfidf, training_data. target)

In [None]:
# 用词频统计转换输入数据
X_input_termcounts = vectorizer.transform(input_data)

In [None]:
# 用tf-idf变换器变换输入数据
X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)

In [None]:
# 用训练过的分类器预测这些输入句子的输出类型
# 预测输出类型
predicted_categories = classifier.predict(X_input_tfidf)

# 打印输出
for sentence, category in zip(input_data, predicted_categories):
    print('\nInput:', sentence, '\nPredicted category:', category_map[training_data.target_names[category]])