## 6.1 简介
文本分析和NLP(Natural Language Processing，自然语言处理)是现代人工智能系统不 可分割的一部分。计算机擅长于用有限的多样性来理解结构死板的数据。然而，当我们用计算 机处理非结构化的自由文本时，就会变得很困难。开发NLP应用程序是一种挑战，因为计算机 很难理解隐含的概念，而且语言交流方式也有很多细微的差异。这些差异的形式可以是方言、 语境、俚语等。  
为了解决这个问题，基于机器学习的NLP应运而生。这些算法检测文本数据的模式，以便可 以从中得到了解。人工智能公司大量地使用了NLP和文本分析来推送相关结果。NLP最常用的领 域包括搜索引擎、情感分析、主题建模、词性标注、实体识别等。NLP的目标是开发出一组算法， 以便可以用简单的英文和计算机交流。如果这一目标实现，将不再需要程序设计语言来命令计算 机执行指令。这一章将主要介绍文本分析，以及如何从文本数据中提取有意义的信息。我们将大 量用到Python中的NLTK(Natural Language Toolkit)包。在进行接下来的学习之前，先确保你已 经安装了NLTK，安装步骤可以参考http://www.nltk.org/install.html 你还需要安装NLTK数据，这些数据中包含很多语料和训练模型，这也是文本分析不可分割的部分，安装步骤可以参考http://www.nltk.org/data.html


## 6.2 用标记解析的方法预处理数据
标记解析是将文本分割成一组有意义的片段的过程。这些片段被称作标记，例如可以将一段 文字分割成单词或者句子。根据手头的任务需要，可以自定义将输入的文本分割成有意义的标记。 接下来介绍如何实现这样的标记解析

In [2]:
text = "Are you curious about tokenization? Let's see how it works! We need to analyze \
a couple of sentences with punctuations to see it in action."

In [6]:
#提取句子
# import nltk
# nltk.download('punkt')
from nltk.tokenize import sent_tokenize
sent_tokenize_list=sent_tokenize(text)
print('Sentence tokenizer is ' , sent_tokenize_list)

Sentence tokenizer is  ['Are you curious about tokenization?', "Let's see how it works!", 'We need to analyze a couple of sentences with punctuations to see it in action.']


In [7]:
#提取单词
from nltk.tokenize import  word_tokenize
word_tokenize_list=word_tokenize(text)
print('Word tokenizer is ',word_tokenize_list)

Word tokenizer is  ['Are', 'you', 'curious', 'about', 'tokenization', '?', 'Let', "'s", 'see', 'how', 'it', 'works', '!', 'We', 'need', 'to', 'analyze', 'a', 'couple', 'of', 'sentences', 'with', 'punctuations', 'to', 'see', 'it', 'in', 'action', '.']


In [10]:
#使用punktword根据标点分割文本 句中标点做忽略
from nltk.tokenize import PunktSentenceTokenizer
punkt_word_list=PunktSentenceTokenizer()
print('Punkt word list is ',punkt_word_list.tokenize(text))

Punkt word list is  ['Are you curious about tokenization?', "Let's see how it works!", 'We need to analyze a couple of sentences with punctuations to see it in action.']


In [13]:
#可以将标点 符号单独保留到不同句子标记
from nltk.tokenize import WordPunctTokenizer
word_punkt_list=WordPunctTokenizer()
print('word_tokenize_list is ',word_punkt_list.tokenize(text))

word_tokenize_list is  ['Are', 'you', 'curious', 'about', 'tokenization', '?', 'Let', "'", 's', 'see', 'how', 'it', 'works', '!', 'We', 'need', 'to', 'analyze', 'a', 'couple', 'of', 'sentences', 'with', 'punctuations', 'to', 'see', 'it', 'in', 'action', '.']


## 6.3提取文本数据词干
处理文本文档时，可能会碰到单词的不同形式。以单词“play”为例，这个单词可能以各种 形式出现，例如“play”“plays”“player”“playing”等，这些是具有同样含义的单词家族。在文 本分析中，提取这些单词的原形非常有用，它有助于我们提取一些统计信息来分析整个文本。词 干提取的目标是将不同词形的单词都变成其原形。词干提取使用启发式处理方法截取单词的尾 部，以提取单词的原形。接下来介绍如何在Python中完成词干提取

In [22]:
'''
以上3种词干提取算法的本质目标都是提取出词干，消除词形的影响。它们的不同之处在于
操作的严格程度不同。观察输出结果可以看到，Lancaster词干提取器比其他两个词干提取器更严格。
就严格程度来说，Porter词干提取器是最宽松的，而Lancaster词干提取器是最严格的。
从 Lancaster词干提取器得到的词干往往比较模糊，难以理解。
Lancaster词干提取算法的速度很快， 但是它会减少单词的很大部分，因此通常会选择Snowball词干提取器。
'''
from nltk.stem.porter import PorterStemmer
from nltk.stem.lancaster import LancasterStemmer
from nltk.stem.snowball import SnowballStemmer
words=['table', 'probably', 'wolves', 'playing', 'is','dog', 'the', 'beaches', 'grounded', 'dreamt', 'envision']\

stemmers=['PORTER','LANCASTER','SNOWBALL']
stem_porter=PorterStemmer()
stem_lancaster=LancasterStemmer()
stem_snowball=SnowballStemmer('english')
print(('{:>16}'*(len(stemmers)+1)).format('word',*stemmers))
for word in words:
    stemmed_words=[stem_porter.stem(word),stem_lancaster.stem(word),stem_snowball.stem(word)]
    print(('{:>16}'*(len(stemmers)+1)).format(word,*stemmed_words))

            word          PORTER       LANCASTER        SNOWBALL
           table            tabl            tabl            tabl
        probably         probabl            prob         probabl
          wolves            wolv            wolv            wolv
         playing            play            play            play
              is              is              is              is
             dog             dog             dog             dog
             the             the             the             the
         beaches           beach           beach           beach
        grounded          ground          ground          ground
          dreamt          dreamt          dreamt          dreamt
        envision           envis           envid           envis


## 6.4 用词形还原的方法还原文本的基本形式
词形还原的目标也是将单词转换为其原形，但它是一个更结构化的方法。在前一节中，可以 看到用词根还原得到的单词原形并不是有意义的，例如单词“wolves”被还原成“wolv”，还原 出的单词根本不是一个真实的单词。词形还原通过对单词进行词汇和语法分析来实现，因此可以 圆满解决这一问题。词形还原变形词的结尾，例如“ing”或“ed”，然后返回单词的原形形式， 这个原形也就是词根(lemma)。如果对单词“wolves”做词根还原，可以得到“wolf”的输出。 输出结果取决于标记是一个动词还是一个名词。下面看看如何做词形还原。

In [28]:
nltk.download('wordnet')
from nltk.stem import WordNetLemmatizer
lemmatizers = ['NOUN LEMMATIZER', 'VERB LEMMATIZER']
lemmatizer_wordnet = WordNetLemmatizer()
formatted_row = '{:>20}' * (len(lemmatizers) + 1)
print ('\n', formatted_row.format('WORD', *lemmatizers), '\n')
for word in words:
    lemmatized_words = [lemmatizer_wordnet.lemmatize(word, pos='n'),
               lemmatizer_wordnet.lemmatize(word, pos='v')]
    print (formatted_row.format(word, *lemmatized_words))


[nltk_data] Downloading package wordnet to /Users/user/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!

                 WORD     NOUN LEMMATIZER     VERB LEMMATIZER 

               table               table               table
            probably            probably            probably
              wolves                wolf              wolves
             playing             playing                play
                  is                  is                  be
                 dog                 dog                 dog
                 the                 the                 the
             beaches               beach               beach
            grounded            grounded              ground
              dreamt              dreamt               dream
            envision            envision            envision


## 6.5 用分块的方法划分文本
分块是指基于任意随机条件将输入文本分割成块。与标记解析不同的是，分块没有条件约束， 分块的结果不需要有实际意义。分块在文本分析中经常使用。当处理非常大的文本文档时，就需 要将文本进行分块，以便进行下一步分析。在这一节中，将输入文本分成若干块，每块都包含固 定数目的单词。

In [34]:
nltk.download('brown')
import numpy as np
from nltk.corpus import brown
def splitter(data,num_words):
    words=data.split(' ')
    output=[]
    cur_words=[]
    cur_count=0
    for word in words:
        cur_words.append(word)
        cur_count += 1
        if cur_count == num_words:
            output.append(' '.join(cur_words))
            cur_words = []
            cur_count = 0
    output.append(' '.join(cur_words) )
    return output    
data = ' '.join(brown.words()[:10000])
num_words = 1700
chunks = []
counter = 0
text_chunks = splitter(data, num_words)
print ("Number of text chunks =", len(text_chunks))

[nltk_data] Downloading package brown to /Users/user/nltk_data...
[nltk_data]   Package brown is already up-to-date!
Number of text chunks = 6


## 6.6 创建词袋模型
如果需要处理包含数百万单词的文本文档，需要将其转化成某种数值表示形式，以便让机器 用这些数据来学习算法。这些算法需要数值数据，以便可以对这些数据进行分析，并输出有用的 信息。这里需要用到词袋(bag-of-words)。词袋是从所有文档的所有单词中学习词汇的模型。学 习之后，词袋通过构建文档中所有单词的直方图来对每篇文档进行建模。


In [41]:
from sklearn.feature_extraction.text import CountVectorizer
data=' '.join(brown.words()[:10000])
num_words=2000
chunks=[]
counter=0
text_chunks=splitter(data,num_words)
for text in text_chunks:
    chunk={'index':counter,'text':text}
    chunks.append(chunk)
    counter+=1
vectorizer=CountVectorizer(min_df=5,max_df=.95)
doc_term_martrix=vectorizer.fit_transform([chunk['text'] for chunk in chunks])
vocab=np.array(vectorizer.get_feature_names())
print('Vocab is \n',vocab)

print('Document team martrix is ')
chunk_names=['Chunk-'+str(i) for i in range(5)]
formatted_row='{:>12}'*(len(chunk_names)+1)
print(formatted_row.format('word',*chunk_names))
for word,item in zip(vocab,doc_term_martrix.T):
    output=[str(x) for x in item.data]
    print(formatted_row.format(word,*output))


Vocab is 
 ['about' 'after' 'against' 'aid' 'all' 'also' 'an' 'and' 'are' 'as' 'at'
 'be' 'been' 'before' 'but' 'by' 'committee' 'congress' 'did' 'each'
 'education' 'first' 'for' 'from' 'general' 'had' 'has' 'have' 'he'
 'health' 'his' 'house' 'in' 'increase' 'is' 'it' 'last' 'made' 'make'
 'may' 'more' 'no' 'not' 'of' 'on' 'one' 'only' 'or' 'other' 'out' 'over'
 'pay' 'program' 'proposed' 'said' 'similar' 'state' 'such' 'take' 'than'
 'that' 'the' 'them' 'there' 'they' 'this' 'time' 'to' 'two' 'under' 'up'
 'was' 'were' 'what' 'which' 'who' 'will' 'with' 'would' 'year' 'years']
Document team martrix is 
        word     Chunk-0     Chunk-1     Chunk-2     Chunk-3     Chunk-4
       about           1           1           1           1           3
       after           2           3           2           1           3
     against           1           2           2           1           1
         aid           1           1           1           3           5
         all          

## 6.7 创建文本分类器
文本分类的目的是将文本文档分为不同的类，这是NLP中非常重要的分析手段。这里将使用 一种技术，它基于一种叫作tf-idf的统计数据，它表示词频逆文档频率(term frequency—inverse 8 document frequency)。这个统计工具有助于理解一个单词在一组文档中对某一个文档的重要性。 它可以作为特征向量来做文档分类，你可以在http://www.tfidf.com中找到更多详细介绍

In [51]:
from sklearn.datasets import  fetch_20newsgroups
category_map = {'misc.forsale': 'Sales', 'rec.motorcycles': 'Motorcycles', 'rec.sport.baseball': 'Baseball', 'sci.crypt': 'Cryptography', 'sci.space': 'Space'}
training_data = fetch_20newsgroups(subset='train', categories=category_map.keys(), shuffle=True, random_state=7)
from sklearn.feature_extraction.text import  CountVectorizer
vectorizer=CountVectorizer()
X_train_termcounts=vectorizer.fit_transform(training_data.data)
print('dims of training data',X_train_termcounts.shape)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


dims of training data (2968, 40605)


In [54]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import TfidfTransformer
input_data = [
      "The curveballs of right handed pitchers tend to curve to the left",
      "Caesar cipher is an ancient form of encryption",
      "This two-wheeler is really good on slippery roads"
]
tfidf_transformer = TfidfTransformer()
X_train_tfidf = tfidf_transformer.fit_transform(X_train_termcounts)
classifier = MultinomialNB().fit(X_train_tfidf, training_data. target)
X_input_termcounts = vectorizer.transform(input_data)
X_input_tfidf = tfidf_transformer.transform(X_input_termcounts)
predicted_categories = classifier.predict(X_input_tfidf)
# 打印输出
for sentence, category in zip(input_data, predicted_categories):
    print ('\nInput:', sentence, '\nPredicted category:', \
            category_map[training_data.target_names[category]])


Input: The curveballs of right handed pitchers tend to curve to the left 
Predicted category: Baseball

Input: Caesar cipher is an ancient form of encryption 
Predicted category: Cryptography

Input: This two-wheeler is really good on slippery roads 
Predicted category: Motorcycles


In [55]:
'''
tf-idf技术常用于信息检索领域，目的是了解文档中每个单词的重要性。如果想要识别在文档 中多次出现的单词，
同时，像“is”和“be”这样的普通词汇并不能真正反映内容的本质，因此仅需要提取出具有实际意义的那些单词。
词频越大，则表示这个词越重要，同时，如果这个词经常出现，那么这个词的词频也会增加，这两个因素互相平衡。
提取出每个句子的词频，然后将其 转换为特征向量，用分类器来对这些句子进行分类。

词频(The term frequency, TF)表示一个单词在给定文档中出现的频次。
由于不同文档的长度不同，这些频次的直方图看起来会相差很大，因此需要将其规范化，使得这些频次可以在平等 的环境下进行对比。
为了实现规范化，我们用频次除以文档中所有单词的个数。逆文档频率
(inverse document frequency，IDF)表示给定单词的重要性。当需要计算词频时，假定所有单词 是同等重要的。
为了抗衡哪些经常出现的单词的频率，需要用一个系数将其权重变小。我们需要 计算文档的总数目除以该单词出现的文档数目的比值。
逆文档频率对该比值取对数值。
例如，“is”或“the”等简单的单词在各个文档中均大量出现，但是这并不意味着要用这些 词作为该篇文档的特征。
同时，如果一个单词仅出现一次，那这个单词也不是十分有意义。因此， 我们寻找的是那些出现了一定次数，但不太频繁以至于变成噪声的单词。
tf-idf值的计算可以挑选 出符合要求的单词，并且可以用于分类文档。搜索引擎经常用tf-idf工具来对搜索结果进行相关度 排序。
'''

'\ntf-idf技术常用于信息检索领域，目的是了解文档中每个单词的重要性。如果想要识别在文档 中多次出现的单词，\n同时，像“is”和“be”这样的普通词汇并不能真正反映内容的本质，因此仅需要提取出具有实际意义的那些单词。\n词频越大，则表示这个词越重要，同时，如果这个词经常出现，那么这个词的词频也会增加，这两个因素互相平衡。\n提取出每个句子的词频，然后将其 转换为特征向量，用分类器来对这些句子进行分类。\n\n词频(The term frequency, TF)表示一个单词在给定文档中出现的频次。\n由于不同文档的长度不同，这些频次的直方图看起来会相差很大，因此需要将其规范化，使得这些频次可以在平等 的环境下进行对比。\n为了实现规范化，我们用频次除以文档中所有单词的个数。逆文档频率\n(inverse document frequency，IDF)表示给定单词的重要性。当需要计算词频时，假定所有单词 是同等重要的。\n为了抗衡哪些经常出现的单词的频率，需要用一个系数将其权重变小。我们需要 计算文档的总数目除以该单词出现的文档数目的比值。\n逆文档频率对该比值取对数值。\n例如，“is”或“the”等简单的单词在各个文档中均大量出现，但是这并不意味着要用这些 词作为该篇文档的特征。\n同时，如果一个单词仅出现一次，那这个单词也不是十分有意义。因此， 我们寻找的是那些出现了一定次数，但不太频繁以至于变成噪声的单词。\ntf-idf值的计算可以挑选 出符合要求的单词，并且可以用于分类文档。搜索引擎经常用tf-idf工具来对搜索结果进行相关度 排序。\n'

## 6.8 识别性别
在NLP中，通过姓名识别性别是一个很有趣的任务。这里将用到启发式方法，即姓名的最后 几个字符可以界定性别特征。例如，如果某一个名字以“la”结尾，那么它很有可能是一个女性 名字，如“Angela”或者“Layla”。另外，如果一个名字以“im”结尾，那么它很有可能是一个 男性名字，例如“Tim”或者“Jim”。确定需要用到几个字符来确定性别后，可以来做这个实验。 接下来介绍如何识别性别。

In [76]:
nltk.download('names')
from nltk.corpus import names
from nltk import NaiveBayesClassifier
from nltk.classify import accuracy as nltk_accuracy
def gender_features(word,num_letters):
    return {'feature':word[-num_letters:].lower()}
labeled_names=([(name,'male') for name in names.words('male.txt')]+
              [(name,'female') for name in names.words('female.txt')])
np.random.seed(7)
np.random.shuffle(labeled_names)
input_names=['Leonardo','Amy','Sam']
for i in range(1,5):
    print('Number of letters',i)
    featuresets=[(gender_features(n,i),gender) for n,gender in labeled_names]
    train_set,test_set=featuresets[3000:],featuresets[:3000]
    classifier=NaiveBayesClassifier.train(train_set)
    print('acc is ',str(nltk_accuracy(classifier,test_set)*100)+'%')
    for name in input_names:
        print(name,'==>',classifier.classify(gender_features(name,i)))

[nltk_data] Downloading package names to /Users/user/nltk_data...
[nltk_data]   Package names is already up-to-date!
Number of letters 1
acc is  74.83333333333333%
Leonardo ==> male
Amy ==> female
Sam ==> male
Number of letters 2
acc is  77.2%
Leonardo ==> male
Amy ==> female
Sam ==> male
Number of letters 3
acc is  76.7%
Leonardo ==> male
Amy ==> female
Sam ==> female
Number of letters 4
acc is  69.33333333333334%
Leonardo ==> male
Amy ==> female
Sam ==> female


## 分析句子的情感
情感分析是NLP最受欢迎的应用之一。情感分析是指确定一段给定的文本是积极还是消极的 10 过程。有一些场景中，我们还会将“中性”作为第三个选项。情感分析常用于发现人们对于一个 特定主题的看法。情感分析用于分析很多场景中用户的情绪，如营销活动、社交媒体、电子商务 客户等。

In [73]:
s='21321321'
s[-0:]

'21321321'