## 文本摘要

假设有一整套文本文档语料库，其范围从句子到段落，你的任务是尝试从中获得有意义的见解。以下是可以对文本文档进行的一些操作：
* 提取文档中关键影响短语
* 提取文档中存在的各种不同的概念或主题
* 总结文件，以提供保留着整个语料库重要部分的要点。

我们将讨论三种主要的概念和技术：
* 关键短语提取
* 主题模型
* 自动文摘

### 几个重要概念

#### 文档

文档通常是一个包含完整文本数据的实体，包含可选的标题和其他元数据信息。语料库通常由一系列文档组成。这些文档可以是简单的句子或完整的文本信息段落。分词语料库指的是每个文档被分词化或分解成标识的语料库，其中标识通常是单词。

#### 文本规范化

我呢本规范化是通过技术来清洗、规范化和标准化文本数据的过程，譬如删除特殊符号和字符、去除多余的HTML标签、移除停用词、校正拼写(中文应该是修改错别字)、词干提取和词形还原

#### 特征提取

特征提取是我们从原始文本数据中提取有意义的特征或属性，以将其提供给统计或机器学习算法的过程。

#### 特征矩阵

特征矩阵通常是指从文档集合到特征的映射，其中每行表示文档，每列表示具体特征，特征通常是一个单词或一组单词。我们将通过特征提取后的特征矩阵来表达文档或句子的集合，并且将在后面的实例中经常在统计和机器学习技术之中应用这些矩阵。

#### 奇异值分解

奇异值分解（SVD）是线性代数的一种技术，他在摘要法中经常使用。SVD是实数或复数矩阵的因子分解过程。我们将使用源自scipy的一个很好的实现来提取顶部的k个奇异值，并返回相应的U、S和V矩阵。在utils.py文件中我们将使用以下代码段：

In [15]:
from scipy.sparse.linalg import svds
def low_rank_svd(matrix,singular_count = 2):
    u,s,vt = svds(matrix,k = singular_count)
    return u,s,vt

将在主题建模以及有关文本摘要的中使用该函数。

### 文本规范化

该过程的主要步骤包括
* 句子提取
* 取消HTML转移序列
* 扩展缩写词
* 文本还原
* 删除特殊字符
* 删除停用词
在第一步中我们将在收到的文本文档中，执行：删除其换行符，解析文本，将其转换为ASCII格式，并将其分解成其句子成分。

该函数代码如下所示：

In [16]:
def parse_document(document):
    document = re.sub('\n',' ',document)
    if isinstance(document,str):
        document = document
    elif isinstance(document,unicode):
        return unicodedata.normalize('NFKD',document).encode('ascii','ignore')
    else:
        raise ValueError('Document is not string or unicode!')
    document = document.strip()
    sentences = nltk.sent_tokenize(document)
    sentences = [sentence.strip() for sentence in sentences]
    return sentences

步骤二涉及被转义或编码的非转义特殊HTML字符。我们使用以下函数来取消他们的转义，并将它们恢复到原来未转义形式，这样便可在后续阶段规范化他们：


In [17]:
from HTMLParser import HTMLParser
html_parser = HTMLParser()
def unescape_html(parser,text):
    return parser.unescape(text)

我们要在最终规范化函数中用参数表示词形还原操作，以使其可选，因为在某些情况下我们不想使用词形还原。

In [18]:
def normalize_corpus(corpus,lemmatize = True ,tokenize = False):
    normalize_corpus = []
    for text in corpus:
        text = html_parser.unescape(text)
        text = expand_contractions(text,CONTRACTION_MAP)
        if lemmatize:
            text = lemmatize_text(text)
        else:
            text = text.lower()
        text = remove_special_characters(text)
        text = remove_stopwords(text)
        if tokenize:
            text = tokenize_text(text)
            normalize_corpus.append(text)
        else:
            normalize_corpus.append(text)
            
    return normalize_corpus

我们将使用该函数来满足大部分的规范化需要

### 特征提取

使用泛型函数从文本数据中执行各种类型的特征提取。将要使用的特征类型如下：
* 基于词项次数的二值特征
* 基于词袋模型的频率特征
* TF-IDF权重模型

我们将使用下面的函数实现从文本文档中提取特征

In [19]:
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
def build_feature_matrix(documents,feature_type = 'frequency'):
    feature_type = feature_type.lower().strip()
    if feature_type == 'binary':
        vectorizer = CountVectorizer(binary = True,min_df = 1,ngram_range = (1,1))
    elif feature_type == 'frequency':
        vectorizer = CountVectorizer(binary = False,min_df = 1,ngram_range = (1,1))
    elif feature_type == 'tfidf':
        vectorizer = TfidfVectorizer(min_df = 1,ngram_range = (1,1))
    else:
        raise Exception("Wrong feature type entered.Possible values:'binary','frequence','tfidf'")
    feature_matrix = vectorizer.fit_transform(documents).astype(float)
    return vectorizer,feature_matrix

## 关键短语提取

从非结构化文本文档中提取重要信息的最简单但最强大的技术之一是关键短语提取，关键短语提取也称为词项提取，定义为非结构化文本提取关键重要和相关词项或短语的过程或技术，使得文本文档的核心论题或主题涵盖在这些关键短语中。这种技术属于信息检索和提取的广泛领域。关键短语提取可以应用在许多领域，包括：
* 语义网
* 基于查询的搜索引擎和爬虫
* 推荐系统
* 标注系统
* 文档相似性
* 翻译


有各种各样的关键短语提取方法，下面介绍两种：
* 搭配
* 基于权重标签的短语提取

### 搭配

有各种方法提取搭配，最好方法之一是使用一种n元分词分组或分割方法，我们从语料库中构造n元分词分组，计算每个n元分词的频率，并根据他们的出现频率进行排序以得到最频繁的n元分词搭配。

我们使用古滕堡语料库的书的一部分内容作为我们的语料库

In [20]:
from nltk.corpus import gutenberg
from normalization3 import normalize_corpus
import nltk
from operator import itemgetter
#下载语料
alice = gutenberg.sents(fileids='carroll-alice.txt')
alice = [' '.join(ts) for ts in alice]
#在python3里filter不再返回list，需要强转
norm_alice =list(filter(None, normalize_corpus(alice, lemmatize=False)))
#打印第一行
print(norm_alice[0])

alice adventures wonderland lewis carroll 1865


In [21]:
def flatten_corpus(corpus):
    return ' '.join([document.strip() for document in corpus])

In [22]:
def compute_ngrams(sequence,n):
    return zip(*[sequence[index:] for index in range(n)])

In [23]:
print(compute_ngrams([1,2,3,4],2))

<zip object at 0x0000017C26B07D48>


以下代码帮助我们获得最大的n元分词：

In [24]:
def get_top_ngrams(corpus,ngram_val = 1,limit = 5):
    corpus = flatten_corpus(corpus)
    tokens = nltk.word_tokenize(corpus)
    
    ngrams = compute_ngrams(tokens,ngram_val)
    ngrams_freq_dist = nltk.FreqDist(ngrams)
    sorted_ngrams_fd = sorted(ngrams_freq_dist.items(),key = itemgetter(1),reverse=True)
    sorted_ngrams = sorted_ngrams_fd[:limit]
    sorted_ngrams = [(' '.join(text),freq) for text,freq in sorted_ngrams]
    return sorted_ngrams

In [25]:
get_top_ngrams(corpus = norm_alice,ngram_val=2,limit = 10)

[('said alice', 123),
 ('mock turtle', 56),
 ('march hare', 31),
 ('said king', 29),
 ('thought alice', 26),
 ('white rabbit', 22),
 ('said hatter', 22),
 ('said mock', 20),
 ('said caterpillar', 18),
 ('said gryphon', 18)]

In [26]:
get_top_ngrams(corpus=norm_alice,ngram_val=3,limit=10)

[('said mock turtle', 20),
 ('said march hare', 10),
 ('poor little thing', 6),
 ('little golden key', 5),
 ('certainly said alice', 5),
 ('white kid gloves', 5),
 ('march hare said', 5),
 ('mock turtle said', 5),
 ('know said alice', 4),
 ('might well say', 4)]

In [27]:
from nltk.collocations import BigramCollocationFinder
from nltk.collocations import BigramAssocMeasures
finder = BigramCollocationFinder.from_documents([
    item.split()
    for item
    in norm_alice
])
bigram_measures = BigramAssocMeasures()

In [28]:
finder.nbest(bigram_measures.raw_freq,10)

[('said', 'alice'),
 ('mock', 'turtle'),
 ('march', 'hare'),
 ('said', 'king'),
 ('thought', 'alice'),
 ('said', 'hatter'),
 ('white', 'rabbit'),
 ('said', 'mock'),
 ('said', 'caterpillar'),
 ('said', 'gryphon')]

In [29]:
finder.nbest(bigram_measures.pmi,10)

[('abide', 'figures'),
 ('acceptance', 'elegant'),
 ('accounting', 'tastes'),
 ('accustomed', 'usurpation'),
 ('act', 'crawling'),
 ('adjourn', 'immediate'),
 ('adoption', 'energetic'),
 ('affair', 'trusts'),
 ('agony', 'terror'),
 ('alarmed', 'proposal')]

In [30]:
from nltk.collocations import TrigramCollocationFinder
from nltk.collocations import TrigramAssocMeasures
finder = TrigramCollocationFinder.from_documents([
    item.split()
    for item
    in norm_alice
])
trigram_measures = TrigramAssocMeasures()
finder.nbest(trigram_measures.raw_freq,10)

[('said', 'mock', 'turtle'),
 ('said', 'march', 'hare'),
 ('poor', 'little', 'thing'),
 ('little', 'golden', 'key'),
 ('march', 'hare', 'said'),
 ('mock', 'turtle', 'said'),
 ('white', 'kid', 'gloves'),
 ('beau', 'ootiful', 'soo'),
 ('certainly', 'said', 'alice'),
 ('might', 'well', 'say')]

In [31]:
finder.nbest(trigram_measures.pmi,10)

[('accustomed', 'usurpation', 'conquest'),
 ('adjourn', 'immediate', 'adoption'),
 ('adoption', 'energetic', 'remedies'),
 ('ancient', 'modern', 'seaography'),
 ('apple', 'roast', 'turkey'),
 ('arithmetic', 'ambition', 'distraction'),
 ('brother', 'latin', 'grammar'),
 ('canvas', 'bag', 'tied'),
 ('cherry', 'tart', 'custard'),
 ('circle', 'exact', 'shape')]

### 基于权重标签的短语提取

这是一个稍微不同的方法，算法遵循以下步骤：
* 使用浅层分析提取所有的名词短语词块
* 计算每个词块的TF-IDF权重并返回最大加权短语
使用从维基百科获取的关于大象的示例描述：

In [32]:
toy_text = """
Elephants are large mammals of the family Elephantidae 
and the order Proboscidea. Two species are traditionally recognised, 
the African elephant and the Asian elephant. Elephants are scattered 
throughout sub-Saharan Africa, South Asia, and Southeast Asia. Male 
African elephants are the largest extant terrestrial animals. All 
elephants have a long trunk used for many purposes, 
particularly breathing, lifting water and grasping objects. Their 
incisors grow into tusks, which can serve as weapons and as tools 
for moving objects and digging. Elephants' large ear flaps help 
to control their body temperature. Their pillar-like legs can 
carry their great weight. African elephants have larger ears 
and concave backs while Asian elephants have smaller ears 
and convex or level backs.  
"""

准备好了语料库，我们将使用模式“NP:{<DT>? <JJ>*<NN.*>+}"来从文档/句子的语料库中提取所有可能的名词短语。

In [48]:
from normalization3 import parse_document
import itertools
import nltk
from normalization3 import stopword_list
from gensim import corpora, models


def get_chunks(sentences, grammar = r'NP:{<DT>? <JJ>* <NN.*>+}'):
    
    all_chunks = []
    chunker = nltk.chunk.regexp.RegexpParser(grammar)
    
    for sentence in sentences:
        
        tagged_sents = nltk.pos_tag_sents(
                            [nltk.word_tokenize(sentence)])
        
        chunks = [chunker.parse(tagged_sent) 
                  for tagged_sent in tagged_sents]
        
        wtc_sents = [nltk.chunk.tree2conlltags(chunk)
                     for chunk in chunks]    
         
        flattened_chunks = list(
                            itertools.chain.from_iterable(
                                wtc_sent for wtc_sent in wtc_sents)
                           )
        
        valid_chunks_tagged = [(status, [wtc for wtc in chunk]) 
                        for status, chunk 
                        in itertools.groupby(flattened_chunks,
                                             lambda word,pos,chunk: 
                                             chunk != 'O')]
        
        valid_chunks = [' '.join(word.lower() 
                                for word, tag, chunk 
                                in wtc_group 
                                    if word.lower() 
                                        not in stopword_list) 
                                    for status, wtc_group 
                                    in valid_chunks_tagged
                                        if status]
                                            
        all_chunks.append(valid_chunks)
    
    return all_chunks

 基本上我们有一个已定义的语法模式来分块或提取名词短语。我们在同意模式中定义一个分块器，对于文档中的每个句子，首先用他的POS标签来标注他（因此不应该对文本进行规范化），然后构建一个具有名词短语的浅层分析树作为词块和其他全部基于pos标签的单词作为缝隙，缝隙是不属于任何词块的部分。完成此操作后，我们使用tree2conlltags函数来生成（w,t,c）三元组。删除所有带有‘0’标签的标签，因为他们基本上不属于任何词块的单词或词项。最后从有效词块中组合分块的词项，并从每个词块分组中生成短语。

In [49]:
sentences = parse_document(toy_text)          
valid_chunks = get_chunks(sentences)
print (valid_chunks)

TypeError: <lambda>() missing 2 required positional arguments: 'pos' and 'chunk'