In [21]:
# 6.2 有监督分类的更多例子
#     句子分割
#     识别对话行为类型
#     识别文字蕴含
#     拓展到大型数据集

In [None]:
# 6.2.1 句子分割

In [23]:
import nltk
from nltk.corpus import treebank_raw

In [24]:
# 第1步：获得一些已被分割成句子的数据，将它转换成一种适合提取特征的形式
sents = treebank_raw.sents()

In [25]:
sents

[['.', 'START'], ['Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov', '.', '29', '.'], ...]

In [26]:
tokens = []   # 单独句子标识符的合并链表
boundaries = set()  # 包含所有句子边界标识符索引的集合
offset = 0 

In [27]:
for sent in treebank_raw.sents():
    tokens.extend(sent)
    offset += len(sent)
    boundaries.add(offset-1)

In [28]:
tokens

['.',
 'START',
 'Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov',
 '.',
 '29',
 '.',
 'Mr',
 '.',
 'Vinken',
 'is',
 'chairman',
 'of',
 'Elsevier',
 'N',
 '.',
 'V',
 '.,',
 'the',
 'Dutch',
 'publishing',
 'group',
 '.',
 '.',
 'START',
 'Rudolph',
 'Agnew',
 ',',
 '55',
 'years',
 'old',
 'and',
 'former',
 'chairman',
 'of',
 'Consolidated',
 'Gold',
 'Fields',
 'PLC',
 ',',
 'was',
 'named',
 'a',
 'nonexecutive',
 'director',
 'of',
 'this',
 'British',
 'industrial',
 'conglomerate',
 '.',
 '.',
 'START',
 'A',
 'form',
 'of',
 'asbestos',
 'once',
 'used',
 'to',
 'make',
 'Kent',
 'cigarette',
 'filters',
 'has',
 'caused',
 'a',
 'high',
 'percentage',
 'of',
 'cancer',
 'deaths',
 'among',
 'a',
 'group',
 'of',
 'workers',
 'exposed',
 'to',
 'it',
 'more',
 'than',
 '30',
 'years',
 'ago',
 ',',
 'researchers',
 'reported',
 '.',
 'The',
 'asbestos',
 'fiber',
 ',',
 'crocidolit

In [29]:
offset

101797

In [30]:
boundaries

{1,
 90116,
 16389,
 40968,
 81929,
 24587,
 16396,
 65548,
 73741,
 8207,
 32784,
 81931,
 90128,
 98315,
 20,
 65557,
 57366,
 8221,
 24611,
 36,
 32804,
 38,
 57382,
 81957,
 98345,
 73771,
 8236,
 41004,
 8238,
 16430,
 49201,
 73785,
 49210,
 16445,
 57405,
 64,
 90176,
 66,
 32835,
 73794,
 24649,
 16459,
 65615,
 98383,
 82001,
 57426,
 49235,
 8276,
 82003,
 90195,
 32855,
 90197,
 41050,
 8285,
 73824,
 32868,
 49252,
 102,
 16487,
 65640,
 98410,
 82029,
 24688,
 49265,
 73840,
 41075,
 90227,
 16502,
 32887,
 65662,
 8319,
 24704,
 57474,
 134,
 41097,
 41099,
 49292,
 73867,
 32911,
 65686,
 57495,
 73878,
 98454,
 8346,
 82074,
 8348,
 24732,
 90267,
 32930,
 163,
 8355,
 24740,
 41126,
 57511,
 49320,
 73897,
 16554,
 82088,
 98475,
 65712,
 41137,
 57522,
 16568,
 90304,
 98497,
 82114,
 8390,
 199,
 24775,
 49352,
 57545,
 16587,
 73929,
 211,
 24788,
 65749,
 32982,
 90324,
 41180,
 57569,
 49378,
 73955,
 228,
 49380,
 98537,
 65770,
 237,
 8430,
 16622,
 33010,
 4120

In [32]:
# 第2步：我们需要指定用于决定标点是否表示句子边界的数据特征
def punct_features(tokens,i):
    '''
    特征提取器
    '''
    return {'next_word_capitalized':tokens[i+1][0].isupper(),
           'prevword':tokens[i-1].lower(),
           'punct':tokens[i],
           'prev_word_is_one_char':len(tokens[i-1])==1}

In [33]:
# 基于这一特征提取器，我们可以通过选择所有的标点符号创建一个加标签的特征集的链表，
# 然后标注它们是否是边界标识符

In [34]:
featuresets = [(punct_features(tokens,i),(i in boundaries)) 
               for i in range(1,len(tokens)-1) if tokens[i] in '.?!']

In [35]:
featuresets

[({'next_word_capitalized': False,
   'prev_word_is_one_char': False,
   'prevword': 'nov',
   'punct': '.'},
  False),
 ({'next_word_capitalized': True,
   'prev_word_is_one_char': False,
   'prevword': '29',
   'punct': '.'},
  True),
 ({'next_word_capitalized': True,
   'prev_word_is_one_char': False,
   'prevword': 'mr',
   'punct': '.'},
  False),
 ({'next_word_capitalized': True,
   'prev_word_is_one_char': True,
   'prevword': 'n',
   'punct': '.'},
  False),
 ({'next_word_capitalized': False,
   'prev_word_is_one_char': False,
   'prevword': 'group',
   'punct': '.'},
  True),
 ({'next_word_capitalized': True,
   'prev_word_is_one_char': True,
   'prevword': '.',
   'punct': '.'},
  False),
 ({'next_word_capitalized': False,
   'prev_word_is_one_char': False,
   'prevword': 'conglomerate',
   'punct': '.'},
  True),
 ({'next_word_capitalized': True,
   'prev_word_is_one_char': True,
   'prevword': '.',
   'punct': '.'},
  False),
 ({'next_word_capitalized': True,
   'prev_word_

In [36]:
# 第3步：使用上面获取的特征集，我们可以训练和评估一个标点符号分类器。

In [37]:
size = int(len(featuresets)*0.1)
train_set, test_set = featuresets[size:], featuresets[:size]

In [38]:
# 训练
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [39]:
# 准确度
nltk.classify.accuracy(classifier, test_set)

0.936026936026936

In [None]:
# 使用这种分类器进行断句，我们只需检查每个标点符号，
# 看它是否是作为一个边界标识符，在边界标识符处分割词链表。

In [63]:
# 6.2.2 识别对话行为类型

In [64]:
# 处理对话时，将对话看作说话者执行的动作是很有用的。
# 对于表述行为的陈述句这种解释是最简单的。
# 但是，问候、问题、回答、断言和说明都可以被认为是基于语言的行动类型。
# 识别对话中言语下的对话行为是理解谈话的重要的第一步。


In [65]:
# 利用NPS聊天语料库，建立一个分类器，识别新的即时消息帖子的对话行为类型。

In [66]:
# 第1步：提取基本的消息数据。
posts = nltk.corpus.nps_chat.xml_posts()[:10000]  
# 通过xml_posts()来得到一个数据结构，表示每个帖子的XML注释

In [67]:
posts

[<Element 'Post' at 0x10a960b38>, <Element 'Post' at 0x10ac3d408>, ...]

In [68]:
# 第2步：定义一个简单的特征提取器，检查帖子包含什么词
def dialogue_act_features(post):
    features = {}
    for word in nltk.word_tokenize(post):
        features['contains(%s)'%word.lower()] = True
    return features

In [74]:
dialogue_act_features(posts[0].text)

{'contains(gay)': True,
 'contains(im)': True,
 'contains(left)': True,
 'contains(name)': True,
 'contains(now)': True,
 'contains(this)': True,
 'contains(with)': True}

In [75]:
# 第3步：通过为每个帖子提取特征，获得一个帖子的对话行为类型构造训练和测试数据，
# 并创建一个新的分类器

In [76]:
featuresets = [(dialogue_act_features(post.text), post.get('class')) for post in posts]

In [77]:
size = int(len(featuresets)*0.1)

In [78]:
train_set, test_set = featuresets[size:], featuresets[:size]

In [79]:
# 训练
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [80]:
# 准确度
print(nltk.classify.accuracy(classifier,test_set))

0.668


In [81]:
# 6.2.3 识别文字蕴含

In [82]:
# 识别文字蕴含（Recognizing textual entailment(RTE)）是判断文本T的一个给定片段
# 是否蕴含着另一个叫做“假设”的文本.
# 使用粗浅的分析基于文字和假设之间的在词级别的相似性取得了相当不错的结果。
# 在理想情况下，我们希望如果有一个蕴涵那么假设所表示的所有信息也应该在文本中表示。
# 相反，如果假设中有的资料文本中没有，那么就没有蕴涵。

In [83]:
# 例子：认识文字蕴涵的特征提取器。

In [84]:
# 命名实体，如人、组织和地方的名称，可能会更为重要，
# 这促使我们分别为words和nes(命名实体)提取不同的信息。
# 一些高频虚词作为“停用词”被过滤掉。

In [85]:
def rte_features(rtepair):
    extractor = nltk.RTEFeatureExtractor(rtepair)
    features = {}
    features['word_overlap'] = len(extractor.overlap('word'))
    features['word_hyp_extra'] = len(extractor.hyp_extra('word'))
    # 通过hyp_extra()获取--让词（即词类型）作为信息的代理，
    # 我们的特征计数词重叠的程度和假设中有而文本中没有的词的程度
    features['ne_overlap'] = len(extractor.overlap('ne'))
    features['ne_hyp_extra'] = len(extrator.hyp_extra('ne'))
    return features

In [86]:
rtepair = nltk.corpus.rte.pairs(['rte3_dev.xml'])[33]

In [87]:
rtepair

<RTEPair: gid=3-34>

In [90]:
extractor = nltk.RTEFeatureExtractor(rtepair)

In [92]:
print(extractor.text_words)

{'at', 'SCO', 'Shanghai', 'Co', 'terrorism.', 'Iran', 'meeting', 'four', 'Organisation', 'Davudi', 'central', 'that', 'former', 'China', 'association', 'representing', 'Soviet', 'binds', 'Parviz', 'Asia', 'fledgling', 'Russia', 'was', 'together', 'operation', 'fight', 'republics'}


In [93]:
print(extractor.hyp_words)

{'China', 'SCO.', 'member'}


In [94]:
print(extractor.overlap('ne'))

{'China'}


In [95]:
print(extractor.hyp_extra('word'))

{'member'}
