In [1]:
'''
我们怎样才能识别语言数据中能明显用于对其分类的特征？
我们怎样才能构建语言模型，用于自动执行语言处理任务？
从这些模型中我们可以学到哪些关于语言的知识？
'''

'\n我们怎样才能识别语言数据中能明显用于对其分类的特征？\n我们怎样才能构建语言模型，用于自动执行语言处理任务？\n从这些模型中我们可以学到哪些关于语言的知识？\n'

In [2]:
'''
有监督分类
'''

'\n有监督分类\n'

In [3]:
"""
一个分类称为有监督的，如果它的建立基于训练语料的每个输入包含正确标签
"""

'\n一个分类称为有监督的，如果它的建立基于训练语料的每个输入包含正确标签\n'

In [17]:
def gender_features(word):
    return {"word":word,"length":len(word),"last_letter":word[-1],"last_two_letter":word[-2:]}

In [18]:
gender_features('Shrek')

{'last_letter': 'k', 'last_two_letter': 'ek', 'length': 5, 'word': 'Shrek'}

In [6]:
from nltk.corpus import names
labeled_names = ([(name, 'male') for name in names.words('male.txt')] +[(name, 'female') for name in names.words('female.txt')])

In [7]:
import random
random.shuffle(labeled_names)

In [19]:
featuresets=[(gender_features(name),label) for name,label in labeled_names]

In [20]:
train_set, test_set = featuresets[500:], featuresets[:500]

In [11]:
import nltk

In [21]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [22]:
classifier.classify(gender_features('Neo'))

'male'

In [23]:
classifier.classify(gender_features('christine'))

'female'

In [24]:
nltk.classify.accuracy(classifier,test_set)

0.744

In [16]:
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'a'            female : male   =     33.6 : 1.0
             last_letter = 'k'              male : female =     32.1 : 1.0
             last_letter = 'v'              male : female =     17.5 : 1.0
             last_letter = 'f'              male : female =     16.6 : 1.0
             last_letter = 'p'              male : female =     12.5 : 1.0


In [25]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

In [26]:
gender_features2('John') 

{'count(a)': 0,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 1,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 0,
 'count(t)': 0,
 'count(u)': 0,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0,
 'first_letter': 'j',
 'has(a)': False,
 'has(b)': False,
 'has(c)': False,
 'has(d)': False,
 'has(e)': False,
 'has(f)': False,
 'has(g)': False,
 'has(h)': True,
 'has(i)': False,
 'has(j)': True,
 'has(k)': False,
 'has(l)': False,
 'has(m)': False,
 'has(n)': True,
 'has(o)': True,
 'has(p)': False,
 'has(q)': False,
 'has(r)': False,
 'has(s)': False,
 'has(t)': False,
 'has(u)': False,
 'has(v)': False,
 'has(w)': False,
 'has(x)': False,
 'has(y)': False,
 'has(z)': False,
 'last_letter': 'n'}

In [27]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]

In [28]:
train_set, test_set = featuresets[500:], featuresets[:500]

In [29]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [31]:
print(nltk.classify.accuracy(classifier, test_set))

0.774


In [33]:
'''
完善特征集的一个非常有成效的方法是错误分析

首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集
开发集：训练集、开发测试集
测试集
'''

'\n完善特征集的一个非常有成效的方法是错误分析\n\n首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集\n开发集：训练集、开发测试集\n测试集\n'

In [34]:
train_names = labeled_names[1500:]

devtest_names = labeled_names[500:1500]

test_names = labeled_names[:500]

In [39]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]

classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier,devtest_set))
#使用开发测试集，我们可以生成一个分类器预测名字性别时的错误列表
#然后，可以检查个别错误案例，在那里该模型预测了错误的标签，尝试确定什么额外信息将使其能够作出正确的决定（或者现有的哪部分信息导致其做出错误的决定）。然后可以相应的调整特征集

0.776


In [40]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append( (tag, guess, name) )

In [38]:
errors

[('female', 'male', 'Jude'),
 ('male', 'female', 'Godfree'),
 ('male', 'female', 'Lyn'),
 ('male', 'female', 'Keith'),
 ('female', 'male', 'Barry'),
 ('female', 'male', 'Vivien'),
 ('male', 'female', 'Henri'),
 ('female', 'male', 'Maris'),
 ('male', 'female', 'Barnie'),
 ('female', 'male', 'Cyb'),
 ('male', 'female', 'Emile'),
 ('male', 'female', 'Kyle'),
 ('female', 'male', 'Maren'),
 ('female', 'male', 'Easter'),
 ('male', 'female', 'Roice'),
 ('female', 'male', 'Noell'),
 ('male', 'female', 'Willi'),
 ('male', 'female', 'Martainn'),
 ('female', 'male', 'Tess'),
 ('female', 'male', 'Darcy'),
 ('female', 'male', 'Courtney'),
 ('female', 'male', 'Arden'),
 ('male', 'female', 'Flynn'),
 ('female', 'male', 'Marj'),
 ('male', 'female', 'Tommie'),
 ('female', 'male', 'Dody'),
 ('female', 'male', 'Nanon'),
 ('male', 'female', 'Ellsworth'),
 ('female', 'male', 'Jaclin'),
 ('female', 'male', 'Maridel'),
 ('female', 'male', 'Hillary'),
 ('female', 'male', 'Thomasin'),
 ('female', 'male', 'Carr

In [41]:
'''
浏览这个错误列表，它明确指出一些多个字母的后缀可以指示名字性别。例如，yn结尾的名字显示以女性为主，尽管事实上，n结尾的名字往往是男性；以ch结尾的名字通常是男性，尽管以h结尾的名字倾向于是女性。因此，调整我们的特征提取器包括两个字母后缀的特征：
'''

'\n浏览这个错误列表，它明确指出一些多个字母的后缀可以指示名字性别。例如，yn结尾的名字显示以女性为主，尽管事实上，n结尾的名字往往是男性；以ch结尾的名字通常是男性，尽管以h结尾的名字倾向于是女性。因此，调整我们的特征提取器包括两个字母后缀的特征：\n'

In [42]:
def gender_features(word):
...     return {'suffix1': word[-1:],
...             'suffix2': word[-2:]}

In [44]:
'''
使用新的特征提取器重建分类器
'''
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]

classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier,devtest_set))
# 0.776  0.796

0.796


In [45]:
'''
一旦我们已经使用了开发测试集帮助我们开发模型，关于这个模型在新数据会表现多好，我们将不能再相信它会给我们一个准确地结果。因此，保持测试集分离、未使用过，直到我们的模型开发完毕是很重要的。在这一点上，我们可以使用测试集评估模型在新的输入值上执行的有多好。
'''

'\n一旦我们已经使用了开发测试集帮助我们开发模型，关于这个模型在新数据会表现多好，我们将不能再相信它会给我们一个准确地结果。因此，保持测试集分离、未使用过，直到我们的模型开发完毕是很重要的。在这一点上，我们可以使用测试集评估模型在新的输入值上执行的有多好。\n'

In [58]:
'''

文档分类
使用这些语料库，我们可以建立分类器，自动给新文档添加适当的类别标签

'''

'\n\n文档分类\n使用这些语料库，我们可以建立分类器，自动给新文档添加适当的类别标签\n\n'

In [59]:
#首先，我们构造一个标记了相应类别的文档清单
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]

In [91]:
#接下来，我们为文档定义一个特征提取器，这样分类器就会知道哪些方面的数据应注意
#为了限制分类器需要处理的特征的数目，我们一开始构建一个整个语料库中前2000个最频繁词的列表[1]。然后，定义一个特征提取器[2]，简单地检查这些词是否在一个给定的文档中。
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

def document_features(document):
    document_words=set(document)
    features={}
    for word in word_features:
        features["contains({})".format(word)]=(word in document_words)
    return features

'''

注意

在[3]中我们计算文档的所有词的集合，而不仅仅检查是否word in document，因为检查一个词是否在一个集合中出现比检查它是否在一个列表中出现要快的多（4.7）。
'''

'\n\n注意\n\n在[3]中我们计算文档的所有词的集合，而不仅仅检查是否word in document，因为检查一个词是否在一个集合中出现比检查它是否在一个列表中出现要快的多（4.7）。\n'

In [80]:
print(document_features(movie_reviews.words('pos/cv957_8737.txt'))) 

{'containsplot': True, 'contains:': True, 'containstwo': True, 'containsteen': False, 'containscouples': False, 'containsgo': False, 'containsto': True, 'containsa': True, 'containschurch': False, 'containsparty': False, 'contains,': True, 'containsdrink': False, 'containsand': True, 'containsthen': True, 'containsdrive': False, 'contains.': True, 'containsthey': True, 'containsget': True, 'containsinto': True, 'containsan': True, 'containsaccident': False, 'containsone': True, 'containsof': True, 'containsthe': True, 'containsguys': False, 'containsdies': False, 'containsbut': True, 'containshis': True, 'containsgirlfriend': True, 'containscontinues': False, 'containssee': False, 'containshim': True, 'containsin': True, 'containsher': False, 'containslife': False, 'containshas': True, 'containsnightmares': False, 'containswhat': True, "contains'": True, 'containss': True, 'containsdeal': False, 'contains?': False, 'containswatch': True, 'containsmovie': True, 'contains"': True, 'conta

In [92]:
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [93]:
nltk.classify.accuracy(classifier,test_set)

0.78

In [94]:
classifier.show_most_informative_features(5)

Most Informative Features
    contains(recognizes) = True              pos : neg    =      8.1 : 1.0
 contains(unimaginative) = True              neg : pos    =      7.8 : 1.0
    contains(schumacher) = True              neg : pos    =      7.8 : 1.0
        contains(turkey) = True              neg : pos    =      6.5 : 1.0
     contains(atrocious) = True              neg : pos    =      6.4 : 1.0


In [95]:
'''
有监督分类的更多例子

'''

'\n有监督分类的更多例子\n\n'

In [96]:
'''
 句子分割

'''

'\n 句子分割\n\n'

In [99]:
# 第一步是获得一些已被分割成句子的数据，将它转换成一种适合提取特征的形式
sents=nltk.corpus.treebank_raw.sents()
tokens=[]
boundaries=set()
offets=0
for sent in sents:
    tokens.extend(sent)
    offets+=len(sent)
    boundaries.add(offets-1)
#在这里，tokens是单独句子标识符的合并列表，boundaries是一个包含所有句子边界词符索引的集合

In [100]:
#下一步，我们需要指定用于决定标点是否表示句子边界的数据特征

In [102]:
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(),
            'prev-word': tokens[i-1].lower(),
            'punct': tokens[i],
            'prev-word-is-one-char': len(tokens[i-1]) == 1}

In [103]:
#基于这一特征提取器，我们可以通过选择所有的标点符号创建一个加标签的特征集的列表，然后标注它们是否是边界标识符

In [106]:
featuresets = [(punct_features(tokens, i), (i in boundaries))
               for i in range(1, len(tokens)-1)
               if tokens[i] in '.?!']

In [107]:
featuresets

[({'next-word-capitalized': False,
   'prev-word': 'nov',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': '29',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': 'mr',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': 'n',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'group',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'conglomerate',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'pr

In [108]:
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
nltk.classify.accuracy(classifier, test_set)

0.936026936026936

In [109]:
def segment_sentences(words):
    start = 0
    sents = []
    for i, word in enumerate(words):
        if word in '.?!' and classifier.classify(punct_features(words, i)) == True:
            sents.append(words[start:i+1])
            start = i+1
    if start < len(words):
        sents.append(words[start:])
    return sents

In [120]:
origin_text="""
It developed suddenly. I was under heavy pressure from work at the time. I could not fall asleep at all at night, and was wide awake until dawn. I tried not to think of the things that were troubling me and forget them, but the thoughts quickly returned, making it even harder for me to fall asleep,said the bank employee from Fushun, Liaoning province.Before the insomnia developed, Xing had regularly experienced less serious related disorders, such as taking a long time to fall asleep. He believes his tendency to worry may be the cause of his insomnia.
"""

In [121]:
nltk.word_tokenize(origin_text)

['It',
 'developed',
 'suddenly',
 '.',
 'I',
 'was',
 'under',
 'heavy',
 'pressure',
 'from',
 'work',
 'at',
 'the',
 'time',
 '.',
 'I',
 'could',
 'not',
 'fall',
 'asleep',
 'at',
 'all',
 'at',
 'night',
 ',',
 'and',
 'was',
 'wide',
 'awake',
 'until',
 'dawn',
 '.',
 'I',
 'tried',
 'not',
 'to',
 'think',
 'of',
 'the',
 'things',
 'that',
 'were',
 'troubling',
 'me',
 'and',
 'forget',
 'them',
 ',',
 'but',
 'the',
 'thoughts',
 'quickly',
 'returned',
 ',',
 'making',
 'it',
 'even',
 'harder',
 'for',
 'me',
 'to',
 'fall',
 'asleep',
 ',',
 'said',
 'the',
 'bank',
 'employee',
 'from',
 'Fushun',
 ',',
 'Liaoning',
 'province.Before',
 'the',
 'insomnia',
 'developed',
 ',',
 'Xing',
 'had',
 'regularly',
 'experienced',
 'less',
 'serious',
 'related',
 'disorders',
 ',',
 'such',
 'as',
 'taking',
 'a',
 'long',
 'time',
 'to',
 'fall',
 'asleep',
 '.',
 'He',
 'believes',
 'his',
 'tendency',
 'to',
 'worry',
 'may',
 'be',
 'the',
 'cause',
 'of',
 'his',
 'insomn

In [123]:
nltk.sent_tokenize(origin_text)

['\nIt developed suddenly.',
 'I was under heavy pressure from work at the time.',
 'I could not fall asleep at all at night, and was wide awake until dawn.',
 'I tried not to think of the things that were troubling me and forget them, but the thoughts quickly returned, making it even harder for me to fall asleep,said the bank employee from Fushun, Liaoning province.Before the insomnia developed, Xing had regularly experienced less serious related disorders, such as taking a long time to fall asleep.',
 'He believes his tendency to worry may be the cause of his insomnia.']

In [125]:
'''
识别对话行为类型

'''

posts = nltk.corpus.nps_chat.xml_posts()[:10000]

In [132]:
with open("xml.data",'w') as f:
    for e in posts:
        f.write(str(e))
    

In [133]:
pwd

'E:\\workspace\\github\\DJH-RE\\practise\\nltk'

In [136]:
import os

In [137]:
os.listdir(".")

['.ipynb_checkpoints',
 '0. 前言.ipynb',
 '1. 语言处理与Python.ipynb',
 '2. 获得文本语料和词汇资源.ipynb',
 '3 处理原始文本.ipynb',
 '4 编写结构化程序.ipynb',
 '5. 分类和标注词汇.ipynb',
 '6. 学习分类文本.ipynb',
 'mycorpus',
 'xml.data']

In [139]:
'''
混淆矩阵

一个混淆矩阵是一个表，其中每个cells [i,j]表示正确的标签i被预测为标签j的次数。因此，对角线项目（即cells |ii|）表示正确预测的标签，非对角线项目表示错误。

'''

'\n混淆矩阵\n\n一个混淆矩阵是一个表，其中每个cells [i,j]表示正确的标签i被预测为标签j的次数。因此，对角线项目（即cells |ii|）表示正确预测的标签，非对角线项目表示错误。\n\n'

In [140]:
'''
精确度和召回率

'''

'\n精确度和召回率\n\n'

In [143]:
'''
交叉验证

在不同的测试集上执行多个评估，然后组合这些评估的得分，这种技术被称为交叉验证

特别是，我们将原始语料细分为N个子集称为折叠。对于每一个这些的折叠，我们使用除这个折叠中的数据外其他所有数据训练模型，然后在这个折叠上测试模型。即使个别的折叠可能是太小了而不能在其上给出准确的评价分数，综合评估得分是基于大量的数据，因此是相当可靠的。
'''

'\n交叉验证\n\n在不同的测试集上执行多个评估，然后组合这些评估的得分，这种技术被称为交叉验证\n\n特别是，我们将原始语料细分为N个子集称为折叠。对于每一个这些的折叠，我们使用除这个折叠中的数据外其他所有数据训练模型，然后在这个折叠上测试模型。即使个别的折叠可能是太小了而不能在其上给出准确的评价分数，综合评估得分是基于大量的数据，因此是相当可靠的。\n'

In [144]:
'''
为语料库中的语言数据建模可以帮助我们理解语言模型，也可以用于预测新语言数据。
有监督分类器使用加标签的训练语料库来建立模型，基于输入的特征，预测那个输入的标签。
有监督分类器可以执行多种NLP任务，包括文档分类、词性标注、语句分割、对话行为类型识别以及确定蕴含关系和很多其他任务。
训练一个有监督分类器时，你应该把语料分为三个数据集：用于构造分类器模型的训练集，用于帮助选择和调整模型特性的开发测试集，以及用于评估最终模型性能的测试集。
评估一个有监督分类器时，重要的是你要使用新鲜的没有包含在训练集或开发测试集中的数据。否则，你的评估结果可能会不切实际地乐观。
决策树可以自动地构建树结构的流程图，用于为输入变量值基于它们的特征加标签。虽然它们易于解释，但不适合处理特性值在决定合适标签过程中相互影响的情况。
在朴素贝叶斯分类器中，每个特征决定应该使用哪个标签的贡献是独立的。它允许特征值间有关联，但当两个或更多的特征高度相关时将会有问题。
最大熵分类器使用的基本模型与朴素贝叶斯相似；不过，它们使用了迭代优化来寻找使训练集的概率最大化的特征权值集合。
大多数从语料库自动构建的模型都是描述性的，也就是说，它们让我们知道哪些特征与给定的模式或结构相关，但它们没有给出关于这些特征和模式之间的因果关系的任何信息。

'''

'\n为语料库中的语言数据建模可以帮助我们理解语言模型，也可以用于预测新语言数据。\n有监督分类器使用加标签的训练语料库来建立模型，基于输入的特征，预测那个输入的标签。\n有监督分类器可以执行多种NLP任务，包括文档分类、词性标注、语句分割、对话行为类型识别以及确定蕴含关系和很多其他任务。\n训练一个有监督分类器时，你应该把语料分为三个数据集：用于构造分类器模型的训练集，用于帮助选择和调整模型特性的开发测试集，以及用于评估最终模型性能的测试集。\n评估一个有监督分类器时，重要的是你要使用新鲜的没有包含在训练集或开发测试集中的数据。否则，你的评估结果可能会不切实际地乐观。\n决策树可以自动地构建树结构的流程图，用于为输入变量值基于它们的特征加标签。虽然它们易于解释，但不适合处理特性值在决定合适标签过程中相互影响的情况。\n在朴素贝叶斯分类器中，每个特征决定应该使用哪个标签的贡献是独立的。它允许特征值间有关联，但当两个或更多的特征高度相关时将会有问题。\n最大熵分类器使用的基本模型与朴素贝叶斯相似；不过，它们使用了迭代优化来寻找使训练集的概率最大化的特征权值集合。\n大多数从语料库自动构建的模型都是描述性的，也就是说，它们让我们知道哪些特征与给定的模式或结构相关，但它们没有给出关于这些特征和模式之间的因果关系的任何信息。\n\n'