In [1]:
'''
我们怎样才能识别语言数据中能明显用于对其分类的特征？
我们怎样才能构建语言模型，用于自动执行语言处理任务？
从这些模型中我们可以学到哪些关于语言的知识？
'''

'\n我们怎样才能识别语言数据中能明显用于对其分类的特征？\n我们怎样才能构建语言模型，用于自动执行语言处理任务？\n从这些模型中我们可以学到哪些关于语言的知识？\n'

In [2]:
'''
有监督分类
'''

'\n有监督分类\n'

In [3]:
"""
一个分类称为有监督的，如果它的建立基于训练语料的每个输入包含正确标签
"""

'\n一个分类称为有监督的，如果它的建立基于训练语料的每个输入包含正确标签\n'

In [17]:
def gender_features(word):
    return {"word":word,"length":len(word),"last_letter":word[-1],"last_two_letter":word[-2:]}

In [18]:
gender_features('Shrek')

{'last_letter': 'k', 'last_two_letter': 'ek', 'length': 5, 'word': 'Shrek'}

In [6]:
from nltk.corpus import names
labeled_names = ([(name, 'male') for name in names.words('male.txt')] +[(name, 'female') for name in names.words('female.txt')])

In [7]:
import random
random.shuffle(labeled_names)

In [19]:
featuresets=[(gender_features(name),label) for name,label in labeled_names]

In [20]:
train_set, test_set = featuresets[500:], featuresets[:500]

In [11]:
import nltk

In [21]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [22]:
classifier.classify(gender_features('Neo'))

'male'

In [23]:
classifier.classify(gender_features('christine'))

'female'

In [24]:
nltk.classify.accuracy(classifier,test_set)

0.744

In [16]:
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'a'            female : male   =     33.6 : 1.0
             last_letter = 'k'              male : female =     32.1 : 1.0
             last_letter = 'v'              male : female =     17.5 : 1.0
             last_letter = 'f'              male : female =     16.6 : 1.0
             last_letter = 'p'              male : female =     12.5 : 1.0


In [25]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

In [26]:
gender_features2('John') 

{'count(a)': 0,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 1,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 0,
 'count(t)': 0,
 'count(u)': 0,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0,
 'first_letter': 'j',
 'has(a)': False,
 'has(b)': False,
 'has(c)': False,
 'has(d)': False,
 'has(e)': False,
 'has(f)': False,
 'has(g)': False,
 'has(h)': True,
 'has(i)': False,
 'has(j)': True,
 'has(k)': False,
 'has(l)': False,
 'has(m)': False,
 'has(n)': True,
 'has(o)': True,
 'has(p)': False,
 'has(q)': False,
 'has(r)': False,
 'has(s)': False,
 'has(t)': False,
 'has(u)': False,
 'has(v)': False,
 'has(w)': False,
 'has(x)': False,
 'has(y)': False,
 'has(z)': False,
 'last_letter': 'n'}

In [27]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]

In [28]:
train_set, test_set = featuresets[500:], featuresets[:500]

In [29]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [31]:
print(nltk.classify.accuracy(classifier, test_set))

0.774


In [33]:
'''
完善特征集的一个非常有成效的方法是错误分析

首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集
开发集：训练集、开发测试集
测试集
'''

'\n完善特征集的一个非常有成效的方法是错误分析\n\n首先，我们选择一个开发集，包含用于创建模型的语料数据。然后将这种开发集分为训练集和开发测试集\n开发集：训练集、开发测试集\n测试集\n'

In [34]:
train_names = labeled_names[1500:]

devtest_names = labeled_names[500:1500]

test_names = labeled_names[:500]

In [39]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]

classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier,devtest_set))
#使用开发测试集，我们可以生成一个分类器预测名字性别时的错误列表
#然后，可以检查个别错误案例，在那里该模型预测了错误的标签，尝试确定什么额外信息将使其能够作出正确的决定（或者现有的哪部分信息导致其做出错误的决定）。然后可以相应的调整特征集

0.776


In [40]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append( (tag, guess, name) )

In [38]:
errors

[('female', 'male', 'Jude'),
 ('male', 'female', 'Godfree'),
 ('male', 'female', 'Lyn'),
 ('male', 'female', 'Keith'),
 ('female', 'male', 'Barry'),
 ('female', 'male', 'Vivien'),
 ('male', 'female', 'Henri'),
 ('female', 'male', 'Maris'),
 ('male', 'female', 'Barnie'),
 ('female', 'male', 'Cyb'),
 ('male', 'female', 'Emile'),
 ('male', 'female', 'Kyle'),
 ('female', 'male', 'Maren'),
 ('female', 'male', 'Easter'),
 ('male', 'female', 'Roice'),
 ('female', 'male', 'Noell'),
 ('male', 'female', 'Willi'),
 ('male', 'female', 'Martainn'),
 ('female', 'male', 'Tess'),
 ('female', 'male', 'Darcy'),
 ('female', 'male', 'Courtney'),
 ('female', 'male', 'Arden'),
 ('male', 'female', 'Flynn'),
 ('female', 'male', 'Marj'),
 ('male', 'female', 'Tommie'),
 ('female', 'male', 'Dody'),
 ('female', 'male', 'Nanon'),
 ('male', 'female', 'Ellsworth'),
 ('female', 'male', 'Jaclin'),
 ('female', 'male', 'Maridel'),
 ('female', 'male', 'Hillary'),
 ('female', 'male', 'Thomasin'),
 ('female', 'male', 'Carr

In [41]:
'''
浏览这个错误列表，它明确指出一些多个字母的后缀可以指示名字性别。例如，yn结尾的名字显示以女性为主，尽管事实上，n结尾的名字往往是男性；以ch结尾的名字通常是男性，尽管以h结尾的名字倾向于是女性。因此，调整我们的特征提取器包括两个字母后缀的特征：
'''

'\n浏览这个错误列表，它明确指出一些多个字母的后缀可以指示名字性别。例如，yn结尾的名字显示以女性为主，尽管事实上，n结尾的名字往往是男性；以ch结尾的名字通常是男性，尽管以h结尾的名字倾向于是女性。因此，调整我们的特征提取器包括两个字母后缀的特征：\n'

In [42]:
def gender_features(word):
...     return {'suffix1': word[-1:],
...             'suffix2': word[-2:]}

In [44]:
'''
使用新的特征提取器重建分类器
'''
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]

classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier,devtest_set))
# 0.776  0.796

0.796


In [45]:
'''
一旦我们已经使用了开发测试集帮助我们开发模型，关于这个模型在新数据会表现多好，我们将不能再相信它会给我们一个准确地结果。因此，保持测试集分离、未使用过，直到我们的模型开发完毕是很重要的。在这一点上，我们可以使用测试集评估模型在新的输入值上执行的有多好。
'''

'\n一旦我们已经使用了开发测试集帮助我们开发模型，关于这个模型在新数据会表现多好，我们将不能再相信它会给我们一个准确地结果。因此，保持测试集分离、未使用过，直到我们的模型开发完毕是很重要的。在这一点上，我们可以使用测试集评估模型在新的输入值上执行的有多好。\n'