# nltk自带的语料库

在nltk.corpus包下，提供了几类标注好的语料库。见下表：
- gutenberg	一个有若干万部的小说语料库，多是古典作品
- webtext	收集的网络广告等内容
- nps_chat	有上万条聊天消息语料库，即时聊天消息为主
- brown	一个百万词级的英语语料库，按文体进行分类
- reuters	路透社语料库，上万篇新闻方档，约有1百万字，分90个主题，并分为训练集和测试集两组
- inaugural	演讲语料库，几十个文本，都是总统演说


# 语料库处理

方法名	说明
- fileids()	返回语料库中文件名列表
- fileids[categories]	返回指定类别的文件名列表
- raw(fid=[c1,c2])	返回指定文件名的文本字符串
- raw(catergories=[])	返回指定分类的原始文本
- sents(fid=[c1,c2])	返回指定文件名的语句列表
- sents(catergories=[c1,c2])	按分类返回语句列表
- words(filename)	返回指定文件名的单词列表
- words(catogories=[])	返回指定分类的单词列表

In [56]:
from nltk import corpus
#len(corpus.gutenberg.fileids())
corpus.gutenberg.fileids()
#corpus.gutenberg.categories()

[u'austen-emma.txt',
 u'austen-persuasion.txt',
 u'austen-sense.txt',
 u'bible-kjv.txt',
 u'blake-poems.txt',
 u'bryant-stories.txt',
 u'burgess-busterbrown.txt',
 u'carroll-alice.txt',
 u'chesterton-ball.txt',
 u'chesterton-brown.txt',
 u'chesterton-thursday.txt',
 u'edgeworth-parents.txt',
 u'melville-moby_dick.txt',
 u'milton-paradise.txt',
 u'shakespeare-caesar.txt',
 u'shakespeare-hamlet.txt',
 u'shakespeare-macbeth.txt',
 u'whitman-leaves.txt']

In [59]:
corpus.gutenberg.words('melville-moby_dick.txt')

[u'[', u'Moby', u'Dick', u'by', u'Herman', u'Melville', ...]

# Text类介绍

## nltk.text.Text()类用于对文本进行初级的统计与分析，它接受一个词的列表作为参数。
- Text(words)	对象构造
- concordance(word, width=79, lines=25)	显示word出现的上下文
- common_contexts(words)	显示words出现的相同模式
- similar(word)	显示word的相似词
- collocations(num=20, window_size=2)	显示最常见的二词搭配
- count(word)	word出现的词数
- dispersion_plot(words)	绘制words中文档中出现的位置图
- vocab()	返回文章去重的词典

## nltk.text.TextCollection类是Text的集合，

- nltk.text.TextCollection([text1,text2,])	对象构造
- idf(term)	计算词term在语料库中的逆文档频率，即log总文章数文中出现term的文章数
- tf(term,text)	统计term在text中的词频
- tf_idf(term,text)	计算term在句子中的tf_idf,即tf*idf
____

In [61]:
import nltk.corpus
from nltk.text import Text
moby = Text(nltk.corpus.gutenberg.words('melville-moby_dick.txt'))
paradise = Text(nltk.corpus.gutenberg.words('milton-paradise.txt'))

In [70]:
moby.vocab()

FreqDist({u'foul': 11,
          u'four': 74,
          u'fleeces': 1,
          u'woods': 9,
          u'clotted': 2,
          u'hanging': 19,
          u'woody': 1,
          u'Until': 2,
          u'disobeying': 1,
          u'canes': 2,
          u'Westers': 1,
          u'DRYDEN': 1,
          u'Untried': 1,
          u'Western': 1,
          u'meadows': 3,
          u'sinking': 13,
          u'oceans': 14,
          u'tantalizing': 3,
          u'leisurely': 2,
          u'medicament': 1,
          u'stabbed': 1,
          u'bringing': 10,
          u'wooded': 1,
          u'uttering': 2,
          u'Less': 2,
          u'wooden': 26,
          u'Saco': 1,
          u'broiled': 3,
          u'solid': 17,
          u'persisted': 2,
          u'Does': 6,
          u'soladoes': 1,
          u'crotch': 9,
          u'Paul': 4,
          u'ornamental': 1,
          u'FIGURED': 1,
          u'sooty': 3,
          u'inevitably': 4,
          u'sailer': 1,
          u'miniatures': 1,
  

In [65]:
import nltk.text
twotext=nltk.text.TextCollection([nltk.corpus.gutenberg.words('melville-moby_dick.txt'),nltk.corpus.gutenberg.words('milton-paradise.txt')])

In [74]:
twotext.tf_idf('foul',nltk.corpus.gutenberg.words('melville-moby_dick.txt'))

NameError: name 'tf_idf' is not defined

In [2]:
#moby.concordance('White', width=79, lines=25)
#moby.common_contexts('White')
#moby.similar('old')
#moby.collocations(num=20, window_size=2)
#moby.count('old')
#moby.dispersion_plot(['old','man'])
#moby.vocab()
moby.collocations(num=20, window_size=2)

Sperm Whale; Moby Dick; White Whale; old man; Captain Ahab; sperm
whale; Right Whale; Captain Peleg; New Bedford; Cape Horn; cried Ahab;
years ago; lower jaw; never mind; Father Mapple; cried Stubb; chief
mate; white whale; ivory leg; one hand


# 对文档用词进行分布统计

FreqDist类介绍

这个类主要记录了每个词出现的次数，根据统计数据生成表格，或绘图。其结构很简单，用一个有序词典进行实现。所以dict类型的方法在此类也是适用的。如keys()等。

- B()	返回词典的长度
- plot(title,cumulative=False)	绘制频率分布图，若cumu为True，则是累积频率分布图
- tabulate()	生成频率分布的表格形式
- most_common()	返回出现次数最频繁的词与频度
- hapaxes()	返回只出现过一次的词

In [76]:
import matplotlib.pyplot as plt
%matplotlib inline
#nltk.corpus.gutenberg.words('melville-moby_dick.txt')
text = open('corpus/melville-moby_dick.txt').read()
fdist = nltk.FreqDist(nltk.word_tokenize(text))
fdist.plot(30，cumulative=True)

SyntaxError: invalid syntax (<ipython-input-76-55265f8aa862>, line 6)

In [23]:

nltk.corpus.gutenberg.fileids()

[u'austen-emma.txt',
 u'austen-persuasion.txt',
 u'austen-sense.txt',
 u'bible-kjv.txt',
 u'blake-poems.txt',
 u'bryant-stories.txt',
 u'burgess-busterbrown.txt',
 u'carroll-alice.txt',
 u'chesterton-ball.txt',
 u'chesterton-brown.txt',
 u'chesterton-thursday.txt',
 u'edgeworth-parents.txt',
 u'melville-moby_dick.txt',
 u'milton-paradise.txt',
 u'shakespeare-caesar.txt',
 u'shakespeare-hamlet.txt',
 u'shakespeare-macbeth.txt',
 u'whitman-leaves.txt']

____
____
# markdown使用
- 开源系统，内含机器学习模块，[连接地址](https://github.com/bbfamily/abu)，[连接地址](http://www.abuquant.com/lecture/lecture_0.html)

安装教程见实体书附录A，每个小节可以独立运行。

____