### <font color='blue'>文分割</font>

英文をどこで分割するかを決める。<br>
ピリオド、疑問符などでそこで文が終了するかどうかを判断する。<br>

まずは文に分割されたデータを取得。<br>
それを素性抽出に適した形に変換する。<br>

In [1]:
# ライブラリのインポート
import nltk

In [2]:
# 文のimport 
sents = nltk.corpus.treebank_raw.sents()

In [3]:
# 個々の文から取得されたトークンを１つにまとめる
tokens = []

In [4]:
# 文の境界となるトークンの添字番号を格納
boundaries = set()

In [5]:
offset = 0

In [6]:
# 文章から素性抽出器にかける際の情報を取得
for sent in sents:
    tokens.extend(sent) # 文字の追加
    offset += len(sent) # 文章の長さを足していく
    boundaries.add(offset-1) # 文書の長さの保存

In [7]:
len(tokens)

101797

In [8]:
tokens[:20]

['.',
 'START',
 'Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov',
 '.',
 '29']

上記までで行なっていることは<br>
まずはトークンをtokensリストに追加。<br>
offsetに対して、これまでの文章の長さを足していく。<br>
boundariesに対して、これまでの文章の長さを追加していく。<br>

句読点記号が文の境界を意味しているかどうかを決定する。<br>

In [9]:
# 素性抽出器
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(), # 大文字
            'prev-word': tokens[i-1].lower(), # 小文字
            'punct': tokens[i], # どこに句読点が含まれているかどうか
            'prev-word-is-one-char': len(tokens[i-1]) == 1} # 前の単語が一文字かどうか

上記の素性抽出器から、それらが文の境界を表すトークンかどうかをタグ付け。<br>

In [10]:
featuresets = [(punct_features(tokens, i), (i in boundaries))
               for i in range(1, len(tokens)-1)
               if tokens[i] in '.?!']

In [11]:
featuresets

[({'next-word-capitalized': False,
   'prev-word': 'nov',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': '29',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': 'mr',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': 'n',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'group',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'conglomerate',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'pr

In [12]:
size = int(len(featuresets) * 0.1)

In [13]:
# 訓練データとテストデータの作成
train_set, test_set = featuresets[size:], featuresets[:size]

In [14]:
# 学習器の訓練
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [15]:
# 精度を算出
nltk.classify.accuracy(classifier, test_set)

0.936026936026936

この分類器を文分割に用いる。<br>

In [16]:
def segment_sentences(words):
    start = 0
    sents = []
    for i, word in enumerate(words):
        if word in '.?!' and classifier.classify(punct_features(words, i)) == True:
            sents.append(words[start:i+1])
            start = i+1
    if start < len(words):
        sents.append(words[start:])
    return sents

### <font color='blue'>文分割についての素性抽出器についてみる</font>

In [17]:
# 文章
sents

[['.', 'START'], ['Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov', '.', '29', '.'], ...]

In [18]:
# 簡単な文章
temp_sents = sents[:20]

In [19]:
# 簡単な文章
temp_sents

[['.', 'START'],
 ['Pierre',
  'Vinken',
  ',',
  '61',
  'years',
  'old',
  ',',
  'will',
  'join',
  'the',
  'board',
  'as',
  'a',
  'nonexecutive',
  'director',
  'Nov',
  '.',
  '29',
  '.'],
 ['Mr',
  '.',
  'Vinken',
  'is',
  'chairman',
  'of',
  'Elsevier',
  'N',
  '.',
  'V',
  '.,',
  'the',
  'Dutch',
  'publishing',
  'group',
  '.'],
 ['.', 'START'],
 ['Rudolph',
  'Agnew',
  ',',
  '55',
  'years',
  'old',
  'and',
  'former',
  'chairman',
  'of',
  'Consolidated',
  'Gold',
  'Fields',
  'PLC',
  ',',
  'was',
  'named',
  'a',
  'nonexecutive',
  'director',
  'of',
  'this',
  'British',
  'industrial',
  'conglomerate',
  '.'],
 ['.', 'START'],
 ['A',
  'form',
  'of',
  'asbestos',
  'once',
  'used',
  'to',
  'make',
  'Kent',
  'cigarette',
  'filters',
  'has',
  'caused',
  'a',
  'high',
  'percentage',
  'of',
  'cancer',
  'deaths',
  'among',
  'a',
  'group',
  'of',
  'workers',
  'exposed',
  'to',
  'it',
  'more',
  'than',
  '30',
  'years',


In [20]:
# 初期化
tokens = list()
offset = 0
boundaries =  set()

# 文章から素性抽出器にかける際の情報を取得
for sent in temp_sents:
    tokens.extend(sent) # トークンの追加
    print('tokens : '+str(tokens))
    print('')
    offset += len(sent) # 文章の長さを足していく
    print('offset : '+str(offset))
    print('')
    boundaries.add(offset-1) # temp_sentsの、各文書の長さを保存
    print('boundaries : '+str(boundaries))
    print('')

tokens : ['.', 'START']

offset : 2

boundaries : {1}

tokens : ['.', 'START', 'Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov', '.', '29', '.']

offset : 21

boundaries : {1, 20}

tokens : ['.', 'START', 'Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov', '.', '29', '.', 'Mr', '.', 'Vinken', 'is', 'chairman', 'of', 'Elsevier', 'N', '.', 'V', '.,', 'the', 'Dutch', 'publishing', 'group', '.']

offset : 37

boundaries : {1, 20, 36}

tokens : ['.', 'START', 'Pierre', 'Vinken', ',', '61', 'years', 'old', ',', 'will', 'join', 'the', 'board', 'as', 'a', 'nonexecutive', 'director', 'Nov', '.', '29', '.', 'Mr', '.', 'Vinken', 'is', 'chairman', 'of', 'Elsevier', 'N', '.', 'V', '.,', 'the', 'Dutch', 'publishing', 'group', '.', '.', 'START']

offset : 39

boundaries : {38, 1, 20, 36}

tokens : ['.', 'START', 'Pierre', 'Vinken', ',', '61', 'y

In [21]:
# 文章から得たトークン
tokens

['.',
 'START',
 'Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov',
 '.',
 '29',
 '.',
 'Mr',
 '.',
 'Vinken',
 'is',
 'chairman',
 'of',
 'Elsevier',
 'N',
 '.',
 'V',
 '.,',
 'the',
 'Dutch',
 'publishing',
 'group',
 '.',
 '.',
 'START',
 'Rudolph',
 'Agnew',
 ',',
 '55',
 'years',
 'old',
 'and',
 'former',
 'chairman',
 'of',
 'Consolidated',
 'Gold',
 'Fields',
 'PLC',
 ',',
 'was',
 'named',
 'a',
 'nonexecutive',
 'director',
 'of',
 'this',
 'British',
 'industrial',
 'conglomerate',
 '.',
 '.',
 'START',
 'A',
 'form',
 'of',
 'asbestos',
 'once',
 'used',
 'to',
 'make',
 'Kent',
 'cigarette',
 'filters',
 'has',
 'caused',
 'a',
 'high',
 'percentage',
 'of',
 'cancer',
 'deaths',
 'among',
 'a',
 'group',
 'of',
 'workers',
 'exposed',
 'to',
 'it',
 'more',
 'than',
 '30',
 'years',
 'ago',
 ',',
 'researchers',
 'reported',
 '.',
 'The',
 'asbestos',
 'fiber',
 ',',
 'crocidolit

In [22]:
# 文章の長さ
offset

407

In [23]:
# 今回取得した文章は20個
len(boundaries)

20

In [24]:
# 文章が終了する際のtokensにおける添え字の位置
boundaries

{1,
 20,
 36,
 38,
 64,
 66,
 102,
 134,
 163,
 199,
 211,
 228,
 237,
 258,
 286,
 310,
 344,
 365,
 387,
 406}

In [25]:
# 素性抽出器
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(), # 句読点の次の単語が大文字かどうか
            'prev-word': tokens[i-1].lower(), # 句読点の前の単語を小文字化
            'punct': tokens[i], # 句読点
            'prev-word-is-one-char': len(tokens[i-1]) == 1} # 前の単語が一文字かどうか

In [26]:
# 特徴量を取得
# リスト内包表記
featuresets = [(punct_features(tokens, i), (i in boundaries))
               for i in range(1, len(tokens)-1)
               if tokens[i] in '.?!']

In [27]:
len(featuresets)

24

In [28]:
featuresets

[({'next-word-capitalized': False,
   'prev-word': 'nov',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': '29',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': 'mr',
   'prev-word-is-one-char': False,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'prev-word': 'n',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'group',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': False,
   'prev-word': 'conglomerate',
   'prev-word-is-one-char': False,
   'punct': '.'},
  True),
 ({'next-word-capitalized': True,
   'prev-word': '.',
   'prev-word-is-one-char': True,
   'punct': '.'},
  False),
 ({'next-word-capitalized': True,
   'pr