# 11章 言語データの管理

構造化された注釈付きの言語データのコレクションはNLPのほとんどの分野において不可欠．

#### 本章のゴール
- 1. 言語資源をどのように設計し，様々な目的に利用できるように，そのカバー範囲，バランス，ドキュメンテーションを保証するにはどのようにしたらよいか．
- 2. 既存のデータが解析ツールによってうまく認識できない場合，どうやって適切な形式に変換すればよいか． 
- 3. 作成した資源の存在をほかの人が簡単に知ることができるようにするには，どのようにドキュメントを書けばよいか．

本章では，既存のコーパスの設計，コーパス構築の一般的な流れ，コーパスのライフサイクルについて学ぶ．

## 11.1 コーパスの構造：ケーススタディ

#### TIMITコーパス
広く利用されるようになった，最初の注釈付き音声データベース．音響音声学の知識の習得と，自動音声認識システムの開発と評価を目的としたデータを提供するために設計された．

### 11.1.1 TIMITの構造

In [1]:
import nltk
help(nltk.corpus.timit)

Help on LazyCorpusLoader in module nltk.corpus.util object:

timit = class TimitCorpusReader(nltk.corpus.reader.api.CorpusReader)
 |  timit(root, encoding='utf8')
 |  
 |  Reader for the TIMIT corpus (or any other corpus with the same
 |  file layout and use of file formats).  The corpus root directory
 |  should contain the following files:
 |  
 |    - timitdic.txt: dictionary of standard transcriptions
 |    - spkrinfo.txt: table of speaker information
 |  
 |  In addition, the root directory should contain one subdirectory
 |  for each speaker, containing three files for each utterance:
 |  
 |    - <utterance-id>.txt: text content of utterances
 |    - <utterance-id>.wrd: tokenized text content of utterances
 |    - <utterance-id>.phn: phonetic transcription of utterances
 |    - <utterance-id>.wav: utterance sound file
 |  
 |  Method resolution order:
 |      TimitCorpusReader
 |      nltk.corpus.reader.api.CorpusReader
 |      builtins.object
 |  
 |  Methods defined here:
 |  

In [3]:
# 160の録音された発話の一覧
nltk.corpus.timit.fileids()

['dr1-fvmh0/sa1.phn',
 'dr1-fvmh0/sa1.txt',
 'dr1-fvmh0/sa1.wav',
 'dr1-fvmh0/sa1.wrd',
 'dr1-fvmh0/sa2.phn',
 'dr1-fvmh0/sa2.txt',
 'dr1-fvmh0/sa2.wav',
 'dr1-fvmh0/sa2.wrd',
 'dr1-fvmh0/si1466.phn',
 'dr1-fvmh0/si1466.txt',
 'dr1-fvmh0/si1466.wav',
 'dr1-fvmh0/si1466.wrd',
 'dr1-fvmh0/si2096.phn',
 'dr1-fvmh0/si2096.txt',
 'dr1-fvmh0/si2096.wav',
 'dr1-fvmh0/si2096.wrd',
 'dr1-fvmh0/si836.phn',
 'dr1-fvmh0/si836.txt',
 'dr1-fvmh0/si836.wav',
 'dr1-fvmh0/si836.wrd',
 'dr1-fvmh0/sx116.phn',
 'dr1-fvmh0/sx116.txt',
 'dr1-fvmh0/sx116.wav',
 'dr1-fvmh0/sx116.wrd',
 'dr1-fvmh0/sx206.phn',
 'dr1-fvmh0/sx206.txt',
 'dr1-fvmh0/sx206.wav',
 'dr1-fvmh0/sx206.wrd',
 'dr1-fvmh0/sx26.phn',
 'dr1-fvmh0/sx26.txt',
 'dr1-fvmh0/sx26.wav',
 'dr1-fvmh0/sx26.wrd',
 'dr1-fvmh0/sx296.phn',
 'dr1-fvmh0/sx296.txt',
 'dr1-fvmh0/sx296.wav',
 'dr1-fvmh0/sx296.wrd',
 'dr1-fvmh0/sx386.phn',
 'dr1-fvmh0/sx386.txt',
 'dr1-fvmh0/sx386.wav',
 'dr1-fvmh0/sx386.wrd',
 'dr1-mcpm0/sa1.phn',
 'dr1-mcpm0/sa1.txt',
 'dr1-mc

In [5]:
# 各要素が内包している発音表記にアクセスする
phonetic = nltk.corpus.timit.phones('dr1-fvmh0/sa1')
phonetic

['h#',
 'sh',
 'iy',
 'hv',
 'ae',
 'dcl',
 'y',
 'ix',
 'dcl',
 'd',
 'aa',
 'kcl',
 's',
 'ux',
 'tcl',
 'en',
 'gcl',
 'g',
 'r',
 'iy',
 's',
 'iy',
 'w',
 'aa',
 'sh',
 'epi',
 'w',
 'aa',
 'dx',
 'ax',
 'q',
 'ao',
 'l',
 'y',
 'ih',
 'ax',
 'h#']

In [6]:
nltk.corpus.timit.word_times('dr1-fvmh0/sa1')

[('she', 7812, 10610),
 ('had', 10610, 14496),
 ('your', 14496, 15791),
 ('dark', 15791, 20720),
 ('suit', 20720, 25647),
 ('in', 25647, 26906),
 ('greasy', 26906, 32668),
 ('wash', 32668, 37890),
 ('water', 38531, 42417),
 ('all', 43091, 46052),
 ('year', 46052, 50522)]

テキストデータに加え，TIMITは各単語の標準的な発音の語彙目録を含んでいる．そしてそれぞれの発声データと比較することができる．

In [10]:
timitdict = nltk.corpus.timit.transcription_dict()
print(timitdict['greasy'] + timitdict['wash'] + timitdict['water'])
print(phonetic[17:30])

['g', 'r', 'iy1', 's', 'iy', 'w', 'ao1', 'sh', 'w', 'ao1', 't', 'axr']
['g', 'r', 'iy', 's', 'iy', 'w', 'aa', 'sh', 'epi', 'w', 'aa', 'dx', 'ax']


この情報は，音声処理システムが特定の方言（ニューイングランド方言）を生成したり，認識したりする際に何をしなければならないかということを教えてくれる．そしてさらに，TIMITは人口統計データを含んでいるため，音声，社会，性別の特徴に関する詳しい研究が可能になる．

In [11]:
nltk.corpus.timit.spkrinfo('dr1-fvmh0')

SpeakerInfo(id='VMH0', sex='F', dr='1', use='TRN', recdate='03/11/86', birthdate='01/08/60', ht='5\'05"', race='WHT', edu='BS', comments='BEST NEW ENGLAND ACCENT SO FAR')

### 11.1.2 注目に値する設計上の特徴

#### 4つの特徴
- 1. コーパスは音声的注釈と書法的注釈の2つの階層に分かれた注釈を含んでいる
- 2. 方言やdisphoneのカバー範囲において複数の軸に多様性においてよくバランスがとれている
- 3. 録音として得られたもともとの言語的事象と，その事象の注釈がきちんと分けられている
- 4. コーパスが階層構造をしている
- 5. 音声コーパスだが，書き起こしと関連データがテキストのため，他のテキストコーパスと同じようにプログラムを使った処理が可能である

### 11.1.3 基本的なデータ型

## 11.2 コーパスのライフサイクル

コーパスは始めた作られた際に完全な形式になっているものではなく，慎重な準備と長期間にわたる多くの人による入力を必要とする．コーパス作成のためには，生のデータを収集し，ごみを取り除き，ドキュメントを書き，系統的な構造で格納する必要がある．さらに様々な階層での注釈が適用され，言語における形態論的，統合論的な特殊な知識が必要となるかもしれない．

大事なことは適切なツールとデータ形式を利用した，効果的な処理過程を構築できるかにかかっている．

### 11.2.1 3つのコーパス構築シナリオ

- フィールド言語学の典型的なパターン
- 広い範囲の人間の被験者から集められ，注意深くデザインされた素材の集合
- ANCやBNCのような特定の言語のための参照コーパスを集める取り組み

### 11.2.2 品質管理

注釈づけに関してはコーパスのすべてを2回注釈づけし，不一致の起こった問題に対して専門家の裁定を求める．

コーパスに対して達成した注釈間一致度を報告することは最も良い方法だと知られている．

### 11.2.3 データの管理と発展

公開されたコーパスを研究のためにデータの一部を選択する作業は，その作業自体が大きな貢献となる可能性がある．

このように新たな目的でコーパスを利用するための仕事では，コーパスの中から適切なデータを選び出すことに加え，テキストファイルの形式の変換（XMLなど），ファイル名の変更，テキストの再トークン化，データをより豊富なものにするためのデータの選択などの作業が含まれる． 

## 11.3 データの取得

### 11.3.1 ウェブからのデータの取得

#### 大量のウェブ上テキストを手に入れたいなら
公開されているウェブテキストのコーパスを利用すること．きちんと定義されたウェブコーパスを利用することの利点は，ドキュメントが整備されており，安定しており，検証実験が可能な点である．

### 11.3.2 ワードプロセッサファイルからのデータ取得

例えばmicrosoft wordで作成し，生成したHTMLをCSVファイルに変換するなど．

### 11.3.3 スプレッドシートとデータベースからのデータ取得

リレーショナルデータベースのスキーマとジレンマ，csvファイルへのダンプで語彙目録をアップデートする．

### 11.3.4 データ形式の変換

いろいろと

### 11.3.5 どの層の注釈を含めるかの決定

- 単語のトークン化
- 文の分割
- 段落の分割
- 品詞
- 統語構造
- 表層意味
- 対話と談話

#### 用語
- スタンドオフ注釈づけ
- インライン注釈づけ

### 11.3.6 標準規格とツール

そもそもコーパス，特にその注釈においては標準規格が存在せず，とかくその兆しもない．

#### 標準的なデータ形式よりも標準的なインタフェース？
共通のコーパスインタフェースはデータ形式からアプリケーションプログラムを切り離すことができる．

### 11.3.7 危機に瀕した言語を処理する際に特に注意すべき事柄

言語に文学的伝統が存在しない言語に対してNLPができることは．

## 11.4 XMLを利用した処理

XMLはHTMLのように定義済みのタグだけではなく，自身のタグを定義することが可能．データベースと異なり，XMLは先にその構造を定義しなくてもデータを生成することができ，省略可能な要素や繰り返し可能な要素を使うことも可能．

### 11.4.1 言語構造にXMLを利用する

レイアウトに意味は持たず，厳密な木構造を前提に組み立てられる．

### 11.4.2 XMLの役割

XMLを使ったところで，どうやってデータを構造化するかを考え，スキーマを使って構造を定義し，その形式での読み書きや他のデータ形式への変換を行うプログラムを書かなくてはならない．

### 11.4.3 ElementTreeインターフェイス

ElementTreeを使用して構造化されたXMLのデータにアクセスする．

### 11.4.4 ToolboxデータにアクセスするためにElementTreeを使用する

添え字を使用してアクセスするもよし，パスを使用してアクセスするもよし．

### 11.4.5 項目の形成

プレーンテキストの代わりにHTMLの表を生成する場合にも利用可能．

## 11.5 Toolboxデータを利用する

In [13]:
# toolbox
from nltk.corpus import toolbox
lexicon = toolbox.xml('rotokas.dic')
sum(len(entry) for entry in lexicon) / len(lexicon)

13.635955056179775

### 11.5.1 各項目にフィールドを追加する

In [21]:
# cvフィールドを追加する
from xml.etree.ElementTree import SubElement
import re

def cv(s):
    s = s.lower()
    s = re.sub(r'[^a-z]', r'_', s)
    s = re.sub(r'[aeiou]', r'V', s)    
    s = re.sub(r'[^V_]', r'C', s)    
    return s

def add_cv_field(entry):
    for field in entry:
        if field.tag == 'lx':
            cv_field = SubElement(entry, 'cv')
            cv_field.text = cv(field.text)

cv("Hello I am Kouta")
lexicon = toolbox.xml('rotokas.dic')
add_cv_field(lexicon[53])
print(nltk.toolbox.to_sfm_string(lexicon[53]))

\lx kaeviro
\ps V
\pt A
\ge lift off
\ge take off
\tkp go antap
\sc MOTION
\vx 1
\nt used to describe action of plane
\dt 03/Jun/2005
\ex Pita kaeviroroe kepa kekesia oa vuripierevo kiuvu.
\xp Pita i go antap na lukim haus win i bagarapim.
\xe Peter went to look at the house that the wind destroyed.
\cv CVVCVCV



### 11.5.2 Toolboxの語彙を検査する

In [22]:
from collections import Counter
field_sequences = Counter(':'.join(field.tag for field in entry) for entry in lexicon)
field_sequences.most_common()

[('lx:ps:pt:ge:tkp:dt:ex:xp:xe', 41),
 ('lx:rt:ps:pt:ge:tkp:dt:ex:xp:xe', 37),
 ('lx:rt:ps:pt:ge:tkp:dt:ex:xp:xe:ex:xp:xe', 27),
 ('lx:ps:pt:ge:tkp:nt:dt:ex:xp:xe', 20),
 ('lx:ps:pt:ge:tkp:nt:dt:ex:xp:xe:ex:xp:xe', 17),
 ('lx:ps:pt:ge:tkp:dt:ex:xp:xe:ex:xp:xe', 16),
 ('lx:rt:ps:pt:ge:ge:tkp:dt:ex:xp:xe:ex:xp:xe', 12),
 ('lx:ps:pt:ge:tkp:nt:sf:dt:ex:xp:xe', 9),
 ('lx:ps:pt:ge:ge:tkp:dt:ex:xp:xe', 9),
 ('lx:rt:ps:pt:ge:tkp:dt:ex:xp:xe:ex:xp:xe:ex:xp:xe', 9),
 ('lx:ps:ge:tkp:dt:ex:xp:xe', 8),
 ('lx:ps:pt:ge:ge:tkp:dt:ex:xp:xe:ex:xp:xe', 8),
 ('lx:rt:ps:pt:ge:ge:tkp:dt:ex:xp:xe', 8),
 ('lx:alt:rt:ps:pt:ge:tkp:dt:ex:xp:xe:ex:xp:xe', 7),
 ('lx:alt:rt:ps:pt:ge:tkp:dt:ex:xp:xe', 7),
 ('lx:ps:pt:ge:ge:tkp:arg:vx:dt:ex:xp:xe:ex:xp:xe', 6),
 ('lx:ps:pt:ge:tkp:cmt:dt:ex:xp:xe', 5),
 ('lx:ps:pt:ge:tkp:nt:sf:dt:ex:xp:xe:ex:xp:xe', 5),
 ('lx:rt:ps:pt:ge:tkp:cmt:dt:ex:xp:xe', 5),
 ('lx:rt:ps:pt:ge:tkp:nt:dt:ex:xp:xe:ex:xp:xe', 4),
 ('lx:ps:pt:ge:tkp:dt:cmt:ex:xp:xe:ex:xp:xe', 4),
 ('lx:rt:ps:pt:ge:tkp

In [23]:
grammar = nltk.CFG.fromstring('''
  S -> Head PS Glosses Comment Date Sem_Field Examples
  Head -> Lexeme Root
  Lexeme -> "lx"
  Root -> "rt" |
  PS -> "ps"
  Glosses -> Gloss Glosses |
  Gloss -> "ge" | "tkp" | "eng"
  Date -> "dt"
  Sem_Field -> "sf"
  Examples -> Example Ex_Pidgin Ex_English Examples |
  Example -> "ex"
  Ex_Pidgin -> "xp"
  Ex_English -> "xe"
  Comment -> "cmt" | "nt" |
  ''')

def validate_lexicon(grammar, lexicon, ignored_tags):
    rd_parser = nltk.RecursiveDescentParser(grammar)
    for entry in lexicon:
        marker_list = [field.tag for field in entry if field.tag not in ignored_tags]
        if list(rd_parser.parse(marker_list)):
            print("+", ':'.join(marker_list)) [1]
        else:
            print("-", ':'.join(marker_list)) [2]

In [25]:
lexicon = toolbox.xml('rotokas.dic')[10:20]
ignored_tags = ['arg', 'dcsv', 'pt', 'vx'] 
validate_lexicon(grammar, lexicon, ignored_tags)

- lx:ps:ge:tkp:sf:nt:dt:ex:xp:xe:ex:xp:xe:ex:xp:xe


TypeError: 'NoneType' object is not subscriptable

## 11.6 OLACメタデータを利用した言語資源の表現

NLPのコミュニティのメンバは，高い精度と再現率を持つ言語資源を発見する必要性を常に持っている．

### 11.6.1 メタデータとは何か

#### メタデータ
データに関する構造化データ．メタデータは物事や資源に関する記述的な情報であり，記述される対象は物理的なものでも電子的なものでも構わない．メタデータは手作業で作成することもできるし，ソフトウェアを使って自動的に作成することもできる．

#### ダブリンコアのメタデータ要素15
- タイトル
- 作成者
- 題名
- 説明
- 出版社
- 貢献者
- 日付
- タイプ
- 形式
- 識別子 
- 情報源
- 言語
- 関係
- 適用範囲
- 権利

このメタデータセットは電子データ或いは旧来のデータ形式で記述された資源を説明するために利用できる．

### 11.6.2 OLAC：オープン言語アーカイブコミュニティ

#### オープン言語アーカイブコミュニティ
言語資源の世界的な仮想的ライブラリを作成している機関や個人の国際的共同体．

- 言語資源の電子的アーカイブのための現時点でもっとも実用的な手法についての意見を一致させる．
- 相互運用可能な，言語資源へのアクセスと保管場所の提供サービスとリポジトリのネットワークを構築する．

## 11.7 まとめ

- ほとんどのコーパスで利用されている基本的なデータ型は注付きテキストと語彙目録である．テキストは時系列に従って構造化され，語彙はレコード構造になっている．
- コーパスのライフサイクルはデータの収集，注釈付け，品質のコントロール，公開を含む．そして公開の後も，研究で利用されるにしたがって修正されたり，情報が追加されたりという形でコーパスのライフサイクルは続いていく．
- コーパスの開発では，言語利用に関する代表資料の収集と特定の情報源や有用なジャンルから十分な素材の収集をバランスよく行う必要がある．多様性の次元を急激に増やすことは，資源が限定されていることから，通常可能ではない．
- XMLは言語学的データのやり取りと保存に非常に便利なデータ形式だが，多く存在するデータのモデル化の問題を解決するための手段とはならない．
- Toolboxデータ形式は言語の文書化プロジェクトにおいて広く使われている．Toolboxファイルの操作をサポートするプログラムを書き，それらをXMLに変換することも可能である．
- OLACは言語資源の発見と文書化のための基盤を提供する．