### WordNetによる類語検索
**概念**  
- synset：同義語のグループ。synsetは概念の関係（e.g. 上位概念、下位概念、部分関係、論理的含意）でお互いにリンクされている。  
  
**日本語版WordNetについて**  
Open Multilingual WordNetには、英語版WordNetのsynsetに対して、対応する訳語が用意されている。
- 語からsynsetへの変換の部分で、日本語入力が可能
- 日本語出力が可能になる
  
**使い方**  
NLTKからWordNetへアクセスするときは、WordNetパッケージをダウンロードする必要がある。以下、手順。  
ダウンロードしているかどうかも下記コード実行時のUIから確認可能。

>import nltk  
>nltk.download()  

Corporaタブ → wordnet & wordnet_ic  
または
Collectionsタブ → all-Corpusでも可能。（こっちはダウンロードに時間がかかる。）}

In [6]:
# 日本語版WordNet：Open Multilingual WordNet
from nltk.corpus import wordnet as wn
# synsetを日本語で検索する。
wn.synsets('鯨', lang='jpn')

[Synset('whale.n.02')]

In [7]:
# synsetに対応するlemmaを表示する時に日本語表示にする。
wn.synset('spy.n.01').lemma_names('jpn')

['いぬ',
 'スパイ',
 '回者',
 '回し者',
 '密偵',
 '工作員',
 '廻者',
 '廻し者',
 '探',
 '探り',
 '犬',
 '秘密捜査員',
 'まわし者',
 '諜報員',
 '諜者',
 '間者',
 '間諜',
 '隠密']

In [8]:
# WordNetの使い方：S.hoge()
orange = wn.synsets('ミカン', lang='jpn')[0]
print('ミカンの上位概念：', orange.hypernyms())
print('ミカンの下位概念：', orange.hyponyms())

apple = wn.synsets('リンゴ', lang='jpn')[0]
print('ミカンとリンゴの共通項：', orange.lowest_common_hypernyms(apple))

ミカンの上位概念： [Synset('citrus.n.01')]
ミカンの下位概念： [Synset('bitter_orange.n.02'), Synset('sweet_orange.n.01'), Synset('temple_orange.n.02')]
ミカンとリンゴの共通項： [Synset('edible_fruit.n.01')]


In [10]:
# -*- coding: utf-8 -*-
# リスト 5-12  英文 WordNet を NLTK から利用するプログラム
# NLTK パッケージのファイル wordnet.py に含まれているデモプログラムから抜粋
#
# 前準備
import nltk
from nltk.corpus import wordnet
from nltk.corpus.reader import WordNetCorpusReader, WordNetICCorpusReader
wn = WordNetCorpusReader(nltk.data.find('corpora/wordnet'), None)
S = wn.synset
L = wn.lemma

# synsetの基本メソッド
s = S('go.v.21')        # 単語goの動詞の21番のsynsetを読み出す
# synsetの名前がmove.v.15 pos（品詞名）がv 辞書ファイルがverb.competition
print(s.name(), s.pos(), s.lexname())
print(s.lemma_names())  # synset goの語彙は['move', 'go']
print(s.definition())   # goの定義は"have a turn; make one's move in a game"
print(s.examples())     # goの例文は['Can I go now?']

move.v.15 v verb.competition
['move', 'go']
have a turn; make one's move in a game
['Can I go now?']


In [11]:
# リンクをたどってみる
s = S('dog.n.01')
print(s.hypernyms())
    # dogの上位概念は[Synset('canine.n.02'), Synset('domestic_animal.n.01')]
print(L('zap.v.03.nuke').derivationally_related_forms())
    # [Lemma('atomic_warhead.n.01.nuke')]
print(L('zap.v.03.atomize').derivationally_related_forms())
    # [Lemma('atomization.n.02.atomization')]

[Synset('canine.n.02'), Synset('domestic_animal.n.01')]
[Lemma('atomic_warhead.n.01.nuke')]
[Lemma('atomization.n.02.atomization')]


In [12]:
print(s.member_holonyms())  # [Synset('canis.n.01'), Synset('pack.n.06')]
print(s.part_meronyms())    # [Synset('flag.n.07')]
print(S('Austen.n.1').instance_hypernyms())
    # Austenが例であるような上位概念[Synset('writer.n.01')]
print(S('composer.n.1').instance_hyponyms())
    # 作家の例（作曲家が多数表示される）

[Synset('canis.n.01'), Synset('pack.n.06')]
[Synset('flag.n.07')]
[Synset('writer.n.01')]
[Synset('ambrose.n.01'), Synset('bach.n.01'), Synset('barber.n.01'), Synset('bartok.n.01'), Synset('beethoven.n.01'), Synset('bellini.n.01'), Synset('berg.n.02'), Synset('berlioz.n.01'), Synset('bernstein.n.01'), Synset('bizet.n.01'), Synset('blitzstein.n.01'), Synset('bloch.n.01'), Synset('borodin.n.01'), Synset('boulez.n.01'), Synset('brahms.n.01'), Synset('britten.n.01'), Synset('bruch.n.01'), Synset('bruckner.n.01'), Synset('byrd.n.01'), Synset('cage.n.03'), Synset('chavez.n.01'), Synset('cherubini.n.01'), Synset('chopin.n.03'), Synset('copland.n.01'), Synset('corelli.n.01'), Synset('couperin.n.01'), Synset('coward.n.02'), Synset('czerny.n.01'), Synset('debussy.n.01'), Synset('delibes.n.01'), Synset('delius.n.01'), Synset('donizetti.n.01'), Synset('dowland.n.01'), Synset('dukas.n.01'), Synset('dvorak.n.01'), Synset('elgar.n.01'), Synset('enesco.n.01'), Synset('falla.n.01'), Synset('franck.n.01

In [13]:
print(S('faculty.n.2').member_meronyms())
    # 一部分（メンバー）[Synset('professor.n.01')]
print(S('copilot.n.1').member_holonyms())
    # これが含まれる大きな集合[Synset('crew.n.01')]
print(S('table.n.2').part_meronyms())
    # 一部分[Synset('leg.n.03'), Synset('tabletop.n.01'), Synset('tableware.n.01')]
print(S('course.n.7').part_holonyms())  # 含まれる集合[Synset('meal.n.01')]
print(S('water.n.1').substance_meronyms())
    # 一部分（材料）[Synset('hydrogen.n.01'), Synset('oxygen.n.01')]
print(S('gin.n.1').substance_holonyms())  # 含まれる集合（材料）
    # [Synset('gin_and_it.n.01'), Synset('gin_and_tonic.n.01'),
    #  Synset('martini.n.01'), Synset('pink_lady.n.01')]
print(S('snore.v.1').entailments())  # 論理的な結論[Synset('sleep.v.01')]
print(S('heavy.a.1').similar_tos()) 
    #  [Synset('dense.s.03'), Synset('doughy.s.01'), Synset('heavier-than-air.s.01'),
    #   Synset('hefty.s.02'), Synset('massive.s.04'), Synset('non-buoyant.s.01'),
    #   Synset('ponderous.s.02')]
print(S('light.a.1').attributes())            # 属性[Synset('weight.n.01')]
print(S('heavy.a.1').attributes())            # 属性[Synset('weight.n.01')]

print(S('person.n.01').root_hypernyms())
    # 意味トリーのルート[Synset('entity.n.01')]

[Synset('professor.n.01')]
[Synset('crew.n.01')]
[Synset('leg.n.03'), Synset('tabletop.n.01'), Synset('tableware.n.01')]
[Synset('meal.n.01')]
[Synset('hydrogen.n.01'), Synset('oxygen.n.01')]
[Synset('gin_and_it.n.01'), Synset('gin_and_tonic.n.01'), Synset('martini.n.01'), Synset('pink_lady.n.01')]
[Synset('sleep.v.01')]
[Synset('dense.s.03'), Synset('doughy.s.01'), Synset('heavier-than-air.s.01'), Synset('hefty.s.02'), Synset('massive.s.04'), Synset('non-buoyant.s.01'), Synset('ponderous.s.02')]
[Synset('weight.n.01')]
[Synset('weight.n.01')]
[Synset('entity.n.01')]


In [15]:
# 二者の関係（二者の間で初めて共通する概念）
print(S('person.n.01').lowest_common_hypernyms(S('dog.n.01')))  # 初めて共通する概念
    # 結果は[Synset('organism.n.01')]
print(S('woman.n.01').lowest_common_hypernyms(S('girlfriend.n.02')))
    # 結果は[Synset('woman.n.01')]

[Synset('organism.n.01')]
[Synset('woman.n.01')]


In [16]:
# 類似性指標。以下の指標の説明は、NLTKのドキュメント
# http://www.nltk.org/howto/wordnet.htmlにある
print(S('dog.n.01').path_similarity(S('cat.n.01')))   # パスで見たノードの近さ0.2
print(S('dog.n.01').path_similarity(S('wolf.n.01')))  # パスで見たノードの近さ0.333
print(S('dog.n.01').lch_similarity(S('cat.n.01')))
    # Leacock-Chosorowの類似度2.028
print(S('dog.n.01').wup_similarity(S('cat.n.01')))  # Wu-Palmer Similarity 0.857
wnic = WordNetICCorpusReader(nltk.data.find('corpora/wordnet_ic'), '.*\.dat')
ic = wnic.ic('ic-brown.dat')
print(S('dog.n.01').jcn_similarity(S('cat.n.01'), ic))
    # Information ContentによるJiang-Conrathの類似度0.4498
ic = wnic.ic('ic-semcor.dat')
print(S('dog.n.01').lin_similarity(S('cat.n.01'), ic))
    # Information ContentによるLinの類似度0.8863

print(S('code.n.03').topic_domains())
    # topic domain [Synset('computer_science.n.01')]
print(S('pukka.a.01').region_domains())  # region domain [Synset('india.n.01')]
print(S('freaky.a.01').usage_domains())  # usage domain [Synset('slang.n.02')]

0.2
0.3333333333333333
2.0281482472922856
0.8571428571428571
0.4497755285516739
0.8863288628086228
[Synset('computer_science.n.01')]
[Synset('india.n.01')]
[Synset('slang.n.02')]
