### WordNetとは

自然言語処理で使用する外部データ、コーパスから自動で学習したもの。上位下位の関係性がわかる。エンティティはSynsetで表される。
- エンティティ

「言葉が指し示すモノ」知識データのこと。
- Synset

WordNetのエンティティのデータ構成、Synsetは一つの概念であり、同じ意味を持つ複数の語が紐付けられている。そのSynset1つ1つもまた上位概念や下位概念などの関係でグラフの形になっている。グラフ上の距離は類似度を示す。


### WordNet本体のデータと、他言語版のOpen Multilingual WordNetのデータをダウンロードする

In [1]:
import nltk
nltk.download('wordnet')
nltk.download('omw')

[nltk_data] Downloading package wordnet to /home/vagrant/nltk_data...
[nltk_data]   Unzipping corpora/wordnet.zip.
[nltk_data] Downloading package omw to /home/vagrant/nltk_data...
[nltk_data]   Unzipping corpora/omw.zip.


True

### 同義語取得と類似度を計測する関数を定義

In [5]:
from nltk.corpus import wordnet

# テキストに紐づくsynsetの類語テキストを返す
def get_synonyms(text):
    results = []
    
    # 入力されたsynsetと紐づくsynsetををwordnet.synsets(text)でよびだす
    for synset in wordnet.synsets(text, lang='jpn'):
        # 各synsetに紐づくテキストをlemmaに書き出し。
        for lemma in synset.lemma_names(lang='jpn'):
            results.append({'term': lemma})
    return results

# 類似度を計算する関数
def calc_similarity(text1, text2):
    # 入力されたsynsetと紐づくsynsetををwordnet.synsets(text)でよびだす
    synsets1 = wordnet.synsets(text1, lang='jpn')
    synsets2 = wordnet.synsets(text2, lang='jpn')
    
    max_sim = 0
    
    for synset1 in synsets1:
        for synset2 in synsets2:
            # Synsetのグラフ上での距離が近いほど類似度が大きいことをpath_similarityで比較する
            sim = synset1.path_similarity(synset2)
            if max_sim < sim:
                max_sim = sim
    return max_sim

# 上位語を取得する関数
def get_hypernym(text):
    # 入力されたsynsetと紐づくsynsetををwordnet.synsets(text)でよびだす
    synsets = wordnet.synsets(text, lang='jpn')
    results = []
    
    for synset in synsets:
        # synsetの上位概念をhypernyms関数で呼び出し、呼び出されるのはひとつ上
        for hypernym in synset.hypernyms():
            for lemma in hypernym.lemma_names(lang='jpn'):
                results.append({'term': lemma})
    return results

### 実行してみる

In [3]:
import json

synonyms = get_synonyms('アメリカ合衆国')
print(json.dumps(synonyms, indent=4, ensure_ascii=False))

[
    {
        "term": "ＵＳ"
    },
    {
        "term": "ＵＳＡ"
    },
    {
        "term": "アメリカ"
    },
    {
        "term": "Ｕ．Ｓ．Ａ．"
    },
    {
        "term": "亜米利加"
    },
    {
        "term": "アメリカ合衆国"
    },
    {
        "term": "合衆国"
    },
    {
        "term": "米"
    },
    {
        "term": "米国"
    },
    {
        "term": "北部諸州"
    },
    {
        "term": "アメリカ合衆国"
    }
]


### 類似度を計算する

In [4]:
text1 = 'アメリカ合衆国'
text2 = '米国'

similarity = calc_similarity(text1, text2)
print(similarity, text1, text2)

text1 = 'アメリカ合衆国'
text2 = '日本'

similarity = calc_similarity(text1, text2)
print(similarity, text1, text2)

1.0 アメリカ合衆国 米国
0.2 アメリカ合衆国 日本


### 上位語を取り出す

In [6]:
text = '幸福'
results = get_hypernym(text)
print(json.dumps(results, indent=4, ensure_ascii=False))

[
    {
        "term": "フィーリング"
    },
    {
        "term": "心地"
    },
    {
        "term": "心持"
    },
    {
        "term": "心持ち"
    },
    {
        "term": "心緒"
    },
    {
        "term": "念"
    },
    {
        "term": "念い"
    },
    {
        "term": "思"
    },
    {
        "term": "思い"
    },
    {
        "term": "情"
    },
    {
        "term": "想い"
    },
    {
        "term": "感"
    },
    {
        "term": "感じ"
    },
    {
        "term": "感情"
    },
    {
        "term": "気分"
    },
    {
        "term": "気味"
    },
    {
        "term": "気味合"
    },
    {
        "term": "気味合い"
    },
    {
        "term": "気持"
    },
    {
        "term": "気持ち"
    },
    {
        "term": "気色"
    },
    {
        "term": "上景気"
    },
    {
        "term": "成功"
    },
    {
        "term": "振作"
    },
    {
        "term": "栄耀"
    },
    {
        "term": "殷富"
    },
    {
        "term": "殷盛"
    },
    {
        "term": "殷賑"
    },
    {
        "term": "盛況"
    },
    {


### 下位語

In [10]:
synsets = wordnet.synsets('幸福', lang='jpn')

for synset in synsets:
    for hyponym in synset.hyponyms():
        for lemma in hyponym.lemma_names(lang='jpn'):
            print(lemma)

満足
にぎやかさ
愉快さ
明るさ
歓楽
陽気
喜び
悦び
慶び
歓び
喜び
幸い
至福
輝き
ヘルス
健全さ
健康
健康さ
