# 1. 找出同義詞集合

In [1]:
# 找synset，以 motorcar 為例
from nltk.corpus import wordnet as wn

wn.synsets('motorcar')

[Synset('car.n.01')]

In [4]:
# 也可以替換改找卡車的synset
wn.synsets('trunk')

# car.n.01 是 motorcar 這個字詞的 synset， 
# n 代表了 car.n.01 是一個名詞類的 synset。

[Synset('trunk.n.01'),
 Synset('trunk.n.02'),
 Synset('torso.n.01'),
 Synset('luggage_compartment.n.01'),
 Synset('proboscis.n.02')]

# 2. 找出同義詞
wn.synset('synsets id').lemma_names()

In [5]:
# synset 裡的字詞
wn.synset('car.n.01').lemma_names()

['car', 'auto', 'automobile', 'machine', 'motorcar']

In [7]:
# 列舉多義字的同義字
for synset in wn.synsets('trunk'):
    print(synset.lemma_names())

['trunk', 'tree_trunk', 'bole']
['trunk']
['torso', 'trunk', 'body']
['luggage_compartment', 'automobile_trunk', 'trunk']
['proboscis', 'trunk']


# 3. 查詢 synset 的定義說明
wn.synset('synsets id').definiton()

In [8]:
# 查找 motorcar 所屬的 synset 定義
wn.synset('car.n.01').definition()

'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [10]:
# 查找 trunk 所屬的 synset 定義
wn.synset('trunk.n.01').definition()

# 以上的定義說明是 WordNet 拿來歸屬 synset 的依據，
# 有點像是我們在做 label 問題時，所需要將邏輯紀錄的文件化說明。

'the main stem of a tree; usually covered with bark; the bole is usually the part that is commercially useful for lumber'

# 4. hypernym/hyponym ( 上位詞與下位詞 )
wn.synset('synset id1').hypernyms()

wn.synset('synsets id').hyponyms()

In [14]:
# 尋找 motorcar 的上位詞組
motorcar = wn.synset('car.n.01')
types_of_motorcar = motorcar.hypernyms()
types_of_motorcar

[Synset('motor_vehicle.n.01')]

In [15]:
# 尋找 motorcar 的下位詞組
motorcar = wn.synset('car.n.01')
types_of_motorcar = motorcar.hyponyms()
types_of_motorcar

[Synset('ambulance.n.01'),
 Synset('beach_wagon.n.01'),
 Synset('bus.n.04'),
 Synset('cab.n.03'),
 Synset('compact.n.03'),
 Synset('convertible.n.01'),
 Synset('coupe.n.01'),
 Synset('cruiser.n.01'),
 Synset('electric.n.01'),
 Synset('gas_guzzler.n.01'),
 Synset('hardtop.n.01'),
 Synset('hatchback.n.01'),
 Synset('horseless_carriage.n.01'),
 Synset('hot_rod.n.01'),
 Synset('jeep.n.01'),
 Synset('limousine.n.01'),
 Synset('loaner.n.02'),
 Synset('minicar.n.01'),
 Synset('minivan.n.01'),
 Synset('model_t.n.01'),
 Synset('pace_car.n.01'),
 Synset('racer.n.02'),
 Synset('roadster.n.01'),
 Synset('sedan.n.01'),
 Synset('sport_utility.n.01'),
 Synset('sports_car.n.01'),
 Synset('stanley_steamer.n.01'),
 Synset('stock_car.n.01'),
 Synset('subcompact.n.01'),
 Synset('touring_car.n.01'),
 Synset('used-car.n.01')]

In [16]:
# 找到下位詞組後後，再從 synset 找出單詞（以詞為中心）
sorted(lemma.name() for synset in types_of_motorcar for lemma in synset.lemmas())

['Model_T',
 'S.U.V.',
 'SUV',
 'Stanley_Steamer',
 'ambulance',
 'beach_waggon',
 'beach_wagon',
 'bus',
 'cab',
 'compact',
 'compact_car',
 'convertible',
 'coupe',
 'cruiser',
 'electric',
 'electric_automobile',
 'electric_car',
 'estate_car',
 'gas_guzzler',
 'hack',
 'hardtop',
 'hatchback',
 'heap',
 'horseless_carriage',
 'hot-rod',
 'hot_rod',
 'jalopy',
 'jeep',
 'landrover',
 'limo',
 'limousine',
 'loaner',
 'minicar',
 'minivan',
 'pace_car',
 'patrol_car',
 'phaeton',
 'police_car',
 'police_cruiser',
 'prowl_car',
 'race_car',
 'racer',
 'racing_car',
 'roadster',
 'runabout',
 'saloon',
 'secondhand_car',
 'sedan',
 'sport_car',
 'sport_utility',
 'sport_utility_vehicle',
 'sports_car',
 'squad_car',
 'station_waggon',
 'station_wagon',
 'stock_car',
 'subcompact',
 'subcompact_car',
 'taxi',
 'taxicab',
 'tourer',
 'touring_car',
 'two-seater',
 'used-car',
 'waggon',
 'wagon']

In [17]:
# 上下位詞不只可以找到上一位或是下一位，還可以找到 motorcar 這個詞的完整路徑
#（也就是上圖 motor vehicle 至 artefact 虛線所包含的 synsets + artifact 之上的上位詞 synsets ）：
# 完整路徑（上位詞組再往上走）
motorcar = wn.synset('car.n.01')
motorcar.hypernym_paths()

[[Synset('entity.n.01'),
  Synset('physical_entity.n.01'),
  Synset('object.n.01'),
  Synset('whole.n.02'),
  Synset('artifact.n.01'),
  Synset('instrumentality.n.03'),
  Synset('container.n.01'),
  Synset('wheeled_vehicle.n.01'),
  Synset('self-propelled_vehicle.n.01'),
  Synset('motor_vehicle.n.01'),
  Synset('car.n.01')],
 [Synset('entity.n.01'),
  Synset('physical_entity.n.01'),
  Synset('object.n.01'),
  Synset('whole.n.02'),
  Synset('artifact.n.01'),
  Synset('instrumentality.n.03'),
  Synset('conveyance.n.03'),
  Synset('vehicle.n.01'),
  Synset('wheeled_vehicle.n.01'),
  Synset('self-propelled_vehicle.n.01'),
  Synset('motor_vehicle.n.01'),
  Synset('car.n.01')]]

In [18]:
# 如何從 motorcar 這個階層直指最頂端的上位詞組 entity.n.01 呢？
# 找到這個位置詞組的好處即可得知這個詞的最大分類。
motorcar = wn.synset('car.n.01')
motorcar.root_hypernyms()

[Synset('entity.n.01')]

# 5. 找尋兩個 synset 之間的最低位共同詞組
wn.synset('synset id1').lowest_common_hypernyms('synset id2')

透過找尋 synset id1、以及 synset id2 的上位詞組，去找到一組最低位的共同上位詞組（有點像是尋找最小公倍數的概念），其應用是：共同分類的字詞表示。

官方文件是以三種鯨魚為例子，「露脊鯨」以及「小鬚鯨」最低位的共同上位詞組是 baleen_whale ，是「鬚鯨目」的意思，代表這兩種鯨魚隸屬於該分類底下。

In [20]:
# 以鯨魚為例
right = wn.synset('right_whale.n.01')
minke = wn.synset('minke_whale.n.01')

# 「露脊鯨」與「小鬚鯨」在上位詞組中最低位的詞組
right.lowest_common_hypernyms(minke)

[Synset('baleen_whale.n.01')]

在自然語言處理的任務當中，在意的是個字詞、詞組之間的相同/相異程度，差異越小的會在越下位找，差異越大的會在越上位，才找到共同詞組，可以看以下例子：

In [23]:
# 露脊鯨 vs 虎鯨
orca = wn.synset('orca.n.01')
right.lowest_common_hypernyms(orca)

# Result->鯨目

[Synset('whale.n.02')]

In [25]:
# 露脊鯨 vs 陸龜
tortoise = wn.synset('tortoise.n.01')
right.lowest_common_hypernyms(tortoise)

# Result->脊椎動物

[Synset('vertebrate.n.01')]

In [26]:
# 露脊鯨 vs 小說
novel = wn.synset('novel.n.01')
right.lowest_common_hypernyms(novel)

# Result->實體

[Synset('entity.n.01')]

# 6. synset 之間的階層計算以及上下位結構的相似度
將字詞的上下位關係，轉為量化的數值表示：包含階層計算以及相似度。

wn.synset('synset id1').min_depth()

In [28]:
# 計算由當前 synset 而上的階層數
wn.synset('baleen_whale.n.01').min_depth()

14

In [29]:
wn.synset('whale.n.02').min_depth()

13

In [30]:
wn.synset('vertebrate.n.01').min_depth()

8

In [31]:
wn.synset('entity.n.01').min_depth()

0

wn.synset('synset id1').path_similarity()

In [33]:
# 上下位詞組結構的相似程度 (數字接近1代表path越像)
right.path_similarity(right) # 露脊鯨和自己本身

1.0

In [34]:
right.path_similarity(minke) # 露脊鯨和小鬚鯨

0.25

In [35]:
right.path_similarity(orca) # 露脊鯨和虎鯨

0.16666666666666666

In [36]:
right.path_similarity(tortoise) # 露脊鯨和陸龜

0.07692307692307693

In [37]:
right.path_similarity(novel) # 露脊鯨和小說

0.043478260869565216

# 最後，補充兩個字詞處理的小技巧
在英文的世界裡，很常會遇到動詞的時態變化或是名詞的單複數變化等，「詞幹提取」、「詞性還原」即可進行字詞的預處理。（備註：使用上要視任務需求而定，若是詞性標註、或是專有名詞識別 ( NER ) 等可能較不適合進行這些前處理）

# 詞幹提取 ( Stemming )
通過一些簡單的規則，對字詞做初步處理，e.g. eat 這個單詞會有 eating、eaten、eats 等變化，在某些應用當中，我們是不需要特別區分 eat 與 eaten 之間的區別的，所以通常會用詞幹提取的方式，將這種語法上的變化歸類為相同的詞。
擁有基本規則的詞幹提取器是可以移除 -s/es、-ing、-ed的，像是 Porter Stemmer、Lancaster Stemmer ；而較晚出現的 Snowball Stemmer，它是基於 Porter 的方式做改良，同時可以提取一些其他語言，像是法文、德文等。若想對詞幹提取這一塊進行更深入研究，可以參考 wiki 。

In [38]:
# 引用詞幹提取器
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer
from nltk.stem import SnowballStemmer

In [39]:
# 初始化
pst = PorterStemmer()
lst = LancasterStemmer()
snow = SnowballStemmer('english') # 需定義語言

In [40]:
# 使用 (以Porter Stemmer為例）
pst.stem('eating')

'eat'

In [41]:
pst.stem('eats')

'eat'

# 詞性還原 ( Lemmatization )
有別於詞幹提取，詞性還原涵蓋了詞根的文法和變化形式，它運用了不同的標準化規則（像是上下文情境和詞性），來獲取相關的詞根 ( lemma )，將各種類型的詞的變形，歸成一致的形式。

In [42]:
# 詞性還原 
from nltk.stem import WordNetLemmatizer
wtlem = WordNetLemmatizer()

In [43]:
# 未指定詞性
wtlem.lemmatize('ate')

'ate'

In [44]:
wtlem.lemmatize('eating')

'eating'

In [45]:
# 指定詞性為動詞
wtlem.lemmatize('ate', 'v')

'eat'

In [46]:
wtlem.lemmatize('eating', 'v')

'eat'

# 小結
這次主要介紹的 WordNet ，練習後可以發現：其精髓是將字詞分類後以 「synset 」為中介，透過「synset」去做各種連結，像是尋找上下位詞組、計算字詞階層的相似度等。

這次在 NLTK 初學指南系列，介紹了從字詞出發的基本技巧、分詞與文章拆解、WordNet 語義網絡等主題。其實複雜的 NLP 任務的最底層，會與字詞表達方式與文章拆解有關（e.g. 分詞、同異義詞處理、以及字詞在整篇文章的位置），因此，相信這些基本技巧上手之後，就能應用在 NLP 的相關任務上，若有興趣做得更細緻，就得在字詞表達與文章拆解上好好研究以及著墨了。