In [1]:
""" 词形还原（Lemmatization）是文本预处理中的重要部分，与词干提取（stemming）很相似。
  简单说来，词形还原就是去掉单词的词缀，提取单词的主干部分，通常提取后的单词会是字典中的单词，不同于词干提取（stemming）

作者：山阴少年
链接：https://www.jianshu.com/p/79255fe0c5b5
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 """

' 词形还原（Lemmatization）是文本预处理中的重要部分，与词干提取（stemming）很相似。\n\u2003\u2003简单说来，词形还原就是去掉单词的词缀，提取单词的主干部分，通常提取后的单词会是字典中的单词，不同于词干提取（stemming）\n\n作者：山阴少年\n链接：https://www.jianshu.com/p/79255fe0c5b5\n来源：简书\n著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。 '

In [1]:
# 在Python的nltk模块中，使用WordNet为我们提供了稳健的词形还原的函数。
from nltk.stem import WordNetLemmatizer
wnl = WordNetLemmatizer()
# lemmatize nouns
print(wnl.lemmatize('cars','n'))
print(wnl.lemmatize('men','n'))

# lemmatize verbs
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

# lemmatize adjectives
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

car
men
run
eat
sad
fancy


In [2]:
# 在实际应用中做词性还原时，需要指定单词的词性
# 反面例子如下
print(wnl.lemmatize('ate', 'n'))
print(wnl.lemmatize('fancier', 'v'))

ate
fancier


In [4]:
# 那么，如何获取单词的词性呢？
sentence = 'The brown fox is quick and he is jumping over the lazy dog'
import nltk

tokens = nltk.word_tokenize(sentence)
# 获取单词的词性
tagged_sent = nltk.pos_tag(tokens)
print(tagged_sent)

[('The', 'DT'), ('brown', 'JJ'), ('fox', 'NN'), ('is', 'VBZ'), ('quick', 'JJ'), ('and', 'CC'), ('he', 'PRP'), ('is', 'VBZ'), ('jumping', 'VBG'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN')]


In [8]:
# 获取单词在句子中的词性+词性还原
from nltk import word_tokenize, pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
# 获取单词的词性
def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return None

sentence = 'football is a family of team sports that involve, to varying degrees, kicking a ball to score a goal.'
tokens=word_tokenize(sentence)  #分词
tagged_sent=pos_tag(tokens)     #获取单词词性

wnl=WordNetLemmatizer()
lemmas_sent=[]
for tag in tagged_sent:
    wordnet_pos=get_wordnet_pos(tag[1]) or wordnet.NOUN
    lemmas_sent.append(wnl.lemmatize(tag[0],pos=wordnet_pos))     #词性还原

print(lemmas_sent)

['football', 'be', 'a', 'family', 'of', 'team', 'sport', 'that', 'involve', ',', 'to', 'vary', 'degree', ',', 'kick', 'a', 'ball', 'to', 'score', 'a', 'goal', '.']
