In [None]:
'''
자연어 : 일상에서 사용하는 언어

자연어 처리 : 음성인식, 요약, 변역, 감성분석, 분류, 질의응답, 챗봇 등

환경 구성 : 아나콘다(머신러닝, 시각화, 데이터 분석, nltk(영어) 등)(기본 설치) + 텐서플로우, 젠심, 파이토치 , konlpy(한국어) (별도 설치)등

1) 텍스트 전처리 (토큰화, 정제, 어간추출(스테밍), 불용어 제거, 정수 인코딩, 패딩)

2) 텍스트의 수치 표현 (BoW, DTM/TDM, TF-IDF)

3) 유사도(문서 / 단어 / 문장)

4) 머신/딥러닝 모델 생성
'''

In [1]:
pip install konlpy




In [2]:
from konlpy.tag import Okt

In [3]:
okt=Okt()

In [4]:
print(okt.morphs(u'단독입찰보다 복수입찰의 경우'))

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']


In [5]:
print(okt.nouns(u'유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))

['항공기', '체계', '종합', '개발', '경험']


In [6]:
print(okt.pos(u'이것도 되나욬ㅋㅋ'))

[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]


In [7]:
from konlpy.tag import *

In [8]:
han=Hannanum()
kkma=Kkma()

In [9]:
okt.pos('아버지가방에들어가신다')

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb')]

In [10]:
han.pos('아버지가방에들어가신다')

[('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E')]

In [11]:
kkma.pos('아버지가방에들어가신다')

[('아버지', 'NNG'),
 ('가방', 'NNG'),
 ('에', 'JKM'),
 ('들어가', 'VV'),
 ('시', 'EPH'),
 ('ㄴ다', 'EFN')]

In [12]:
okt.pos("정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")

[('정부', 'Noun'),
 ('가', 'Josa'),
 ('발표', 'Noun'),
 ('하는', 'Verb'),
 ('물가상승률', 'Noun'),
 ('과', 'Josa'),
 ('소비자', 'Noun'),
 ('가', 'Josa'),
 ('느끼는', 'Verb'),
 ('물가상승률', 'Noun'),
 ('은', 'Josa'),
 ('다르다', 'Adjective'),
 ('.', 'Punctuation')]

In [14]:
han.pos("정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")

[('정부', 'N'),
 ('가', 'J'),
 ('발표', 'N'),
 ('하', 'X'),
 ('는', 'E'),
 ('물가상승률', 'N'),
 ('과', 'J'),
 ('소비자', 'N'),
 ('가', 'J'),
 ('느끼', 'P'),
 ('는', 'E'),
 ('물가상승률', 'N'),
 ('은', 'J'),
 ('다르', 'P'),
 ('다', 'E'),
 ('.', 'S')]

In [13]:
kkma.pos("정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")

[('정부', 'NNG'),
 ('가', 'JKS'),
 ('발표', 'NNG'),
 ('하', 'XSV'),
 ('는', 'ETD'),
 ('물가', 'NNG'),
 ('상승률', 'NNG'),
 ('과', 'JC'),
 ('소비자', 'NNG'),
 ('가', 'JKS'),
 ('느끼', 'VV'),
 ('는', 'ETD'),
 ('물가', 'NNG'),
 ('상승률', 'NNG'),
 ('은', 'JX'),
 ('다르', 'VA'),
 ('다', 'EFN'),
 ('.', 'SF')]

In [None]:
'''
df('바나나') = 2

단어의 갯수가 아니라 몇개의 문서에서 출력됬는가

tf*idf = 문서에서 각 단어의 중요도를 나타낸 행렬

각 문서에서 중요 단어가 무엇인지 알고자 함 => 키워드 => 토픽 모델링

tfidf는 단어 중요도

tfidf = tf * idf

df가 크다 => 많은 문서에서 등장 => 단어의 중요도가 떨어짐 => df의 수가 작아져야 tfidf 값이 커짐 => df의 역수

N = 문서의 개수, idf = log(N / df(w) + 1), log = idf의 값이 기하급수적으로 커지는 것 방지

tfidf = tf * log(N / df(w) + 1)(단어(w) 등장 안했을 때 0이 되는 것을 방지)

'''

In [15]:
from math import log 
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
]

In [18]:
vocab=list(set([w for doc in docs for w in doc.split()]))
vocab

['먹고', '노란', '과일이', '싶은', '사과', '길고', '좋아요', '저는', '바나나']

In [19]:
vocab.sort()

In [20]:
vocab #코퍼스(말뭉치) : 전체 문서에 등장하는 단어 집합

['과일이', '길고', '노란', '먹고', '바나나', '사과', '싶은', '저는', '좋아요']

In [23]:
import pandas as pd

In [21]:
N = len(docs) 

def tf(t, d):
  return d.count(t)

def idf(t):
  df = 0
  for doc in docs:
    df += t in doc
  return log(N/(df+1))

def tfidf(t, d):
  return tf(t,d)* idf(t)

In [24]:
result = []

# 각 문서에 대해서 아래 연산을 반복
for i in range(N):
  result.append([]) #[[]]
  d = docs[i] #'먹고 싶은 사과'
  for j in range(len(vocab)): # 9번 반복
    t = vocab[j] #'과일이'
    result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)

In [25]:
tf_ # tf 행렬 = DTM(문서 단어 행렬), 행 : 문서집합, 열 : 단어, 데이터 : 빈도수

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [26]:
#DTM 만들기
from sklearn.feature_extraction.text import CountVectorizer

In [27]:
vec=CountVectorizer()

In [28]:
vec.fit_transform(docs).toarray()

array([[0, 0, 0, 1, 0, 1, 1, 0, 0],
       [0, 0, 0, 1, 1, 0, 1, 0, 0],
       [0, 1, 1, 0, 2, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 0, 1, 1]], dtype=int64)

In [34]:
vec.vocabulary_ #인덱스 별 이름

{'먹고': 3,
 '싶은': 6,
 '사과': 5,
 '바나나': 4,
 '길고': 1,
 '노란': 2,
 '저는': 7,
 '과일이': 0,
 '좋아요': 8}

In [35]:
#tf-idf 행렬 구하는 법
from sklearn.feature_extraction.text import TfidfVectorizer

In [36]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index=vocab, columns=["IDF"])
idf_
#idf 값이 작을 수록 중요도가 떨어짐 -> 많이 등장

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [37]:
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [38]:
result = []
for i in range(N):
  result.append([])
  d = docs[i]
  for j in range(len(vocab)):
    t = vocab[j]
    result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


In [None]:
'''
0. 데이터 전처리

1. 각 문서(영화)에서 중요 단어 추출

2. 코사인 유삳도 기반 가장 유사한 문서(영화) 검색
'''

In [40]:
pip install tensorflow

Collecting tensorflow
  Obtaining dependency information for tensorflow from https://files.pythonhosted.org/packages/80/6f/57d36f6507e432d7fc1956b2e9e8530c5c2d2bfcd8821bcbfae271cd6688/tensorflow-2.14.0-cp311-cp311-win_amd64.whl.metadata
  Downloading tensorflow-2.14.0-cp311-cp311-win_amd64.whl.metadata (3.3 kB)
Collecting tensorflow-intel==2.14.0 (from tensorflow)
  Obtaining dependency information for tensorflow-intel==2.14.0 from https://files.pythonhosted.org/packages/ad/6e/1bfe367855dd87467564f7bf9fa14f3b17889988e79598bc37bf18f5ffb6/tensorflow_intel-2.14.0-cp311-cp311-win_amd64.whl.metadata
  Downloading tensorflow_intel-2.14.0-cp311-cp311-win_amd64.whl.metadata (4.8 kB)
Collecting absl-py>=1.0.0 (from tensorflow-intel==2.14.0->tensorflow)
  Obtaining dependency information for absl-py>=1.0.0 from https://files.pythonhosted.org/packages/01/e4/dc0a1dcc4e74e08d7abedab278c795eef54a224363bb18f5692f416d834f/absl_py-2.0.0-py3-none-any.whl.metadata
  Downloading absl_py-2.0.0-py3-none-any

In [41]:
pip install gensim

Collecting FuzzyTM>=0.4.0 (from gensim)
  Downloading FuzzyTM-2.0.5-py3-none-any.whl (29 kB)
Collecting pyfume (from FuzzyTM>=0.4.0->gensim)
  Downloading pyFUME-0.2.25-py3-none-any.whl (67 kB)
     ---------------------------------------- 0.0/67.1 kB ? eta -:--:--
     ---------------------------------------- 67.1/67.1 kB 1.8 MB/s eta 0:00:00
Collecting simpful (from pyfume->FuzzyTM>=0.4.0->gensim)
  Downloading simpful-2.11.0-py3-none-any.whl (32 kB)
Collecting fst-pso (from pyfume->FuzzyTM>=0.4.0->gensim)
  Downloading fst-pso-1.8.1.tar.gz (18 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting miniful (from fst-pso->pyfume->FuzzyTM>=0.4.0->gensim)
  Downloading miniful-0.0.6.tar.gz (2.8 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Building wheels for collected packages: fst-pso, miniful
  Building wheel for fst-pso (setup.py): started
  Building wheel for fs

In [42]:
pip install nltk

Note: you may need to restart the kernel to use updated packages.


In [45]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [43]:
from nltk.tokenize import word_tokenize
from nltk.tokenize import WordPunctTokenizer
from tensorflow.keras.preprocessing.text import text_to_word_sequence

In [None]:
'''
토큰 : 자연어 처리 작업을 수행하는 기본 단위, 일반적으로는 단어, 문장(문단 -> 문장), 문단(문서->문단)

토큰화 : 주어진 코퍼스를 토큰 단위로 나누는 작업

자연어 -> 토큰화 -> 세부 작업
'''

In [46]:
print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [47]:
print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [48]:
print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [49]:
from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


In [50]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


In [None]:
'''
정제, 대소문자 통합, 불용어(등장 빈도수 낮은 단어) 제거
'''

In [51]:
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

OKT 형태소 분석 : ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
OKT 품사 태깅 : [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
OKT 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [52]:
print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))

꼬꼬마 형태소 분석 : ['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']
꼬꼬마 품사 태깅 : [('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]
꼬꼬마 명사 추출 : ['코딩', '당신', '연휴', '여행']


In [56]:
import re
text = "I was wondering if anyone out there could enlighten me on this car."

# 길이가 1~2인 단어들을 정규 표현식을 이용하여 삭제
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


In [None]:
'''
형태소 = 어간(stem, 단어 중요 의미) + 접사(부가 의미)

dogs => dog + s
'''

In [58]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...


True

In [59]:
from nltk.stem import WordNetLemmatizer
#are, is, am => be(표제어)
lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [60]:
lemmatizer.lemmatize('is', 'v') # v는 동사

'be'

In [61]:
lemmatizer.lemmatize('are', 'v')

'be'

In [62]:
lemmatizer.lemmatize('watched', 'v')

'watch'

In [63]:
lemmatizer.lemmatize('watching', 'v')

'watch'

In [None]:
#어간추출(stemming)

In [67]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
from nltk.stem import LancasterStemmer

stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

In [65]:
words = ['formalize', 'allowance', 'electricical']

In [66]:
print('어간 추출 후 :',[stemmer.stem(word) for word in words]) #많이 사용, 잘 나오는 듯

어간 추출 후 : ['formal', 'allow', 'electric']


In [68]:
print('어간 추출 후 :',[lancaster_stemmer.stem(word) for word in words])

어간 추출 후 : ['form', 'allow', 'elect']


In [73]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [69]:
from nltk.corpus import stopwords

In [74]:
stopwords.words('english')

['i',
 'me',
 'my',
 'myself',
 'we',
 'our',
 'ours',
 'ourselves',
 'you',
 "you're",
 "you've",
 "you'll",
 "you'd",
 'your',
 'yours',
 'yourself',
 'yourselves',
 'he',
 'him',
 'his',
 'himself',
 'she',
 "she's",
 'her',
 'hers',
 'herself',
 'it',
 "it's",
 'its',
 'itself',
 'they',
 'them',
 'their',
 'theirs',
 'themselves',
 'what',
 'which',
 'who',
 'whom',
 'this',
 'that',
 "that'll",
 'these',
 'those',
 'am',
 'is',
 'are',
 'was',
 'were',
 'be',
 'been',
 'being',
 'have',
 'has',
 'had',
 'having',
 'do',
 'does',
 'did',
 'doing',
 'a',
 'an',
 'the',
 'and',
 'but',
 'if',
 'or',
 'because',
 'as',
 'until',
 'while',
 'of',
 'at',
 'by',
 'for',
 'with',
 'about',
 'against',
 'between',
 'into',
 'through',
 'during',
 'before',
 'after',
 'above',
 'below',
 'to',
 'from',
 'up',
 'down',
 'in',
 'out',
 'on',
 'off',
 'over',
 'under',
 'again',
 'further',
 'then',
 'once',
 'here',
 'there',
 'when',
 'where',
 'why',
 'how',
 'all',
 'any',
 'both',
 'each

In [75]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word)

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


In [76]:
example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


In [None]:
'''
1. TF-IDF 기반 영화 추천 시스템

2. 실행 과정

즐겁게 봤던 영화 제목을 입력하세요 : Toy Story

당신에게 추천하고 싶은 영화 제목은 아래와 같습니다.

1)
2)
...
10)

3. 개발 방법

1) overview 열 추출 -> 단어 전처리(불용어 제거, 대소문자, 특수문자 처리, 단어 통일(wordnet), 정규표현식 등) ->코퍼스
2) tf-idf 행렬 생성
3) 코사인 유사도를 이용한 영화 추천

4. 데이터셋

- 5000편 영화

5. 카페 제출
'''

In [77]:
from nltk.corpus import wordnet

In [78]:
synsets=wordnet.synsets('plan')
synsets

[Synset('plan.n.01'),
 Synset('design.n.02'),
 Synset('plan.n.03'),
 Synset('plan.v.01'),
 Synset('plan.v.02'),
 Synset('plan.v.03'),
 Synset('design.v.04')]

In [79]:
plan=wordnet.synset('plan.n.01')
plan.definition()

'a series of steps to be carried out or goals to be accomplished'

In [81]:
plan=wordnet.synset('plan.v.01')
plan.definition()

'have the will and intention to carry out some action'

In [86]:
#boy man
wordnet.synsets('boy')

[Synset('male_child.n.01'),
 Synset('boy.n.02'),
 Synset('son.n.01'),
 Synset('boy.n.04')]

In [85]:
wordnet.synsets('man')

[Synset('man.n.01'),
 Synset('serviceman.n.01'),
 Synset('man.n.03'),
 Synset('homo.n.02'),
 Synset('man.n.05'),
 Synset('man.n.06'),
 Synset('valet.n.01'),
 Synset('man.n.08'),
 Synset('man.n.09'),
 Synset('man.n.10'),
 Synset('world.n.08'),
 Synset('man.v.01'),
 Synset('man.v.02')]

In [91]:
boy=wordnet.synset('boy.n.02')

In [92]:
man=wordnet.synset('man.n.01')

In [93]:
boy.path_similarity(man)

0.5

In [94]:
#car 단어에 5개의 동의어 그룹이 있음
wordnet.synsets('car')

[Synset('car.n.01'),
 Synset('car.n.02'),
 Synset('car.n.03'),
 Synset('car.n.04'),
 Synset('cable_car.n.01')]

In [95]:
wordnet.synsets('car')[0].

Synset('car.n.01')

In [96]:
car=wordnet.synset('car.n.01')
car.definition()

'a motor vehicle with four wheels; usually propelled by an internal combustion engine'

In [97]:
#동의어 찾기
car.lemma_names()

['car', 'auto', 'automobile', 'machine', 'motorcar']

In [98]:
wordnet.synsets('computer')

[Synset('computer.n.01'), Synset('calculator.n.01')]

In [99]:
computer=wordnet.synset('computer.n.01')
computer.definition()

'a machine for performing calculations automatically'

In [100]:
computer.lemma_names()

['computer',
 'computing_machine',
 'computing_device',
 'data_processor',
 'electronic_computer',
 'information_processing_system']