In [16]:
from konlpy.tag import Okt

# Okt 형태소 분석기 로드
okt = Okt()

# 입력 문장들
sentences = [
    '북어포 1마리',
    '찹쌀가루 1C',
    '간장 2T',
    '설탕 1T',
    '물 1T',
    '다진파 1T',
    '다진마늘 1T',
    '참기름 1T',
    '깨소금 1T',
    '후춧가루 약간',
    '손질된 닭'
]

# 명사 추출
for sentence in sentences:
    nouns = okt.nouns(sentence)
    print(f"문장: '{sentence}' -> 명사: {nouns}")

문장: '북어포 1마리' -> 명사: ['북어', '포', '마리']
문장: '찹쌀가루 1C' -> 명사: ['찹쌀', '가루']
문장: '간장 2T' -> 명사: ['간장']
문장: '설탕 1T' -> 명사: ['설탕']
문장: '물 1T' -> 명사: ['물']
문장: '다진파 1T' -> 명사: ['파']
문장: '다진마늘 1T' -> 명사: ['마늘']
문장: '참기름 1T' -> 명사: ['참기름']
문장: '깨소금 1T' -> 명사: ['깨소금']
문장: '후춧가루 약간' -> 명사: ['후춧가루', '약간']
문장: '손질된 닭' -> 명사: ['손질', '닭']


In [22]:
# 윤태님 코드
from konlpy.tag import Okt

# Okt 형태소 분석기 로드
okt = Okt()

# 입력 문장들
sentences = [
    '북어포 1마리',
    '찹쌀가루 1C',
    '간장 2T',
    '설탕 1T',
    '물 1T',
    '다진파 1T',
    '다진마늘 1T',
    '참기름 1T',
    '깨소금 1T',
    '후춧가루 약간',
    '손질된 닭'
]

# pos_tags 품사 명사 인것만 추출
def noun_find(text):
    # 텍스트의 품사를 태깅
    tags = okt.pos(text)
    print(tags)
    # 명사만 추출
    nouns = [word for word, pos in tags if pos == 'Noun']
    return nouns

print("각 문장의 명사:\n")
for sentence in sentences:
    print(noun_find(sentence))
    print("==" * 50)

각 문장의 명사:

[('북어', 'Noun'), ('포', 'Noun'), ('1', 'Number'), ('마리', 'Noun')]
['북어', '포', '마리']
[('찹쌀', 'Noun'), ('가루', 'Noun'), ('1', 'Number'), ('C', 'Alpha')]
['찹쌀', '가루']
[('간장', 'Noun'), ('2', 'Number'), ('T', 'Alpha')]
['간장']
[('설탕', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['설탕']
[('물', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['물']
[('다진', 'Verb'), ('파', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['파']
[('다진', 'Verb'), ('마늘', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['마늘']
[('참기름', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['참기름']
[('깨소금', 'Noun'), ('1', 'Number'), ('T', 'Alpha')]
['깨소금']
[('후춧가루', 'Noun'), ('약간', 'Noun')]
['후춧가루', '약간']
[('손질', 'Noun'), ('된', 'Verb'), ('닭', 'Noun')]
['손질', '닭']


단어간 유사도를 계산하여 유사한지 판별

pip install transformers

In [1]:
from transformers import BertTokenizer, BertModel
import torch
from scipy.spatial.distance import cosine

# BERT 모델과 토크나이저 로드
model_name = 'bert-base-multilingual-cased'
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# 입력 문장 토크나이징 및 텐서 변환
def get_word_embedding(word):
    inputs = tokenizer(word, return_tensors='pt')
    with torch.no_grad():
        outputs = model(**inputs)
    # [CLS] 토큰의 임베딩을 사용
    embedding = outputs.last_hidden_state[:, 0, :].squeeze()
    return embedding

  from .autonotebook import tqdm as notebook_tqdm


In [5]:
# 단어 임베딩 계산
word1 = "후추"
word2 = "후춧가루"
embedding1 = get_word_embedding(word1)
embedding2 = get_word_embedding(word2)

# 코사인 유사도 계산
similarity = 1 - cosine(embedding1.numpy(), embedding2.numpy())
print(f"'{word1}' 와(과) '{word2}' 의 유사도 = {similarity}")

'후추' 와(과) '후춧가루' 의 유사도 = 0.7805625777061581
