<a href="https://colab.research.google.com/github/JSJeong-me/AI-Innovation-2024/blob/main/NLP/4-3-word2vec_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# Install necessary library (if not already installed)
!pip install gensim



In [2]:

import gensim
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize
import nltk

# nltk 데이터 다운로드 (첫 실행 시에만 필요)
nltk.download('punkt')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [3]:

# 예제 문장 데이터
sentences = [
    "The quick brown fox jumps over the lazy dog",
    "I love natural language processing and machine learning",
    "Word2Vec is a method to learn word embeddings",
    "Deep learning models often require a lot of data to perform well",
    "Gensim is a great library for natural language processing"
]

# 문장들을 토큰화
tokenized_sentences = [word_tokenize(sentence.lower()) for sentence in sentences]


In [4]:

# Word2Vec 모델 생성 및 학습
model = Word2Vec(sentences=tokenized_sentences, vector_size=100, window=5, min_count=1, sg=0)  # sg=0: CBOW 모델, sg=1: Skip-gram 모델


In [5]:

# 단어 'word2vec'의 벡터를 확인
word_vector = model.wv['word2vec']
print(f"Vector for 'word2vec': {word_vector}")


Vector for 'word2vec': [ 1.3327437e-03  6.5392954e-03  9.9839829e-03  9.0612099e-03
 -8.0165816e-03  6.4898157e-03 -5.7141553e-03 -9.6975203e-04
  4.8343191e-04  6.5795328e-03  4.4718366e-03  4.6052895e-03
  9.4817961e-03  3.8256825e-04 -6.0387240e-03 -6.3282927e-03
  6.4314557e-03 -5.2422909e-03 -2.8506136e-03  4.0731020e-03
 -2.2925166e-03 -6.0254615e-03 -2.3240175e-03  1.2068190e-03
  2.1831139e-03  6.0827993e-03 -5.2128206e-03  3.0776935e-03
  7.2411140e-03  2.1951853e-03  5.3989454e-03 -4.8452769e-03
  6.1542820e-03 -7.6011396e-03  3.4942867e-03 -9.3233129e-03
 -2.6039402e-03 -9.0756686e-03 -1.5863272e-03 -5.3644320e-03
 -3.9441618e-03  1.1517477e-03  2.8009464e-03 -1.5281484e-03
 -8.1679830e-03 -5.9202653e-03  8.2134194e-04 -3.9464738e-03
 -9.4292071e-03 -7.7411387e-04  6.6336337e-03  5.9791291e-03
 -9.9167544e-03  3.1199649e-03 -5.9851413e-03 -9.1812322e-03
  1.7193661e-04 -3.6757113e-04 -6.9717309e-03 -6.2777917e-03
 -2.4257582e-03  7.0969719e-03 -7.5453324e-03  7.6990072e-03
 

In [6]:

# 단어 간 유사도 확인
similarity = model.wv.similarity('word2vec', 'learning')
print(f"Similarity between 'word2vec' and 'learning': {similarity:.4f}")


Similarity between 'word2vec' and 'learning': -0.1516


In [7]:

# 'natural'과 가장 유사한 단어 3개 찾기
similar_words = model.wv.most_similar('natural', topn=3)
print(f"Words most similar to 'natural': {similar_words}")


Words most similar to 'natural': [('machine', 0.304378479719162), ('and', 0.17776663601398468), ('perform', 0.16441375017166138)]


In [8]:

# 모델 저장
model.save("word2vec_example.model")

# 모델 불러오기
loaded_model = Word2Vec.load("word2vec_example.model")


In [9]:
# 모델 불러오기
loaded_model = Word2Vec.load("word2vec_example.model")

# 단어 벡터 확인
word_vector = loaded_model.wv['word2vec']
print(f"Vector for 'word2vec': {word_vector}")

# 단어 간 유사도 확인
similarity = loaded_model.wv.similarity('word2vec', 'learning')
print(f"Similarity between 'word2vec' and 'learning': {similarity:.4f}")

# 유사한 단어 찾기
similar_words = loaded_model.wv.most_similar('natural', topn=3)
print(f"Words most similar to 'natural': {similar_words}")

# 단어 벡터 간 산술 연산 예제
# 'king' - 'man' + 'woman'과 가장 유사한 단어 찾기 (예제에서는 다른 단어로 활용 가능)
try:
    result = loaded_model.wv.most_similar(positive=['king', 'woman'], negative=['man'], topn=1)
    print(f"Result of 'king' - 'man' + 'woman': {result}")
except KeyError as e:
    print(f"Word not in vocabulary: {e}")


Vector for 'word2vec': [ 1.3327437e-03  6.5392954e-03  9.9839829e-03  9.0612099e-03
 -8.0165816e-03  6.4898157e-03 -5.7141553e-03 -9.6975203e-04
  4.8343191e-04  6.5795328e-03  4.4718366e-03  4.6052895e-03
  9.4817961e-03  3.8256825e-04 -6.0387240e-03 -6.3282927e-03
  6.4314557e-03 -5.2422909e-03 -2.8506136e-03  4.0731020e-03
 -2.2925166e-03 -6.0254615e-03 -2.3240175e-03  1.2068190e-03
  2.1831139e-03  6.0827993e-03 -5.2128206e-03  3.0776935e-03
  7.2411140e-03  2.1951853e-03  5.3989454e-03 -4.8452769e-03
  6.1542820e-03 -7.6011396e-03  3.4942867e-03 -9.3233129e-03
 -2.6039402e-03 -9.0756686e-03 -1.5863272e-03 -5.3644320e-03
 -3.9441618e-03  1.1517477e-03  2.8009464e-03 -1.5281484e-03
 -8.1679830e-03 -5.9202653e-03  8.2134194e-04 -3.9464738e-03
 -9.4292071e-03 -7.7411387e-04  6.6336337e-03  5.9791291e-03
 -9.9167544e-03  3.1199649e-03 -5.9851413e-03 -9.1812322e-03
  1.7193661e-04 -3.6757113e-04 -6.9717309e-03 -6.2777917e-03
 -2.4257582e-03  7.0969719e-03 -7.5453324e-03  7.6990072e-03
 

모델 불러오기: 저장된 Word2Vec 모델을 Word2Vec.load()를 사용하여 불러옵니다.
단어 벡터: wv['word2vec']로 단어 'word2vec'의 벡터를 확인합니다.
단어 간 유사도: similarity('word2vec', 'learning')를 통해 두 단어의 유사도를 측정합니다.
유사한 단어 찾기: most_similar('natural')을 사용해 가장 유사한 단어들을 찾습니다.
단어 벡터 연산: 'king' - 'man' + 'woman'과 유사한 단어를 찾는 산술 연산을 수행합니다. 모델에 해당 단어가 없을 경우를 대비해 예외 처리도 추가했습니다.