<a href="https://colab.research.google.com/github/monya-9/deep-learning-practice/blob/main/11_gensim_word2vec.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# gensim으로 Word2Vec 학습

In [1]:
# 1. 라이브러리 설치
!pip install gensim



In [2]:
# 2. 데이터 준비
sentences = [
    ["I", "love", "machine", "learning"],
    ["Deep", "learning", "is", "a", "part", "of", "machine", "learning"],
    ["Natural", "language", "processing", "uses", "machine", "learning"],
    ["Word2Vec", "is", "a", "technique", "for", "NLP"],
    ["I", "enjoy", "learning", "about", "artificial", "intelligence"],
]

- 토큰화된 문장을 리스트 형태로 준비
- 실제 학습시에는 대규모 코퍼스(위키피디아, 뉴스 등)를 사용하는 게 일반적

In [3]:
# 3. Word2Vec 모델 학습
from gensim.models import Word2Vec

# vector_size=임베딩 차원, window=맥락 크기, min_count=등장 최소횟수, sg=1이면 skip-gram
model = Word2Vec(
    sentences,
    vector_size=50,
    window=3,
    min_count=1,
    sg=1,  # Skip-gram
    workers=4,  # CPU 코어 수 활용
    epochs=100  # 학습 반복 횟수
)

In [4]:
# 4. 학습된 단어 벡터 확인
print("✅ 단어 벡터 차원:", model.wv["machine"].shape)
print("✅ 'machine' 벡터 예시:", model.wv["machine"][:10])  # 앞부분만 출력

✅ 단어 벡터 차원: (50,)
✅ 'machine' 벡터 예시: [-0.0166151   0.00910419 -0.00849493  0.00183529  0.01691492 -0.00921439
  0.00947001 -0.01316268 -0.00740489  0.01857149]


In [5]:
# 5. 유사한 단어 확인
print("\n✅ 'machine'과 가장 유사한 단어:")
print(model.wv.most_similar("machine"))


✅ 'machine'과 가장 유사한 단어:
[('processing', 0.2366001456975937), ('Deep', 0.16426891088485718), ('part', 0.1535467505455017), ('I', 0.12953466176986694), ('technique', 0.08562607318162918), ('enjoy', 0.08433813601732254), ('learning', 0.059005022048950195), ('NLP', 0.022973734885454178), ('is', 0.02281986176967621), ('Natural', 0.01963285356760025)]


In [6]:
# 6. 모델 저장 & 불러오기
model.save("word2vec_model.model")
print("\n✅ 모델 저장 완료")

loaded_model = Word2Vec.load("word2vec_model.model")
print("✅ 불러온 모델에서 'learning'과 유사한 단어:")
print(loaded_model.wv.most_similar("learning"))


✅ 모델 저장 완료
✅ 불러온 모델에서 'learning'과 유사한 단어:
[('part', 0.28149130940437317), ('Natural', 0.22561095654964447), ('Word2Vec', 0.18341033160686493), ('of', 0.16654103994369507), ('about', 0.14571981132030487), ('is', 0.14535823464393616), ('intelligence', 0.09810735285282135), ('processing', 0.0772932916879654), ('love', 0.07595811039209366), ('uses', 0.0679321438074112)]
