# 1. 라이브러리 설치

In [None]:
!pip install gensim

- colab의 기본 제공 numpy 버젼은 2.0.2
- 2025.4월 기준, 최신 버젼의 gensim은 numpy 1.26.4 버젼을 사용중
1. gensim 설치 과정에서 numpy 버젼이 1.26.4로 조정되었음
2. 그러나, 현재 실행중인 세션 환경에서는 여전히 numpy 버젼이 2.0.2
3. 런타임 > `세션 다시 시작` 을 통해 실행중인 numpy 버젼을 1.26.4 로 업데이트 필요
4. numpy version 확인

- `세션 다시 시작` 전에 numpy 버젼을 확인하여도 1.26.4 버젼이 확인 되지만 실제 세션에서는 2.0.2 버젼을 사용하고 있으므로 반드시 `세션 다시 시작`을 실행해 주세요.


In [None]:
!pip list | grep numpy

In [None]:
!pip install konlpy

# 2. 필요한 라이브러리 import

In [None]:
from gensim.models import Doc2Vec
from konlpy.tag import Okt

# 3. 한국어 문장(Document)을 임베딩 벡터로 변환

In [None]:
from gensim.models.doc2vec import TaggedDocument

docs=[
    '자바스크립트는 웹사이트에 동적인 기능을 추가하는 핵심 프로그래밍 언어입니다',
    '일본 도쿄는 현대적인 도심과 전통 문화가 공존하는 인기 여행지입니다.',
    '파이썬은 데이터 분석과 인공지능 개발에 널리 사용되는 프로그래밍 언어입니다.',
    '김치찌개는 매운맛을 즐기는 한국인들에게 사랑받는 대표적인 국물 요리입니다.',
    '스페인 바르셀로나는 건축가 가우디의 예술 작품과 맛있는 해산물 요리로 유명합니다'
]

# 형태소 분석기
okt = Okt()

documents = []
for i,doc in enumerate(docs):
    # okt.morphs: 문장을 형태소(단어) 단위로 나눔. 
    documents.append(TaggedDocument(tags=[i],words=okt.morphs(doc)))
print('문서의 수 :', len(documents))


In [None]:
# 여기서 학습률이란, 모델이 학습을 통해 가중치를 업데이트하는 정도를 의미
# 학습률이 높을수록 가중치 업데이트가 크게 이루어지며, 낮을수록 작게 이루어짐.
model = Doc2Vec(
    vector_size=300,    # 벡터의 차원
    min_count=1,        # 단어 최소 빈도수
    alpha=1.0,            # 학습률
    min_alpha=0.025,    # 학습률 초기값
    window=4            # 문맥의 크기
  )

In [None]:
# Vocabulary 빌드
# 모델이 학습 할 문서 빌드
model.build_vocab(documents)

# Doc2Vec 학습
# model.corpus_count: 학습 할 문서의 총 개수
# epochs: 학습 할 에포크 수
model.train(documents, total_examples=model.corpus_count, epochs=20)

In [None]:
# 첫번째 문장과 가장 유사한 문장은 1번 문장?
model.dv.most_similar(0)

'''
    출력 결과
    [(1, 0.9072750806808472),
    (2, 0.9051600098609924),
    (4, 0.10807963460683823),
    (3, 0.04453643783926964)]
'''