## Word2Vec 모델 학습

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install gensim konlpy

In [None]:
from gensim.models import Word2Vec
from konlpy.tag import Okt

In [None]:
# 샘플 문장
sample_sentences = ["안녕하세요 저는 학생입니다", "파이썬은 매우 재미있는 프로그래밍 언어입니다", "자연어 처리는 흥미로운 분야입니다"]

In [None]:
# 토큰화
okt = Okt()
sentences_tokenized = [okt.morphs(sentence) for sentence in sample_sentences]

In [None]:
# Word2Vec 모델 학습
model = Word2Vec(sentences_tokenized, vector_size=100, window=5, min_count=1, workers=4)

In [None]:
# 단어 벡터 얻기
vector = model.wv['안녕하세요']
print(vector)

In [None]:
# 단어 사전 수
len(model.wv)

15

In [None]:
# 가장 유사한 단어
model.wv.most_similar('학생')

[('처리', 0.15016666054725647),
 ('은', 0.12813611328601837),
 ('입니다', 0.0931011214852333),
 ('안녕하세요', 0.09215975552797318),
 ('분야', 0.04652618244290352),
 ('언어', 0.0007307013729587197),
 ('는', -0.003640753449872136),
 ('흥미로운', -0.009253410622477531),
 ('파이썬', -0.03030233457684517),
 ('재미있는', -0.04044129699468613)]

In [None]:
# 저장
model.save("word2vec_model.bin")

## 저장한 Word2Vec 모델을 불러와 임베딩 값을 얻는 방법

In [None]:
from gensim.models import Word2Vec
import numpy as np
from scipy.spatial.distance import cosine

In [None]:
# 사전 훈련된 모델 로드
model = Word2Vec.load("word2vec_model.bin")

In [None]:
# KoNLPy의 Okt를 사용하여 한국어 텍스트 토큰화
okt = Okt()

In [None]:
# 문장을 벡터로 변환하는 함수
def sentence_vector(sentence, model):
  # 토큰화
  words = okt.morphs(sentence)

  # 단어 벡터화
  # 단어가 모델에 있을 경우 벡터를 추출
  word_vectors = [model.wv[word] for word in words if word in model.wv]

  # 벡터의 유사도를 구하기 위해 각 단어마다 나온 값들에 대한 평균을 계산
  if not word_vectors:
      return np.zeros(model.vector_size)

  return np.mean(word_vectors, axis=0)

In [None]:
# 예시 문장들
sentence1 = "저는 학생입니다."
sentence2 = "나는 학생입니다."

In [None]:
# 문장 벡터화
vec1 = sentence_vector(sentence1, model)
vec2 = sentence_vector(sentence2, model)

In [None]:
print(cosine(vec1, vec2)) # 코사인 거리
print(1 - cosine(vec1, vec2)) # 코사인 유사도

0.13259774446487427
0.8674022555351257


## 임베딩 실습 1
### 활용 데이터: sample.json

### 실습 개요
이 실습에서는 사전 훈련된 모델 로드하여 주어진 csv 파일에 포함된 텍스트 데이터에 대해 Okt 형태소 분석기를 사용하여 토큰화를 수행하고, 그 결과를 기반으로 Word2Vec 모델 학습하는 실습입니다. KoNLPy 라이브러리 Okt 형태소 분석기를 활용하여 토큰화를 수행하고, 토큰화된 데이터를 활용해 Word2Vec모델을 학습한 다음 저장합니다.


### 실습 절차
1. 라이브러리 설치 및 임포트: 필요한 라이브러리 (gensim, konlpy)를 설치하고 임포트합니다.
2. sample.json 데이터를 pandas를 활용해 읽습니다.
3. src_sentence를 활용해 word2vec 모델을 만듭니다. (이때, Okt 형태소 분석기를 활용하여 토큰화를 수행합니다.)
4. 만든 모델을 저장합니다.

## 임베딩 실습 2
### 활용 데이터: sample.json

### 실습 개요
실습 1의 과정을 Doc2Vec으로 변경하여 수행합니다.

