## Word2Vec 실습 - 1

In [1]:
# 라이브러리 임포트 - gensim
from gensim.models import Word2Vec 
from konlpy.tag import Komoran 
import time 

In [3]:
# 네이버 영화 리뷰 데이터 읽어옴 
# 네이버 영화리뷰 말뭉치 파일(ratings.txt) 읽어와 리스트 반환하는 함수
# ratings.txt - 라인마다 id, document, label 칼럼 데이터 구분
# read_review_data() 함순ㄴ 리뷰 데이터를 각 라인별로 읽어와 \t 를 기준으로 데이터 분리. 
# 그 후 첫 번재 행의 헤더를 제거하고 리뷰 데이터만 반환
def read_review_data(filename):
    # with open(filename, 'r') as f:  Error txt 파일 다른이름으로 저장 에서 Ansi 로 저장(utf-8 > Ansi) 
    with open(filename, 'r') as f:
        data = [line.split('\t') for line in f.read().splitlines()] 
        data = data[1:]     # 헤더 제거
    return data 

# 학습 시간 측정 시작
# 각 코드 수행 속도 측정하기 위한 시작 시간 저장 
start = time.time() 

# 리뷰파일 읽어오기 
# read_review_data() 함수 호출해 현재 경로에 있는 ratings.txt 파일을 리스트 형태로 읽어옴
print('1) 말뭉치 데이터 읽기 시작') 
review_data =  read_review_data('./data/ratings.txt') 
print(len(review_data))     # 리뷰 데이터 전체 개수
print('1) 말뭉치 데이터 읽기 완료: ', time.time() - start) 

# 문장 단위로 명사만 추출해 학습 입력 데이터로 만듦 
# Komoran 형태소 문석기를 이용해 불러온 리뷰 데이터에서 문장별로 명사만 추출 
# sentence[1] 은 ratings.txt 파일에서 document 컬럼의 데이터 의미 
print('2) 형태소에만 명사만 추출 시작') 
komoran = Komoran()  
docs = [komoran.nouns(sentence[1]) for sentence in review_data] 
print('2) 형태소에서 명사만 추출 오나료 : ', time.time() - start) 

# Word2Vec 모델 학습
# 위에서 추출한 명사 리스트로 Word2Vec 모델 학습.
# Word2Vec 주요 파라미터 
# - sentences : Word2Vec 모델 학습에 필요한 문장 데이터. Word2Vec 모델의 입력값 사용 
# - vector_size : 단어 임베딩 벡터 차원(크기) 
# - window: 주변 단어 윈도우 크기 
# - hs : 0(0이 아닌 경우 음수 샘플링 사용), 1(모델 학습에 softmax 사용) 
# - min_count : 단어 빈도 최소 수 제한(설정된 min_count) 빈도 수 이하 단어들은 학습하지 않음) 
# - sg : 0(CBOW 모델), 1(skip-gram 모델) 
print('3) Word2Vec 모델 학습 시작') 
model = Word2Vec(sentences=docs, vector_size=200, window=4, hs=1, min_count=2, sg=1) 
print('3) Word2Vec 모델 학습 완료: ', time.time() - start) 

# 모델 저장
# 현재 디렉터리에 nvmc.model 이름으로 저장 
print('4) 학습된 모델 저장 시작') 
model.save('nvmc.model') 
print('4) 학습된 모델 저장 완료: ', time.time() - start) 

# 학습된 말뭉치 수, 코퍼스 내 전체 단어 수 
print('corpus_count :', model.corpus_count) 
print('corpus_total_words :', model.corpus_total_words)

1) 말뭉치 데이터 읽기 시작
200000
1) 말뭉치 데이터 읽기 완료:  0.41110897064208984
2) 형태소에만 명사만 추출 시작
2) 형태소에서 명사만 추출 오나료 :  74.82887983322144
3) Word2Vec 모델 학습 시작
3) Word2Vec 모델 학습 완료:  88.49280905723572
4) 학습된 모델 저장 시작
4) 학습된 모델 저장 완료:  89.01395797729492
corpus_count : 200000
corpus_total_words : 1076899
