네이버에서 제공하는 영화 리뷰 데이터를 사용
학습 데이터 15만건과 테스트 데이터 5만건을 사용
데이터는 리뷰의 id, 리뷰 내용, 리뷰의 label(0: 부정, 1: 긍정)로 구성됨
Konlpy.Okt의 pos 함수를 사용해 문장들을 품사 태깅함
문장들을 토큰화시킴 (단어/품사)
모든 학습 데이터 문장들을 토큰화하고 gensim의 word2vec을 사용해 사전을 만든 후에 학습 시킴
5만건의 테스트 데이터에 대해서는 약 83%의 정확도를 기록함
-
python 라이브러리 설치
pip install gensim pip install tensorflow pip install konlpy
-
Word2Vec 학습
python Word2vec_train.py
-
모델 학습
python BiLSTM_train.py
-
모델 성능 검증
python BiLSTM_test.py
-
모델 테스트
python Test.py