<a href="https://colab.research.google.com/github/kiyoungkim1/ReadyToUseAI/blob/main/notebooks/nlp/word2vec_and_fasttext.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 직접 학습 후 사용하기

## 1-1)환경 준비
1. 라이브러리 다운로드
2. 네이버 영화평을 텍스트파일을 다운로드합니다 (파일보기 +  새로고침 후 확인)

**자체 데이터셋을 사용할 경우 한 문장이 한줄에 들어가는 파일(아래 예시 참조)로 dataset.txt로 저장 후 기존 파일을 덮어쓰기 하면 됩니다.**

```
영화가 재밌다.     
이 영화 추천해요.     
지루한 영화였습니다.
...  
```

In [1]:
!pip install --upgrade -q gensim==3.8.3
!git clone https://github.com/kiyoungkim1/ReadyToUseAI

from ReadyToUseAI.src.nlp import make_sample_dataset, word2vec_and_fasttext
make_sample_dataset.nsmc(mode='train', text_only=True)

## 1-2) [Training] WORD2VEC or FASTTEXT (약 1분 소요)
1. dataset.txt 파일은 한 줄당 한문장을 포함합니다. 이 중 글자수가 10자 이하인 것은 제외하도록 설정하였습니다.
2. 저장시 용량이 클 경우 여러 파일로 저장될 수 있습니다. 외부에서 사용하시려면 저장된 모든파일을 옮겨 한 폴더에 넣어야 하며, 모델을 불러올 때는 대표이름 (아래 save_name에 있는 word2vec_model이나 fasttext_model을 적으시면 됩니다.
3. 데이터셋이 큰 경우 (수백 MB 이상) 아래 변수중 size를 300, window를 5로 키우시면 시간은 오래 걸리지만 성능은 좋아집니다.

In [None]:
# word2vec training
word2vec_and_fasttext.apply(data_path='dataset.txt', type='word2vec', save_name='word2vec_model', size=100, window=3, min_count=2, iter=10)

In [None]:
# fasttext training
word2vec_and_fasttext.apply(data_path='dataset.txt', type='fasttext', save_name='fasttext_model', size=100, window=3, min_count=2, iter=10)

## 1-3) [Inference]

In [None]:
# word2vec inference
from gensim.models import Word2Vec

# 모델 불러오기
w2v = Word2Vec.load('word2vec_model')

# 유사단어 찾기
w2v.wv.most_similar('이제까지')

In [None]:
# fasttext inference
from gensim.models import FastText

# 모델 불러오기
fasttext = FastText.load('fasttext_model')

# 유사단어 찾기
fasttext.wv.most_similar('이제까지')

# 2. 이미 학습된 fasttext 이용

페이스북에서 이미 학습한 결과를 이용    
**RAM 사용량이 많습니다. colab pro(유료)의 고용량 RAM을 사용해야만 실행가능합니다.**

In [None]:
from gensim.test.utils import datapath
from gensim.models import fasttext

# gensim 설치
!pip install --upgrade -q gensim==3.8.3

# 모델 다운로드
!wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.ko.300.bin.gz
!gunzip cc.ko.300.bin.gz

# 모델 로드
fasttext = fasttext.load_facebook_model('cc.ko.300.bin')

In [None]:
# word에서 word_minus를 빼고 word_plus를 더했을 때 나오는 결과를 표시합니다.

word = '한국'
word_minus = '서울'
word_plus = '도쿄'

fasttext.wv.most_similar(positive=[word, word_plus], negative=[word_minus], topn=3)