fasttext와 gensim은 모두 pip에 등록된 패키지 입니다. 각각의 설치 방법은 아래와 같습니다. 

    pip install gensim
    pip install fasttext
    
fasttext는 Cython에 기반하여 작동합니다. 만약 cython이 없어서 fasttext install이 안될 경우에는 먼저 아래를 설치하세요. 

    pip install cython
    
각각의 사이트는 아래와 같습니다. 

- [gensim][https://radimrehurek.com/gensim/]
- [fasttext][https://pypi.python.org/pypi/fasttext]

In [1]:
from gensim.models import Word2Vec
import fasttext

아래는 fasttext의 parameters입니다

model = fasttext.skipgram(params)

https://github.com/salestock/fastText.py/blob/master/fasttext/model.py


## Available parameters

- input_file     training file path (required)
- output         output file path (required)
- lr             learning rate [0.05]
- lr_update_rate change the rate of updates for the learning rate [100]
- dim            size of word vectors [100]
- ws             size of the context window [5]
- epoch          number of epochs [5]
- min_count      minimal number of word occurences [5]
- neg            number of negatives sampled [5]
- word_ngrams    max length of word ngram [1]
- loss           loss function {ns, hs, softmax} [ns]
- bucket         number of buckets [2000000]
- minn           min length of char ngram [3]
- maxn           max length of char ngram [6]
- thread         number of threads [12]
- t              sampling threshold [0.0001]
- silent         disable the log output from the C++ extension [1]
- encoding       specify input_file encoding [utf-8]

아래는 fasttext의 skipgram 모델을 학습하는 코드입니다. 

model_fname을 반드시 적어야 학습이 됩니다. 

In [3]:
raw_corpus_fname = '' # Fill your corpus file
model_fname = ''      # Fill your model file
skipgram_model = fasttext.cbow(raw_corpus_fname, model_fname, loss = 'hs', ws=1, lr = 0.01, dim = 150, epoch = 5, min_count = 10, encoding = 'utf-8', thread = 6)

fasttext는 Word2Vec처럼 한 단어에 대하여 가장 비슷한 단어를 찾는 most_similar() 함수가 없습니다. (version '0.8.2'기준)

대신, 아래와 같이 두 단어의 cosine 유사도를 계산해줍니다.  

In [10]:
skipgram_model.cosine_similarity('오빠', '오빵')

0.71771962901622532

In [11]:
class Word2VecCorpus:
    def __init__(self, fname):
        self.fname = fname
    def __iter__(self):
        with open(self.fname, encoding='utf-8') as f:
            for line in f:
                line = line.strip().replace('\n', '')
                if not line:
                    continue
                yield line.split()

In [None]:
word2vec_corpus = Word2VecCorpus(raw_corpus_fname)
word2vec_model = Word2Vec(word2vec_corpus, size=150, min_count=10)

fasttext는 하나의 단어에 대하여 벡터를 직접 학습하지 않습니다. 대신에 subwords의 벡터들을 바탕으로 word의 벡터를 추정합니다. 마치 doc2vec에서 word vector를 이용하여 document vector를 추정하는 것과 같습니다. 

좀 더 자세히 말하자면 v(어디야)는 직접 학습되지 않습니다. 하지만 v(어디야)는 [v(어디), v(디야)]를 이용하여 추정됩니다. 즉 '어디야'라는 단어는 '어디', '디야'라는 subwords를 이용하여 추정되는 것입니다. 

그런데, 이 경우에는 오탈자에 민감하게 됩니다. '어딛야' 같은 경우에는 [v(어딛), v(딛야)]를 이용하기 때문에 [v(어디), v(디야)]와 겹치는 subwords가 없어서 비슷한 단어로 인식되기가 어렵습니다. 

이는 Edit distance 수업을 할 때 언급한 것과 같습니다. 한국어의 오탈자는 초/중/종성에서 한군데 정도가 틀리기 때문에 자음/모음을 풀어서 fasttext를 학습하는게 좋습니다. 즉 어디야는 'ㅇㅓ-ㄷㅣ-ㅇㅑ-'로 표현됩니다. 종성이 비어있을 경우에는 -으로 표시하였습니다. fasttext가 word를 학습할 때 띄어쓰기를 기준으로 나누기 때문입니다. 

subwords는 반드시 2글자는 아닙니다. subwords의 frequency를 기준으로 fasttext 모델이 적절한 수준의 subwords를 선택하여 학습합니다. subwords의 예시를 적자면 아래와 같습니다. 

    'ㅇㅓ-ㄷㅣ-ㅇㅑ-' = [ㅇㅓ-, ㄷㅣ, -ㅇㅑ-]

아래는 초/중/종성이 완전한 한글을 제외한 다른 글자를 제거하며 음절을 초/중/종성으로 분리하는 코드입니다. 이를 이용하여 단어를초중종성으로 나눠놓은 jamo_corpus를 만들어서 skipgram_jamo_model을 학습시키십시요. 

In [None]:
jamo_corpus_fname = ''   # Fill your jamo corpus
jamo_model_fname = ''    # Fill your model
skipgram_jamo_model = fasttext.cbow(jamo_corpus_fname, jamo_model_fname, loss = 'hs', ws=1, lr = 0.01, dim = 150, epoch = 5, min_count = 10, encoding = 'utf-8', thread = 6)

In [21]:
import sys
sys.path.append('../soy/')
from soy.nlp.hangle import split_jamo

def preprocessing(s):
    s_ = ' '
    for c in s:
        if c == ' ' and s_[-1] != ' ':
            s_ += ' '
            continue
        jamo = split_jamo(c)
        if (not jamo):
            if s_[-1] != ' ':
                s_ += ' '
            continue
        if (len(jamo) != 3) or (jamo[0] == ' ' or jamo[1] == ' '):
            s_ += ' '
            continue
        if jamo[2] == ' ':
            jamo[2] = '_'
        s_ += ''.join(jamo)
    return s_.strip()


preprocessing('어이고ㅋaaf 켁켁 아이고오aaaaa')

'ㅇㅓ_ㅇㅣ_ㄱㅗ_ ㅋㅔㄱㅋㅔㄱ ㅇㅏ_ㅇㅣ_ㄱㅗ_ㅇㅗ_'

'어디야'라는 단어에 대하여 word2vec 기준 비슷한 단어 30개를 출력했습니다. 그리고 초/중/종성을 분리하지 않은 fasttext와 분리한 fasttext에서의 similarity를 함께 출력했습니다. 

      어디야 - 어디양:	 (0.774, 0.866, 0.921)

Word2Vec에서는 '어디야'와 '어디양'는 문맥만 고려하여 유사도가 0.751이지만, fasttext에서는 v(어디)가 공유되고, v(디야)와 v(디양)이 비슷하여 더 비슷하게 나왔습니다. 하지만 초/중/종성을 모두 풀었을 경우에는 유사도가 좀 더 올라가는 걸 볼 수 있습니다. 

fasttext는 word2vec과 같이 문맥적인 유사도와 subwords의 유사도까지 모두 고려하기 때문입니다. 즉 fasttext는 **형태적 유사성**과 **문맥적 유사성**을 동시에 고려합니다. 

In [37]:
query = '어디야'
print('query - words         (word2vec, fasttext, jamo_fasttext)')
for word, sim in word2vec_model.most_similar(query, topn=30):
    fasttext_sim = skipgram_model.cosine_similarity(query, word)
    jamo_fasttext_sim = skipgram_jamo_model.cosine_similarity(preprocessing(query), preprocessing(word))
    print('%5s - %5s:\t (%.3f, %.3f, %.3f)' % (query, word, sim, fasttext_sim, jamo_fasttext_sim))

query - words         (word2vec, fasttext, jamo_fasttext)
  어디야 -    어댜:	 (0.825, 0.850, 0.886)
  어디야 -   어디여:	 (0.821, 0.883, 0.909)
  어디야 -   어디얌:	 (0.816, 0.867, 0.934)
  어디야 -   어디고:	 (0.778, 0.854, 0.695)
  어디야 -   어디양:	 (0.774, 0.866, 0.921)
  어디야 -   어디니:	 (0.758, 0.854, 0.873)
  어디야 -   어디임:	 (0.753, 0.854, 0.886)
  어디야 -   어딘데:	 (0.751, 0.837, 0.882)
  어디야 -   어디냐:	 (0.748, 0.844, 0.850)
  어디야 -   오디야:	 (0.745, 0.824, 0.893)
  어디야 -  어디야?:	 (0.744, 0.850, 1.000)
  어디야 - 어디야??:	 (0.719, 0.836, 1.000)
  어디야 -  어디에요:	 (0.705, 0.792, 0.768)
  어디야 -   어딘뎅:	 (0.701, 0.770, 0.865)
  어디야 -  어딘데?:	 (0.696, 0.801, 0.882)
  어디야 -    어뎌:	 (0.693, 0.670, 0.770)
  어디야 - 어딘데??:	 (0.673, 0.763, 0.882)
  어디야 - 어디쯤이야:	 (0.672, 0.761, 0.832)
  어디야 -  어디예요:	 (0.668, 0.772, 0.777)
  어디야 -  어디니?:	 (0.662, 0.766, 0.873)
  어디야 -  어디여?:	 (0.661, 0.785, 0.909)
  어디야 -   어댜?:	 (0.658, 0.754, 0.886)
  어디야 -  오디야?:	 (0.655, 0.784, 0.893)
  어디야 -  어디고?:	 (0.637, 0.743, 0.695)
  어디야 -  어디얌?:	 (0.635, 0.766,

Word2Vec의 경우에는 '배거프당'과 '다씻었다'의 문맥적 유사도가 높아서 0.898의 유사도가 나왔습니다. 

    배거프당 - 다씻엇다:	 (0.898, 0.547, 0.441)

하지만, fasttext와 jamo fasttext의 경우에는 형태적 유사성이 거의 없기 때문에 각각 0.547과 0.441로 유사도가 줄어듭니다. 

In [45]:
query = '배거프당'
print('query - words         (word2vec, fasttext, jamo_fasttext)')
for word, sim in word2vec_model.most_similar(query, topn=30):
    fasttext_sim = skipgram_model.cosine_similarity(query, word)
    jamo_fasttext_sim = skipgram_jamo_model.cosine_similarity(preprocessing(query), preprocessing(word))
    print('%5s - %5s:\t (%.3f, %.3f, %.3f)' % (query, word, sim, fasttext_sim, jamo_fasttext_sim))

query - words         (word2vec, fasttext, jamo_fasttext)
 배거프당 - 배고파배고파:	 (0.921, 0.757, 0.687)
 배거프당 -  배고프댜:	 (0.920, 0.646, 0.680)
 배거프당 - 배부르다잉:	 (0.916, 0.666, 0.718)
 배거프당 - 배고프다잉:	 (0.916, 0.689, 0.772)
 배거프당 - 배부르다아:	 (0.915, 0.706, 0.730)
 배거프당 -   배고퐝:	 (0.915, 0.657, 0.591)
 배거프당 - 배고프다아아:	 (0.913, 0.780, 0.768)
 배거프당 -   배거팡:	 (0.911, 0.789, 0.882)
 배거프당 -  배부르르:	 (0.911, 0.634, 0.529)
 배거프당 - 배고프다아:	 (0.910, 0.760, 0.781)
 배거프당 -   구래앵:	 (0.910, 0.468, 0.299)
 배거프당 -  배고프닷:	 (0.910, 0.677, 0.732)
 배거프당 -   배고팜:	 (0.910, 0.670, 0.649)
 배거프당 -   배곱하:	 (0.909, 0.716, 0.667)
 배거프당 -  배고파앙:	 (0.908, 0.749, 0.751)
 배거프당 -  배불러어:	 (0.908, 0.725, 0.672)
 배거프당 -  보곺보곺:	 (0.907, 0.547, 0.204)
 배거프당 -   배부러:	 (0.906, 0.622, 0.539)
 배거프당 -  배곱배곱:	 (0.906, 0.712, 0.668)
 배거프당 - 배고프다앙:	 (0.906, 0.723, 0.784)
 배거프당 -  배고파잉:	 (0.906, 0.730, 0.737)
 배거프당 -  배부르댱:	 (0.904, 0.605, 0.673)
 배거프당 -  기엽겟당:	 (0.902, 0.430, 0.497)
 배거프당 -  배부르댜:	 (0.901, 0.472, 0.656)
 배거프당 -   뱌고파:	 (0.900, 0.49

Word2Vec의 경우에는 '짜파게티'의 유사단어가 아래와 같이 분식들이 나왔습니다. 

In [62]:
word2vec_model.most_similar('짜파게티')

[('비빔면', 0.9303897023200989),
 ('불닭볶음면', 0.9284998178482056),
 ('토스트', 0.9267774820327759),
 ('베이글', 0.9165289402008057),
 ('비빔국수', 0.9150125980377197),
 ('라볶이', 0.914039134979248),
 ('갈비찜', 0.9139703512191772),
 ('삼각김밥', 0.9129242897033691),
 ('부침개', 0.9123827219009399),
 ('라묜', 0.9121387004852295)]

하지만 '짜파게티'의 오탈자인 '짭파게티'는 코퍼스에 거의 등장하지 않기 때문에 학습이 아예 되어있지 않습니다. 

In [65]:
word2vec_model.most_similar('짭파게티')

KeyError: "word '짭파게티' not in vocabulary"

fasttext의 가치는 여기에 있습니다. '짭파게티'와 같은 오탈자라고 하여도 초/중/종성을 분리하였다면 v(짜파게티)는 'ㅉㅏㅂㅍㅏ-ㄱㅔ-ㅌㅣ-'의 subwords들로 추정됩니다. '짜파게티'와 '짭파게티'의 초/중/종성을 분리한 subwords들이 비슷하기 때문에 v(짭파게티)는 v(짜파게티)와 비슷하게 추정될 수 있습니다. 

추정된 v(짭파게티)와 word2vec에서 '짜파게티'와 비슷한 10개의 단어와의 Cosine similarity를 계산하면 실제로 비슷하게 나옵니다. 하지만 '짜파게티'와의 유사도보다는 조금 감소합니다. 

    비빔면: 0.930 -> 0.840
    불닭볶음면: 0.928 -> 0.860
    
이와 같이 fasttext는 Word2Vec에서 일어나는 out of vocabulary problems (오탈자 혹은 신조어)에 대해서도 추정할 수 있는 장점이 있습니다. 

In [68]:
for word, sim in word2vec_model.most_similar('짜파게티', topn=10):
    jamo_fasttext_sim = skipgram_jamo_model.cosine_similarity(preprocessing('짭파게티'), preprocessing(word))
    print('jamo fasttext: 짭파게티 - %5s:\t (%.3f)\t|\tword2vec: 짜파게티 - %5s: (%.3f)' % (word, jamo_fasttext_sim, word, sim))

jamo fasttext: 짭파게티 -   비빔면:	 (0.840)	|	word2vec: 짜파게티 -   비빔면: (0.930)
jamo fasttext: 짭파게티 - 불닭볶음면:	 (0.860)	|	word2vec: 짜파게티 - 불닭볶음면: (0.928)
jamo fasttext: 짭파게티 -   토스트:	 (0.788)	|	word2vec: 짜파게티 -   토스트: (0.927)
jamo fasttext: 짭파게티 -   베이글:	 (0.688)	|	word2vec: 짜파게티 -   베이글: (0.917)
jamo fasttext: 짭파게티 -  비빔국수:	 (0.847)	|	word2vec: 짜파게티 -  비빔국수: (0.915)
jamo fasttext: 짭파게티 -   라볶이:	 (0.816)	|	word2vec: 짜파게티 -   라볶이: (0.914)
jamo fasttext: 짭파게티 -   갈비찜:	 (0.740)	|	word2vec: 짜파게티 -   갈비찜: (0.914)
jamo fasttext: 짭파게티 -  삼각김밥:	 (0.803)	|	word2vec: 짜파게티 -  삼각김밥: (0.913)
jamo fasttext: 짭파게티 -   부침개:	 (0.759)	|	word2vec: 짜파게티 -   부침개: (0.912)
jamo fasttext: 짭파게티 -    라묜:	 (0.713)	|	word2vec: 짜파게티 -    라묜: (0.912)
