# FastText
- FastText: facebook Research에서 만든 패키지
- word represnetation 방식으로 쓰임 

특징
- 비슷한 구조의 단어는 비슷한 vector를 갖도록 언어형태학적으로(Morpological) 단어를 subword로 나눠보는 기법 이용
- FastText는 gensim 패키지에 포함되어 있다.

장점
- 비슷한 단어라도 데이터셋 중 비슷한 문장에 등장하지 않으면 비슷한 Vector를 가질 수 없던 Skipgram과 달리, 단어 그 자체로 판단할 수 있음 
- 따라서 자주 등장하지 않거나, 특이한 단어도 비교적 정확한 임베딩을 할 수 있다.(skipgram은 문서집합에 존재하지 않는 단어는 Dictionary로 만들 수 없음). 

단점
- 단, 하나의단어로 여러 개의 Subword로 계산해야 하므로 계산 복잡도는 높아질 수 있음


Gensim의 FastText Documentation 참고
- https://radimrehurek.com/gensim/models/fasttext.html#module-gensim.models.fasttext


In [None]:
# !git clone https://github.com/facebookresearch/fastText.git
# !cd fastText
# !make

In [67]:
from gensim.models import FastText
from gensim.test.utils import common_texts

import numpy as np

## prepare dataset

In [8]:
# import pandas as pd
# df_raw = pd.DataFrame('tworld_QA_dataset.csv')
# # data 읽을 때 무의식적으로 pandas를 썼는데 -> 언어 처리할 때에는 단어 단위로 처리되므로 list가 더 편할듯

In [19]:
with open('./tworld_QA_dataset.csv','r') as f:
    lines = f.readlines()
    raw_dataset = [st.split() for st in lines[1:]]

print ('# sentences: {}'.format(len(raw_dataset)))

# sentences: 29087


In [108]:
raw_dataset[0]

['지원금',
 '얼마에요?',
 '★공시지원금',
 '및',
 '추가지원금(T지원금',
 '약정',
 '24개월)',
 '-공시지원금',
 ':',
 '[39,000]원',
 '-추가지원금',
 ':',
 '[5,800]원',
 '-할부원금',
 ':',
 '[1,098,100]원',
 '-월',
 '할부금:',
 '[48,619]원(연',
 '5.9%',
 '이자',
 '포함)',
 '-월',
 '청구',
 '예상금액',
 ':',
 '[76,570]원',
 '입니다.']

In [85]:
model = FastText(size=4, window=3, min_count=10) # Window값이 Max값이므로 random으로 추출 

In [99]:
?FastText

In [87]:
model.build_vocab(sentences=raw_dataset)

In [88]:
model.train(sentences=raw_dataset, total_examples=len(raw_dataset), epochs=10)

In [89]:
model.wv['공시지원금']

array([ 4.1240993 , -3.1608262 , -0.98567885,  2.0561411 ], dtype=float32)

In [91]:
model.wv['공시']

array([ 1.5476242 , -1.8236573 , -0.87157905, -0.00842092], dtype=float32)

In [93]:
model.wv['할부']

array([ 4.2384195 , -6.761819  , -0.26639408,  4.077999  ], dtype=float32)

In [42]:
'여행' in model.wv.vocab

False

In [45]:
'지원' in model.wv.vocab

True

In [100]:
model.wv.most_similar(positive=['공시지원금'])

[('요금제에', 0.9991218447685242),
 ('이상', 0.9925806522369385),
 ('원', 0.9920792579650879),
 ('할인받아', 0.9917137026786804),
 ('할인된', 0.9915709495544434),
 ('단말', 0.9914230108261108),
 ('할인', 0.9901081323623657),
 ('할인을', 0.9900158643722534),
 ('할인받는', 0.9890799522399902),
 ('지원금', 0.9889933466911316)]

In [101]:
model.wv.most_similar(positive=['지원금'])

[('단말', 0.9986444711685181),
 ('카드', 0.9958974123001099),
 ('원', 0.9954019784927368),
 ('할부원금', 0.9942946434020996),
 ('이상', 0.9935876131057739),
 ('최대', 0.9921643137931824),
 ('원금', 0.990845799446106),
 ('-공시지원금', 0.9908434152603149),
 ('선택약정25%', 0.9895755052566528),
 ('월', 0.9891493320465088)]

In [48]:
model.wv.most_similar(positive=['지원'])

[('지원방식에', 0.9999197721481323),
 ('요금할인(선택약정)말씀이면', 0.9998986124992371),
 ('기준에', 0.9998435974121094),
 ('선택약정할인24개월(지원금에', 0.9997772574424744),
 ('29요금에', 0.9997578859329224),
 ('납부금', 0.9997292757034302),
 ('지원금액이', 0.999728798866272),
 ('지원방식도', 0.9997179508209229),
 ('지원해', 0.9997169971466064),
 ('요금할인(25%)', 0.999666690826416)]

In [102]:
model.wv.distance('지원금','할부')

0.06559783220291138

In [103]:
model.wv.distance('지원금','약정')

0.11265683174133301

In [105]:
model.wv.distance('지원금','엄마')

0.9673444963991642