### FastText 
- Word2Vec에서 OOV(사전에 없는 용어) 문제를 해결하기 위한 모델 
- Word2Vec에서는 '강아지' 와 '강아지들' 문구를 다른 단어로 생각
- FastText는 Word2Vec의 학습 방식은 비슷 
    - 단어를 한글씩 잘게 쪼개서 단어의 유사도를 생성 
    - '강아지' -> '강', '아', '지', '강아', '아지', '강아지'(n-gram 방식)
    - word2vec과 기본적인 매개변수는 같지만 min_n, max_n 매개변수가 존재 
    - subword의 최소 길이와 최대 길이를 설정 
    - min_n = 1, max_n =1 --> subword를 사용하지 않겠다 -> Word2Vec 같은 형태로 학습

In [1]:
from gensim.models import Word2Vec, FastText

In [3]:
# 샘플 문장 생성
sentences = [
    ['이커머스', '데이터', '분석', '진행'], 
    ['상품', '리뷰', '기반', '감성', '분석', '합니다'], 
    ['형태소', '단위', '임베딩', '가능']
]
# Fast Text 모델에 학습 
model  = FastText(
    sentences=sentences, 
    vector_size= 50,        # 단위 벡터의 차원 수
    window=3,               # 주변의 확인할 단어의 개수
    min_count=1,            # 최소 출현 횟수
    sg = 1,                 # Skip-gram 방식으로 확률 계산
    epochs= 10,             # 학습 반복 횟수
    min_n = 2, 
    max_n= 6
)

In [None]:
# 특정 단어의 벡터를 확인 
model.wv['이커머스']

In [5]:
# 유사 단어를 확인 
model.wv.most_similar('데이터', topn=3)

[('이커머스', 0.17707844078540802),
 ('합니다', 0.17073467373847961),
 ('가능', 0.16921374201774597)]

In [None]:
# 학습 내용에 없는 단어를 확인 
model.wv['감정']

In [7]:
# Word2vec을 이용해서 sentences 학습하고 없는 단어 확인 
model2 = Word2Vec(
    sentences=sentences, 
    window=3, 
    vector_size=50, 
    min_count=1, 
    sg = 1, 
    epochs=10
)

In [9]:
# 학습한 내용에 없는 단어를 출력 
# model2.wv['감정']
# Word2Vec은 사전에 없는 단어를 단위벡터로 확인하면 에러가 발생 

- Word2Vec과 FastText와 단어간의 유사도 차이 확인 

    - '강아지', '강아지들' 두개의 단어를 유사한 단어
        - Word2Vec은 다른 단어로 인식 -> 유사도 낮게 
        - FastText는 비슷한 단어로 인식 -> 유사도 높게 