## FastText
- Word2Vec에서 OOV(사전에 없는 용어) 문제를 해결하기 위한 모델
    - '강아지'와 '강아지들'을 다른 단어로 구분.
- FastText는 단어를 한 글자씩 쪼개 단어의 유사도를 생성
    - (n-gram 방식) '강아지' $\rightarrow$ '강', '아', '지', '강아', '아지', '강아지
    - Word2Vec와 학습 방식이 비슷하고 기본적인 매개변수도 같지만, min_n, max_n 매개변수가 존재
        - min_n, max_n 매개변수: subword의 최소 길이와 최대 길이를 설정
            </br>```min_n = 1, max_n = 1``` $\rightarrow$ subword를 사용하지 않음 (Word2Vec과 같은 형태로 학습)

학습 데이터가 명확한 경우(고정된 데이터) - Word2Vec이 더 효율적일 수 있음
유저가 값을 입력하는 경우(검색 등) - FastText가 더 효율적(유사성 찾을 수 있음)

In [1]:
from gensim.models import Word2Vec, FastText

In [2]:
# 샘플 문장 생성
# 토큰화 되었다고 가정
sentences = [
    ['이커머스', '데이터', '분석', '진행'],
    ['상품', '리뷰', '기반', '감성', '분석', '합니다'],
    ['형태소', '단위', '임베딩', '가능']
]

# Fast Text 모델에 학습
model = FastText(
    sentences= sentences,
    vector_size= 50,       # 단위벡터의 차원 수
    window= 3,             # 중심단어 주변의 확인할 단어 개수
    min_count= 1,          # 최소 출현 횟수
    sg= 1,                 # Skip-gram 방식으로 확률 계산
    epochs= 10,            # 학습 반복 횟수
    min_n= 2,              # 기본값 3
    max_n= 6               # 기본값 6
)

In [3]:
# 특정 단어의 벡터 확인
model.wv['이커머스']

array([ 1.6111047e-03,  5.3626148e-04,  1.4960865e-03, -9.6691423e-04,
        1.3344721e-03, -3.9466089e-03, -2.9213836e-03,  2.0751881e-03,
        3.8366416e-05, -2.1776820e-03, -3.8702481e-03, -2.2806628e-03,
       -2.0664781e-03, -7.3369575e-04, -2.6561588e-03, -1.1106797e-03,
       -2.8349187e-03,  5.9706885e-03, -1.5937304e-03, -1.0128829e-03,
       -1.7639366e-03,  1.1789303e-03, -1.7173518e-03,  3.7625290e-03,
       -4.3625790e-03,  2.0642835e-03,  3.0573069e-03, -5.9944363e-03,
       -8.2338316e-04, -1.4119033e-03,  6.8373408e-04, -2.6191517e-03,
       -7.8321050e-04, -1.0133090e-03, -1.9886156e-03, -4.0722662e-03,
       -3.4458062e-04,  4.2740661e-03,  1.5003346e-03,  1.2319845e-03,
        4.7013951e-03, -3.6674424e-03,  2.4466028e-03, -2.3689321e-03,
        1.7491765e-03, -6.5453607e-04, -2.8902704e-03, -2.6802132e-03,
       -1.7741284e-03,  4.1342787e-03], dtype=float32)

In [4]:
# 유사 단어 확인
model.wv.most_similar('데이터', topn= 3)

[('이커머스', 0.17707844078540802),
 ('합니다', 0.17073467373847961),
 ('가능', 0.16921374201774597)]

In [5]:
# 학습 내용에 없는 단어를 확인
model.wv['감정']

array([-5.5015250e-03, -2.2979644e-03, -2.5747030e-03,  4.0551424e-03,
        5.9942775e-03,  7.7991433e-05, -3.3548754e-04,  1.2389648e-03,
       -5.6767054e-03, -1.9014416e-03,  5.5394048e-04, -4.3599959e-03,
        1.8585186e-03, -1.6516327e-03,  1.2153982e-03,  4.9254834e-03,
       -1.0719089e-03,  1.6734168e-03, -7.5532752e-03,  9.4391109e-04,
       -3.0809967e-03, -4.9540359e-03,  6.7945785e-04,  2.4490163e-03,
        1.9782230e-03, -2.2293099e-03, -3.4784587e-04,  4.1471361e-04,
        7.0494465e-03,  1.9072286e-03, -4.7399704e-03,  1.0020984e-02,
        5.4200743e-03,  6.6835335e-03, -7.0033013e-03,  3.0829094e-03,
        4.4810078e-03,  1.0817904e-02,  4.6293368e-03,  2.7071305e-03,
       -4.2116926e-03, -4.7756401e-03,  2.4744410e-03, -2.6542998e-03,
        9.1218622e-03, -2.9168790e-04,  4.3195268e-04, -6.9793002e-03,
        4.6271365e-03,  2.2756024e-03], dtype=float32)

In [6]:
# Word2Vec을 이용해서 sentences를 학습하고, 없는 단어 확인
model2 = Word2Vec(
    sentences= sentences,
    vector_size= 50,       # 단위벡터의 차원 수
    window= 3,             # 중심단어 주변의 확인할 단어 개수
    min_count= 1,          # 최소 출현 횟수
    sg= 1,                 # Skip-gram 방식으로 확률 계산
    epochs= 10,            # 학습 반복 횟수
)

In [7]:
# 학습한 내용에 없는 단어를 출력
# model2.wv['감정']     # Error 발생

# Word2Vec은 사전에 없는 단어를 단위벡터로 확인하면 Error 발생
# FastText는 오탈자까지 고려
    # 예: 검색 시 오타나도 올바른 결과가 나옴

#### Word2Vec와 FastText의 단어 간 유사도 차이
- '강아지', '강아지들' $\Rightarrow$ 유사한 단어
    - Word2Vec은 다른 단어로 인식 (유사도 낮게)
    - FastText는 비슷한 단어로 인식 (유사도 높게)

In [8]:
sentences2 = [
    ['고양이', '고양이들', '귀엽다', '동물', '반려동물'],
    ['강아지', '강아지들', '귀엽다', '동물', '반려동물'],
    ['달리다', '달리는', '달림', '걷다', '걷는'],
    ['빠르다', '빠른', '느리다', '느림'],
    ['예쁘다', '예쁨', '예쁜', '매력적이다'],
    ['컴퓨팅', '컴퓨터', '컴퓨터들', '기계']
]

In [9]:
# 모델 학습
# Word2Vec
w2v = Word2Vec(
    sentences= sentences2,
    vector_size= 100,
    window= 3,
    min_count= 1,
    sg= 1,
    epochs= 50,
    seed= 42
)

# FastText
ft = FastText(
    sentences= sentences2,
    vector_size= 100,
    window= 3,
    min_count= 1,
    sg= 1,
    epochs= 50,
    seed= 42,
    min_n= 2,
    max_n= 6
)

In [10]:
# Word2Vec의 유사도 확인
print( 'Word2Vec 유사도: ', w2v.wv.similarity('강아지', '강아지들') )

# FastText의 유사도 확인
print( 'FastText 유사도: ', ft.wv.similarity('강아지', '강아지들') )

Word2Vec 유사도:  0.20342888
FastText 유사도:  0.38520095


In [11]:
# 비교 대상 단어들
test_text = [
    ['강아지', '강아지들'],
    ['고양이', '고양이들'],
    ['달리다', '달리는'],
    ['예쁘다', '예쁜'],
    ['컴퓨터', '컴퓨팅'],
    ['빠르다', '느림']
]

for a, b in test_text:
    w2v_sim = float(w2v.wv.similarity(a, b))    # 유사도 데이터를 실수형으로 변경
    ft_sim = float(ft.wv.similarity(a, b))      # 유사도 데이터를 실수형으로 변경
    print(f"[ '{a}', '{b}'의 유사도 ] \n Word2Vec: {w2v_sim :.4f} \n FastText: {ft_sim :.4f}")

[ '강아지', '강아지들'의 유사도 ] 
 Word2Vec: 0.2034 
 FastText: 0.3852
[ '고양이', '고양이들'의 유사도 ] 
 Word2Vec: -0.1262 
 FastText: 0.3965
[ '달리다', '달리는'의 유사도 ] 
 Word2Vec: -0.0706 
 FastText: 0.2667
[ '예쁘다', '예쁜'의 유사도 ] 
 Word2Vec: 0.1392 
 FastText: 0.0695
[ '컴퓨터', '컴퓨팅'의 유사도 ] 
 Word2Vec: -0.0516 
 FastText: 0.3857
[ '빠르다', '느림'의 유사도 ] 
 Word2Vec: 0.0108 
 FastText: -0.0127


In [2]:
# 상품명을 기준으로 특정 상품 검색 시, 연관된 상품의 목록을 확인
products = {
    'P001': '무선 이어폰 블루투스 노이즈캔슬링 충전케이스',
    'P002': '유선 이어폰 하이파이 금도금 플러그',
    'P003': '게이밍 마우스 RGB 경량 디자인',
    'P004': '무선 마우스 초경량 블루투스 듀얼모드',
    'P005': '헤드폰 노이즈캔슬링 유선'
}

# FastText 통해 학습하기 위해 products에서 데이터를 추출
# 필요한 데이터는 dict형 데이터의 values
datas = products.values()

# 공백을 기준으로 슬라이싱
tokens = []
for data in datas:
    tokens.append( data.split() )

tokens

[['무선', '이어폰', '블루투스', '노이즈캔슬링', '충전케이스'],
 ['유선', '이어폰', '하이파이', '금도금', '플러그'],
 ['게이밍', '마우스', 'RGB', '경량', '디자인'],
 ['무선', '마우스', '초경량', '블루투스', '듀얼모드'],
 ['헤드폰', '노이즈캔슬링', '유선']]

In [13]:
# 토큰화된 데이터를 이용하여 FastText에 학습
ft2 = FastText(
    sentences= tokens,
    vector_size= 100,
    window= 3,
    min_count= 1,
    sg= 1,
    epochs= 10,
    min_n= 3,   # min_n, max_n 둘 다 1로 두면 'subword'를 사용하지 않는다는 의미 = 'Word2Vec'을 사용한다는 의미
    max_n= 6,   # 여기선 subword를 사용하는 FastText 모델에 학습
    seed= 42
)

In [14]:
# 단위 벡터 확인 -> vector_size 차원의 좌표를 의미하는 값
ft2.wv['마우스']

array([-3.0608668e-03, -5.0734571e-04,  6.8453950e-04,  1.6416922e-03,
        1.0831023e-03, -6.5104905e-05, -4.1719939e-04, -7.2870782e-04,
       -4.8853789e-04, -4.6182857e-03,  2.4489574e-03,  6.1499518e-03,
       -1.5955068e-03,  1.5212459e-03,  2.9862362e-03,  4.7445744e-03,
        1.7521627e-03, -3.0767897e-03,  2.4293065e-03, -3.7023224e-04,
       -3.0174854e-03, -4.6088859e-05, -2.1022612e-03,  4.2979121e-03,
        8.0651295e-04,  5.2311446e-04, -1.1054744e-03,  2.4524573e-03,
       -1.4782109e-03,  9.9279720e-04,  8.7367334e-05, -5.9449538e-03,
       -3.3011988e-03, -1.3528297e-04, -4.6411299e-04,  3.0999838e-03,
        2.0988486e-03,  5.7990261e-04, -2.6780847e-06,  1.6811772e-03,
       -2.5592633e-03,  2.4090365e-03,  1.9723834e-03, -5.7378702e-04,
       -3.7561278e-03,  3.8244107e-03, -1.1656301e-03,  1.8521851e-03,
        2.3929658e-03, -1.6058824e-03, -6.8952364e-04,  2.5542639e-04,
       -2.5633242e-04,  1.6509496e-03, -1.7838118e-03, -9.2189008e-04,
      

In [15]:
import numpy as np

In [16]:
# 문장의 평균 벡터를 구하는 함수 정의
def sent_vec(token):
    vecs = []
    for w in token:
        vecs.append(ft.wv[w])
    # 해당 vecs가 존재하지 않는다면 희소행렬을 반환
    if not vecs:
        return np.zeros(ft.vector_size)
    print(np.array(vecs).shape)
    v = np.mean(vecs, axis=0)
    # 일반적인 문장의 평균 벡터를 구하는 식
    # 성능을 올리기 위해서는 L2 정규화 -> 벡터의 거리롤 나눠준다.
    if type == 'l2':
        v = v / (np.linalg.norm(v) + 1e-12)   
    # 1e-12를 더해 0으로 나눠지는 것을 방지
    print(v.shape)
    return v

In [17]:
# 토큰화된 데이터들을 평균 벡터로 변환
item_vecs = []
for t in tokens:
    # print(sent_vec(t))
    # break
    item_vecs.append(sent_vec(t))

(5, 100)
(100,)
(5, 100)
(100,)
(5, 100)
(100,)
(5, 100)
(100,)
(3, 100)
(100,)


In [18]:
# 평균 벡터를 이용해 코사인 유사도 확인
# 코사인 유사도 함수 로드
from sklearn.metrics.pairwise import cosine_similarity

In [19]:
idx = list(products.keys()).index('P003')
cosine_similarity(item_vecs[idx:idx+1], item_vecs)

array([[0.08545259, 0.09662661, 1.0000001 , 0.21450484, 0.09070536]],
      dtype=float32)

In [20]:
# 코사인 유사도를 이용해 가장 근접한 상품의 이름을 출력
# 추천하는 함수를 생성
def recommand_by_text(product_id):
    # 해당 상품명의 위치값 (item_vecs 위치를 이용해 코사인 유사도 생성)
    # 상품의 id값들은 products라는 dict에서 해당 id의 위치를 저장
    idx = list(products.keys()).index(product_id)

    # item_vecs에서 해당 인덱스의 값과 전체 vectors의 값을 비교
    # 한 문장의 코사인 유사도를 확인하기 때문에, 2차원이 아닌 1차원 데이터를 생성
    # ravel()을 이용해 1차원으로 변환
    # id를 여러 개 넣어 확인한다면 반복문을 만들면 된다.
    sims = cosine_similarity(item_vecs[idx:idx+1], item_vecs).ravel()
    
    # 내림차순 정렬
    order = sims.argsort()[::-1]
    # 추천 단어들을 출력
    rec = []
    for i in order:
        # 코사인 유사도에서 같은 id라면 추천하지 않는다.
        if list(products.keys())[i] != product_id:
            # 상품의 id와 유사도 값들을 rec에 추가
            rec.append( [list(products.keys())[i], sims[i]] )
    return rec

In [21]:
rec_list = recommand_by_text('P001')
rec_list

[['P004', np.float32(0.5282915)],
 ['P002', np.float32(0.3743211)],
 ['P005', np.float32(0.36722618)],
 ['P003', np.float32(0.085452594)]]

In [22]:
# 유사도가 높은 상위 2개 상품의 이름을 확인
# 방법 1
for pid, _ in rec_list[:2]:
    print(products[pid])

무선 마우스 초경량 블루투스 듀얼모드
유선 이어폰 하이파이 금도금 플러그


In [23]:
# 방법 2
for pid, _ in enumerate(rec_list):
    print(products[pid])
    if idx == 1:
        break
# Error 발생

KeyError: 0

In [24]:
# 방법 2
for idx, (pid, _) in enumerate(rec_list):
    print(products[pid])
    if idx == 1:
        break

무선 마우스 초경량 블루투스 듀얼모드
유선 이어폰 하이파이 금도금 플러그


In [3]:
# 세션에 따른 물품 추천
sessions = [
    ['P001', 'P004'],           # 무선 이어폰 - 무선 마우스
    ['P001', 'P002'],           # 무선 이어폰 - 유선 이어폰
    ['P003', 'P004'],           # 게이밍 마우스 - 무선 마우스
    ['P005', 'P001'],           # 헤드폰 - 무선 이어폰
    ['P002', 'P005'],           # 유선 이어폰 - 헤드폰
    ['P003', 'P004', 'P001']    # 게이밍마우스 - 무선 마우스 - 이어폰
]


In [None]:

# 식별자인 id를 기준으로 임베딩을 하는 경우에는 subword 불필요
# FastText에서 매개변수 min_n, max_n을 1로 입력
ft_item = FastText(
    sentences= sessions,
    vector_size= 50,
    window= 3,
    sg= 1,
    epochs= 50,
    min_count= 1,   # 기본값이 5 - min_count를 잡아두지 않으면 학습 데이터가 아무것도 없어져서 Error
    min_n= 1,
    max_n= 1,
    seed= 42
)


In [7]:

w2v_item = Word2Vec(
    sentences= sessions,
    vector_size= 100,
    window= 3,
    sg= 1,
    min_count= 1,
    epochs= 50,
    seed= 42
)

In [8]:
# 세션을 통한 물건을 추천하는 함수를 정의
def recommand_by_session(product_id, text_model, n = 3):
    # product_id: 상품의 id (첫 번째 검색하는 아이템의 id)
    # text_model: 학습된 모델
    # n: 유사도 높은 상위 n개 출력
    # 유사한 단어를 출력해주는 함수(most_similar)
    recs = text_model.wv.most_similar( product_id, topn = n )
    # most_similar()의 결과값은 [ (item_id, 유사도), ...]
    return recs

In [9]:
recommand_by_session('P001', ft_item)

[('P002', 0.6542717218399048),
 ('P005', 0.6441062688827515),
 ('P004', 0.6383542418479919)]