## 실습1. 문장 간의 유사성

#### 샘플 예제

In [20]:
doc_list = ['if you take the blue pill, the story ends' ,
            'if you take the red pill, you stay in Wonderland',
            'if you take the red pill, I show you how deep the rabbit hole goes']

#### TF-IDF 피처 벡터화

In [21]:
tfidf_v = TfidfVectorizer()
tfidf_v.fit(doc_list)
ftr_mat = tfidf_v.transform(doc_list)
print(f'크기:',ftr_mat.shape)
print(f'인덱스:\n',tfidf_v.vocabulary_)

크기: (3, 18)
인덱스:
 {'if': 6, 'you': 17, 'take': 14, 'the': 15, 'blue': 0, 'pill': 8, 'story': 13, 'ends': 2, 'red': 10, 'stay': 12, 'in': 7, 'wonderland': 16, 'show': 11, 'how': 5, 'deep': 1, 'rabbit': 9, 'hole': 4, 'goes': 3}


In [22]:
ftr_mat.toarray()

array([[0.4155636 , 0.        , 0.4155636 , 0.        , 0.        ,
        0.        , 0.24543856, 0.        , 0.24543856, 0.        ,
        0.        , 0.        , 0.        , 0.4155636 , 0.24543856,
        0.49087711, 0.        , 0.24543856],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.23402865, 0.39624495, 0.23402865, 0.        ,
        0.3013545 , 0.        , 0.39624495, 0.        , 0.23402865,
        0.23402865, 0.39624495, 0.4680573 ],
       [0.        , 0.30985601, 0.        , 0.30985601, 0.30985601,
        0.30985601, 0.18300595, 0.        , 0.18300595, 0.30985601,
        0.23565348, 0.30985601, 0.        , 0.        , 0.18300595,
        0.3660119 , 0.        , 0.3660119 ]])

#### 피처 벡터 희소행렬을 dense matrix로 변환

TF-IDF로 피처 벡터화한 행렬은 희소행렬이므로 dense 행렬로 변환한 후 각각을 배열로 변환
- 피처벡터객체.todense()

In [23]:
ftr_mat.todense()

matrix([[0.4155636 , 0.        , 0.4155636 , 0.        , 0.        ,
         0.        , 0.24543856, 0.        , 0.24543856, 0.        ,
         0.        , 0.        , 0.        , 0.4155636 , 0.24543856,
         0.49087711, 0.        , 0.24543856],
        [0.        , 0.        , 0.        , 0.        , 0.        ,
         0.        , 0.23402865, 0.39624495, 0.23402865, 0.        ,
         0.3013545 , 0.        , 0.39624495, 0.        , 0.23402865,
         0.23402865, 0.39624495, 0.4680573 ],
        [0.        , 0.30985601, 0.        , 0.30985601, 0.30985601,
         0.30985601, 0.18300595, 0.        , 0.18300595, 0.30985601,
         0.23565348, 0.30985601, 0.        , 0.        , 0.18300595,
         0.3660119 , 0.        , 0.3660119 ]])

### 1. 코사인 유사도

- 방법1. cos_similarity() 함수 사용 : 두 문장의 코사인 유사도 계산


- 방법2. 사이킷런의 코사인 유사도 측정 API 사용
    -  sklearn.metrics.pairwise.cosine_similarity(비교기준 문서의 피처행렬, 비교되는 문서의 피처행렬)
    - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html

#### 1) 코사인 유사도 함수 cos_similarity() 사용

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

In [6]:
text2 = ['나는 배가 고프다', '내일 점심 뭐먹지','내일 공부해야겠다','점심 먹고 공부해야지']
tfidf_v2 = TfidfVectorizer()
tfidf_v2.fit(text2)
ftr_mat2 = tfidf_v2.transform(text2)

cos_sim_mat2 = cosine_similarity(ftr_mat2, ftr_mat2)
cos_sim_mat2

array([[1.        , 0.        , 0.        , 0.        ],
       [0.        , 1.        , 0.32591355, 0.25632484],
       [0.        , 0.32591355, 1.        , 0.        ],
       [0.        , 0.25632484, 0.        , 1.        ]])

### 2. 유클리드 거리를 이용한 유사도

| |바나나|사과|저는|좋아요|
|---|---|---|---|---|
|문서1|2|3|0|1|
|문서2|1|2|3|1|
|문서3|2|1|2|2|
|문서Q|1|1|0|1|

In [9]:
def euclid_dist(x,y):
    return np.sqrt(np.sum(x-y)**2)

doc1 = ftr_mat2[0]
doc2 = ftr_mat2[1]
doc3 = ftr_mat2[2]
docQ = ftr_mat2[3]

print(f'{euclid_dist(doc1,doc2):.3f}')

0.012


### 3. 자카드 유사도
- 뉴스 기사들 탐지
- 추천 시스템에서 두 고객간의 유사도

In [11]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화
tokens_doc1 = doc1.split()
tokens_doc2 = doc2.split()

print(f'문서1 토큰:', tokens_doc1)
print(f'문서2 토큰:', tokens_doc2)

문서1 토큰: ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 토큰: ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


- 문서1과 문서2의 합집합

In [12]:
union = set(tokens_doc1).union(set(tokens_doc2))
print(f'두 문서의 합집합:', union)

두 문서의 합집합: {'you', 'banana', 'card', 'love', 'coupon', 'holder', 'watch', 'everyone', 'likey', 'apple', 'passport', 'like'}


- 문서1과 문서2의 교집합

In [14]:
intersection= set(tokens_doc1).intersection(set(tokens_doc2))
print(f'두 문서의 합집합:', intersection)

두 문서의 합집합: {'banana', 'apple'}


- 문서1과 문서2의 자카드 유사도

In [18]:
print(f'자카드 유사도: {len(intersection)/len(union):.3f}')

자카드 유사도: 0.167


In [25]:
def jacard_similarity(s1,s2):
    s1 = set(s1)
    s2 = set(s2)
    return len(s1&s2) / len(s1 | s2)

In [27]:
jacard_similarity(tokens_doc1, tokens_doc1)

1.0

------------