<img src='./img/logo.png'>
* ref : https://wikidocs.net/31698,  WikiDoc 

# 거리 기반 유사도(similarity)
* 유클리드 거리(euclidean distance)
* 맨해튼 거리(Manhattan distance)
* 마할라노비스 거리 (Mahalanobis distance)
* 코사인 유사도(cosine similarity)
* 문장/문서 간 거리
* 군집(집합) 간 거리

## 유클리드 거리(euclidean distance)
### 좌표 상의 거리 구하기

<img src='./img/img5.png' width="400">

### 범주형 데이터에 대한 좌표 거리 구하기
* get_dummy()

<img src='./img/img6.png' width="400">

## 맨해튼 거리(Manhattan distance)

<img src='./img/img7.png' width=150>

## 마할라노비스 거리 (Mahalanobis distance) 

<img src='./img/img8.png'  width="200">

## 문장 간의 거리 구하기

<img src='./img/img9.png'  width="300">

## 문서 사이의 거리 구하기

<img src='./img/img10.png'  width="500">

## 군집(집합) 간의 거리 구하기

<img src='./img/img11.png'  width="400">

--- 

# 문장/문서 유사도(Vector Similarity)
* 각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등)
* 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는지
* ref : https://www.kernix.com/blog/similarity-measure-of-textual-documents_p12

<img src='https://www.kernix.com/doc/articles/overview.svg'>

## 카운트 기반의 단어 표현(Count based word Representation)

### Bag of Words(BoW)

In [1]:
# ! pip install konlpy

In [1]:
from konlpy.tag import Okt
import re
okt = Okt()

token = re.sub("\.","","정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다.")
token = okt.morphs(token)
print(token)
  
word2index = {}
bow = []

['정부', '가', '발표', '하는', '물가상승률', '과', '소비자', '가', '느끼는', '물가상승률', '은', '다르다']


#### 불용언처리 (english)
* 사용자 지정
* CountVectorizer에서 지원
* NLTK에서 지원 :  https://www.nltk.org/data.html
* stopwords 다운 압축풀어 venv/nltk_data/corpora/stopwords에 넣기

In [6]:
import nltk
# nltk.download('stopwords')

from nltk.corpus import stopwords
stopwords.words('english')[:10]

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text = ["Family is not an important thing. It's everything."]
#-----------------------
# sw = stopwords.words("english")
# vect = CountVectorizer(stop_words=sw)
#-----------------------
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
#-----------------------
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


#### 불용언처리 (한글)
* https://github.com/stopwords-iso/stopwords-ko

In [17]:
stopwords_ko = []
f = open('./datasets/stopwords_ko.txt', mode='r', encoding='utf-8')
for line in f:
    line = line.rstrip("\n")
    stopwords_ko.append(line)
    
stopwords_ko[:10]

['!', '"', '$', '%', '&', "'", '(', ')', '*', '+']

In [19]:
from sklearn.feature_extraction.text import CountVectorizer
from nltk.corpus import stopwords

text = ["나는 하하 웃으며 쿵 문을 닫고 나갔다."]
#-----------------------
# sw = stopwords.words("english")
# vect = CountVectorizer(stop_words=sw)
#-----------------------
vect = CountVectorizer(stop_words=stopwords_ko)
#-----------------------
print(vect.fit_transform(text).toarray()) 
print(vect.vocabulary_)

[[1 1 1 1 1]]
{'나는': 1, '웃으며': 4, '문을': 3, '닫고': 2, '나갔다': 0}




## 코사인 유사도(Cosine Similarity)
* <font color='red'>벡터의 크기가 아니라 방향(패턴)에 초점</font>

<img src='./img/img2.png' width=500><br>
<img src='./img/img3.png' width=500><br>
<img src='./img/img4.png' width=300>

In [13]:
import numpy as np
from numpy import dot
from numpy.linalg import norm

In [14]:
def cos_sim(A, B):
    return dot(A, B)/(norm(A)*norm(B))

In [15]:
doc1 = np.array([0,1,1,1])
doc2 = np.array([1,0,1,1])
doc3 = np.array([2,0,2,2])

In [16]:
print(cos_sim(doc1, doc2)) 
print(cos_sim(doc1, doc3)) 
print(cos_sim(doc2, doc3)) 

0.6666666666666667
0.6666666666666667
1.0000000000000002


### [실습] 영화추천 시스템
* ref : https://www.kaggle.com/rounakbanik/the-movies-dataset

### [실습] 지수 변동성 유사도

## 문서 단어 행렬(DTM, Document-Term Matrix)
* 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기해 서로 다른 문서들을 비교
* 다수의 BoW : 각 문서에 대한 BoW를 하나의 행렬로 만든 것

* <단점>
    - 희소 표현(Sparse representation) : 단어 집합의 크기 == 벡터의 차원이 되고 대부분의 값이 0이 된다
    - 단순 빈도 수 기반 접근 : '이다'와 같은 중요하지 않은 최빈도 단어로 문서를 연관지으면??
    - <font color='red'> TF-IDF 필요 (DTM에 불용어와 중요한 단어에 대해서 가중치)</font>

## 단어 빈도-역 문서 빈도(TF-IDF, Term Frequency-Inverse Document Frequency)
* 우선 DTM을 만든 후, TF-IDF 가중치를 부여
* 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 활용
* TF-IDF = TF * IDF

* 문서(d), 단어(t), 문서총개수(n)
* <font color='red'> $tf(d,t)$ : 특정 문서 d에서의 특정 단어 t의 등장 횟수</font>
* <font color='red'>  $df(t)$ : 특정 단어 t가 등장한 문서의 수 </font>
* <font color='red'>  $idf(d, t) = log (\frac{n}{1+df(t)})$ : df(t) 역수</font>

In [5]:
import pandas as pd
from math import log # IDF계산

In [6]:
docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
print(vocab)

['먹고', '노란', '좋아요', '바나나', '저는', '과일이', '길고', '사과', '싶은']


In [7]:
def tf(t, d): #DTM
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

* TF (TDM)

In [8]:
N = len(docs) # 총 문서의 수
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]        
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab) # TDM
tf_

Unnamed: 0,먹고,노란,좋아요,바나나,저는,과일이,길고,사과,싶은
0,1,0,0,0,0,0,0,1,1
1,1,0,0,1,0,0,0,0,1
2,0,1,0,2,0,0,1,0,0
3,0,0,1,0,1,1,0,0,0


* IDF

In [9]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))  # idf계산

idf_ = pd.DataFrame(result, index = vocab, columns = ["IDF"])
idf_

Unnamed: 0,IDF
먹고,0.287682
노란,0.693147
좋아요,0.693147
바나나,0.287682
저는,0.693147
과일이,0.693147
길고,0.693147
사과,0.693147
싶은,0.287682


* TF-IDF 행렬 출력

In [10]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,먹고,노란,좋아요,바나나,저는,과일이,길고,사과,싶은
0,0.287682,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.287682
1,0.287682,0.0,0.0,0.287682,0.0,0.0,0.0,0.0,0.287682
2,0.0,0.693147,0.0,0.575364,0.0,0.0,0.693147,0.0,0.0
3,0.0,0.0,0.693147,0.0,0.693147,0.693147,0.0,0.0,0.0


### [실습] 사이킷런을 이용한 DTM과 TF-IDF

* 보편적 : TF-IDF 계산

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    '저는 사과 좋아요',
    '저는 바나나 좋아요',
    '저는 바나나 좋아요 저는 바나나 좋아요',    
]
vector = CountVectorizer()
print(vector.fit_transform(corpus).toarray())  # 코퍼스로부터 각 단어의 빈도 수 기록
print(vector.vocabulary_)                      # 각 단어에 부여된 인덱스 확인

[[0 1 1 1]
 [1 0 1 1]
 [2 0 2 2]]
{'저는': 2, '사과': 1, '좋아요': 3, '바나나': 0}


* TfidfVectorizer : TF-IDF 계산
* (IDF의 로그항의 분자에 1을 더해주며, 로그항에 1을 더해주고, TF-IDF에 L2 정규화라는 방법으로 값을 조정

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    '저는 사과 좋아요',
    '저는 바나나 좋아요',
    '저는 바나나 좋아요 저는 바나나 좋아요',    
]
tfidfv = TfidfVectorizer()
corpus_v = tfidfv.fit_transform(corpus)
print(f'{type(corpus_v)} \n {corpus_v}')
print(corpus_v.toarray())
print(tfidfv.vocabulary_)

<class 'scipy.sparse.csr.csr_matrix'> 
   (0, 3)	0.4532946552278861
  (0, 1)	0.7674945674619879
  (0, 2)	0.4532946552278861
  (1, 0)	0.6732546652684398
  (1, 3)	0.5228423068642596
  (1, 2)	0.5228423068642596
  (2, 0)	0.6732546652684398
  (2, 3)	0.5228423068642596
  (2, 2)	0.5228423068642596
[[0.         0.76749457 0.45329466 0.45329466]
 [0.67325467 0.         0.52284231 0.52284231]
 [0.67325467 0.         0.52284231 0.52284231]]
{'저는': 2, '사과': 1, '좋아요': 3, '바나나': 0}


# 군집간 유사도(similarity)

### [실습] 주가 군집 유사도

### [실습] K-means를 활용한 Document Clustering