<img src='./img/logo.png'>
* ref : https://wikidocs.net/31698,  WikiDoc 

# 거리 기반 유사도(similarity)
* 유클리드 거리(euclidean distance)
* 맨해튼 거리(Manhattan distance)
* 마할라노비스 거리 (Mahalanobis distance)
* 코사인 유사도(cosine similarity)
* 문장/문서 간 거리
* 군집(집합) 간 거리

## 유클리드 거리(euclidean distance)
### 좌표 상의 거리 구하기

<img src='./img/img5.png' width="400">

### 범주형 데이터에 대한 좌표 거리 구하기
* get_dummy()

<img src='./img/img6.png' width="400">

## 맨해튼 거리(Manhattan distance)

<img src='./img/img7.png' width=150>

## 마할라노비스 거리 (Mahalanobis distance) 

<img src='./img/img8.png'  width="200">

## 문장 간의 거리 구하기

<img src='./img/img9.png'  width="300">

## 문서 사이의 거리 구하기

<img src='./img/img10.png'  width="500">

## 군집(집합) 간의 거리 구하기

<img src='./img/img11.png'  width="400">

--- 

# 문장/문서 유사도(Vector Similarity)
* 각 문서의 단어들을 어떤 방법으로 수치화하여 표현했는지(DTM, Word2Vec 등)
* 문서 간의 단어들의 차이를 어떤 방법(유클리드 거리, 코사인 유사도 등)으로 계산했는지
* ref : https://www.kernix.com/blog/similarity-measure-of-textual-documents_p12

<img src='https://www.kernix.com/doc/articles/overview.svg'>

## 카운트 기반의 단어 표현(Count based word Representation)

### Bag of Words(BoW)

#### 불용언처리 (english)
* 사용자 지정
* CountVectorizer에서 지원
* NLTK에서 지원 :  https://www.nltk.org/data.html
* stopwords 다운 압축풀어 venv/nltk_data/corpora/stopwords에 넣기

#### 불용언처리 (한글)
* https://github.com/stopwords-iso/stopwords-ko

## 코사인 유사도(Cosine Similarity)
* <font color='red'>벡터의 크기가 아니라 방향(패턴)에 초점</font>

<img src='./img/img2.png' width=500><br>
<img src='./img/img3.png' width=500><br>
<img src='./img/img4.png' width=300>

In [8]:
import numpy as np
from numpy.linalg import norm  #--정규화 ||A||
#from numpy import dot

def my_cos_sim(A,B):
    cos_sim = np.dot(A, B) / (norm(A) * norm(B))
    print(cos_sim)    

In [4]:
# sklearn...vectorize.. [1,2,3,]
doc1 = [0,1,2,1]
doc2 = [1,0,1,1]
doc3 = [2,0,2,2]
my_cos_sim(doc1,doc2)
my_cos_sim(doc1,doc3)
my_cos_sim(doc2,doc3)

0.7071067811865476
0.7071067811865476
1.0000000000000002


* 연습 by kms  ** 주의주의..... 

In [14]:
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import Tokenizer

text_list = ["어제 비가 와서 날씨가 추워졌다.",
             "나는 고양이를 좋아한다.",
             "나는 강아지를 좋아한다."]

# ------ T :  단어분리
tokenizer = Tokenizer()
tokenizer.fit_on_texts(text_list)
print('각 단어에 매겨진 인덱스 값 : ',tokenizer.word_index)

# ------ s :  단어->숫자
encoding = tokenizer.texts_to_sequences(text_list)
# -------p : 벡터길이 맞추기
padding = pad_sequences(sequences=encoding) #, padding='pre')

my_cos_sim(padding[0],padding[1])
my_cos_sim(padding[0],padding[2])
my_cos_sim(padding[1],padding[2])


각 단어에 매겨진 인덱스 값 :  {'나는': 1, '좋아한다': 2, '어제': 3, '비가': 4, '와서': 5, '날씨가': 6, '추워졌다': 7, '고양이를': 8, '강아지를': 9}
0.6941980239122336
0.6774960231074738
0.9995786102379159


* 연습 by lhl ** BoW ... DTM

In [13]:
from sklearn.feature_extraction.text import CountVectorizer

doc1 = '어제 비가 와서 날씨가 추워졌다.'
doc2 = '나는 고양이를 좋아한다.'
doc3 = '나는 강아지를 좋아한다.'
corpus = [doc1, doc2, doc3]

cnt_vt = CountVectorizer()
res = cnt_vt.fit_transform(corpus)  #Iterable
print(cnt_vt.vocabulary_)    

doc1 = res.toarray()[0]
doc2 = res.toarray()[1]
doc3 = res.toarray()[2]
print(doc1, doc2, doc3)
      
      
my_cos_sim(doc1, doc2)
my_cos_sim(doc1, doc3)
my_cos_sim(doc2, doc3)


{'어제': 5, '비가': 4, '와서': 6, '날씨가': 3, '추워졌다': 8, '나는': 2, '고양이를': 1, '좋아한다': 7, '강아지를': 0}
[0 0 0 1 1 1 1 0 1] [0 1 1 0 0 0 0 1 0] [1 0 1 0 0 0 0 1 0]
0.0
0.0
0.6666666666666667


---
### [실습] 영화추천 시스템
* ref : https://www.kaggle.com/rounakbanik/the-movies-dataset

### [실습] 지수 변동성 유사도
---

## 문서 단어 행렬(DTM, Document-Term Matrix)
* 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기해 서로 다른 문서들을 비교
* 다수의 BoW : 각 문서에 대한 BoW를 하나의 행렬로 만든 것

* <단점>
    - 희소 표현(Sparse representation) : 단어 집합의 크기 == 벡터의 차원이 되고 대부분의 값이 0이 된다
    - 단순 빈도 수 기반 접근 : '이다'와 같은 중요하지 않은 최빈도 단어로 문서를 연관지으면??
    - <font color='red'> TF-IDF 필요 (DTM에 불용어와 중요한 단어에 대해서 가중치)</font>

## 단어 빈도-역 문서 빈도(TF-IDF, Term Frequency-Inverse Document Frequency)
* 우선 DTM을 만든 후, TF-IDF 가중치를 부여
* 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 활용
* TF-IDF = TF * IDF

* 문서(d), 단어(t), 문서총개수(n)
* <font color='red'> $ tf(d,t) $ : 특정 문서 d에서의 특정 단어 t의 등장 횟수</font>
* <font color='red'>  $df(t)$ : 특정 단어 t가 등장한 문서의 수 </font>
* <font color='red'>  $idf(d, t) = log (\frac{n}{1+df(t)})$ : df(t) 역수</font>

In [1]:
import pandas as pd
from math import log # IDF계산

docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
print(vocab)

['바나나', '길고', '과일이', '노란', '사과', '싶은', '먹고', '저는', '좋아요']


In [2]:
def tf(t, d): #DTM
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df + 1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

### TF (TDM)

### IDF

### TF-IDF 행렬 출력

---- 
## [실습] 사이킷런을 이용한 DTM과 TF-IDF
----

* CountVectorizer

* TfidfVectorizer : TF-IDF 계산
* (IDF의 로그항의 분자에 1을 더해주며, 로그항에 1을 더해주고, TF-IDF에 L2 정규화라는 방법으로 값을 조정

# 군집간 유사도(similarity)

### [실습] 주가 군집 유사도

### [실습] K-means를 활용한 Document Clustering