# Clustering 1

</br>

**비지도 학습**
- 정답이 없다, 답을 가르쳐주지 않고 공부시키는 머신러닝 방법
- e.g., 연관 규칙, 군집

</br>

**군집화의 기준**
- intra-cluster(군집 내 거리): 군집 내 데이터들의 거리, 가까울수록 좋음
- inter-cluster(군집 간 거리): 군집과 군집 간 거리, 멀수록 좋음
- 데이터 사이의 거리는 데이터 특성, 분석가의 주관에 따라 다르게 판단될 수 있음
    - e.g., 원숭이, 바나나, 판다
    - (원숭이, 바나나), 판다
    - 바나나, (원숭이, 판다)

</br>

**다양한 종류의 거리(Distance)**

**1. 유클리디안 거리**
- 두 지점 사이의 최단 거리
- 피타고라스 거리, 직선 거리 `c^2 = a^2 + b^2`
- 데이터 차원이 크지 않은 경우 유용
    - 차원이 클수록 효과가 떨어짐

**2. 맨해튼 거리**
- 두 지점에 대해서, 각 차원 상의 거리 차이의 합
    - 바둑판 형태로 잘 정렬된 맨해튼에서 두 지점 사이를 이동할때 걷는 거리
- 두 지점 사이 최적의 경로 계산을 하는 경우 사용

**3. 코사인 거리**
- 두 데이터 값의 방향성(Θ)의 차이를 측정한 거리
- `코사인 거리 = 1 - 코사인 유사도`
    - 코사인 유사도가 크다 = 거리가 가깝다
- 값의 차이보다 방향성의 차이가 중요하거나, 데이터 차원이 큰 경우 유용
    - e.g., 음악 '장르'에 따른 유저 간 거리, 텍스트 클러스터링

**3-2. 코사인 유사도**
- 공식
- 두 데이터 사이의 코사인 값을 계산하여 유사도 측정
    - `θ = 0°` 는 두 값의 방향이 동일하므로 `cosine_similarity = 1`
    - `θ = 90°` 는 두 값의 방향이 직교하므로 `cosine_similarity = 0`
    - `θ = 180°` 는 두 값의 방향이 반대이므로`cosine_similarity = -1`

**4. 자카드 유사도**
- 두 집합 사이의 유사도를 측정하며, 주로 텍스트 데이터를 대상으로 사용
- 집합을 구성하는 원소가 같을수록 자카드 유사도 ↑
    - 각 집합에 원소가 몇 번 나왔는지는 고려 X

In [2]:
import numpy as np
import pandas as pd

from sklearn import datasets

In [3]:
data_iris = datasets.load_iris()

iris1 = data_iris['data'][0]
iris2 = data_iris['data'][1]
iris3 = data_iris['data'][-1]

## 1. 유클리디안 거리

In [4]:
# 유클리디안 거리 정의를 토대로 함수 만들기

def euclidean_dist(x1, x2):
  
  # 거리 변수 dist 만들기
  dist = 0
  
  # zip() : 2개씩 순서대로 묶어서 반복문
  for a, b in zip(x1, x2):
    # (직각 변의 차이)^2의 합
    dist += (a - b) ** 2
  # 루트 씌우기
  dist = dist ** 0.5
  
  return dist

In [5]:
print(euclidean_dist(iris1, iris2))
print(euclidean_dist(iris1, iris3))
print(euclidean_dist(iris2, iris3))

0.5385164807134502
4.1400483088968905
4.153311931459037


In [6]:
# Scikit-Learn을 활용한 euclidean 거리 계산
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.euclidean_distances.html

from sklearn.metrics.pairwise import euclidean_distances

def euclidean_dist_sklearn(x1, x2):
  return euclidean_distances([x1], [x2])[0][0]

print(euclidean_distances([iris1], [iris2]))
print(euclidean_dist_sklearn(iris1, iris2))
print(euclidean_dist_sklearn(iris1, iris3))
print(euclidean_dist_sklearn(iris2, iris3))

[[0.53851648]]
0.5385164807134628
4.14004830889689
4.153311931459037


## 2. 맨해튼 거리

In [7]:
# 맨해튼 거리 정의를 토대로 함수 만들기

def manhattan_dist(x1, x2):
  # 두 원소(지점)의 차이의 절대값
  diff = abs(np.array(x1) - np.array(x2))
  # 절댓값들의 합
  dist = sum(diff)
  
  return dist

In [8]:
print(manhattan_dist(iris1, iris2))
print(manhattan_dist(iris1, iris3))
print(manhattan_dist(iris2, iris3))

0.6999999999999993
6.6
6.299999999999999


In [9]:
# Scikit-Learn을 활용한 manhattan 거리 계산
# https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.manhattan_distances.html
from sklearn.metrics.pairwise import manhattan_distances

def manhattan_dist_sklearn(x1, x2):
  return manhattan_distances([x1], [x2])[0][0]

print(manhattan_dist_sklearn(iris1, iris2))
print(manhattan_dist_sklearn(iris1, iris3))
print(manhattan_dist_sklearn(iris2, iris3))

0.6999999999999993
6.6
6.299999999999999


## 3. 코사인 거리

In [10]:
# 임의의 데이터셋 생성
dataset_music_dict = {"rock": [26, 60, 0, 2, 5],
                      "hiphop": [60, 60, 6, 19, 11],
                      "pop": [70, 60, 17, 210, 14],
                      "jazz": [35, 60, 1, 5, 7],
                      "ballad": [60, 60, 210, 8, 12]}

df_music = pd.DataFrame(dataset_music_dict)
df_music

Unnamed: 0,rock,hiphop,pop,jazz,ballad
0,26,60,70,35,60
1,60,60,60,60,60
2,0,6,17,1,210
3,2,19,210,5,8
4,5,11,14,7,12


In [11]:
# 0번-1번, 0번-4번 간 유클리디안 거리
print(euclidean_dist_sklearn(df_music.loc[0], df_music.loc[1]))
print(euclidean_dist_sklearn(df_music.loc[0], df_music.loc[4]))

43.37049688440288
95.21554494934112


**-> 유클리디안 거리 계산으로는 0번과 1번이 더 가깝다(유사하다)**

In [12]:
# 코사인 거리 정의를 토대로 함수 만들기

def cosine_dist(x1, x2):
  x1_norm = sum([x ** 2 for x in x1]) ** 0.5
  x2_norm = sum([x ** 2 for x in x2]) ** 0.5
  dot_product = 0
  for a, b in zip(x1, x2):
    dot_product += (a * b)
  similarity = dot_product / (x1_norm * x2_norm)
  dist = 1 - similarity
  return dist

In [13]:
print(cosine_dist(df_music.loc[0], df_music.loc[1]))
print(cosine_dist(df_music.loc[0], df_music.loc[4]))

0.051343052747109375
0.0006884388180635748


In [14]:
#Scikit-Learn을 활용한 cosine 거리 계산
#https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_distances.html
from sklearn.metrics.pairwise import cosine_distances

def cosine_dist_sklearn(x1, x2):
  return cosine_distances([x1], [x2])[0][0]

print(cosine_dist_sklearn(df_music.loc[0], df_music.loc[1]))
print(cosine_dist_sklearn(df_music.loc[0], df_music.loc[4]))

0.051343052747109375
0.0006884388180635748


**-> 코사인 거리 계산으로는 0번과 4번이 더 가깝다(유사하다)**

청취 빈도는 다르지만, 청취한 장르의 비율이 유사하다

## 4. 자카드 유사도

In [None]:
lyric1 = "내가 먹고 싶었던 달디 달고 달디 달고 달디 단 밤양갱"
lyric2 = "달디 단 솜사탕 먹고 싶었던 나"
lyric3 = "내가 내가 제일 잘 나가"

lyric1 = lyric1.split()
lyric2 = lyric2.split()
lyric3 = lyric3.split()

In [None]:
#jaccard 유사도를 계산하는 함수 만들기
def jaccard_sim(x1, x2):
  x1_set = set(x1)
  x2_set = set(x2)
  union = x1_set.union(x2_set)
  intersection = x1_set.intersection(x2_set)
  return len(intersection)/len(union)

In [None]:
print(jaccard_sim(lyric1, lyric2))
print(jaccard_sim(lyric1, lyric3))
print(jaccard_sim(lyric2, lyric3))

0.4444444444444444
0.1
0.0


In [None]:
#Scikit-Learn의 jaccard score는 위 계산 방식과 약간 다름
#https://scikit-learn.org/stable/modules/generated/sklearn.metrics.jaccard_score.html
from sklearn.metrics import jaccard_score

tokens = ["내가", "먹고", "싶었던", "달디", "달고", "단", "밤양갱", "솜사탕", "나", "제일", "잘", "나가"]
l1 = [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]
l2 = [0, 1, 1, 1, 0, 1, 0, 1, 1, 0, 0, 0]
l3 = [1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1]

print(jaccard_score(l1, l2))
print(jaccard_score(l1, l3))
print(jaccard_score(l2, l3))

0.4444444444444444
0.1
0.0
