# 군집 알고리즘

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-mldl/blob/master/6-1.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩에서 실행하기</a>
  </td>
</table>

## 과일 사진 데이터 준비하기

In [None]:
# 캐글에 공개된 과일 데이터 셋 불러오기
# 코랩의 코드 셀에서 '!' 로 시작하면 파이썬 코드가 아닌 리눅스 셀 명령으로 이행함

!wget https://bit.ly/fruits_300_data -O fruits_300.npy

### 필요한 라이브러리 불러오기

In [2]:
# 수치해석을 위한 넘파이와 그래프를 그리기 위한 맷플롭립 불러오기
import numpy as np
import matplotlib.pyplot as plt
import random

### 다운받은 데이터셋을 넘파이에서 load() 메서드 이용하여 불러오기
### 불러온 데이터를 fruits라는 넘파이 배열에 저장함
### 사과 이미지 100개, 파인애플 이미지 100개, 바나나 이미지 100개 등 총 300개 이미지가 흑백사진으로 저장되어 있음

In [3]:
fruits = np.load('fruits_300.npy')

### fruits 라는 배열의 크기 확인하기

In [None]:
# 넘파이에서 shape 함수를 이용하여 배열 크기 확인
print(fruits.shape)
print(f"샘플갯수: {fruits.shape[0]}, 이미지 크기 (높이x너비) :{fruits.shape[1]} 픽셀 x {fruits.shape[2]} 픽셀")

In [None]:
# 사과 이미지 출력
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10) :
  for j in range(10) :
    axs[i, j].imshow(fruits[i*10+j], cmap='gray_r')
    axs[i, j].axis('off')
plt.show()

In [None]:
# 파인애플 이미지 출력
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10) :
  for j in range(10) :
    axs[i, j].imshow(fruits[100+i*10+j], cmap='gray_r')
    axs[i, j].axis('off')
plt.show()

In [None]:
# 바나나 이미지 출력
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10) :
  for j in range(10) :
    axs[i, j].imshow(fruits[200+i*10+j], cmap='gray_r')
    axs[i, j].axis('off')
plt.show()

In [None]:
# 첫번째 사진 이미지 확인하기

plt.imshow(fruits[0], cmap='gray_r')
plt.show()

In [None]:
# 임의의 사진 이미지 확인하기 (0~299)

idx = random.randint(0, 300)
print(idx, "번째 사진 이미지")
plt.imshow(fruits[idx], cmap='gray_r')
plt.show()

In [None]:
# 원하는 사진 이미지 확인하기 (0~299)

idx = int(input("사진 번호를 입력하세요 (0~299) "))
plt.imshow(fruits[idx], cmap='gray_r')
plt.show()

### 사진 이미지의 픽셀 값 보기

In [None]:
print("첫번째 이미지의 첫번째 행에 있는 100개의 값")
print(fruits[0, 0, :])
plt.imshow(fruits[0], cmap='gray_r')
plt.show()

In [None]:
fig, axs = plt.subplots(1, 2)
axs[0].imshow(fruits[100], cmap='gray_r')
axs[1].imshow(fruits[200], cmap='gray_r')
plt.show()

## 픽셀 값 분석하기
### 배열 계산을 위해 100 x 100 이미지를 펼쳐서 길이가 10,000인 1차원 배열로 변경
### 넘파이 함수 중 reshape 함수 이용

In [14]:
apple = fruits[0:100].reshape(-1, 100*100)
pineapple = fruits[100:200].reshape(-1, 100*100)
banana = fruits[200:300].reshape(-1, 100*100)

In [None]:
# 각 변수에 저장된 배열의 크기 확인 : 이미지 갯수, 이미지 크기 출력

print(apple.shape)
print(pineapple.shape)
print(banana.shape)

In [None]:
# apple에 저장된 이미지의 평균값을 mean 함수를 이용해 계산
print(apple.mean(axis=1))

In [None]:
# pineapple에 저장된 이미지의 평균값을 mean 함수를 이용해 계산
print(pineapple.mean(axis=1))

In [None]:
# banana에 저장된 이미지의 평균값을 mean 함수를 이용해 계산
print(banana.mean(axis=1))

### 각 이미지 사진의 평균값을 막대그래프로 그리기
### x축 : 평균값, y축 : 해당 평균값의 발생 빈도

In [None]:
# 사과 이미지 평균값
#plt.hist(np.mean(apple, axis=1), color='steelblue', alpha=0.8)
plt.hist(np.mean(apple, axis=1), color='orangered', alpha=0.8)
plt.legend(['apple'])
plt.show()

In [None]:
# 파인애플 이미지 평균값
plt.hist(np.mean(pineapple, axis=1), color='seagreen', alpha=0.8)
plt.legend(['pineapple'])
plt.show()

In [None]:
# 바나나 이미지 평균값
plt.hist(np.mean(banana, axis=1), color='gold', alpha=0.8)
plt.legend(['banana'])
plt.show()

### 세 이미지의 비교를 위해 x축과 y축 값을 고정

In [None]:
# 사과 이미지 평균값
plt.hist(np.mean(apple, axis=1), color='orangered', alpha=0.8)
plt.xlim([0,120])
plt.ylim([0,30])
plt.legend(['apple'])
plt.show()

In [None]:
# 파인애플 이미지 평균값
plt.hist(np.mean(pineapple, axis=1), color='seagreen', alpha=0.8)
plt.xlim([0,120])
plt.ylim([0,30])
plt.legend(['pineapple'])
plt.show()

In [None]:
# 바나나 이미지 평균값
plt.hist(np.mean(banana, axis=1), color='gold', alpha=0.8)
plt.xlim([0,120])
plt.ylim([0,30])
plt.legend(['banana'])
plt.show()

### 3개의 이미지를 동시에 한 그래프에 중첩되게 표시

In [None]:
plt.hist(np.mean(apple, axis=1), color='orangered', alpha=0.8)
plt.hist(np.mean(pineapple, axis=1), color='seagreen', alpha=0.8)
plt.hist(np.mean(banana, axis=1), color='gold', alpha=0.8)
plt.xlim([0,120])
plt.ylim([0,30])
plt.legend(['apple', 'pineapple', 'banana'])
plt.show()

### 바나나의 경우 이미지의 평균값으로 구분이 가능하나,
### 사과와 파인애플은 이미지의 평균값이 유사하여 구별이 어려움

### 그래서 100 x 100 크기의 이미지에서 각 픽셀별 평균값을 구해봄
### 세 과일은 모양이 다르므로 픽셀값이 높은 위치가 조금씩 다를 것임으로 예상됨 

---



### 맷플롭립의 bar 함수를 사용하여 10,000개 픽셀에 대한 각각의 평균값을 막대그래프로 그림

In [None]:
print("사과                                                                    파인애플                                                           바나나")
fig, axs = plt.subplots(1, 3, figsize=(20, 5))
axs[0].bar(range(10000), np.mean(apple, axis=0))
axs[1].bar(range(10000), np.mean(pineapple, axis=0))
axs[2].bar(range(10000), np.mean(banana, axis=0))
plt.show()

### 위의 그래프를 보면 과일마다 값이 높은 값이 다름. 
### 사과는 아래쪽으로 갈수록 값이 높아지고, 파인애플 그래프는 비교적 고르면서 높음
### 바나나는 확실히 중앙의 픽셀값이 높음

In [None]:
apple_mean = np.mean(apple, axis=0).reshape(100, 100)
pineapple_mean = np.mean(pineapple, axis=0).reshape(100, 100)
banana_mean = np.mean(banana, axis=0).reshape(100, 100)

fig, axs = plt.subplots(1, 3, figsize=(20, 5))
axs[0].imshow(apple_mean, cmap='gray_r')
axs[1].imshow(pineapple_mean, cmap='gray_r')
axs[2].imshow(banana_mean, cmap='gray_r')
plt.show()

## 사과의 평균값과 가까운 사진 고르기
### fruits 배열에 저장된 모든 샘플에서 사과 사진의 평균값을 뺀 절대값의 평균값을 계산함

In [28]:
apple_mean = np.mean(apple, axis=0).reshape(100, 100)

abs_diff = np.abs(fruits - apple_mean)
abs_mean = np.mean(abs_diff, axis=(1,2))

### 이 값이 가장 작은 순서대로 100개를 골라 봄
### apple_mena과 오차가 가장 작은 샘플 100개를 고름

In [None]:
apple_index = np.argsort(abs_mean)[:100]
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10):
    for j in range(10):
        axs[i, j].imshow(fruits[apple_index[i*10 + j]], cmap='gray_r')
        axs[i, j].axis('off')
plt.show()

### 같은 방법으로 파인애플의 평균값과 오차가 가장 작은 사진 100개를 출력함

In [None]:
pineapple_mean = np.mean(pineapple, axis=0).reshape(100, 100)
abs_diff = np.abs(fruits - pineapple_mean)
abs_mean = np.mean(abs_diff, axis=(1,2))

pineapple_index = np.argsort(abs_mean)[:100]
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10):
    for j in range(10):
        axs[i, j].imshow(fruits[pineapple_index[i*10 + j]], cmap='gray_r')
        axs[i, j].axis('off')
plt.show()

In [None]:
banana_mean = np.mean(banana, axis=0).reshape(100, 100)
abs_diff = np.abs(fruits - banana_mean)
abs_mean = np.mean(abs_diff, axis=(1,2))

banana_index = np.argsort(abs_mean)[:100]
fig, axs = plt.subplots(10, 10, figsize=(4,4))
for i in range(10):
    for j in range(10):
        axs[i, j].imshow(fruits[banana_index[i*10 + j]], cmap='gray_r')
        axs[i, j].axis('off')
plt.show()

---
### 하지만 문제가 해결되지 않았습니다.
### 실제 비지도 학습에서는 타깃값을 모르기때문에 샘플의 평균값을 미리 구할 수 없습니다

### 타깃값을 모르면서 어떻게 세 과일의 평균값을 찾을 수 있을까요?

### k-평균 알고리즘을 적용해봅시다.