In [1]:
import pandas as pd
from sklearn.cluster import KMeans

In [4]:
# csv 파일을 읽고 레코드를 출력한다. 
features = pd.read_csv('../data/house_price.csv')

In [5]:
features.head(10)

Unnamed: 0,Area,Locality,Price
0,100,4,30
1,250,5,80
2,220,5,80
3,105,6,40
4,260,6,60
5,150,8,100
6,180,9,120
7,225,4,60
8,95,5,40
9,160,9,110


이제 K-평균 알고리즘을 적용해 데이터셋들을 군집으로 분할하고 각 레코드를  
특정 군집에 할당한다.  
이 알고리즘을 독립변수 또는 X들(면적 및 입지)에 적용할 것이다.  
목적은 군집화 알고리즘이 패턴을 찾을 수 있는지 알아보는 것이며, 

그러면 이 패턴들을 가격과 연관지을 것이다.  
여기서는 Y값으로 알고리즘을 지도하지 않는다.  
이 사례는 비지도학습의 예이다. 

In [6]:
# k-평균 알고리즘 
from sklearn.cluster import KMeans

# 2개의 특성만 이용애 패턴이 있는 지 확인한다. 
cluster_Xs = features[['Area', 'Locality']]

# 원하는 군집 수 
NUM_CLUSTERS = 3

# K-평균 군집화 모델 구축 
model = KMeans(n_clusters = NUM_CLUSTERS)
model.fit(cluster_Xs)

# 예측해 군집 레이블 0, 1, 2 ,,, NUM_CLUSTERS를 구한다. 
predictions = model.predict(cluster_Xs)

# 예측값을 특성들의 데이터프레임에 추가 
features['cluster'] = predictions
features.head(10)

  super()._check_params_vs_input(X, default_n_init=10)


Unnamed: 0,Area,Locality,Price,cluster
0,100,4,30,0
1,250,5,80,1
2,220,5,80,1
3,105,6,40,0
4,260,6,60,1
5,150,8,100,2
6,180,9,120,2
7,225,4,60,1
8,95,5,40,0
9,160,9,110,2


앞의 도표에서 봤던 세 군집에 해당하는 점들의 그룹들이 보인다.  
면적 및 입지의 특정 조합을 갖는 주택들이 군집 0, 1, 2로 표시됐다.  
우리의 뇌가 시각적 보조 도구(도표)를 보고 알 수 있는 로직을 군집화 알고리즘 혼자서 판독해냈다.  

이 데이터셋은 매우 간단하고 제한적인 것이였다.  
현실에서 수천 개의 데이터와 수백 개의 특성이 있는 경우,  
관찰만으로는 이러한 패턴을 찾아내기가 어렵다. 

군집화 알고리즘은 복잡한 데이터에서 패턴을 빠르게 찾아낼 수 있다.  
이제 군집 값에 대해서 결과를 정렬해 가격에 대한 어떤 관계를 발견했는지 보자.

In [7]:
features_sorted = features.sort_values('cluster')
print(features_sorted)

   Area  Locality  Price  cluster
0   100         4     30        0
3   105         6     40        0
8    95         5     40        0
1   250         5     80        1
2   220         5     80        1
4   260         6     60        1
7   225         4     60        1
5   150         8    100        2
6   180         9    120        2
9   160         9    110        2


한 군집 재의 집들은 비슷한 가격 구조를 갖는다는 것을 알 수 있다.  
k-평균 알고리즘은 면적 및 입지를 사용해 데이터 내의 변동성을 알아내고 데이터를 여러 그룹으로 정리했다.  
이 그룹들은 세 번째 값인 가격에 대해서 같은 변동성을 나타낸다.  
현실에서는 이와 같이 깔끔하게 분리되는 경우가 거의 없을 것이다.  

군집의 수 k와 같은 여러 가지 파라미터로 실험하고 어떤 조합이 가장 좋은 결과를 내는 지를 조사해야 한다. 

이 사례에서는 군집의 수를 고정된 값으로 알고리즘에 넘겨주며 이것은 알고리즘이 학습하는 것이 아니다.  
이 파라미터를 머신러닝에서는 하이퍼파라미터 라고 한다. 

하이퍼파라미터는 보통 사용하는 알고리즘에 따라 그 종류가 달라진다.  