# Clustering Documentation Example

<h2 id="k-means">K-means</h2>

<p><a href="http://en.wikipedia.org/wiki/K-means_clustering">k-means</a> is one of the
most commonly used clustering algorithms that clusters the data points into a
predefined number of clusters. The MLlib implementation includes a parallelized
variant of the <a href="http://en.wikipedia.org/wiki/K-means%2B%2B">k-means++</a> method
called <a href="http://theory.stanford.edu/~sergei/papers/vldb12-kmpar.pdf">kmeans||</a>.</p>

<p><code>KMeans</code> is implemented as an <code>Estimator</code> and generates a <code>KMeansModel</code> as the base model.</p>

<h3 id="input-columns">Input Columns</h3>

<table class="table">
  <thead>
    <tr>
      <th align="left">Param name</th>
      <th align="left">Type(s)</th>
      <th align="left">Default</th>
      <th align="left">Description</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>featuresCol</td>
      <td>Vector</td>
      <td>"features"</td>
      <td>Feature vector</td>
    </tr>
  </tbody>
</table>

<h3 id="output-columns">Output Columns</h3>

<table class="table">
  <thead>
    <tr>
      <th align="left">Param name</th>
      <th align="left">Type(s)</th>
      <th align="left">Default</th>
      <th align="left">Description</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>predictionCol</td>
      <td>Int</td>
      <td>"prediction"</td>
      <td>Predicted cluster center</td>
    </tr>
  </tbody>
</table>

In [1]:
#Cluster methods Example
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('cluster').getOrCreate()

In [3]:
from pyspark.ml.clustering import KMeans

# Loads data.
dataset = spark.read.format("libsvm").load("sample_kmeans_data.txt")

In [4]:
# 비지도 학습이기 때문에 label은 필요없다.
# 애초에 있는게 이상하다.
final_data = dataset.select('features')

In [5]:
final_data.show()

+--------------------+
|            features|
+--------------------+
|           (3,[],[])|
|(3,[0,1,2],[0.1,0...|
|(3,[0,1,2],[0.2,0...|
|(3,[0,1,2],[9.0,9...|
|(3,[0,1,2],[9.1,9...|
|(3,[0,1,2],[9.2,9...|
+--------------------+



In [6]:
# setK()으로 k값을 설정한다.
# setseed는 난수 생성기의 seed값을 의미한다.
# kMeans 알고리즘에서 시작 단계의 중심값은 임의로 배정되는데
# 고정된 중심값을 받기 위해 설정한다.
kmeans = KMeans().setK(2).setSeed(1)

In [7]:
# 라벨이 없기 때문에 훈련/테스트 셋으로 분리하지 않는다.
model = kmeans.fit(final_data)

In [11]:
# Evaluate clustering by computing Within Set Sum of Squared Errors.
wssse = model.computeCost(dataset)
# 없어진 메소드임
# 강의에서는 0.1199로 값이 나옴
# k를 증가시키면 감소하는 값이다. (k=3일 때 0.075)

AttributeError: 'KMeansModel' object has no attribute 'computeCost'

In [12]:
# Shows the result.
# clusterCenters()로 중심값을 구할 수 있다.
centers = model.clusterCenters()
print("Cluster Centers: ")
for center in centers:
    print(center)
    
# k를 2로 설정했기 때문에 중심값도 두 개 나오는것을 확인할 수 있다.
# 일반적으로, 특히 데이터 세트에 익숙하지 않은 경우
# 중심점 값을 wssse 관점에서 해석하기 어려울 수 있다.
# 물론 3차원 공간의 어떤 중심이라는 것은 이해할 수 있다.

Cluster Centers: 
[9.1 9.1 9.1]
[0.1 0.1 0.1]


In [13]:
results = model.transform(final_data)
results.show()
# 1~3행까지 한 그룹, 4~6행까지 또 다른 그룹에 속하는것을 확인할 수 있다.

+--------------------+----------+
|            features|prediction|
+--------------------+----------+
|           (3,[],[])|         1|
|(3,[0,1,2],[0.1,0...|         1|
|(3,[0,1,2],[0.2,0...|         1|
|(3,[0,1,2],[9.0,9...|         0|
|(3,[0,1,2],[9.1,9...|         0|
|(3,[0,1,2],[9.2,9...|         0|
+--------------------+----------+



Alright let's code through our own example!