# KMeans Clustering Documentation Example

### 1. Import koniecznych pakietów

Zaczynamy od importowania pakietu findspark, aby w dalszej kolejności umożliwić import Sparka i jego klas.

In [2]:
import findspark
findspark.init('/home/ubuntu/spark-2.1.1-bin-hadoop2.7')

In [3]:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('cluster').getOrCreate()

In [4]:
from pyspark.ml.clustering import KMeans

Import danych:

In [5]:
dataset = spark.read.format('libsvm').load('sample_kmeans_data.txt')

In [6]:
dataset.show()

+-----+--------------------+
|label|            features|
+-----+--------------------+
|  0.0|           (3,[],[])|
|  1.0|(3,[0,1,2],[0.1,0...|
|  2.0|(3,[0,1,2],[0.2,0...|
|  3.0|(3,[0,1,2],[9.0,9...|
|  4.0|(3,[0,1,2],[9.1,9...|
|  5.0|(3,[0,1,2],[9.2,9...|
+-----+--------------------+



Algorytm KMeans należy do algorytmów nienadzorowanych i z tego powodu nie wymaga kolumny 'label'.

In [7]:
final_data = dataset.select('features')

In [8]:
final_data.show()

+--------------------+
|            features|
+--------------------+
|           (3,[],[])|
|(3,[0,1,2],[0.1,0...|
|(3,[0,1,2],[0.2,0...|
|(3,[0,1,2],[9.0,9...|
|(3,[0,1,2],[9.1,9...|
|(3,[0,1,2],[9.2,9...|
+--------------------+



### 2. Tworzenie modelu

Stworzenie modelu nie wymaga importowania żadnej dodatkowej klasy. Podczas tworzenia modelu zdefiniujmy dwa parametry: setK - dobieramy w ten sposób ilość klastrów oraz setSeed - w ten sposób uruchamiamy generator liczb losowych z określonego miejsca.

In [9]:
kmeans = KMeans().setK(2).setSeed(1)

In [10]:
model = kmeans.fit(final_data)

In [11]:
wssse = model.computeCost(final_data)

In [12]:
print(wssse)

0.11999999999994547


Znajdźmy środki klastrów danych:

In [14]:
centers = model.clusterCenters()

In [15]:
centers

[array([ 0.1,  0.1,  0.1]), array([ 9.1,  9.1,  9.1])]

Sprawdźmy w których klastrach znajdują się poszczególne punkty:

In [16]:
results = model.transform(final_data)

In [17]:
results.show()

+--------------------+----------+
|            features|prediction|
+--------------------+----------+
|           (3,[],[])|         0|
|(3,[0,1,2],[0.1,0...|         0|
|(3,[0,1,2],[0.2,0...|         0|
|(3,[0,1,2],[9.0,9...|         1|
|(3,[0,1,2],[9.1,9...|         1|
|(3,[0,1,2],[9.2,9...|         1|
+--------------------+----------+

