# Cluster Hierárquico:

As divisões em clusters pode ocorrer de duas formas:
- aglomerativa: pontos em grupos individuais, e a cada etapa funde os pares mais próximos. Exigem noção de 
proximidade, e traz os pontos mais comuns. 
- divisiva: começa incluindo todos pontos, dividindo em cada etapa até restar apenas grupos únicos. 
ex: Bisecting k-means

# Bisecting k-means - Hiper Parâmetros:
- distanceMeasure: medida de distância empregada [euclidean (default), cosine]
- k: número de clusters (default=4)
- maxIter: número máximo de iteração (default=20)
- minDivisibleClusterSize: se o número de divisões se >= 1 ou a proporção mínima se <1 (default= 1)

# Avaliação de performance:
- Coeficiente de Silhouette: medida do quanto cada ponto em cluster está próximo do cluster vizinho 
   <br> ruim (-1<=CS<=1) bom
- Próximo a 0 indica que os pontos estão próximos dos limites, 
- Próximo a 1 indica que os pontão estão distantes do cluster vizinho,
- Próximo a -1 indica que os pontos estão no cluster errado

In [4]:
import findspark, pyspark
from pyspark.sql import SparkSession
findspark.init()
spark = SparkSession.builder.appName("hierarchical").getOrCreate()

In [6]:
iris = spark.read.csv("iris.csv", header=True, inferSchema= True, sep=",")
iris.show(5)

+-----------+----------+-----------+----------+-----------+
|sepallength|sepalwidth|petallength|petalwidth|      class|
+-----------+----------+-----------+----------+-----------+
|        5.1|       3.5|        1.4|       0.2|Iris-setosa|
|        4.9|       3.0|        1.4|       0.2|Iris-setosa|
|        4.7|       3.2|        1.3|       0.2|Iris-setosa|
|        4.6|       3.1|        1.5|       0.2|Iris-setosa|
|        5.0|       3.6|        1.4|       0.2|Iris-setosa|
+-----------+----------+-----------+----------+-----------+
only showing top 5 rows



In [11]:
from pyspark.ml.clustering import BisectingKMeans 

In [8]:
# Transformação de features de em vetor: (Vecote Assembler)
from pyspark.ml.feature import VectorAssembler
asb = VectorAssembler(inputCols=["sepallength","sepalwidth","petallength","petalwidth"], 
                      outputCol="features")
irisas = asb.transform(iris)
irisas.show(5)


+-----------+----------+-----------+----------+-----------+-----------------+
|sepallength|sepalwidth|petallength|petalwidth|      class|         features|
+-----------+----------+-----------+----------+-----------+-----------------+
|        5.1|       3.5|        1.4|       0.2|Iris-setosa|[5.1,3.5,1.4,0.2]|
|        4.9|       3.0|        1.4|       0.2|Iris-setosa|[4.9,3.0,1.4,0.2]|
|        4.7|       3.2|        1.3|       0.2|Iris-setosa|[4.7,3.2,1.3,0.2]|
|        4.6|       3.1|        1.5|       0.2|Iris-setosa|[4.6,3.1,1.5,0.2]|
|        5.0|       3.6|        1.4|       0.2|Iris-setosa|[5.0,3.6,1.4,0.2]|
+-----------+----------+-----------+----------+-----------+-----------------+
only showing top 5 rows



In [14]:
bkm = BisectingKMeans(featuresCol="features", predictionCol="cluster", k=3)
modelo = bkm.fit(irisas)

In [16]:
clusters = modelo.transform(irisas)
clusters.show(150)

+-----------+----------+-----------+----------+---------------+-----------------+-------+
|sepallength|sepalwidth|petallength|petalwidth|          class|         features|cluster|
+-----------+----------+-----------+----------+---------------+-----------------+-------+
|        5.1|       3.5|        1.4|       0.2|    Iris-setosa|[5.1,3.5,1.4,0.2]|      0|
|        4.9|       3.0|        1.4|       0.2|    Iris-setosa|[4.9,3.0,1.4,0.2]|      0|
|        4.7|       3.2|        1.3|       0.2|    Iris-setosa|[4.7,3.2,1.3,0.2]|      0|
|        4.6|       3.1|        1.5|       0.2|    Iris-setosa|[4.6,3.1,1.5,0.2]|      0|
|        5.0|       3.6|        1.4|       0.2|    Iris-setosa|[5.0,3.6,1.4,0.2]|      0|
|        5.4|       3.9|        1.7|       0.4|    Iris-setosa|[5.4,3.9,1.7,0.4]|      0|
|        4.6|       3.4|        1.4|       0.3|    Iris-setosa|[4.6,3.4,1.4,0.3]|      0|
|        5.0|       3.4|        1.5|       0.2|    Iris-setosa|[5.0,3.4,1.5,0.2]|      0|
|        4

In [20]:
# Performance: Silhueta: 
from pyspark.ml.evaluation import ClusteringEvaluator
metrica = ClusteringEvaluator(predictionCol="cluster")
silhouette = metrica.evaluate(clusters)
print(silhouette)

0.7231544457999555
