<a href="https://colab.research.google.com/github/luizleroy/treinamentos/blob/develop/clustering/hierarchicalCluster.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introdução a Clusterização

**A principal ferramenta visual, que utilizaremos para validar a nossa Clusterização das causas de interrupções na rede de distribuição, será o Dendrograma**

## Dendrograma
Fonte [texto do Minitab](https://support.minitab.com/pt-br/minitab/18/help-and-how-to/modeling-statistics/multivariate/how-to/cluster-observations/interpret-the-results/all-statistics-and-graphs/dendrogram/#:~:text=O%20dendrograma%20%C3%A9%20um%20diagrama,em%20seus%20n%C3%ADveis%20de%20similaridade.)

O dendrograma é um diagrama de árvore que exibe os grupos formados por agrupamento de observações em cada passo e em seus níveis de similaridade. O nível de similaridade é medido ao longo do eixo vertical (alternativamente, você pode exibir o nível de distância) e as diferentes observações são listadas ao longo do eixo horizontal.

Interpretação
Use o dendrograma para visualizar como os agrupamentos são formados em cada passo e para avaliar os níveis de similaridade (ou distância) dos agrupamentos que são formados.

Para exibir os níveis de similaridade (ou distância), mantenha seu ponteiro sobre uma linha horizontal no dendrograma. O padrão de como a similaridade ou os valores de distância mudam de um passo para outro pode ajudar a escolher o agrupamento final dos seus dados. O passo onde os valores mudam abruptamente podem identificar um bom ponto para definir o agrupamento final.

A decisão sobre o agrupamento final também é chamada corte do dendrograma. O corte do dendrograma é similar ao desenho de uma linha por todo o dendrograma para especificar o agrupamento final. Você também pode comparar os dendrogramas a agrupamentos finais diferentes para determinar qual agrupamento final faz mais sentido para os dados.

In [2]:
import pandas as pd
import numpy as np

In [3]:
from google.colab import files
import subprocess

# Input e análise inicial

**Notebook** destinado a ilustrar a base do processo de clusterização e sua exibição via, como exemplo, um Dendrograma. 

In [4]:
# TODO é necessário modificar de acordo com o arquivo que deseja anaisar
file = 'base.csv'
# file = 'volume.csv'
# file = 'estadosBR.csv'
proc=subprocess.Popen('ls ' + file, shell=True, stdout=subprocess.PIPE, )
output=proc.communicate()[0]

**Realizar upload de arquivo no formato CSV e com nome *base.csv*.**

In [5]:
if not output:
  uploaded = files.upload()
  for fn in uploaded.keys():
    print('User uploaded file "{name}" with length {length} bytes'.format(
        name=fn, length=len(uploaded[fn])))

KeyboardInterrupt: ignored

In [None]:
df = pd.read_csv(file, encoding='latin-1', sep=',')
df = df.set_index('label')
df

In [None]:
df.describe()

In [None]:
base = df.values

Base para realizar uma análise de espalhamento simples:

In [None]:
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering

In [None]:
hc = AgglomerativeClustering(linkage = 'ward')
previsoes = hc.fit_predict(base)
previsoes


In [None]:
plt.scatter(base[previsoes == 0, 0], base[previsoes == 0, 1], s = 50, c = 'black', label = 'Cluster M')
plt.scatter(base[previsoes == 1, 0], base[previsoes == 1, 1], s = 50, c = 'orange', label = 'Cluster N')
plt.xlabel(df.columns[0])
plt.ylabel(df.columns[1])
plt.legend()

# Transformação do tipo *StandardScaler*

Transformando estatisticamente os dados...

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()
transform = scaler.fit_transform(base)
transform

In [None]:
pd.DataFrame(transform).describe()

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage

In [None]:
link = linkage(transform, method = 'ward')
link

In [None]:
dendrogram(link, leaf_rotation=90, leaf_font_size=8, labels=df.index)
#dendrograma = dendrogram(link)
plt.title('Dendrograma')
plt.ylabel('Distância Euclidiana ''Transformada''')

In [None]:
base



---



In [None]:
hc = AgglomerativeClustering(n_clusters = 3, linkage = 'ward')
# hc = AgglomerativeClustering(n_clusters = 2, linkage = 'ward')
previsoes = hc.fit_predict(transform)
previsoes

In [None]:
plt.scatter(base[previsoes == 0, 0], base[previsoes == 0, 1], s = 50, c = 'green', label = 'Cluster 1')
plt.scatter(base[previsoes == 1, 0], base[previsoes == 1, 1], s = 50, c = 'red', label = 'Cluster 2')
plt.scatter(base[previsoes == 2, 0], base[previsoes == 2, 1], s = 50, c = 'blue', label = 'Cluster 3')
# plt.scatter(base[previsoes == 0, 0], base[previsoes == 0, 1], s = 50, c = 'red', label = 'Cluster 1')
# plt.scatter(base[previsoes == 1, 0], base[previsoes == 1, 1], s = 50, c = 'green', label = 'Cluster 2')
plt.xlabel(df.columns[0])
plt.ylabel(df.columns[1])
plt.legend()  

# TODO: Análise final apenas para dados em *base.csv*

Estudo de colaboradores de idade abaixo de 60 anos

In [None]:
# base = np.array([[20,100],[20,1000],[21,2900],[27,2200]
#                 ,[30,150],[32,5900],[37,11050],[39,4100],[39,7000]
#                 ,[41,5100],[45,250],[46,9000],[48,16500]
#                 ,[52,15000],[53,150],[53,1950],[55,20000]
#                  ])

In [None]:
# scaler = StandardScaler()
# transform = scaler.fit_transform(base)

In [None]:
# link = linkage(transform, method = 'ward')
# link

In [None]:
# dendrograma = dendrogram(link)
# plt.title('Dendrograma para maior cluster')
# plt.xlabel('Pessoas')
# plt.ylabel('Distância Euclidiana ''Transformada''')