<h3>Agrupamento de Dados</h3>

Definindo similaridade entre objetos

- Grau de Similaridade: $d(Xi,Xj)$ é máxima
    - Ex: quanto mais amigos em uma rede social, mais fácil das pessoas serem próximas

- Grau de Dissimilaridade: $d(Xi,Xj)$ é mínima
    - Ex: quanto mais próximas duas cidades, a distância tende a zero (distância Euclidiana)

<h3>Equações de Agrupamento para dados Quantitativos</h3>

- Grau de dissimilaridade:
    - Distância Euclidiana: D = sqrt(sum((x-y)^2)) -> [0,+inf)
    - Distância de Mincowski: D = (sum(abs((x-y))^p))^(1/p) -> [0,+inf)

- Grau de similaridade:
    - Cosseno: D = sum(x*y)/(sqrt(sum(x^2))*sqrt(sum(y^2))) -> \[0,1\]
    - Pearson: D = sum((x-mean(x))*(y-mean(y)))/(sqrt(sum((x-mean(x))^2))*sqrt(sum((y-mean(y))^2))) -> \[-1,1\]

<h3>Métricas de Distância</h3>

- Dados Nominais
    - Similaridade: s = 1 if p == q else s = 0
    - Dissimilaridade: s = 0 if p == q else s = 1

- Dados Ordinais
    - Similaridade: s = 1 - abs(p - q)/(n - 1)
    - Dissimilaridade: s = abs(p - q)/(n - 1)

<h3>Tipos de Agrupamentos de Dados</h3>

- Particionamento em Clusters
    - A // B // C

- Particionamento em Clusters Hierárquico
    - C : B : A
    - Gera n subdivisões em Dendogramas (árvore de herança)

<h3>Representações dos grupos</h3>

- Hiperplanos
- Conjuntos
- Matriz de probabilidades
- Dendograma (árvore de herança)

<h3>Etapas do Agrupamento de Dados</h3>

- Seleção de Atributos

- Medida de Proximidade

- Critério de clusterização

- Algoritmo de clusterização

- Validação dos Resultados

- Interpretação dos Resultados

<h3>Método K-Means</h3>

- Simples

- Fácil de Interpretar

- Eficiência Computacional



<h3>Aplicando K-Means</h3>

- Selecione k pontos como centroides iniciais

- Iterar até que os centroides não mudem
    - Associar os pontos dos k-grupos ao centroide mais próximo (geralmente distância euclidiana)
        - Que tal usar lógica de Fuzzy?
    - Calcule o centroide de cada grupo obtido

*** Método da massa de pão (dividir em n massas de pão, com tamanhos variáveis)

<h3>Inicilização do K-Means</h3>

- Algoritmo sensível à posição inicial das sementes

- Importante rodar o algoritmo várias vezes para obter resultados consistentes

<h3>Elbow Method</h3>

- Analisa o melhor valor de k, calculando a distância média dos pontos dentro de um cluster até o seu centróide
- Within-Cluster Sum of Squares (WSS)
- WCSS pode ser entendida como uma medida de compactação
- O melhor número de clusters é dado na 'curva do cotovelo', quando há uma mudança brusca no valor do WCSS

<h3>Problemas do K-Means</h3>

- Bastante sensível a clusters de diferentes tamanhos

- Bastante sensível a clusters de diferentes densidades

- Susceptível a problemas onde há clusters de diferentes formatos (geralmente não globulares)

<h3>K-Means usando clusters Não Globulares</h3>

- Deve-se usar o WCSS simple (mínimas distâncias entre clusters)

<h3>Agrupamento Hierárquico</h3>

- Verifica-se a distância entre todos os pontos de um dado conjunto
    - Ex: X = \[(1,2),(1,5),(4,8),...\]
        - Faz-se D(X\[0\],X\[1\]), D(X\[0\],X\[2\]),...

In [38]:
X = [(3,2),(4,5),(4,7),(2,7),(6,6),(7,7),(6,4)]

Dist = {}

for i in X:
    for j in X:

        if X.index(i) == X.index(j) or X.index(j) < X.index(i):
            continue

        dist = round(( ((i[0]-j[0])**2) + ((i[1]-j[1])**2) )**(0.5),2)
        Dist['D{0}{1}'.format(X.index(i),X.index(j))] = dist

for item in sorted(Dist, key = Dist.get):
    print(item,Dist[item])

D45 1.41
D12 2.0
D23 2.0
D46 2.0
D14 2.24
D16 2.24
D24 2.24
D13 2.83
D25 3.0
D01 3.16
D56 3.16
D06 3.61
D15 3.61
D26 3.61
D34 4.12
D04 5.0
D35 5.0
D36 5.0
D02 5.1
D03 5.1
D05 6.4


<h3>Agrupamento Hierárquico - Distância entre Clusters</h3>

Métodos:

- Mínima distância (single linkage)

- Máxima distância (complete linkage)

- Média dos grupos

- Distância entre centroides

- Outros métodos que usam uma função objetivo

- Método de Ward, usa o erro quadrático médio -> geralmente o melhor método
    - $d(C_i,C_j) = SS_{ij} - (SS_i + SS_j)$

<h3>Avaliando Agrupamentos</h3>

- Índice Externo
    - Rótulos dos objetos conhecidos
    - Queremos avaliar se os cluesters correspondem aos grupos originais
    - Ex: Medidas de Entropia

- Índice Interno
    - Usado para avaliar um agrupamento sem usar informações externas
    - Ex: soma do erro quadrático

- Índice relativo
    - Usado para comparar agrupamentos ou grupos
    - Ex: índices internos ou externos são usados para esse fim

- Matriz de similaridade
    - Inspeção visual após o agrupamento

<h3>Pureza</h3>

- mede o quão puro é cada cluster (0~1)

- Utiliza o maior valor no intervalo, dividido pelo número de elementos

In [6]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import numpy as np
np.random.seed(201)
import numpy as np
import matplotlib.pyplot as plt
# create blobs
c = [(-2,1),(0,0),(4,6),(5,1),(6,12)]
n=300
data = make_blobs(n_samples=n, n_features=2, centers=c, cluster_std=1, random_state=50)
X = data[0]
labels = data[1]
plt.scatter(X[:,0], X[:,1], c=labels, cmap='viridis', s=50, alpha=0.9)
plt.show(True)

ModuleNotFoundError: No module named 'matplotlib'