<h1>Conceito</h1>

<h2>Coeficiente de Silhouette</h2>

O coeficiente de Silhouette é utilizado para avaliar quão bem definido estão os *clusters* de um modelo.

Ele é composto de duas medidas:

- $a$: A média da distância entre uma amostra e todos os outros pontos **no mesmo *cluster***
- $b$: A média da distância entre uma amostra e todos os outros pontos **no *cluster* mais próximo**

E para uma **única entrada** pode ser calculado como:

$\Large s = \frac{b - a}{\max(a,b)}$

**Para uma amostra inteira ele é calculado como a média do coeficiente para cada amostra.**

<h3>Vantagens</h3>

- O coeficiente de Silhouette tem o seu valor entre -1 e 1, sendo que -1 representa uma *clusterização* incorreta e 1 uma *clusterização* de alta densidade. Valores próximos de 0 indicam *clusters* sobrepostos.
- O valor é maior quanto mais denso e mais bem separados os clusters estão, o que se correlaciona bem com os conceitos padrões de *cluster*

<h3>Desvantagens</h3>

- O coeficiente de Silhouette normalmente tem valores mais altos para *clusters* convexos, portanto pode ser interessante utilizar outro critério para avaliar *clusters* não convexos

<h1>Aplicação</h1>

In [1]:
import pandas as pd

from sklearn import metrics

In [14]:
valores_normalizados = pd.read_csv(r'Dados/valores_normalizados.csv', header=None).values
clusters_iniciais = pd.read_csv(r'Dados/clusters_iniciais.csv', header=None).values.ravel()

In [15]:
# Calculando o coeficiente de silhouette
silhouette = metrics.silhouette_score(valores_normalizados, clusters_iniciais, metric='euclidean')

In [16]:
# Verificando o valor:
silhouette

0.36465840431968954