[<- Anterior](../Modelos/Clustering/dbscan.ipynb) | [Próximo ->]()

# Silhouete Score

A métrica de Silhouette Score é uma métrica para avaliar o desempenho de modelos de clustering. Essa métrica se baseia em calcular a média da distância de cada dado em relação outros do mesmo cluster e dos demais clusters para verificar se um dado se encaixa bem no cluster atribuido. Assim é posivel determinar quão bem os dados estão agrupados.

**O que será abordado**

- Imports
- Dados de teste
- Modelo
- Silhouette Score

> AVISO: Temas relacionados à divisão dos dados não serão aprofundados nesse documento, porém, explicações sobre esse processo podem ser encontradas na pasta [Validacao](../Validacao/README.md)

> AVISO: Temas relacionados à criação de modelos de Clsutering não serão aprofundados nesse documento, porém, explicações sobre esse processo podem ser encontradas na pasta [Modelos/Clustering](../Modelos/Clustering/)

# Imports

In [None]:
# Import do dataset padrão para identificação de espécies de flores
from sklearn.datasets import load_iris

# Import da Classe KMeans -> Utilizada para criar o modelo de KMeans
from sklearn.cluster import KMeans

# Import da função silhouette_score -> Utilizada para utilizar a métrica de silhouette score
from sklearn.metrics import silhouette_score

# Dados de teste

Nessa seção será apresentado o dataset utilizado para desenvolver o modelo de K-Means que será criado nesse documento. Isso será feito através da criação de um dataframe Pandas que recebe um dataset padrão do scikit-learn.

In [2]:
# Obtém os dados do dataset na forma de um dataset
data = load_iris(as_frame=True).frame
data = data[['petal length (cm)', 'petal width (cm)']]
data

Unnamed: 0,petal length (cm),petal width (cm)
0,1.4,0.2
1,1.4,0.2
2,1.3,0.2
3,1.5,0.2
4,1.4,0.2
...,...,...
145,5.2,2.3
146,5.0,1.9
147,5.2,2.0
148,5.4,2.3


Explicação dos dados:    

O dataset final possui 2 colunas de Features que representam caracteristicas de um conjunto de plantas. Essas caracteristicas são:

- petal length (cm): Comprimento da Pétala medido em centimentros
- petal width (cm): Largura da Pétala medida em centimetros

# Modelo

A métrica de Silhouette Score é uma métrica utilizada para avaliar modelos de clusteriação. Portanto, seu uso depende da criação prévia de um modelo.

Essa sessão é dedicada à criação de um modelo de K-Means, que será treinado utilizando os dados de treino criados na sessão Dados de Teste.

In [3]:
# Criação de um modelo de regressão linear com o nome 'model'
model = KMeans(n_clusters = 3, n_init = 10)

# Treino do Modelo
model.fit(data)

0,1,2
,n_clusters,3
,init,'k-means++'
,n_init,10
,max_iter,300
,tol,0.0001
,verbose,0
,random_state,
,copy_x,True
,algorithm,'lloyd'


Com a execução desse processo foi criado e treinado um modelo com o nome 'model', que pode ser avaliado com a métrica de Silhouette Score.

# Silhouette Score

A avaliação com Silhouette Score pode ser feia com a função `silhouette_score()` da biblioteta scikit-learn. Essa função retorna valores entre -1 e 1 aonde valores mais próximos de 1 indicam que os dados de cada cluster estão mais distantes dos demias clusters e recebe dois parâmetros principais, sendo eles:

- **x** = Valores utilizados para encontrar os clusters.   
- **labels** = Cluster ao qual cada dado pertence.

Veja um exemplo de seu uso abaixo:

In [12]:
# Realiza previsões para medir o desempenho do modelo
score = silhouette_score(data, model.labels_)

# Exibe os dados de Precisão
print(score)

0.6604800083974887


No código acima utilizamos a função `silhouete_score()` para avaliar o modelo. Seus parâmetros são a variavel 'data', que foram os dados utilizados para treinar o modelo, isso é, foram os dados com os quais encontramos os clusters atuais e a propriedade 'labels_' do modelo, que contém um array com o cluster de cada dado.

O valor obtido foi de 0.66, que indica uma boa relação entre os dados e o numero de clusters utilizados.

O silhoutte_score pode ser utilizado em conjunto com o método do cotovelo para ajudar a determinar a quantidade ideal de clusters para modelos de clusterização. Nesses casos, a quantidade ideal de clusters é aquela em que a curva no método do cotovelo fica menos acentuada e gera scores próximos a 1.

#
[<- Anterior](../Modelos/Clustering/dbscan.ipynb) | [Próximo ->]()