<h1>Conceito</h1>

<h2>Índice Calinski-Harabasz</h2>

O índice Calinski-Harabasz, também chamado de **critério de razão da variância** é utilizado para avaliar quão bem definido os *clusters* estão, sendo que quanto maior o valor do índice mais bem definido os *clusters* estão.

Considerando uma base de dados $E$ de tamanho $n_E$ que foi dividida em $k$ *clusters*, o índice Calinski-Harabasz $s$ é definido com a razão entre a dispersão média entre *clusters* e a dispersão dentro do *cluster*:

$\Large s = \frac{Tr(B_k)}{Tr(W_k)} \times \frac{n_E - k}{k - 1}$

onde:
- $Tr$ representa o traço de uma matriz quadrada, ou seja: a soma dos valores da diagonal principal de uma matriz quadrada.
- $W_k$ é a matriz de dispersão dentro do *cluster*, definida por:

    $\large W_k = \sum\limits_{q=1}^{k} \sum\limits_{x \in C_q} (x - c_q)(x - c_q)^T$

- $B_k$ é a matriz de dispersão entre *clusters*, definida por:

    $\large B_k = \sum\limits_{q=1}^{k} n_q (c_q - c_E)(c_q - c_E)^T$

Em que $C_q$ são os dados no *cluster* $q$, $c_q$ é o centro do *cluster* $q$, $c_E$ o centro de $E$ e $n_q$ o número de pontos no *cluster* $q$.

<h3>Vantagens</h3>

- Esse índice é maior quanto mais bem densos e bem separados os *clusters* estão, o que se relaciona aos conceeitos padrões de *cluster*.
- Esse índice é calculado rapidamente (computacionalmente).

<h3>Desvantagens</h3>

- Os valores do índice geralmente são mais altos para *clusters* convexos que para outros conceitos de *clusters*, como *clusters* baseados em densidade

<h1>Aplicação</h1>

In [1]:
import pandas as pd

from sklearn import metrics

In [2]:
valores_normalizados = pd.read_csv(r'Dados/valores_normalizados.csv', header=None).values
clusters_iniciais = pd.read_csv(r'Dados/clusters_iniciais.csv', header=None).values.ravel()

In [3]:
# Calculando o valor do índice
chs = metrics.calinski_harabasz_score(valores_normalizados, clusters_iniciais)

In [4]:
# Verificando o valor calculado
chs

3431.56646473009