<h1>Conceito</h1>

<h2>Índice Davies-Bouldin</h2>

Esse índice é definido como a similaridade média entre cada *cluster* $C_i$ para $i = 1,...,k$ e o seu *cluster* mais similar $C_j$. No contexto deste índice, similaridade é definida como uma medida $R_{ij}$ que considera:

- $s_i$, a distância média entre cada ponto do *cluster* $i$ ao centróide deste *cluster* - também conhecida como diâmetro do *cluster*
- $d_{ij}$, a distância entre os contróides dos *clusters* $i$ e $j$

A similaridade é definida, de maneira simétrica e não negativa, como:

$\Large R_{ij} = \frac{s_i + s_j}{d_{ij}}$

O índice de Davies-Bouldin então é definido como:

$\large DB = \frac{1}{k} \sum\limits_{i=1}^{k} \max\limits_{i \ne j} R_{ij}$

**Quanto menor o valor de $DB$, mais bem separados os *clusters* estão**

<h3>Vantagens</h3>

- Requer menos esforço computacional que o coeficiente de Silhouette
- O índice é somente baseado em quantias e características inerentes ao dataset, já que sua computação usa apenas distância entre pontos

<h3>Desvantagens</h3>

- Os valores do índice geralmente são mais altos para *clusters* convexos que para outros conceitos de *clusters*, como *clusters* baseados em densidade
- O uso de distâncias ao centróide limita a métrica de distância ao espaço Euclidiano

<h1>Aplicação</h1>

In [1]:
import pandas as pd

from sklearn import metrics

In [2]:
valores_normalizados = pd.read_csv(r'Dados/valores_normalizados.csv', header=None).values
clusters_iniciais = pd.read_csv(r'Dados/clusters_iniciais.csv', header=None).values.ravel()

In [3]:
# Calculando o índice de Davies-Bouldin
dbs = metrics.davies_bouldin_score(valores_normalizados, clusters_iniciais)

In [4]:
# Verificando o valor
dbs

1.0748555512679183