# Métodos de Cálculo de Distância

Muitos algoritmos de Machine Learning (como KNN, K-Means, etc.) dependem de uma métrica de distância para quantificar a similaridade ou dissimilaridade entre pontos de dados. A escolha da métrica correta pode impactar significativamente o desempenho do modelo.

Vamos explorar as métricas mais comuns usando dois vetores de exemplo.

In [3]:
import numpy as np
from scipy.spatial import distance

# Dois vetores de exemplo no espaço 2D
p1 = np.array([1, 2])
p2 = np.array([5, 5])

print(f"Ponto 1: {p1}")
print(f"Ponto 2: {p2}")
print("-"*30)

Ponto 1: [1 2]
Ponto 2: [5 5]
------------------------------


### 1. Distância Euclidiana

A distância "em linha reta" entre dois pontos. É a mais intuitiva.
$$ d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2} $$

In [4]:
dist_euclidiana = distance.euclidean(p1, p2)
print(f"Distância Euclidiana: {dist_euclidiana:.4f}")

Distância Euclidiana: 5.0000


### 2. Distância de Manhattan (City Block)

A distância percorrida se você só puder se mover em ângulos retos (como em um quarteirão de cidade).
$$ d(p, q) = \sum_{i=1}^{n} |p_i - q_i| $$

In [5]:
dist_manhattan = distance.cityblock(p1, p2)
print(f"Distância de Manhattan: {dist_manhattan:.4f}")

Distância de Manhattan: 7.0000


### 3. Distância de Minkowski

Uma generalização das distâncias Euclidiana e de Manhattan.
$$ d(p, q) = (\sum_{i=1}^{n} |p_i - q_i|^p)^{1/p} $$
- Se `p=1`, é a distância de Manhattan.
- Se `p=2`, é a distância Euclidiana.

In [6]:
# Minkowski com p=1 (Manhattan)
dist_minkowski_1 = distance.minkowski(p1, p2, p=1)
print(f"Distância de Minkowski (p=1): {dist_minkowski_1:.4f}")

# Minkowski com p=2 (Euclidiana)
dist_minkowski_2 = distance.minkowski(p1, p2, p=2)
print(f"Distância de Minkowski (p=2): {dist_minkowski_2:.4f}")

# Minkowski com p=3
dist_minkowski_3 = distance.minkowski(p1, p2, p=3)
print(f"Distância de Minkowski (p=3): {dist_minkowski_3:.4f}")

Distância de Minkowski (p=1): 7.0000
Distância de Minkowski (p=2): 5.0000
Distância de Minkowski (p=3): 4.4979


### 4. Distância de Chebyshev

É o valor máximo absoluto da diferença entre as coordenadas dos vetores.
$$ d(p, q) = \max_i(|p_i - q_i|) $$

In [7]:
dist_chebyshev = distance.chebyshev(p1, p2)
print(f"Distância de Chebyshev: {dist_chebyshev:.4f}")

Distância de Chebyshev: 4.0000


### 5. Distância de Cosseno

Mede o cosseno do ângulo entre dois vetores. É muito usada para medir a similaridade de orientação, ignorando a magnitude. Útil em PLN (Processamento de Linguagem Natural).

A **similaridade** de cosseno é: $ \frac{p \cdot q}{||p|| \cdot ||q||} $. A **distância** é $1 - similaridade$.

In [8]:
p3 = np.array([1, 10])
p4 = np.array([2, 20]) # Mesma direção, magnitude diferente
p5 = np.array([10, 1]) # Direção diferente

dist_cosseno_1_2 = distance.cosine(p3, p4)
dist_cosseno_1_3 = distance.cosine(p3, p5)

print(f"Distância de Cosseno entre [1, 10] e [2, 20]: {dist_cosseno_1_2:.4f} (Muito similares)")
print(f"Distância de Cosseno entre [1, 10] e [10, 1]: {dist_cosseno_1_3:.4f} (Muito diferentes)")

Distância de Cosseno entre [1, 10] e [2, 20]: 0.0000 (Muito similares)
Distância de Cosseno entre [1, 10] e [10, 1]: 0.8020 (Muito diferentes)


### 6. Distância Geodésica

Não é uma distância em um espaço vetorial plano, mas sim a **distância do caminho mais curto entre dois pontos em uma superfície curva**, como a superfície da Terra. O cálculo é mais complexo e depende da geometria da superfície. Não tem uma implementação simples em `scipy.spatial` para vetores genéricos.

### 7. Distância de Mahalanobis

É uma medida de distância que leva em consideração a **correlação** entre as variáveis. Ela mede a distância de um ponto à média de uma distribuição de dados, ajustada pela covariância dessa distribuição. É útil para detectar outliers.

$$ D_M(x) = \sqrt{(x - \mu)^T S^{-1} (x - \mu)} $$

In [9]:
# Criando um conjunto de dados para calcular a covariância
np.random.seed(0)
X = np.random.rand(100, 2)
Sx = np.cov(X, rowvar=False)
Sx_inv = np.linalg.inv(Sx)

# Pontos para comparar
ponto_a = [0.5, 0.5]
ponto_b = [0.1, 0.9]

dist_mahalanobis = distance.mahalanobis(ponto_a, ponto_b, Sx_inv)
print(f"Distância de Mahalanobis: {dist_mahalanobis:.4f}")

Distância de Mahalanobis: 1.9204
