# Similirity Metrics

| Metric                                 | Use Cases                                                                                                                                                                                                                                            | Các trường hợp sử dụng                                                                                                                                                                                                                                    |
|----------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Cosine Similarity**                      | Use cosine similarity when evaluating the orientation, not magnitude, of user or item vectors in recommendation systems, making it ideal for text-based or attribute-rich data where the pattern of interest, rather than the absolute value, is indicative of user preferences.               | Sử dụng độ tương đồng cosine khi đánh giá hướng, không phải độ lớn của các vector người dùng hoặc mục trong hệ thống gợi ý, làm cho nó lý tưởng cho dữ liệu dựa trên văn bản hoặc giàu thuộc tính, nơi mô hình quan tâm, thay vì giá trị tuyệt đối, phản ánh sở thích của người dùng.               |
| **Euclidean Distance**                    | Use Euclidean Distance in evaluating recommendation systems when comparing profiles in a feature space with numerical attributes to gauge similarity based on the ‘straight-line’ distance between points (user-item pairs).                                                              | Sử dụng khoảng cách Euclid để đánh giá hệ thống gợi ý khi so sánh hồ sơ trong không gian thuộc tính với các thuộc tính số để đánh giá sự tương đồng dựa trên khoảng cách “đường thẳng” giữa các điểm (cặp người dùng - mục).                                            |
| **Jaccard Index**                          | Use the Jaccard Index when evaluating the similarity between users’ or items’ sets of preferences or choices, particularly when the data is binary and the size of the intersection relative to the union of datasets is of interest.                 | Sử dụng chỉ số Jaccard khi đánh giá sự tương đồng giữa các bộ sở thích hoặc lựa chọn của người dùng hoặc mục, đặc biệt khi dữ liệu là nhị phân và kích thước của phần giao cắt tương đối so với phần hợp của tập dữ liệu là mối quan tâm.                                        |
| **Hamming Distance**                       | Use Hamming Distance in evaluating recommendation systems when comparing binary vectors of user preferences or item attributes, typically for assessing similarity or diversity in content-based filtering or collaborative filtering with binary datasets.                               | Sử dụng khoảng cách Hamming để đánh giá hệ thống gợi ý khi so sánh các vector nhị phân về sở thích người dùng hoặc thuộc tính mục, thường để đánh giá sự tương đồng hoặc đa dạng trong bộ lọc dựa trên nội dung hoặc bộ lọc cộng tác với tập dữ liệu nhị phân.                            |
| **Manhattan Distance**                     | Use Manhattan Distance in recommendation systems when dealing with high-dimensional, sparse datasets, as it can be more robust to outliers than Euclidean distance and better at capturing differences when multiple dimensions contribute to the dissimilarity.                        | Sử dụng khoảng cách Manhattan trong hệ thống gợi ý khi làm việc với các tập dữ liệu thưa thớt, đa chiều, vì nó có thể bền bỉ hơn với các giá trị ngoại lệ so với khoảng cách Euclid và tốt hơn trong việc nắm bắt sự khác biệt khi nhiều chiều đóng góp vào sự không giống nhau.           |
| **Chebyshev Distance**                     | Use Chebyshev Distance in recommendation systems when capturing the maximum disparity across dimensions is crucial, especially in high-dimensional spaces where the most significant difference between items is the most informative for recommendations.                             | Sử dụng khoảng cách Chebyshev trong hệ thống gợi ý khi việc nắm bắt sự khác biệt tối đa giữa các chiều là rất quan trọng, đặc biệt trong không gian đa chiều, nơi sự khác biệt quan trọng nhất giữa các mục là thông tin quan trọng nhất cho các gợi ý.                                      |
| **Adjusted Cosine Similarity**             | Use Adjusted Cosine Similarity when evaluating item-based collaborative filtering systems to account for varying user ratings and reduce bias by subtracting the user’s average rating from each of their ratings before computing similarity.                                            | Sử dụng độ tương đồng cosine điều chỉnh khi đánh giá hệ thống lọc cộng tác dựa trên mục để tính đến các đánh giá khác nhau của người dùng và giảm thiểu sự thiên lệch bằng cách trừ đi xếp hạng trung bình của người dùng khỏi từng đánh giá của họ trước khi tính toán sự tương đồng.    |
| **Pearson Correlation Coefficient**        | Use Pearson Correlation in evaluating recommendation systems when assessing the linear relationship between users’ ratings, especially when the scale of ratings is important and you assume a normal distribution of the underlying data.                                                 | Sử dụng hệ số tương quan Pearson để đánh giá hệ thống gợi ý khi đánh giá mối quan hệ tuyến tính giữa các đánh giá của người dùng, đặc biệt khi thang đánh giá là quan trọng và bạn giả định sự phân phối chuẩn của dữ liệu cơ bản.                                        |
| **Spearman Rank Order Correlation Coefficient** | Use Spearman Rank Order Correlation Coefficient in recommendation systems when assessing the strength and direction of a monotonic relationship between ranked variables, particularly useful in scenarios with non-parametric, ordinal data or when evaluating the ranking quality of recommendations. | Sử dụng hệ số tương quan thứ hạng Spearman trong hệ thống gợi ý khi đánh giá độ mạnh và hướng của một mối quan hệ đơn điệu giữa các biến được xếp hạng, đặc biệt hữu ích trong các tình huống có dữ liệu không tham số, dữ liệu thứ tự hoặc khi đánh giá chất lượng xếp hạng của các gợi ý. |


## Cosine similarity

In [None]:
# Cosine Similarity
from torch.nn.functional import cosine_similarity

## Adjust cosine similarity

In [None]:
import torch.nn as nn

class AdjustedCosineSimilarity(nn.Module):
    def __init__(self):
        super(AdjustedCosineSimilarity, self).__init__()

    def forward(self, x1, x2):
        # Mean-centering the vectors
        x1_mean_centered = x1 - x1.mean(dim=1, keepdim=True)
        x2_mean_centered = x2 - x2.mean(dim=1, keepdim=True)

        # Compute cosine similarity
        similarity = F.cosine_similarity(x1_mean_centered, x2_mean_centered, dim=1)
        return similarity

## Euclidean Distance

In [None]:
import torch.nn as nn

class EuclideanDistance(nn.Module):
    def __init__(self):
        super(EuclideanDistance, self).__init__()

    def forward(self, x1, x2):
        return torch.sqrt(torch.sum((x1 - x2) ** 2, dim=1))

## Jaccard Index

In [None]:
import torch.nn as nn

class JaccardIndex(nn.Module):
    def __init__(self):
        super(JaccardIndex, self).__init__()

    def forward(self, x1, x2):
        # Ensure the vectors are binary
        x1 = torch.round(torch.sigmoid(x1))
        x2 = torch.round(torch.sigmoid(x2))

        intersection = torch.sum(torch.min(x1, x2), dim=1)
        union = torch.sum(torch.max(x1, x2), dim=1)

        # Calculate the Jaccard Index
        jaccard_index = intersection / (union + 1e-7)  # Adding a small constant to avoid division by zero
        return jaccard_index

## Hamming Distance

In [None]:
import torch.nn as nn

class HammingDistance(nn.Module):
    def __init__(self):
        super(HammingDistance, self).__init__()

    def forward(self, x1, x2):
        # Assuming x1 and x2 are binary tensors
        return torch.sum(torch.abs(x1 - x2), dim=1)

## Manhattan Distance

In [None]:
class ManhattanDistance(nn.Module):
    def __init__(self):
        super(ManhattanDistance, self).__init__()

    def forward(self, x1, x2):
        return torch.sum(torch.abs(x1 - x2), dim=1)

## Chebyshev Distance

In [None]:
class ChebyshevDistance(nn.Module):
    def __init__(self):
        super(ChebyshevDistance, self).__init__()

    def forward(self, x1, x2):
        return torch.max(torch.abs(x1 - x2), dim=1).values

## Pearson Correlation Coefficient

In [None]:
from torch.nn.functional import cosine_similarity

product1_emb_normalized = product1_emb - product1_emb.mean()
product2_emb_normalized = product2_emb - product2_emb.mean()
pearson_corr = cosine_similarity(product1_emb_normalized, product2_emb_normalized)

## Spearman Rank Order Correlation Coefficient

In [None]:
from scipy.stats import spearmanr

product1_emb = skipgram.get_center_emb(torch.LongTensor(product1_id).to(device))
product2_emb = skipgram.get_center_emb(torch.LongTensor(product2_id).to(device))

# Compute Euclidean Distance
euclidean_distance = EuclideanDistance()
euclidean_distances = euclidean_distance(product1_emb, product2_emb).detach().cpu().numpy()

# Compute Spearman rank-order correlation coefficient
spearman_corr, _ = spearmanr(euclidean_distances, val_samp['edge'])