In [None]:
import numpy as np
from scipy.sparse import csr_matrix
from scipy.sparse.linalg import eigsh
from sklearn.metrics.pairwise import cosine_similarity

def spectral_hashing(X, k, threshold=0.5):

In [None]:

    # Cosine similarity er bare prikprodukt mellem to vektorer divideret med produktet af deres magnituder
    # Her bruges cosine similarity som et similarity index
    similarities = cosine_similarity(X)

    # https://docs.scipy.org/doc/scipy/reference/generated/scipy.sparse.csr_matrix.html
    # Laver similarity graph for datapunkterne
    graph = csr_matrix(similarities)

    # Compute the Laplacian matrix
    # Laplace matricen udregnes ud fra similarity graph
    laplacian = graph.sum(axis=1) - graph

    # Compute the eigenvectors corresponding to the smallest eigenvalues
    # Eigenvektorer og eigenværdier udregnes ud fra laplace matricen ovenover
    # Eigenværdier + eigenvektorer er i vidensdeling
    # which='SM' angiver bare at vi vil finde de laveste eigenværdier.
    # SM står for smallest magnitudes
    eigenvalues, eigenvectors = eigsh(laplacian, k=k, which='SM')

    # Threshold sætter en grænse eller decision boundary til binær konvertering
    # Alle værdier under bliver konverteret til 0, alle værdier over bliver konvereteret til 1
    # Genererer binær kode
    binary_codes = np.sign(eigenvectors) > threshold

    return binary_codes
