In [17]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import numpy as np

# Load model
model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

# Load data with precomputed embeddings (make sure it's a pickled DataFrame)
df = pd.read_pickle("../data/laws_with_embeddings.pkl")

# Embed a query
query = "Pět let odnětí svobody"
query_vec = model.encode([query])

# Convert stored embeddings to numpy array
embeddings = np.vstack(df["embedding"].apply(np.array))

# Compute cosine similarity
similarities = cosine_similarity(query_vec, embeddings)[0]

# Get top 5 matches
df["score"] = similarities
top_matches = df.sort_values("score", ascending=False).head(5)

# Show top results
print(top_matches[["Law", "Paragraph", "score"]])

                        Law                                       Paragraph  \
287         Trestní zákoník  § 168 odst. 4, 5, zbavení osobní svobody podle   
4311  Trestní zákon (starý)        § 231 odst. 3), zbavení osobní svobody (   
7221          Trestní zákon                 § 197, zbavení osobní svobody (   
992         Trestní zákoník        § 168 odst. 2 a zbavení osobní svobody (   
950         Trestní zákoník                § 168), zbavení osobní svobody (   

         score  
287   0.729973  
4311  0.688263  
7221  0.686965  
992   0.684573  
950   0.671728  
