In [2]:
import re
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import spacy
import pymupdf

def get_text(path):
    doc = pymupdf.open(path)
    text = ""
    for page in doc:
       text += page.get_text()
    return text

def clean_text(text):
    text = text.lower()                         # alles klein
    text = re.sub(r'\s+', ' ', text)            # Mehrfach-Leerzeichen entfernen
    text = re.sub(r'[^a-zA-Z\s]', '', text)     # Zahlen, Sonderzeichen raus
    text = re.sub(r'\b[a-z]\b', '', text)       # einzelne Buchstaben (z. B. „a“, „s“) entfernen
    return text.strip()

documents = [
    clean_text(get_text("data/paper_ketkar.pdf")),
    clean_text(get_text("data/paper.pdf"))
]

nlp = spacy.load("en_core_web_lg")
embeddings = np.vstack([nlp(doc).vector for doc in documents])

sim_matrix = cosine_similarity(embeddings)

print("Ähnlichkeitsmatrix (1 = identisch, 0 = keine Ähnlichkeit):")
print(sim_matrix)
print(f"\nÄhnlichkeit Dokument 0 ↔ 1: {sim_matrix[0,1]:.3f}")


Ähnlichkeitsmatrix (1 = identisch, 0 = keine Ähnlichkeit):
[[0.9999997  0.95368576]
 [0.95368576 1.0000001 ]]

Ähnlichkeit Dokument 0 ↔ 1: 0.954
