## Wektorowa baza danych

**Temat:** Baza wektorowa: cosine similarity, indeks, aktualizacja.

## Zadanie 1 — Cosine similarity

In [None]:
import numpy as np
def cosine_similarity(a: np.ndarray, b: np.ndarray) -> float:
    denom = (np.linalg.norm(a) * np.linalg.norm(b)) or 1e-12  # TODO: zabezpieczenie
    return float(np.dot(a, b) / denom)
assert abs(cosine_similarity(np.array([1,0]), np.array([1,0])) - 1.0) < 1e-6


## Zadanie 2 — Prosty store i zapytanie

In [None]:
def embed(text: str) -> np.ndarray:
    words = text.split()
    return np.array([len(text), len(words), len(set(words))], dtype=float)  # TODO
class TinyVectorDB:
    def __init__(self): self.items = []
    def add(self, text: str): self.items.append((text, embed(text)))
    def query(self, q: str, top_k: int = 2):
        qv = embed(q)
        sims = [(t, float(np.dot(v, qv)/(np.linalg.norm(v)*np.linalg.norm(qv)+1e-12))) for (t, v) in self.items]
        sims.sort(key=lambda x: x[1], reverse=True)
        return sims[:top_k]
db = TinyVectorDB()
db.add("Ala ma kota i psa")
db.add("RAG łączy retrieval i generację")
db.add("Bazy wektorowe wspierają wyszukiwanie semantyczne")
print(db.query("retrieval generacja", top_k=2))


## Zadanie 3 — Update i delete

In [None]:
class TinyVectorDB2(TinyVectorDB):
    def update(self, old_text: str, new_text: str) -> bool:
        for i, (t, v) in enumerate(self.items):
            if t == old_text:
                self.items[i] = (new_text, embed(new_text))
                return True
        return False
    def delete(self, text: str) -> bool:
        for i, (t, v) in enumerate(self.items):
            if t == text:
                del self.items[i]
                return True
        return False
db2 = TinyVectorDB2()
db2.add("pierwszy wpis"); db2.add("drugi wpis")
print("Update:", db2.update("drugi wpis", "drugi wpis zaktualizowany"))
print("Delete:", db2.delete("pierwszy wpis"))
print("Pozostałe:", [t for t, _ in db2.items])
