## Создание и хранение embedding-векторов

Задача: Создать таблицу с колонкой типа VECTOR(dimensions) для хранения embedding-векторов (например, размерность 1536 для моделей OpenAI).

Добавить несколько записей с векторами и проверить, как PostgreSQL хранит и отображает эти данные.

Цель: понять, как устроен тип данных VECTOR и как с ним работать в SQL.

Пример:

sql
CREATE TABLE items (
id SERIAL PRIMARY KEY,
title TEXT,
embedding VECTOR(1536)
);
INSERT INTO items (title, embedding) VALUES
('Example 1', '[0.1, -0.8, 0.45, ...]'), 
('Example 2', '[0.42, 0.18, -0.35, ...]');

## Поиск ближайших соседей (nearest neighbor search)

Задача: Реализовать поиск элементов, embedding-которые наиболее близки к заданному вектору.

Использовать встроенные операторы расстояний: Евклидово расстояние (<->), косинусное расстояние (<=>) и внутренний продукт (<#>).

Сделать SQL-запрос, который находит, например, 5 ближайших соседей по embedding.

Цель: научиться использовать операторы векторного поиска и индексировать векторы.

Пример:

sql
SELECT id, title
FROM items
ORDER BY embedding <-> '[0.12, -0.82, 0.44, ...]'
LIMIT 5;

## Добавление и использование индексов для ускорения поиска

Задача: Создать индексы типа ivfflat или hnsw на колонку с векторами, чтобы ускорить поиск ближайших соседей.

Проверить скорость выполнения запросов с и без индекса на больших наборах данных.

Цель: понять, как работать с индексами в pgvector, их настройками и ограничениями.

Пример создания индекса:

sql
CREATE INDEX ON items USING ivfflat (embedding vector_l2_ops) WITH (lists = 100);

## Реализация рекомендательной системы

Задача: На основе векторных представлений товаров реализовать рекомендации похожих товаров.

Пользователь выбирает один товар — нужно найти и вернуть список других товаров с наиболее похожими embedding.

Цель: отработать полный цикл: получение embedding, сохранение, поиск и выдача рекомендаций.

Можно усложнить, добавив дополнительную фильтрацию по категориям или цене.

## Семантический поиск по тексту с использованием embedding

Задача: Создать базу знаний, где документы хранятся вместе с embedding их содержимого.

При поисковом запросе текст переводится в embedding через внешнюю модель (OpenAI, HuggingFace), после чего выполняется поиск ближайших документов по векторному сходству в pgvector.

Цель: реализовать простой RAG (retrieval-augmented generation) или semantic search MVP с минимальной архитектурой.

Можно написать Python-скрипт для вычисления embedding и записи/поиска в базе.

## Кластеризация и анализ embedding в базе

Задача: Использовать pgvector для выборки embedding, последующего кластерного анализа (например, DBSCAN) на стороне клиента или в интеграции с PL/Python.

Цель: понимать возможности pgvector для аналитики векторных данных.

## Обработка мультимодальных данных

Задача: хранение и поиск embedding для изображений, текста и аудио в одной базе с помощью pgvector.

Реализовать поиск по нескольким видам embedding, сравнивая их и объединяя результаты.

In [2]:
import psycopg2

conn = psycopg2.connect(
    dbname="egamedb",
    user="admin",
    password="admin",
    host="localhost",
    port="5432"
)
print("Соединение установлено!")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc2 in position 61: invalid continuation byte