Установка и импорт библиотек для семантического поиска: `sentence-transformers` — для получения текстовых эмбеддингов с помощью предобученных моделей, `faiss-cpu` — для эффективного поиска по эмбеддингам, `numpy` — для работы с массивами, `json` — для загрузки/сохранения структурированных данных.

In [None]:
!pip install -q sentence-transformers faiss-cpu

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np
import json

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.3/31.3 MB[0m [31m55.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m102.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.6/24.6 MB[0m [31m77.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m883.7/883.7 kB[0m [31m46.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m4.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Установка необходимых библиотек в среде Google Colab: `sentence-transformers` для работы с эмбеддингами текста и `faiss-cpu` для реализации быстрого поиска ближайших соседей по эмбеддингам.

In [None]:
!pip install -q sentence-transformers faiss-cpu

##Код для создания эмбендингов

Определение путей к файлам: `json_path` — путь к входному JSON-файлу с видео и хэштегами, `out_emb_path` — путь для сохранения массива эмбеддингов, `out_meta_path` — путь для сохранения сопутствующей метаинформации (например, имён файлов).

In [None]:
json_path = '/content/merged_with_tags_0_3600.json'
out_emb_path = '/content/embeddings.npy'
out_meta_path = '/content/metadata.json'

Загрузка модели `SentenceTransformer` для получения эмбеддингов текста.
Чтение входного JSON-файла и генерация эмбеддингов для каждого непустого поля `description` и `transcription`.
Для каждого эмбеддинга сохраняется соответствующая метаинформация (id, имя файла, тип поля).
Эмбеддинги сохраняются в `.npy`-файл, а метаданные — в `.json`.
Выводится статистика по обработанным и пропущенным записям.

In [None]:
from sentence_transformers import SentenceTransformer
import numpy as np
import json
from tqdm import tqdm

# Загружаем модель
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')


# Загружаем JSON
with open(json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

vectors = []
meta = []

processed = 0
skipped = 0

print(f'🔄 Обработка {len(data)} записей...')

for item in tqdm(data):
    item_id = item.get("id")
    filename = item.get("filename")

    for field in ['description', 'transcription']:
        text = item.get(field)
        if text:
            emb = model.encode(text)
            vectors.append(emb)
            meta.append({
                'id': item_id,
                'filename': filename,
                'field': field
            })
            processed += 1
        else:
            skipped += 1

# Преобразуем в numpy-массив
vectors = np.vstack(vectors)

# Сохраняем
np.save(out_emb_path, vectors)
with open(out_meta_path, 'w', encoding='utf-8') as f:
    json.dump(meta, f, ensure_ascii=False, indent=2)

print('\n✅ Готово!')
print(f'✔️ Эмбендингов сохранено: {processed}')
print(f'⚠️ Пропущено пустых полей: {skipped}')
print(f'📁 Массив сохранён в: {out_emb_path}')
print(f'📄 Метаданные сохранены в: {out_meta_path}')


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.89k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

🔄 Обработка 3581 записей...


100%|██████████| 3581/3581 [13:36<00:00,  4.39it/s]



✅ Готово!
✔️ Эмбендингов сохранено: 7162
⚠️ Пропущено пустых полей: 0
📁 Массив сохранён в: /content/embeddings.npy
📄 Метаданные сохранены в: /content/metadata.json


## Поиск

Импорт необходимых библиотек: `numpy` для работы с массивами, `json` для загрузки и сохранения данных, `faiss` для быстрого поиска по эмбеддингам,
`defaultdict` из модуля `collections` для удобного создания словарей со значениями по умолчанию, и `SentenceTransformer` для преобразования текста в эмбеддинги.

In [None]:
import numpy as np
import json
import faiss
from collections import defaultdict
from sentence_transformers import SentenceTransformer

Определение функций для загрузки данных, нормализации векторов, построения FAISS-индекса и выполнения различных стратегий поиска по эмбеддингам.

- `load_data(...)` — загружает эмбеддинги, метаданные и исходные JSON-данные.
- `normalize_vectors(...)` — нормализует эмбеддинги по L2-норме.
- `build_faiss_index(...)` — создает FAISS-индекс для поиска по косинусной близости.
- `search_description(...)` — ищет топ-k наиболее подходящих видео по эмбеддингам описаний.
- `search_combined(...)` — объединяет эмбеддинги описания и транскрипции для поиска.
- `search_transcription(...)` — ищет по эмбеддингам транскрипций.
- `search_combined_scores(...)` — объединяет результаты поиска по описанию и транскрипции, применяет порог фильтрации и возвращает отсортированный список наиболее релевантных видео.

In [None]:


def load_data(embeddings_path, metadata_path, source_json_path):
    vectors = np.load(embeddings_path)
    with open(metadata_path, 'r', encoding='utf-8') as f:
        meta = json.load(f)
    with open(source_json_path, 'r', encoding='utf-8') as f:
        source_data = json.load(f)
    return vectors, meta, source_data

def normalize_vectors(vectors):
    return vectors / np.linalg.norm(vectors, axis=1, keepdims=True)

def build_faiss_index(vectors):
    dim = vectors.shape[1]
    index = faiss.IndexFlatIP(dim)
    index.add(vectors)
    return index

def search_description(query_vector, vecs_norm, meta, source_by_filename, top_k=10):
    desc_idxs = [i for i, m in enumerate(meta) if m['field'] == 'description']
    desc_vectors = vecs_norm[desc_idxs]
    index = build_faiss_index(desc_vectors)
    scores, top_ids = index.search(query_vector, top_k)
    results = []
    for score, idx in zip(scores[0], top_ids[0]):
        real_idx = desc_idxs[idx]
        m = meta[real_idx]
        description = source_by_filename[m['filename']].get('description', '[нет description]')
        results.append({
            'score': float(score),
            'id': m['id'],
            'filename': m['filename'],
            'description': description
        })
    return results

def search_combined(query_vector, vecs_norm, meta, source_by_filename, top_k=10):
    grouped = defaultdict(dict)
    for i, m in enumerate(meta):
        grouped[m['filename']][m['field']] = i

    combined_vectors = []
    combined_meta = []

    for filename, fields in grouped.items():
        if 'description' in fields and 'transcription' in fields:
            i1 = fields['description']
            i2 = fields['transcription']
            combined = vecs_norm[i1] + vecs_norm[i2]
            combined /= np.linalg.norm(combined)
            combined_vectors.append(combined)
            combined_meta.append({
                'filename': filename,
                'id': meta[i1]['id']
            })

    combined_vectors = np.vstack(combined_vectors)
    index = build_faiss_index(combined_vectors)
    scores, top_ids = index.search(query_vector, top_k)

    results = []
    for score, idx in zip(scores[0], top_ids[0]):
        m = combined_meta[idx]
        description = source_by_filename[m['filename']].get('description', '[нет description]')
        results.append({
            'score': float(score),
            'id': m['id'],
            'filename': m['filename'],
            'description': description
        })
    return results

def search_transcription(query_vector, vecs_norm, meta, source_by_filename, top_k=10):
    trans_idxs = [i for i, m in enumerate(meta) if m['field'] == 'transcription']
    trans_vectors = vecs_norm[trans_idxs]
    index = build_faiss_index(trans_vectors)
    scores, top_ids = index.search(query_vector, top_k)
    results = []
    for score, idx in zip(scores[0], top_ids[0]):
        real_idx = trans_idxs[idx]
        m = meta[real_idx]
        description = source_by_filename[m['filename']].get('description', '[нет description]')
        transcription = source_by_filename[m['filename']].get('transcription', '[нет transcription]')
        results.append({
            'score': float(score),
            'id': m['id'],
            'filename': m['filename'],
            'description': description,
            'transcription': transcription
        })
    return results

def search_combined_scores(query_vector, vecs_norm, meta, source_by_filename, top_k=10, threshold=0.5):
    """
    Выполняет комбинированный поиск, вычисляя отдельные показатели для описания и транскрипции,
    суммируя их, применяя пороговое значение и возвращая топ-k результатов.

    Аргументы:
        query_vector: Вектор эмбеддинга запроса.
        vecs_norm: Нормализованные векторы эмбеддингов для всех полей видео.
        meta: Метаданные, связывающие эмбеддинги с именами файлов и полями.
        source_by_filename: Словарь, связывающий имена файлов с их метаданными (описание, id и т.д.).
        top_k: Количество возвращаемых результатов (по умолчанию: 10).
        threshold: Минимальный комбинированный показатель для включения результата (по умолчанию: 0.5).

    Возвращает:
        Список словарей с именем файла, комбинированным показателем, индивидуальными показателями,
        описанием, транскрипцией и id, отсортированный по комбинированному показателю.
    """
    # Шаг 1: Выполняем отдельные поиски для описания и транскрипции
    desc_results = search_description(query_vector, vecs_norm, meta, source_by_filename, top_k=1000)
    trans_results = search_transcription(query_vector, vecs_norm, meta, source_by_filename, top_k=1000)

    # Шаг 2: Собираем показатели для каждого видео в словарь
    video_scores = {}

    # Обрабатываем результаты описания
    for result in desc_results:
        filename = result['filename']
        video_scores[filename] = video_scores.get(filename, {})
        video_scores[filename]['description'] = result['score']

    # Обрабатываем результаты транскрипции
    for result in trans_results:
        filename = result['filename']
        video_scores[filename] = video_scores.get(filename, {})
        video_scores[filename]['transcription'] = result['score']

    # Шаг 3: Вычисляем комбинированные показатели и фильтруем по порогу
    combined_results = []
    for filename, scores in video_scores.items():
        score_desc = scores.get('description', 0)  # По умолчанию 0, если поле отсутствует
        score_trans = scores.get('transcription', 0)  # По умолчанию 0, если поле отсутствует
        score_combined = score_desc + score_trans

        if score_combined >= threshold:
            combined_results.append({
                'filename': filename,
                'score': score_combined,
                'score_description': score_desc,
                'score_transcription': score_trans,
                'description': source_by_filename[filename].get('description', '[Нет описания]'),
                'transcription': source_by_filename[filename].get('transcription', '[Нет транскрипции]'),
                'id': source_by_filename[filename]['id']
            })

    # Шаг 4: Сортируем по комбинированному показателю и возвращаем топ-k
    combined_results.sort(key=lambda x: x['score'], reverse=True)
    return combined_results[:top_k]

Определение путей к входным файлам: `embeddings.npy` содержит эмбеддинги текстов, `metadata.json` — метаданные по каждому эмбеддингу, `merged_with_tags_0_3600.json` — исходные данные с описаниями, транскрипциями и тегами.

In [None]:
# Пути
embeddings_path = '/content/embeddings.npy'
metadata_path = '/content/metadata.json'
source_json_path = '/content/merged_with_tags_0_3600.json'

Загрузка эмбеддингов, метаданных и исходных данных с помощью функции `load_data`.
Создание словаря `source_by_filename` для быстрого доступа к описаниям и транскрипциям по имени файла.
Нормализация эмбеддингов с помощью функции `normalize_vectors` для использования в поиске по косинусной близости.

In [None]:
from sentence_transformers import SentenceTransformer

# Загрузка данных
vectors, meta, source_data = load_data(embeddings_path, metadata_path, source_json_path)

# Карта для быстрого доступа к описанию
source_by_filename = {item['filename']: item for item in source_data}

# Нормализация векторов
vecs_norm = normalize_vectors(vectors)




Загрузка модели `SentenceTransformer` и получение эмбеддинга текстового запроса. Выполняются четыре типа семантического поиска:

1. `search_combined(...)` — поиск по сумме эмбеддингов описания и транскрипции.
2. `search_description(...)` — поиск только по эмбеддингам описания.
3. `search_transcription(...)` — поиск только по эмбеддингам транскрипции.
4. `search_combined_scores(...)` — комбинированный поиск с независимыми оценками и фильтрацией по порогу.

Результаты каждого поиска выводятся с указанием ID, имени файла и фрагмента описания/транскрипции.

In [None]:
# Загрузка модели и получение эмбендинга запроса
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')
query = "ЛГБТ"
query_vector = model.encode([query], normalize_embeddings=True)


print(f'ЗАПРОС {query}')



# Поиск по сумме description + transcription
comb_results = search_combined(query_vector, vecs_norm, meta, source_by_filename)
print("\n📌 Топ-10 по (description + transcription):")
for r in comb_results:
    print(f"\n🔸 {r['score']:.4f} | ID: {r['id']} | Файл: https://s3.ritm.media/hackaton-itmo/{r['filename']}\n📝 {r['description'][:250]}…")


# Поиск по description
desc_results = search_description(query_vector, vecs_norm, meta, source_by_filename)

print(f'ЗАПРОС {query}')
print("\n📌 Топ-10 по description:")
for r in desc_results:
    print(f"\n🔹 {r['score']:.4f} | ID: {r['id']} | Файл: https://s3.ritm.media/hackaton-itmo/{r['filename']}\n📝 {r['description'][:250]}…")
print(f'ЗАПРОС {query}')
# Поиск по transcription
trans_results = search_transcription(query_vector, vecs_norm, meta, source_by_filename)
print("\n📌 Топ-10 по transcription:")
for r in trans_results:
    print(f"\n🔻 {r['score']:.4f} | ID: {r['id']} | Файл: https://s3.ritm.media/hackaton-itmo/{r['filename']}\n📝{r['description'][:250]}… \n {r['transcription'][:250]}…\n📄 ")
print(f'ЗАПРОС {query}')
# Поиск по сумме score(description) + score(transcription)
comb_results_new = search_combined_scores(query_vector, vecs_norm, meta, source_by_filename, top_k=10, threshold=0.6)
print("\n📌 Топ-10 по (score(description) + score(transcription)) НОВЫЙ ВАРИАНТ С ПОРОГОМ И ДРУГИМ СЛОЖЕНИЕМ:")
for r in comb_results_new:
    print(f"\n🔸 Сумма: {r['score']:.4f} | Описание: {r['score_description']:.4f} | Транскрипция: {r['score_transcription']:.4f} | ID: {r['id']} | Файл: https://s3.ritm.media/hackaton-itmo/{r['filename']}\n📝 Описание: {r['description'][:250]}…\n📜 Транскрипция: {r['transcription'][:250]}…")


ЗАПРОС ЛГБТ

📌 Топ-10 по (description + transcription):

🔸 0.5325 | ID: 1764 | Файл: https://s3.ritm.media/hackaton-itmo/2cc738c8-cd19-4da2-a024-f7ddc422d80e.mp4
📝 The video opens with a close-up of an anime-style character, specifically the upper half of their face and shoulders. The character has dark hair, is wearing glasses, and is dressed in what appears to be a school uniform consisting of a white shirt w…

🔸 0.4940 | ID: 3570 | Файл: https://s3.ritm.media/hackaton-itmo/5a11cf40-8653-4f26-ae61-6db269a80dc5.mp4
📝 В начале видео показаны четыре персонажа, каждый из которых находится в своей уникальной среде. Первая пара – молодой человек и девушка - находятся на улице города; они одеты стильно: он носит куртку, а она – платье. Вторая пара – мальчик с полным те…

🔸 0.4798 | ID: 2129 | Файл: https://s3.ritm.media/hackaton-itmo/366d33bd-9434-411d-8093-74935cf1d058.mp4
📝 The video begins with a black screen displaying white text in Russian that reads, "Все мы знаем бесконечную ульту Мо