# Прекод

# Сборный проект-4

Вам поручено разработать демонстрационную версию поиска изображений по запросу.

Для демонстрационной версии нужно обучить модель, которая получит векторное представление изображения, векторное представление текста, а на выходе выдаст число от 0 до 1 — покажет, насколько текст и картинка подходят друг другу.

### Описание данных

Данные доступны по [ссылке](https://code.s3.yandex.net/datasets/dsplus_integrated_project_4.zip).

В файле `train_dataset.csv` находится информация, необходимая для обучения: имя файла изображения, идентификатор описания и текст описания. Для одной картинки может быть доступно до 5 описаний. Идентификатор описания имеет формат `<имя файла изображения>#<порядковый номер описания>`.

В папке `train_images` содержатся изображения для тренировки модели.

В файле `CrowdAnnotations.tsv` — данные по соответствию изображения и описания, полученные с помощью краудсорсинга. Номера колонок и соответствующий тип данных:

1. Имя файла изображения.
2. Идентификатор описания.
3. Доля людей, подтвердивших, что описание соответствует изображению.
4. Количество человек, подтвердивших, что описание соответствует изображению.
5. Количество человек, подтвердивших, что описание не соответствует изображению.

В файле `ExpertAnnotations.tsv` содержатся данные по соответствию изображения и описания, полученные в результате опроса экспертов. Номера колонок и соответствующий тип данных:

1. Имя файла изображения.
2. Идентификатор описания.

3, 4, 5 — оценки трёх экспертов.

Эксперты ставят оценки по шкале от 1 до 4, где 1 — изображение и запрос совершенно не соответствуют друг другу, 2 — запрос содержит элементы описания изображения, но в целом запрос тексту не соответствует, 3 — запрос и текст соответствуют с точностью до некоторых деталей, 4 — запрос и текст соответствуют полностью.

В файле `test_queries.csv` находится информация, необходимая для тестирования: идентификатор запроса, текст запроса и релевантное изображение. Для одной картинки может быть доступно до 5 описаний. Идентификатор описания имеет формат `<имя файла изображения>#<порядковый номер описания>`.

В папке `test_images` содержатся изображения для тестирования модели.

## 1. Исследовательский анализ данных

Наш датасет содержит экспертные и краудсорсинговые оценки соответствия текста и изображения.

В файле с экспертными мнениями для каждой пары изображение-текст имеются оценки от трёх специалистов. Для решения задачи вы должны эти оценки агрегировать — превратить в одну. Существует несколько способов агрегации оценок, самый простой — голосование большинства: за какую оценку проголосовала большая часть экспертов (в нашем случае 2 или 3), та оценка и ставится как итоговая. Поскольку число экспертов меньше числа классов, может случиться, что каждый эксперт поставит разные оценки, например: 1, 4, 2. В таком случае данную пару изображение-текст можно исключить из датасета.

Вы можете воспользоваться другим методом агрегации оценок или придумать свой.

В файле с краудсорсинговыми оценками информация расположена в таком порядке:

1. Доля исполнителей, подтвердивших, что текст **соответствует** картинке.
2. Количество исполнителей, подтвердивших, что текст **соответствует** картинке.
3. Количество исполнителей, подтвердивших, что текст **не соответствует** картинке.

После анализа экспертных и краудсорсинговых оценок выберите либо одну из них, либо объедините их в одну по какому-то критерию: например, оценка эксперта принимается с коэффициентом 0.6, а крауда — с коэффициентом 0.4.

Ваша модель должна возвращать на выходе вероятность соответствия изображения тексту, поэтому целевая переменная должна иметь значения от 0 до 1.


In [None]:
# ===============================
# 0. Импорты и установка устройства
# ===============================
import os
from pathlib import Path
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from math import sqrt
from tqdm import tqdm

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader, random_split

from torchvision import models, transforms
from PIL import Image

from transformers import BertTokenizer, BertModel

from sklearn.model_selection import GroupShuffleSplit

import optuna

# Устанавливаем устройство (GPU, если доступно)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Используемое устройство:", device)

In [None]:
# ===============================
# 1. Загрузка и предобработка данных
# ===============================

# Задайте путь к данным (отредактируйте этот путь под свои данные)
data_dir = Path(r'C:\Users\Deвайс\ML\to_upload')  # например, r'C:\Users\Deвайс\ML\to_upload'

# Загрузка обучающего набора с описаниями
train_df = pd.read_csv(data_dir / "train_dataset.csv")
print("Train dataset (первые 5 строк):")
print(train_df.head())

# Загрузка краудсорсинговых аннотаций
crowd_df = pd.read_csv(
    data_dir / "CrowdAnnotations.tsv",
    sep="\t", header=None,
    names=["image_file", "query_id", "score", "yes", "no"]
)
print("Crowd annotations (первые 5 строк):")
print(crowd_df.head())

# Загрузка экспертных аннотаций
expert_df = pd.read_csv(
    data_dir / "ExpertAnnotations.tsv",
    sep="\t", header=None,
    names=["image_file", "query_id", "ex1", "ex2", "ex3"]
)
print("Expert annotations (первые 5 строк):")
print(expert_df.head())

# Загрузка тестовых запросов
test_queries_df = pd.read_csv(
    data_dir / "test_queries.csv",
    sep="|", header=None,
    names=["query_id", "query_text", "image"],
    skiprows=1
)
print("Test queries (первые 5 строк):")
print(test_queries_df.head())


In [None]:
# Функция для фильтрации «проблемного» контента (например, связанного с детьми)
child_keywords = ['child', 'baby', 'kid', 'toddler', 'teenager', 'girls', 'boys']
def contains_child_keywords(text):
    if pd.isna(text):
        return False
    return any(keyword in text.lower() for keyword in child_keywords)

# Отфильтруем обучающий датасет (убираем строки с child-related контентом)
filtered_train_df = train_df[~train_df["query_text"].apply(contains_child_keywords)].reset_index(drop=True)
print("Filtered train dataset (без запрещённого контента):", filtered_train_df.shape)

In [None]:
# Аггрегация экспертных оценок (используем голосование большинства)
def aggregate_expert(row):
    ratings = [row["ex1"], row["ex2"], row["ex3"]]
    # Если минимум два рейтинга совпадают, возвращаем их значение, иначе NaN
    from collections import Counter
    count = Counter(ratings)
    most_common, cnt = count.most_common(1)[0]
    return most_common if cnt >= 2 else np.nan

expert_df["final_expert"] = expert_df.apply(aggregate_expert, axis=1)

# Аггрегация краудсорсинговых оценок: доля положительных голосов
crowd_df["crowd_score"] = crowd_df["yes"] / (crowd_df["yes"] + crowd_df["no"])

# Объединяем экспертные и краудсорсинговые оценки (например, вес экспертов = 0.6, крауд = 0.4)
merged_scores = pd.merge(
    expert_df[["image_file", "query_id", "final_expert"]],
    crowd_df[["image_file", "query_id", "crowd_score"]],
    on=["image_file", "query_id"],
    how="inner"
)
merged_scores["final_score"] = 0.6 * merged_scores["final_expert"] + 0.4 * merged_scores["crowd_score"]
# Нормализуем в [0,1]
min_val, max_val = merged_scores["final_score"].min(), merged_scores["final_score"].max()
merged_scores["final_score_norm"] = (merged_scores["final_score"] - min_val) / (max_val - min_val)

# Объединяем с описаниями из filtered_train_df
# Предполагаем, что столбцы для объединения: "image" и "query_id"
filtered_train_df = filtered_train_df.rename(columns={"image": "image_file"})
merged_df = pd.merge(filtered_train_df, merged_scores[["image_file", "query_id", "final_score_norm"]],
                     on=["image_file", "query_id"], how="inner")
print("Merged training dataset shape:", merged_df.shape)


In [None]:
merged_df

## 2. Проверка данных

В некоторых странах, где работает ваша компания, действуют ограничения по обработке изображений: поисковым сервисам и сервисам, предоставляющим возможность поиска, запрещено без разрешения родителей или законных представителей предоставлять любую информацию, в том числе, но не исключительно тексты, изображения, видео и аудио, содержащие описание, изображение или запись голоса детей. Ребёнком считается любой человек, не достигший 16 лет.

В вашем сервисе строго следуют законам стран, в которых работают. Поэтому при попытке посмотреть изображения, запрещённые законодательством, вместо картинок показывается дисклеймер:

> This image is unavailable in your country in compliance with local laws
>

Однако у вас в PoC нет возможности воспользоваться данным функционалом. Поэтому все изображения, которые нарушают данный закон, нужно удалить из обучающей выборки.

## 3. Векторизация изображений

Перейдём к векторизации изображений.

Самый примитивный способ — прочесть изображение и превратить полученную матрицу в вектор. Такой способ нам не подходит: длина векторов может быть сильно разной, так как размеры изображений разные. Поэтому стоит обратиться к свёрточным сетям: они позволяют "выделить" главные компоненты изображений. Как это сделать? Нужно выбрать какую-либо архитектуру, например ResNet-18, посмотреть на слои и исключить полносвязные слои, которые отвечают за конечное предсказание. При этом можно загрузить модель данной архитектуры, предварительно натренированную на датасете ImageNet.

In [None]:
# ===============================
# 2. Векторизация изображений и текстов
# ===============================

# Загрузка модели ResNet18 с использованием новых весов
resnet18 = models.resnet18(weights=models.ResNet18_Weights.IMAGENET1K_V1)

# Убираем последний полностью связанный слой
resnet18 = nn.Sequential(*list(resnet18.children())[:-1])

resnet18.eval().to(device)

# Преобразования для изображений
image_transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

def extract_image_features(img_path):
    try:
        img = Image.open(img_path).convert("RGB")
    except Exception as e:
        print(f"Ошибка при загрузке изображения {img_path}: {e}")
        return None
    img_tensor = image_transform(img).unsqueeze(0).to(device)
    with torch.no_grad():
        features = resnet18(img_tensor)
    # Приводим к вектору
    features = features.view(-1)
    return features.cpu().numpy()

## 4. Векторизация текстов

Следующий этап — векторизация текстов. Вы можете поэкспериментировать с несколькими способами векторизации текстов:

- tf-idf
- word2vec
- \*трансформеры (например Bert)

\* — если вы изучали трансформеры в спринте Машинное обучение для текстов.


In [None]:
import re

def clean_tokenize_text(text):
    """
    Очищает и токенизирует текст.
    - Приводит текст к нижнему регистру.
    - Удаляет ненужные символы и числа.
    """
    # Приводим текст к нижнему регистру
    text = text.lower()
    
    # Удаляем все символы, кроме букв и пробелов
    text = re.sub(r'[^a-zа-яё\s]', '', text)
    
    # Токенизация текста (разделение на слова)
    tokens = text.split()
    
    return " ".join(tokens)


In [None]:
from transformers import BertTokenizer, BertModel

# Загружаем токенизатор и модель BERT
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
bert_model = BertModel.from_pretrained("bert-base-uncased").to(device)
bert_model.eval()

def extract_text_features(text):
    if pd.isna(text) or not isinstance(text, str):
        return None
    
    # Очистка текста
    cleaned_text = clean_tokenize_text(text)
    
    # Токенизация и векторизация с использованием BERT
    inputs = tokenizer(cleaned_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    inputs = {k: v.to(device) for k, v in inputs.items()}
    
    with torch.no_grad():
        outputs = bert_model(**inputs)
    
    # Используем вектор [CLS] (первый токен)
    cls_vector = outputs.last_hidden_state[:, 0, :].squeeze()
    return cls_vector.cpu().numpy()

## 5. Объединение векторов

Подготовьте данные для обучения: объедините векторы изображений и векторы текстов с целевой переменной.

In [None]:
# ===============================
# 3. Формирование обучающего набора
# ===============================
# Для каждого примера в merged_df получим объединённый вектор (изображение + текст)
# Если merged_df был сформирован ранее, удаляем строки с NaN в целевой переменной
merged_df = merged_df.dropna(subset=["final_score_norm"]).reset_index(drop=True)
image_folder = data_dir / "train_images"
X_list, y_list, groups = [], [], []
for _, row in tqdm(merged_df.iterrows(), total=merged_df.shape[0], desc="Формирование обучающего набора"):
    img_path = image_folder / row["image_file"]
    img_feat = extract_image_features(str(img_path))
    if img_feat is None or img_feat.shape[0] != 512:
        continue
    txt_feat = extract_text_features(row["query_text"])
    if txt_feat is None or txt_feat.shape[0] != 768:
        continue
    combined = np.concatenate([img_feat, txt_feat])  # размер: 1280
    X_list.append(combined)
    y_list.append(row["final_score_norm"])
    groups.append(row["image_file"])

X = np.array(X_list)
y = np.array(y_list)
print("Размер обучающего набора X:", X.shape)
print("Размер целевой переменной y:", y.shape)


In [None]:
# 4. Разбиение на обучающую и тестовую выборки
# (Группируем по image_file, чтобы одно изображение не попало в обе выборки)
# ===============================
gss = GroupShuffleSplit(n_splits=1, train_size=0.7, random_state=42)
train_idx, test_idx = next(gss.split(X, y, groups=groups))
X_train, X_test = X[train_idx], X[test_idx]
y_train, y_test = y[train_idx], y[test_idx]
print("Размеры обучающей выборки:", X_train.shape, y_train.shape)
print("Размеры тестовой выборки:", X_test.shape, y_test.shape)


In [None]:
# ===============================
# 5. Подготовка данных для PyTorch
# ===============================
class CustomDataset(Dataset):
    def __init__(self, X, y):
        self.X = torch.from_numpy(X).float()
        self.y = torch.from_numpy(y).float().unsqueeze(1)
    def __len__(self):
        return len(self.X)
    def __getitem__(self, idx):
        return {"data": self.X[idx], "target": self.y[idx]}

train_dataset = CustomDataset(X_train, y_train)
test_dataset = CustomDataset(X_test, y_test)

In [None]:
# ===============================
# 6. Определение улучшенной модели и функции обучения с ранней остановкой
# ===============================
class ImprovedRegressionNet(nn.Module):
    def __init__(self, input_dim):
        super(ImprovedRegressionNet, self).__init__()
        self.fc1 = nn.Linear(input_dim, 512)
        self.bn1 = nn.BatchNorm1d(512)
        self.dropout1 = nn.Dropout(0.3)
        self.fc2 = nn.Linear(512, 256)
        self.bn2 = nn.BatchNorm1d(256)
        self.dropout2 = nn.Dropout(0.3)
        self.fc3 = nn.Linear(256, 128)
        self.bn3 = nn.BatchNorm1d(128)
        self.dropout3 = nn.Dropout(0.3)
        self.fc4 = nn.Linear(128, 1)
    def forward(self, x):
        x = F.relu(self.bn1(self.fc1(x)))
        x = self.dropout1(x)
        x = F.relu(self.bn2(self.fc2(x)))
        x = self.dropout2(x)
        x = F.relu(self.bn3(self.fc3(x)))
        x = self.dropout3(x)
        x = self.fc4(x)
        return x

def train_model(model, train_loader, val_loader, optimizer, criterion, n_epochs=100, patience=20, min_delta=0.0):
    best_model_state = model.state_dict()  # Инициализация лучшего состояния модели
    best_val_loss = float("inf")
    epochs_no_improve = 0
    train_rmse_history = []
    val_rmse_history = []

    for epoch in range(n_epochs):
        model.train()
        running_loss = 0.0
        for batch in train_loader:
            optimizer.zero_grad()
            outputs = model(batch["data"].to(device))
            loss_val = criterion(outputs, batch["target"].to(device))
            loss_val.backward()
            optimizer.step()
            running_loss += loss_val.item() * batch["data"].size(0)
        train_loss = running_loss / len(train_loader.dataset)
        train_rmse = sqrt(train_loss)
        train_rmse_history.append(train_rmse)

        # Валидация
        model.eval()
        running_val_loss = 0.0
        with torch.no_grad():
            for batch in val_loader:
                outputs = model(batch["data"].to(device))
                loss_val = criterion(outputs, batch["target"].to(device))
                running_val_loss += loss_val.item() * batch["data"].size(0)
        val_loss = running_val_loss / len(val_loader.dataset)
        val_rmse = sqrt(val_loss)
        val_rmse_history.append(val_rmse)

        print(f"Epoch {epoch+1}/{n_epochs}: Train RMSE: {train_rmse:.4f}, Val RMSE: {val_rmse:.4f}")

        # Обновляем лучшее состояние, если улучшение достигнуто
        if best_val_loss - val_loss > min_delta:
            best_val_loss = val_loss
            epochs_no_improve = 0
            best_model_state = model.state_dict()
        else:
            epochs_no_improve += 1

        if epochs_no_improve >= patience:
            print(f"Early stopping at epoch {epoch+1}")
            break

    model.load_state_dict(best_model_state)
    return model, {"train_rmse": train_rmse_history, "val_rmse": val_rmse_history}


In [None]:
# Разбиваем train_dataset на обучающую и валидационную (80/20)
train_size = int(0.8 * len(train_dataset))
val_size = len(train_dataset) - train_size
train_subset, val_subset = random_split(train_dataset, [train_size, val_size])
train_loader = DataLoader(train_subset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_subset, batch_size=32, shuffle=False)

## 6. Обучение модели предсказания соответствия

Для обучения разделите датасет на тренировочную и тестовую выборки. Простое случайное разбиение не подходит: нужно исключить попадание изображения и в обучающую, и в тестовую выборки.
Для того чтобы учесть изображения при разбиении, можно воспользоваться классом [GroupShuffleSplit](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupShuffleSplit.html) из библиотеки sklearn.model_selection.

Код ниже разбивает датасет на тренировочную и тестовую выборки в пропорции 7:3 так, что строки с одинаковым значением 'group_column' будут содержаться либо в тестовом, либо в тренировочном датасете.

```
from sklearn.model_selection import GroupShuffleSplit
gss = GroupShuffleSplit(n_splits=1, train_size=.7, random_state=42)
train_indices, test_indices = next(gss.split(X=df.drop(columns=['target']), y=df['target'], groups=df['group_column']))
train_df, test_df = df.loc[train_indices], df.loc[test_indices]

```

Какую модель использовать — выберите самостоятельно. Также вам предстоит выбрать метрику качества либо реализовать свою.

In [None]:
print("Количество NaN в X:", np.isnan(X).sum())
print("Минимальное значение в X:", np.min(X))
print("Максимальное значение в X:", np.max(X))


In [None]:
print("Количество NaN в y:", np.isnan(y).sum())
print("Минимальное значение в y:", np.min(y))
print("Максимальное значение в y:", np.max(y))



In [None]:
# Инициализируем и обучаем модель
final_model = ImprovedRegressionNet(X_train.shape[1]).to(device)
optimizer_final = optim.Adam(final_model.parameters(), lr=0.001)
criterion_final = nn.MSELoss()

final_model, history = train_model(final_model, train_loader, val_loader,
                                   optimizer_final, criterion_final,
                                   n_epochs=100, patience=20, min_delta=0.0)

In [None]:
# Оценка на тестовой выборке
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)
final_model.eval()
test_loss = 0.0
with torch.no_grad():
    for batch in test_loader:
        outputs = final_model(batch["data"].to(device))
        loss_val = criterion_final(outputs, batch["target"].to(device))
        test_loss += loss_val.item() * batch["data"].size(0)
final_rmse = sqrt(test_loss / len(test_dataset))
print(f"Final Test RMSE: {final_rmse:.4f}")


## 7. Тестирование модели

Настало время протестировать модель. Для этого получите эмбеддинги для всех тестовых изображений из папки `test_images`, выберите случайные 10 запросов из файла `test_queries.csv` и для каждого запроса выведите наиболее релевантное изображение. Сравните визуально качество поиска.

In [None]:
import numpy as np
import torch
from torch.nn.utils.rnn import pad_sequence
from PIL import Image
import os
import matplotlib.pyplot as plt

# Функция для эмбеддинга текста
def get_text_embedding(input_text):
    tokenized = tokenizer.encode(input_text, max_length=512, truncation=True, add_special_tokens=True)
    padded = pad_sequence([torch.as_tensor(tokenized)], batch_first=True)

    # маска внимания
    attention_mask = padded > 0
    attention_mask = attention_mask.type(torch.LongTensor).to(device)

    # эмбеддинги
    with torch.no_grad():
        text_embedding = model_emb_txt(padded.to(device), attention_mask=attention_mask)[0][:, 0, :].cpu().numpy()
    return text_embedding[0].tolist()

# Функция для тестирования
def imag_test(query_text):
    text_embedding = get_text_embedding(query_text)
    
    # Добавляем текстовый эмбеддинг к изображению (как у друга, сложение вместо конкатенации)
    test['vector'] = test['image_vector'].apply(lambda x: np.array(x, dtype=np.float32) + np.array(text_embedding, dtype=np.float32))

    # Создание тензора
    test_vectors = np.stack(test['vector'].to_numpy())
    X_test_tensor = torch.tensor(test_vectors, dtype=torch.float32)

    # Вычисление предсказания с использованием регрессора
    test['pred'] = best_regressor.predict(X_test_tensor)
    
    # Получение изображения с максимальной оценкой
    max_score = test['pred'].max()
    image_path = test[test['pred'] == test['pred'].max()]['image'].values[0]
    return max_score, image_path

# Функция для вывода изображения по запросу
def display_image_with_caption(query_text):
    text = clean_tokenize_text(query_text)
    
    # Проверка наличия запрета на изображение
    if any(i in text for i in child_list):
        print(query_text)
        print('Изображение не доступно в данном регионе')
    else:
        max_score, image_path = imag_test(text)
        fig, ax = plt.subplots(figsize=(6, 6))
        image_path = os.path.join(TEST_IMAGES, image_path)
        
        # Загружаем изображение
        try:
            img = Image.open(image_path)
            ax.imshow(img)
            ax.set_title(query_text, fontsize=12)
            ax.axis('off')
            plt.show()
            print(f'Мера соответствия изображения: {max_score:.4f}')
        except Exception as e:
            print(f"Ошибка при загрузке изображения: {e}")

# Код для получения эмбеддингов изображений и их обработки
test_images_folder = data_dir / "test_images"
test_image_files = list(test_images_folder.glob("*.jpg"))
test_image_embeds = {}

# Получаем эмбеддинги для всех изображений
for path in test_image_files:
    emb = extract_image_features(str(path))
    if emb is not None and emb.shape[0] == 512:  # Убедитесь, что размер эмбеддингов изображений правильный
        test_image_embeds[path.name] = emb
print(f"Вычислено эмбеддингов для {len(test_image_embeds)} тестовых изображений.")

# Формируем список запросов
queries = [
    "A large tan dog sits on a grassy hill .",
    "A large yellow dog is sitting on a hill .",
    "The dog is sitting on the side of the hill .",
    "A white dog and a black dog in a field .",
    "A white dog with a branch in his mouth and a black dog .",
    "A white dog with a stick in his mouth standing next to a black dog .",
    "Two dogs are standing next to each other , and the white dog has a stick in its mouth .",
    "Two dogs stand in the brown grass .",
    "Two girls in pink are playing on yellow playground bars .",
    "Two girls on a jungle gym ."
]

# Итерируем по запросам и выводим результаты
for query in queries:
    display_image_with_caption(query)


In [None]:
def search_best_image(query_text, image_embeds, model):
    txt_emb = extract_text_features(query_text)
    if txt_emb is None or txt_emb.shape[0] != 768:
        print(f"Ошибка в векторизации запроса: {query_text}")
        return None, None

    img_names = list(image_embeds.keys())
    img_matrix = np.stack([image_embeds[name] for name in img_names], axis=0)
    n_images = img_matrix.shape[0]
    txt_matrix = np.tile(txt_emb, (n_images, 1))
    combined_matrix = np.concatenate([img_matrix, txt_matrix], axis=1)
    combined_tensor = torch.from_numpy(combined_matrix).float().to(device)
    
    with torch.no_grad():
        scores = model(combined_tensor).cpu().numpy().flatten()
    
    # Выводим распределение оценок для отладки
    print(f"Запрос: {query_text}\nОценки для изображений: {np.round(scores, 4)}")
    
    best_idx = np.argmax(scores)
    best_image = img_names[best_idx]
    best_score = scores[best_idx]
    return best_image, best_score


# Предположим, что у вас уже вычислены эмбеддинги тестовых изображений:
# Например, если test_images_folder – путь к тестовой папке,
# то можно сделать следующее (один раз):
test_images_folder = data_dir / "test_images"  # например, путь к тестовым изображениям
test_image_files = list(test_images_folder.glob("*.jpg"))
test_image_embeds = {}
for path in test_image_files:
    emb = extract_image_features(str(path))
    if emb is not None and emb.shape[0] == 512:
        test_image_embeds[path.name] = emb
print(f"Вычислено эмбеддингов для {len(test_image_embeds)} тестовых изображений.")

# Теперь сформируем список запросов (из вашего примера)
queries = [
    "A large tan dog sits on a grassy hill .",
    "A large yellow dog is sitting on a hill .",
    "The dog is sitting on the side of the hill .",
    "A white dog and a black dog in a field .",
    "A white dog with a branch in his mouth and a black dog .",
    "A white dog with a stick in his mouth standing next to a black dog .",
    "Two dogs are standing next to each other , and the white dog has a stick in its mouth .",
    "Two dogs stand in the brown grass .",
    "Two girls in pink are playing on yellow playground bars .",
    "Two girls on a jungle gym ."
]

# Итерируем по запросам и выводим результаты
for query in queries:
    best_img, score = search_best_image(query, test_image_embeds, final_model)  # или improved_model/другая модель
    if best_img is None:
        print(f"Запрос: {query}\nНе удалось найти релевантное изображение.\n")
        continue
    print(f"\nЗапрос: {query}")
    print(f"Лучшее изображение: {best_img} с оценкой: {score:.4f}")
    # Отображаем изображение
    try:
        img = Image.open(test_images_folder / best_img).convert("RGB")
        plt.figure(figsize=(6,6))
        plt.imshow(img)
        plt.axis("off")
        plt.title(f"Score: {score:.4f}")
        plt.show()
    except Exception as e:
        print(f"Ошибка при открытии изображения {best_img}: {e}")


In [None]:
def search_best_image(query_text, image_embeds, model):
    txt_emb = extract_text_features(query_text)
    if txt_emb is None or txt_emb.shape[0] != 768:
        print(f"Ошибка в векторизации запроса: {query_text}")
        return None, None

    img_names = list(image_embeds.keys())
    img_matrix = np.stack([image_embeds[name] for name in img_names], axis=0)
    n_images = img_matrix.shape[0]
    txt_matrix = np.tile(txt_emb, (n_images, 1))
    combined_matrix = np.concatenate([img_matrix, txt_matrix], axis=1)
    combined_tensor = torch.from_numpy(combined_matrix).float().to(device)
    
    with torch.no_grad():
        scores = model(combined_tensor).cpu().numpy().flatten()
    
    # Выводим распределение оценок для отладки
    print(f"Запрос: {query_text}\nОценки для изображений: {np.round(scores, 4)}")
    
    best_idx = np.argmax(scores)
    best_image = img_names[best_idx]
    best_score = scores[best_idx]
    return best_image, best_score


## 8. Выводы

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Исследовательский анализ данных выполнен
- [ ]  Проверены экспертные оценки и краудсорсинговые оценки
- [ ]  Из датасета исключены те объекты, которые выходят за рамки юридических ограничений
- [ ]  Изображения векторизованы
- [ ]  Текстовые запросы векторизованы
- [ ]  Данные корректно разбиты на тренировочную и тестовую выборки
- [ ]  Предложена метрика качества работы модели
- [ ]  Предложена модель схожести изображений и текстового запроса
- [ ]  Модель обучена
- [ ]  По итогам обучения модели сделаны выводы
- [ ]  Проведено тестирование работы модели
- [ ]  По итогам тестирования визуально сравнили качество поиска