# Поиск изображения по запросу

# Прекод

# Сборный проект-4

Вам поручено разработать демонстрационную версию поиска изображений по запросу.

Для демонстрационной версии нужно обучить модель, которая получит векторное представление изображения, векторное представление текста, а на выходе выдаст число от 0 до 1 — покажет, насколько текст и картинка подходят друг другу.

## Описание данных

Данные доступны по [ссылке](https://code.s3.yandex.net/datasets/dsplus_integrated_project_4.zip).

В файле `train_dataset.csv` находится информация, необходимая для обучения: имя файла изображения, идентификатор описания и текст описания. Для одной картинки может быть доступно до 5 описаний. Идентификатор описания имеет формат `<имя файла изображения>#<порядковый номер описания>`.

В папке `train_images` содержатся изображения для тренировки модели.

В файле `CrowdAnnotations.tsv` — данные по соответствию изображения и описания, полученные с помощью краудсорсинга. Номера колонок и соответствующий тип данных:

1. Имя файла изображения.
2. Идентификатор описания.
3. Доля людей, подтвердивших, что описание соответствует изображению.
4. Количество человек, подтвердивших, что описание соответствует изображению.
5. Количество человек, подтвердивших, что описание не соответствует изображению.

В файле `ExpertAnnotations.tsv` содержатся данные по соответствию изображения и описания, полученные в результате опроса экспертов. Номера колонок и соответствующий тип данных:

1. Имя файла изображения.
2. Идентификатор описания.

3, 4, 5 — оценки трёх экспертов.

Эксперты ставят оценки по шкале от 1 до 4, где 1 — изображение и запрос совершенно не соответствуют друг другу, 2 — запрос содержит элементы описания изображения, но в целом запрос тексту не соответствует, 3 — запрос и текст соответствуют с точностью до некоторых деталей, 4 — запрос и текст соответствуют полностью.

В файле `test_queries.csv` находится информация, необходимая для тестирования: идентификатор запроса, текст запроса и релевантное изображение. Для одной картинки может быть доступно до 5 описаний. Идентификатор описания имеет формат `<имя файла изображения>#<порядковый номер описания>`.

В папке `test_images` содержатся изображения для тестирования модели.

## Цель работы

Разработать демонстрационную версию поиска изображений по текстовому запросу. Модель должна:
- Получать векторные представления изображения и текста.
- Оценивать их соответствие через число от 0 до 1 (вероятность релевантности).

## План работы

**Исследовательский анализ данных**
- Агрегация экспертных оценок (например, голосование большинства).
- Объединение экспертных и краудсорсинговых оценок (возможно, с весовыми коэффициентами).
- Приведение целевой переменной к диапазону [0, 1].

**Проверка данных**

- Удаление изображений, нарушающих законодательство (например, с участием детей до 16 лет).

**Векторизация изображений**
- Использование предобученной CNN (например, ResNet-18) для извлечения признаков (исключая полносвязные слои).

**Векторизация текстов**
- Эксперименты с методами:
    - TF-IDF
    - Word2Vec
    - Трансформеры (например, BERT).

**Объединение векторов**
- Создание общего датасета с объединёнными векторами изображений, текстов и целевой переменной.

**Обучение модели предсказания соответствия**
- Разделение данных с учётом уникальности изображений (GroupShuffleSplit).
- Выбор модели (например, логистическая регрессия, градиентный бустинг или нейросеть).
- Определение метрики качества (например, ROC-AUC или кастомная метрика).

**Тестирование модели**
- Оценка качества на тестовой выборке.
- Проверка работы на данных из test_queries.csv и test_images.

## Ожидаемый результат

- Модель, предсказывающая вероятность соответствия текста и изображения (0–1).
- Метрика качества, отражающая точность ранжирования пар (например, ROC-AUC).
- Готовый пайплайн от обработки данных до предсказания для демонстрации поиска.

**Дополнительные требования:**
- Юридическая проверка изображений.
- Учёт уникальности изображений при разбиении на выборки.
- Гибкость в выборе методов векторизации и моделей.

## Исследовательский анализ данных

Наш датасет содержит экспертные и краудсорсинговые оценки соответствия текста и изображения.

В файле с экспертными мнениями для каждой пары изображение-текст имеются оценки от трёх специалистов. Для решения задачи вы должны эти оценки агрегировать — превратить в одну. Существует несколько способов агрегации оценок, самый простой — голосование большинства: за какую оценку проголосовала большая часть экспертов (в нашем случае 2 или 3), та оценка и ставится как итоговая. Поскольку число экспертов меньше числа классов, может случиться, что каждый эксперт поставит разные оценки, например: 1, 4, 2. В таком случае данную пару изображение-текст можно исключить из датасета.

Вы можете воспользоваться другим методом агрегации оценок или придумать свой.

В файле с краудсорсинговыми оценками информация расположена в таком порядке:

1. Доля исполнителей, подтвердивших, что текст **соответствует** картинке.
2. Количество исполнителей, подтвердивших, что текст **соответствует** картинке.
3. Количество исполнителей, подтвердивших, что текст **не соответствует** картинке.

После анализа экспертных и краудсорсинговых оценок выберите либо одну из них, либо объедините их в одну по какому-то критерию: например, оценка эксперта принимается с коэффициентом 0.6, а крауда — с коэффициентом 0.4.

Ваша модель должна возвращать на выходе вероятность соответствия изображения тексту, поэтому целевая переменная должна иметь значения от 0 до 1.


### Установка необходимых библиотек

In [1]:
import os
from typing import Generator
from pathlib import Path
from PIL import Image
import re

import pandas as pd
import numpy as np
import nltk
import cv2
from deepface import DeepFace
from mtcnn import MTCNN
import gensim.downloader as api

import torch
import torchvision.models as models
from torchvision import transforms

2025-08-05 18:16:05.203222: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-08-05 18:16:05.225909: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:467] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1754410565.253557   11992 cuda_dnn.cc:8579] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1754410565.262319   11992 cuda_blas.cc:1407] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
W0000 00:00:1754410565.282583   11992 computation_placer.cc:177] computation placer already registered. Please check linkage and avoid linking 

In [2]:
# Загрузка необходимых ресурсов NLTK
nltk.data.path.append('datasets/nltk_data')

### Вспомогательные функции

In [3]:
# Инициализация детектора лиц (MTCNN)
detector = MTCNN()


def has_child(image_dir: Path, img_names: pd.Series,  age_threshold: int = 16) -> Generator[str, None, None]:
    """
    Проверяет, есть ли на изображении дети младше `age_threshold`.
    Возвращает наименование файла изображения на котором есть дети младше `age_threshold`.
    """

    for img_name in img_names:
        image_path = Path(image_dir) / img_name
        try:
            img = cv2.cvtColor(cv2.imread(image_path.as_posix()), cv2.COLOR_BGR2RGB)
            faces = detector.detect_faces(img)  # Детекция лиц

            for face in faces:
                x, y, w, h = face["box"]
                face_img = img[y:y + h, x:x + w]  # Обрезаем лицо

                # Оценка возраста
                analysis = DeepFace.analyze(face_img, actions=["age"], enforce_detection=False)
                if analysis[0]["age"] < age_threshold:
                    yield image_path.name

        except Exception as ex:
            print(f"Ошибка при обработке {image_path}: {ex}")


# Инициализация лемматизатора и стоп-слов
lemmatizer = nltk.stem.WordNetLemmatizer()


# Список ключевых лемм, связанных с детьми
child_related_lemmas = {"child", "kid", "teen", "baby", "toddler", "minor", "adolescent", "offspring"}


def get_wordnet_pos(treebank_tag: str):
    """
    Конвертирует POS-теги Penn Treebank в формат WordNet
    """

    tag = treebank_tag[0].upper()
    tag_dict = {
        "J": nltk.corpus.wordnet.ADJ,
        "N": nltk.corpus.wordnet.NOUN,
        "V": nltk.corpus.wordnet.VERB,
        "R": nltk.corpus.wordnet.ADV
    }
    return tag_dict.get(tag, nltk.corpus.wordnet.NOUN)


def check_exception_words(text: str) -> int:
    """
    Лемматизация текста и проверка слов исключений
    :param text: исходный текст
    """

    # Токенизация и POS-тегирование
    tokens = nltk.word_tokenize(re.sub(r"[^a-zA-Z\s]", " ", text.lower()))
    pos_tags = nltk.tag.pos_tag(tokens)

    # Лемматизация с учетом POS
    lemmas: set[str] = {
        lemmatizer.lemmatize(word, pos=get_wordnet_pos(tag))
        for word, tag in pos_tags
    }
    return int(bool(lemmas & child_related_lemmas))

2025-08-05 18:16:14.422331: E external/local_xla/xla/stream_executor/cuda/cuda_platform.cc:51] failed call to cuInit: INTERNAL: CUDA error: Failed call to cuInit: UNKNOWN ERROR (303)


### Загрузка данных

In [4]:
# загружаем данные по соответствию изображения и описания, полученные в результате опроса экспертов
expert_df: pd.DataFrame = pd.read_csv(
    'datasets/ExpertAnnotations.tsv', 
    sep='\t', 
    header=None, 
    names=['image', 'desc_id', 'expert1', 'expert2', 'expert3'],
)

# загружаем данные по соответствию изображения и описания, полученные с помощью краудсорсинга
сrowd_df: pd.DataFrame = pd.read_csv(
    'datasets/CrowdAnnotations.tsv', 
    sep='\t', 
    header=None, 
    names=['image', 'desc_id', 'match_ratio', 'match_count', 'non_match_count'],
)

# загружаем информацию необходимую для обучения
train_dataset_df: pd.DataFrame = pd.read_csv('datasets/train_dataset.csv')

# загружаем информацию необходимую для тестирования
test_queries_df: pd.DataFrame = pd.read_csv('datasets/test_queries.csv', sep='|',)

In [5]:
# проверим состав данных и соответствие типов для ExpertAnnotations.tsv
expert_df.info()
expert_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5822 entries, 0 to 5821
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   image    5822 non-null   object
 1   desc_id  5822 non-null   object
 2   expert1  5822 non-null   int64 
 3   expert2  5822 non-null   int64 
 4   expert3  5822 non-null   int64 
dtypes: int64(3), object(2)
memory usage: 227.5+ KB


Unnamed: 0,image,desc_id,expert1,expert2,expert3
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,1,1,1
1,1056338697_4f7d7ce270.jpg,2718495608_d8533e3ac5.jpg#2,1,1,2
2,1056338697_4f7d7ce270.jpg,3181701312_70a379ab6e.jpg#2,1,1,2
3,1056338697_4f7d7ce270.jpg,3207358897_bfa61fa3c6.jpg#2,1,2,2
4,1056338697_4f7d7ce270.jpg,3286822339_5535af6b93.jpg#2,1,1,2


In [6]:
# проверим состав данных и соответствие типов для CrowdAnnotations.tsv
сrowd_df.info()
сrowd_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47830 entries, 0 to 47829
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   image            47830 non-null  object 
 1   desc_id          47830 non-null  object 
 2   match_ratio      47830 non-null  float64
 3   match_count      47830 non-null  int64  
 4   non_match_count  47830 non-null  int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 1.8+ MB


Unnamed: 0,image,desc_id,match_ratio,match_count,non_match_count
0,1056338697_4f7d7ce270.jpg,1056338697_4f7d7ce270.jpg#2,1.0,3,0
1,1056338697_4f7d7ce270.jpg,114051287_dd85625a04.jpg#2,0.0,0,3
2,1056338697_4f7d7ce270.jpg,1427391496_ea512cbe7f.jpg#2,0.0,0,3
3,1056338697_4f7d7ce270.jpg,2073964624_52da3a0fc4.jpg#2,0.0,0,3
4,1056338697_4f7d7ce270.jpg,2083434441_a93bc6306b.jpg#2,0.0,0,3


In [7]:
# проверим состав данных и соответствие типов для train_dataset.csv
train_dataset_df.info()
train_dataset_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5822 entries, 0 to 5821
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   image       5822 non-null   object
 1   query_id    5822 non-null   object
 2   query_text  5822 non-null   object
dtypes: object(3)
memory usage: 136.6+ KB


Unnamed: 0,image,query_id,query_text
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...
1,1262583859_653f1469a9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...
2,2447284966_d6bbdb4b6e.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...
3,2549968784_39bfbe44f9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...
4,2621415349_ef1a7e73be.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...


In [8]:
# проверим состав данных и соответствие типов для test_queries.csv
test_queries_df.info()
test_queries_df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  500 non-null    int64 
 1   query_id    500 non-null    object
 2   query_text  500 non-null    object
 3   image       500 non-null    object
dtypes: int64(1), object(3)
memory usage: 15.8+ KB


Unnamed: 0.1,Unnamed: 0,query_id,query_text,image
0,0,1177994172_10d143cb8d.jpg#0,"Two blonde boys , one in a camouflage shirt an...",1177994172_10d143cb8d.jpg
1,1,1177994172_10d143cb8d.jpg#1,Two boys are squirting water guns at each other .,1177994172_10d143cb8d.jpg
2,2,1177994172_10d143cb8d.jpg#2,Two boys spraying each other with water,1177994172_10d143cb8d.jpg
3,3,1177994172_10d143cb8d.jpg#3,Two children wearing jeans squirt water at eac...,1177994172_10d143cb8d.jpg
4,4,1177994172_10d143cb8d.jpg#4,Two young boys are squirting water at each oth...,1177994172_10d143cb8d.jpg


###  Предобработка данных

In [9]:
# избавимся от лишнего поля
test_queries_df = test_queries_df.drop(["Unnamed: 0"], axis=1)
test_queries_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   query_id    500 non-null    object
 1   query_text  500 non-null    object
 2   image       500 non-null    object
dtypes: object(3)
memory usage: 11.8+ KB


Проверим данные на наличие дубликатов

In [10]:
print("expert_df:", expert_df.duplicated().sum())
print("сrowd_df:", сrowd_df.duplicated().sum())
print("train_dataset_df:", train_dataset_df.duplicated().sum())

expert_df: 0
сrowd_df: 0
train_dataset_df: 0


**Вывод:**
- удалено лишнее поля из датафрейма `test_queries_df`
- данные проверены на наличие дубликатов

### Поиск финального скоринга как вероятность соответствия описания картинке

#### Обработка краудсорсинговых данных
- Долю подтверждений (`match_ratio`).
- Количество подтверждений (`match_count`).
- Количество опровержений (`non_match_count`).

Можно использовать долю подтверждений (`match_ratio`) как вероятность соответствия.

#### Агрегация по большинству голосов для экспертных данных

In [11]:
# Агрегация по большинству голосов
expert_df["expert_vote"] = (expert_df[["expert1", "expert2", "expert3"]].sum(axis=1) >= 2).astype(int)

In [12]:
# Удаление строк без консенсуса (все эксперты дали разные оценки)
expert_df = expert_df[expert_df[["expert1", "expert2", "expert3"]].nunique(axis=1) != 3]

In [13]:
expert_df.head()

Unnamed: 0,image,desc_id,expert1,expert2,expert3,expert_vote
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,1,1,1,1
1,1056338697_4f7d7ce270.jpg,2718495608_d8533e3ac5.jpg#2,1,1,2,1
2,1056338697_4f7d7ce270.jpg,3181701312_70a379ab6e.jpg#2,1,1,2,1
3,1056338697_4f7d7ce270.jpg,3207358897_bfa61fa3c6.jpg#2,1,2,2,1
4,1056338697_4f7d7ce270.jpg,3286822339_5535af6b93.jpg#2,1,1,2,1


#### Объединение экспертных и краудсорсинговых оценок
Есть несколько вариантов:
- Использовать только экспертные оценки (более надежные, но данных меньше).
- Использовать только краудсорсинговые оценки (больше данных, но возможен шум).
- Комбинировать оценки, например:
    - `final_score = 0.6 * expert_vote + 0.4 * match_ratio`

В данном случае воспользуемся вариантом `комбинировать оценки`

In [14]:
merged_df = pd.merge(expert_df, сrowd_df, on=["image", "desc_id"], how="inner")
merged_df["final_score"] = round(0.6 * merged_df["expert_vote"] + 0.4 * merged_df["match_ratio"])

In [15]:
merged_df.head()

Unnamed: 0,image,desc_id,expert1,expert2,expert3,expert_vote,match_ratio,match_count,non_match_count,final_score
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,1,1,1,1,0.0,0,3,1.0
1,1056338697_4f7d7ce270.jpg,2718495608_d8533e3ac5.jpg#2,1,1,2,1,0.0,0,3,1.0
2,1056338697_4f7d7ce270.jpg,434792818_56375e203f.jpg#2,1,1,2,1,0.0,0,3,1.0
3,1084040636_97d9633581.jpg,256085101_2c2617c5d0.jpg#2,2,3,3,1,0.333333,1,2,1.0
4,1084040636_97d9633581.jpg,3396157719_6807d52a81.jpg#2,1,2,2,1,0.0,0,3,1.0


**Вывод:**
- была выполнена агрегация по большинству голосов для экспертных данных
- объединенили экспертные и краудсорсинговые оценок, в результате чего получили итоговый скоринг `final_score`.

## 2. Проверка данных

В некоторых странах, где работает ваша компания, действуют ограничения по обработке изображений: поисковым сервисам и сервисам, предоставляющим возможность поиска, запрещено без разрешения родителей или законных представителей предоставлять любую информацию, в том числе, но не исключительно тексты, изображения, видео и аудио, содержащие описание, изображение или запись голоса детей. Ребёнком считается любой человек, не достигший 16 лет.

В вашем сервисе строго следуют законам стран, в которых работают. Поэтому при попытке посмотреть изображения, запрещённые законодательством, вместо картинок показывается дисклеймер:

> This image is unavailable in your country in compliance with local laws
>

Однако у вас в PoC нет возможности воспользоваться данным функционалом. Поэтому все изображения, которые нарушают данный закон, нужно удалить из обучающей выборки.

Поскольку в вашем PoC нет автоматического определения запрещённого контента, потребуется ручная или полуавтоматическая очистка данных.

**Определение критериев для удаления:**
- В метаданных/описании упоминаются слова: `child`, `kid`, `teen`, `baby`, `toddler`, `minor`, `adolescent`, `offspring`. Данные следует подкрепить оценкой соответствия текста и изображения для повышения точности.
- Есть лица людей, похожих на детей (возраст < 16 лет).

In [16]:
# найдем слова исключения в тренировочных данных
train_dataset_df["has_child"] = train_dataset_df["query_text"].apply(check_exception_words)

In [17]:
# объеденим данные с оценками соответствия и тренировочную выборку
merged_train_dataset_df = pd.merge(train_dataset_df, merged_df[["image", "final_score"]], on=["image"], how="inner")
merged_train_dataset_df

Unnamed: 0,image,query_id,query_text,has_child,final_score
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,1,1.0
1,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,1,1.0
2,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,1,1.0
3,1262583859_653f1469a9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,1,1.0
4,1262583859_653f1469a9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,1,1.0
...,...,...,...,...,...
13778,929679367_ff8c7df2ee.jpg,3651971126_309e6a5e22.jpg#2,A blurry photo of two dogs .,0,1.0
13779,929679367_ff8c7df2ee.jpg,3651971126_309e6a5e22.jpg#2,A blurry photo of two dogs .,0,1.0
13780,929679367_ff8c7df2ee.jpg,3651971126_309e6a5e22.jpg#2,A blurry photo of two dogs .,0,1.0
13781,968081289_cdba83ce2e.jpg,2292406847_f366350600.jpg#2,A man rows his boat below .,0,1.0


Отберем те записи у которых `final_score = 1.0` и `has_children = 0`. Значит, что картинка полностью соответствует описанию и в описании есть дети.

In [18]:
imgs_without_children = merged_train_dataset_df[
    (merged_train_dataset_df["has_child"] == 0) & (merged_train_dataset_df["final_score"] == 1.0)
]["image"]
imgs_without_children = pd.Series(imgs_without_children.unique())
imgs_without_children

0      1056338697_4f7d7ce270.jpg
1      1167669558_87a8a467d6.jpg
2      2616643090_4f2d2d1a44.jpg
3      2718495608_d8533e3ac5.jpg
4      3244747165_17028936e0.jpg
                 ...            
880    3741827382_71e93298d0.jpg
881    3518126579_e70e0cbb2b.jpg
882    3544793763_b38546a5e8.jpg
883    2490768374_45d94fc658.jpg
884    2533424347_cf2f84872b.jpg
Length: 885, dtype: object

Попробуем найти лица людей, похожих на детей (возраст < 16 лет).

In [19]:
train_image_dir: list[str] = ["datasets", "train_images"]

In [20]:
exclude_img: set[str] = set() 
for img_name in has_child(image_dir=Path(os.getcwd(), *train_image_dir), img_names=imgs_without_children):
    exclude_img.add(img_name)

2025-08-05 18:16:44.000856: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: INVALID_ARGUMENT: Must provide as many biases as the last dimension of the input tensor: [32] vs. [0,48,48,3]
2025-08-05 18:16:48.647834: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: INVALID_ARGUMENT: Must provide as many biases as the last dimension of the input tensor: [32] vs. [0,48,48,3]
2025-08-05 18:16:49.669513: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: INVALID_ARGUMENT: Must provide as many biases as the last dimension of the input tensor: [32] vs. [0,48,48,3]
2025-08-05 18:16:53.552374: I tensorflow/core/framework/local_rendezvous.cc:407] Local rendezvous is aborting with status: INVALID_ARGUMENT: Must provide as many biases as the last dimension of the input tensor: [32] vs. [0,48,48,3]
2025-08-05 18:17:15.222872: I tensorflow/core/framework/local_rendez

In [21]:
exclude_img

{'2966552760_e65b22cd26.jpg'}

In [22]:
# Исключим найденные изображения из датасета
imgs_without_children = imgs_without_children[~imgs_without_children.isin(exclude_img)].to_frame()
imgs_without_children.columns = ["image"] 
imgs_without_children

Unnamed: 0,image
0,1056338697_4f7d7ce270.jpg
1,1167669558_87a8a467d6.jpg
2,2616643090_4f2d2d1a44.jpg
3,2718495608_d8533e3ac5.jpg
4,3244747165_17028936e0.jpg
...,...
880,3741827382_71e93298d0.jpg
881,3518126579_e70e0cbb2b.jpg
882,3544793763_b38546a5e8.jpg
883,2490768374_45d94fc658.jpg


**Вывод:**
- для поиска детей до 16 лет использовал:
    - поиск по ключевым словам и оценку соответствия текста и изображения.
    - поиск по изображению лиц младше 16 лет.

В результате итоговый датасет составил `884` изображения. Уменьшив количество изображений на `11.6 %`.

## 3. Векторизация изображений

Перейдём к векторизации изображений.

Самый примитивный способ — прочесть изображение и превратить полученную матрицу в вектор. Такой способ нам не подходит: длина векторов может быть сильно разной, так как размеры изображений разные. Поэтому стоит обратиться к свёрточным сетям: они позволяют "выделить" главные компоненты изображений. Как это сделать? Нужно выбрать какую-либо архитектуру, например ResNet-18, посмотреть на слои и исключить полносвязные слои, которые отвечают за конечное предсказание. При этом можно загрузить модель данной архитектуры, предварительно натренированную на датасете ImageNet.

In [23]:
# Загружаем предобученную ResNet18
resnet = models.resnet18(pretrained=True)

# Удаляем последний полносвязный слой (avgpool и fc)
resnet = torch.nn.Sequential(*(list(resnet.children())[:-2]))  # Оставляем слои до avgpool

# Стандартные трансформации для ImageNet
preprocess = transforms.Compose([
    transforms.Resize(256),          # Изменение размера с сохранением пропорций
    transforms.CenterCrop(224),      # Центральное обрезание до 224x224
    transforms.ToTensor(),           # Преобразование в тензор
    transforms.Normalize(            # Нормализация
        mean=[0.485, 0.456, 0.406],  # Средние значения для ImageNet
        std=[0.229, 0.224, 0.225]   # Стандартные отклонения для ImageNet
    )
])

In [24]:
def extract_features(image_name: str) -> np.ndarray:
    """
    Извлекает признаки (feature vector) из изображения с помощью предобученной модели.

    Параметры:
        image_name: Имя файла
        
    Возвращает:
        1D массив numpy с извлеченными признаками

    Описание работы:
        1. Загружает изображение по указанному пути
        2. Применяет препроцессинг (предполагается, что функция preprocess() определена где-то)
        3. Добавляет размерность батча для обработки моделью
        4. Пропускает изображение через модель без вычисления градиентов
        5. Усредняет признаки по пространственным измерениям (H и W)
        6. Преобразует результат в 1D numpy массив
    """

    # Загрузка и препроцессинг изображения
    img = Image.open(Path(*train_image_dir, image_name))
    img_t = preprocess(img)
    batch_t = torch.unsqueeze(img_t, 0)  # Добавляем размерность батча

    # Извлечение признаков
    with torch.no_grad():  # Отключаем вычисление градиентов
        features = resnet(batch_t)

    # Преобразуем 4D-тензор в 1D-вектор (усреднение по пространственным измерениям)
    features = torch.mean(features, dim=[2, 3]).squeeze()

    return features.numpy()

In [25]:
# Переводим к векторам изображения
imgs_without_children["vector"] = imgs_without_children["image"].apply(extract_features)
imgs_without_children

Unnamed: 0,image,vector
0,1056338697_4f7d7ce270.jpg,"[0.9077545, 1.0154983, 0.98779196, 1.0332103, ..."
1,1167669558_87a8a467d6.jpg,"[0.8996155, 0.9423601, 0.9099751, 0.9629695, 0..."
2,2616643090_4f2d2d1a44.jpg,"[0.83492124, 0.92419225, 0.86735237, 1.059459,..."
3,2718495608_d8533e3ac5.jpg,"[0.94001395, 0.9511131, 0.9383936, 1.0881505, ..."
4,3244747165_17028936e0.jpg,"[0.9562757, 0.8573524, 0.9212245, 1.0755371, 0..."
...,...,...
880,3741827382_71e93298d0.jpg,"[0.92336935, 0.9478179, 0.9880237, 1.037613, 0..."
881,3518126579_e70e0cbb2b.jpg,"[0.8574527, 0.94132733, 0.9064867, 1.0896713, ..."
882,3544793763_b38546a5e8.jpg,"[0.8803428, 0.99181336, 0.9486636, 0.92069757,..."
883,2490768374_45d94fc658.jpg,"[0.8557889, 0.96530586, 0.88661855, 1.1253445,..."


**Вывод:**
- для векторизации изображений использовали модель `ResNet18`
- векторизацию применили к датасету с ранее отобранными изображениями (без детей младше 16 лет)

## 4. Векторизация текстов

Следующий этап — векторизация текстов. Вы можете поэкспериментировать с несколькими способами векторизации текстов:

- tf-idf
- word2vec
- \*трансформеры (например Bert)

\* — если вы изучали трансформеры в спринте Машинное обучение для текстов.


Для векторизации текста будем использовать `word2vec` модель.

**Плюсы**:
- Учитывает семантику слов
- Фиксированный размер вектора (300 в примере)
- Улавливает отношения между словами
- 
**Минусы**:
- Требует обучения (или загрузки предобученной модели)
- Потеря порядка слов (если просто усреднять)
- Не учитывает полный контекст предложения

Для баланса качества и скорости - `Word2Vec` (загрузим предобученную модель)

In [26]:
# Загрузка предобученной модели (300-мерные векторы)
w2v_model = api.load('word2vec-google-news-300')

In [27]:
def document_vector_pretrained(text: str) -> np.ndarray:
    """
    Преобразует текст в векторное представление (документный эмбеддинг) 
    с использованием предобученной word2vec модели.
    
    Для каждого слова в тексте извлекается вектор из word2vec модели,
    затем возвращается среднее всех векторов слов (усредненный эмбеддинг документа).
    
    Параметры:
        text: Входной текст для векторного представления
        
    Возвращает:
        Векторное представление документа (усредненный вектор слов).
        Если ни одно слово не найдено в модели, возвращается нулевой вектор
        размерности w2v_model.vector_size.
    """
    words = nltk.tokenize.word_tokenize(text.lower())
    word_vectors = [w2v_model[word] for word in words if word in w2v_model]
    if len(word_vectors) == 0:
        return np.zeros(w2v_model.vector_size)
    return np.mean(word_vectors, axis=0)

In [1]:
train_dataset_without_children_df = pd.merge(
    merged_train_dataset_df[["image", "query_id", "query_text", "final_score"]], 
    imgs_without_children[["image", "vector"]], 
    on=["image"], 
    how="inner",
)
train_dataset_without_children_df["text_vector"] = train_dataset_without_children_df["query_text"].apply(document_vector_pretrained)

NameError: name 'pd' is not defined

In [31]:
train_dataset_without_children_df

Unnamed: 0,image,query_id,query_text,vector,text_vector
0,1056338697_4f7d7ce270.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,"[0.9077545, 1.0154983, 0.98779196, 1.0332103, ...","[0.02263572, 0.052368164, 0.07314647, 0.052739..."
1,1262583859_653f1469a9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,"[0.9428929, 0.9370776, 1.0068811, 1.0683029, 0...","[0.02263572, 0.052368164, 0.07314647, 0.052739..."
2,2447284966_d6bbdb4b6e.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,"[0.9146245, 1.0026352, 0.9486273, 1.1204531, 0...","[0.02263572, 0.052368164, 0.07314647, 0.052739..."
3,2549968784_39bfbe44f9.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,"[0.88460445, 0.94657457, 0.9461776, 1.00791, 0...","[0.02263572, 0.052368164, 0.07314647, 0.052739..."
4,2621415349_ef1a7e73be.jpg,2549968784_39bfbe44f9.jpg#2,A young child is wearing blue goggles and sitt...,"[0.8774857, 0.9254687, 0.91232574, 1.0469357, ...","[0.02263572, 0.052368164, 0.07314647, 0.052739..."
...,...,...,...,...,...
5180,751737218_b89839a311.jpg,2170222061_e8bce4a32d.jpg#2,"A small animal leaps behind a larger animal , ...","[0.8912957, 0.9700147, 0.9877629, 1.1062788, 0...","[0.0588501, 0.06903076, -0.047949217, 0.051717..."
5181,757046028_ff5999f91b.jpg,2061144717_5b3a1864f0.jpg#2,A man in an ampitheater talking to a boy .,"[0.8630087, 0.95774204, 0.90512, 0.93946177, 0...","[0.17399089, 0.13090007, 0.098225914, -0.00506..."
5182,909808296_23c427022d.jpg,2112921744_92bf706805.jpg#2,A dog stands on the side of a grassy cliff .,"[0.861632, 0.92630404, 0.8933518, 1.0591965, 0...","[0.0708531, -0.024675641, -0.033830915, 0.1175..."
5183,929679367_ff8c7df2ee.jpg,3651971126_309e6a5e22.jpg#2,A blurry photo of two dogs .,"[0.88674283, 0.8449085, 0.90386814, 1.0211519,...","[0.026245117, 0.079437256, -0.07965851, 0.0952..."


## 5. Объединение векторов

Подготовьте данные для обучения: объедините векторы изображений и векторы текстов с целевой переменной.

## 6. Обучение модели предсказания соответствия

Для обучения разделите датасет на тренировочную и тестовую выборки. Простое случайное разбиение не подходит: нужно исключить попадание изображения и в обучающую, и в тестовую выборки.
Для того чтобы учесть изображения при разбиении, можно воспользоваться классом [GroupShuffleSplit](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupShuffleSplit.html) из библиотеки sklearn.model_selection.

Код ниже разбивает датасет на тренировочную и тестовую выборки в пропорции 7:3 так, что строки с одинаковым значением 'group_column' будут содержаться либо в тестовом, либо в тренировочном датасете.

```
from sklearn.model_selection import GroupShuffleSplit
gss = GroupShuffleSplit(n_splits=1, train_size=.7, random_state=42)
train_indices, test_indices = next(gss.split(X=df.drop(columns=['target']), y=df['target'], groups=df['group_column']))
train_df, test_df = df.loc[train_indices], df.loc[test_indices]

```

Какую модель использовать — выберите самостоятельно. Также вам предстоит выбрать метрику качества либо реализовать свою.

## 7. Тестирование модели

Настало время протестировать модель. Для этого получите эмбеддинги для всех тестовых изображений из папки `test_images`, выберите случайные 10 запросов из файла `test_queries.csv` и для каждого запроса выведите наиболее релевантное изображение. Сравните визуально качество поиска.

## 8. Выводы

- [x]  Jupyter Notebook открыт
- [ ]  Весь код выполняется без ошибок
- [ ]  Ячейки с кодом расположены в порядке исполнения
- [ ]  Исследовательский анализ данных выполнен
- [ ]  Проверены экспертные оценки и краудсорсинговые оценки
- [ ]  Из датасета исключены те объекты, которые выходят за рамки юридических ограничений
- [ ]  Изображения векторизованы
- [ ]  Текстовые запросы векторизованы
- [ ]  Данные корректно разбиты на тренировочную и тестовую выборки
- [ ]  Предложена метрика качества работы модели
- [ ]  Предложена модель схожести изображений и текстового запроса
- [ ]  Модель обучена
- [ ]  По итогам обучения модели сделаны выводы
- [ ]  Проведено тестирование работы модели
- [ ]  По итогам тестирования визуально сравнили качество поиска