In [1]:
!pip install requests



In [13]:
import pandas as pd
import numpy as np
import requests
from pandas import option_context

# Анализ исходных данных и построение пайпа по обогащению для поиска

В рамках данных работы посмотрим на исходные данные и выработаем стратегию для сбора дополнительных фичей, позволяющих построить поиск, с учетом ограничений по железу команды

## Предварительный анализ

Первым делом рассмотрим, какие данные были получены на вход

In [16]:
dataset = pd.read_csv('../source_dataset.csv')

with option_context('display.max_colwidth', 400, "display.max_rows", 100):
    display(dataset.head(100))

Unnamed: 0,link,description
0,https://cdn-st.rutubelist.ru/media/b0/e9/ef285e0241139fc611318ed33071/fhd.mp4,"#нарезкистримов , #dota2 , #cs2 , #fifa23 , #minecraft , #майнкрафт , #геншин , #genshin"
1,https://cdn-st.rutubelist.ru/media/39/6c/b31bc6864bef9d8a96814f1822ca/fhd.mp4,🤫НЕ ВВОДИ ЭТУ КОМАНДУ В РОБЛОКС ! #shorts #roblox #роблокс
2,https://cdn-st.rutubelist.ru/media/e9/e0/b47a9df14a5e97942715e5e705c0/fhd.mp4,"#boobs , #красивыедевушки , #ass"
3,https://cdn-st.rutubelist.ru/media/87/43/b11df3f344d0af773aac81e410ee/fhd.mp4,
4,https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4,
5,https://cdn-st.rutubelist.ru/media/e2/97/f9164f8a41479f961d64842154a7/fhd.mp4,
6,https://cdn-st.rutubelist.ru/media/0f/48/8a1ff7324073947a31e80f71d001/fhd.mp4,#diy #постановка #юмор #комедия
7,https://cdn-st.rutubelist.ru/media/19/9c/98de3b4a4d9e83cb5dda828f899e/fhd.mp4,
8,https://cdn-st.rutubelist.ru/media/bf/ee/85fb6b80491db79e8baebe5c9d80/fhd.mp4,#образ #lookbook #показ #неделямоды #капсула #ошибкивстиле #селебрити #интервью #перевоплощения #обувь #кроссовки
9,https://cdn-st.rutubelist.ru/media/fc/73/d86600d04e519178a55774dfe65e/fhd.mp4,#путешествия #journey #туризм


In [4]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400000 entries, 0 to 399999
Data columns (total 2 columns):
 #   Column       Non-Null Count   Dtype 
---  ------       --------------   ----- 
 0   link         400000 non-null  object
 1   description  345081 non-null  object
dtypes: object(2)
memory usage: 6.1+ MB


In [5]:
rows_count = dataset['link'].count()
na_rows_count = dataset[dataset['description'].isna()]['link'].count();

print("Общее количество записей {}".format(rows_count))
print("Количество записей без тегов {}".format(na_rows_count))
print("Процент записей без тегов {:.0%}".format(na_rows_count/rows_count))

Общее количество записей 400000
Количество записей без тегов 54919
Процент записей без тегов 14%


После первой попытки обобщенного анализа имеем:
- Датасет состоит из 400 000 записей
- Одна запись содержит линку на видео, и тэги, актуальные для нее
- Имеем, что ~55 000 записей (14%) не имеют тегов, в принципе

Попробуем понять, какой объем данных мы имеем. Это важно для того, чтобы выработать стратегию обучения. Мы знаем, что сервис организатора представляет собой платформу для просмотра коротких видео. Следовательно, можно предположить, что размер контента +- одинаковый. То есть, для примерного подсчета размера выборки будем придерживаться следующей логики:
- С помощью get запроса по рандомно взятому link получим видео и взглянем на размер ответа в header'ах
- Полученный размер возьмем за среднее. Не будем заниматься тем, что реально посчитаем средний размер по выборке или же полностью просканим 400к записей для того, чтобы получить ответ. Выглядит излишним и шумным. На конечный результат, судя по вводной относительно логики работы платформы, данная точность повлияет с небольшим размахом, который в реальности не имеет смысла.
- Умножим средний размер на количество записей, зафиксируем полученный результат
- Порассуждаем над стратегией работы с данными

In [6]:
sizes = []
for i in range(0, 10):
    test_link = dataset['link'][i]
    response = requests.get(test_link)
    size = int(response.headers['Content-Length']) / 1024 / 1024
    sizes.append(size)
    
meanSize = np.array(sizes).mean()

print(f"Средний размер файла {meanSize:.2f} мб")

meanVolume = meanSize * 400000 / 1024 / 1024


print(f"Средний размер выборки {meanVolume:.2f} тб")

Средний размер файла 6.09 мб
Средний размер выборки 2.32 тб


Итак, имеем, что прогнозируемый размер выборки - 2.32тб. Объем достаточно внушительный для того, чтобы работать с данными дефолтным образом и локально. Ощущение, что обработку видео придется осуществлять батчами (пачками). Также необходимо учесть, что само видео непосредственно получаем GET'ом с хоста, который предоставили организаторы. И здесь нужно отметить, что:
- в каких-то местах процесса обогащения можем падать по rate limiter'у
- хост может быть перегружен, наверняка команды соперников так же будут к нему обращаться
- возможны задержки в отдаче в пиковые моменты, надо подумать над увеличением таймаутов 
- подумать о ретраях и вообще обработке exception'ов от хоста

И прежде чем перейти к обработке взглянем на то, а какое количество видео имеет идентичные хэштеги

In [31]:
unique_values = dataset['description'].unique()
unique_values_percent = unique_values.shape[0]/ dataset['description'].shape[0]
print('Количество уникальных описаний в виде хештегов к видео:',unique_values.shape[0])
print('Процент уникальных описаний в виде хештегов к видео:',  f"{unique_values_percent:.0%}")

Количество уникальных описаний в виде хештегов к видео: 91075
Процент уникальных описаний в виде хештегов к видео: 23%


Данная статистика и сессия ответов на вопросы с экспертами по треку навела на мысль о том, что в выборке могут быть дубли по контенту. Очевидно, что вряд ли корректным равенством является видео 1 = видео 2, если равны хэштеги, но, на всякий случай, было решено, что:
- будем смотреть на 1 фрейм видео
- считать хеш от него, и проверять, есть ли в кэше результаты работы моделей по видео. 
- В случае, если хеши совпали, будем пропускать обработку данного видео и обогощать его из кэша

Теперь перейдем к описанию стратегии по обработке

## Стратегия обработки видео

Начнем от простого к сложному, поэтому распишу максимально абстрактно. Предпологаем, что будем действовать следующим образом:
- Брать n видео из выборки
- Смотрим, есть ли описание по видео в кэше, если нет, то следуем дальше по списку вниз
- Полученные видео прогоняем через whisper, в надежде получить транскрибацию с видео
- Сэмплируем каждое видео на m картинок
- Строим архитектуру под Image Captioning. Предварительно будем брать архитектуры, которые обучены на Flickr или COCO 2017ого года, и файнтюнить их, в идеале брать обученные
- Перед тем, как начать основной флоу, возьмем первый кадр с видео и глянем на его хеш
- В случае, если данный хеш обратывался ранее - возьмем фичи для видео из кэша
- Прогоняем полученные m картинок, получаем результат, переводим его и объединяем все в одну строку
- Полученные описания (текст с whisper, текст с описания изображения) складываем в БД. Предварительно будем использовать Elastic. Также открытый вопрос


Дальнейшие действия будем осуществлять на Kaggle, так как у каждого разработчика MAC OS и для использования GPU нужны дополнительные команды. Тестово начнем удаленно, посмотрим на скорость работы заданного алгоритма. Если все будет плохо и обработка будет занимать длительное время, перепишем код под локальное железо и продолжим на MAC OS.
Преждем чем продемонстрировать пример работы скрипта по обогащению, зафиксируем, из чего состоит сбор фичей компонентно:

1. **Image Captioning** - собираем описание контента с видео и переводим его на русский язык
2. **Automatic Speech Recognition** - собираем речь с видео в текст, если таковая присутсвует
3. **Text to Embedding** - полученное переведенное описание и речь переводим в векторный вид с помощью OpenSource модели от SberDevice. Также используем исходные теги, видно, что признак, в принципе надежный (всего у 14% записей теги отсутствуют вовсе) и этот признак так же можно учесть в поиске

Далее смотреть тетрадку **preprocess_description_with_examples**, в которой можете отражен пример работы пайплайна и описаны проблемы, с которыми сталкивались, а так же каким образом их решали. В тетрадке много текста, но просьба прочитать =)

После того, как работа процесса в отдельной тетрадке рассмотрена, перейдем к описанию полученных результатов

## Полученные результаты и выводы

Итак, взглянем полученную выборку, которую использования для построения индекса

In [33]:
from pandas import option_context

with option_context('display.max_colwidth', 400, "display.max_rows", 100):
    general_data = pd.read_csv('../general_data.csv')
    display(general_data.head(100))

Unnamed: 0,link,tags,description_ru,short_description_ru,description_en,short_description_en,text
0,https://cdn-st.rutubelist.ru/media/b0/e9/ef285e0241139fc611318ed33071/fhd.mp4,"#нарезкистримов , #dota2 , #cs2 , #fifa23 , #minecraft , #майнкрафт , #геншин , #genshin","Группа мужчин, играющих в игру в футбол. Группа людей, играющих в игру в футбол. Группа детей, играющих в футбол на поле. Бейсболист бежит, чтобы поймать мяч. Группа мужчин, играющих в игру в бейсбол. Женщина в синей рубашке и оранжевых шортах играет в футбол.","Группа людей, играющих в игру в футбол.",A group of men playing a game of soccer. A group of people playing a game of soccer. A group of kids playing soccer on a field. A baseball player is running to catch a ball. A group of men playing a game of baseball. A woman in a blue shirt and orange shorts playing a game of soccer.,A group of people playing a game of soccer.,"Идём, идём, идём, Идём, идём, идём, Идём, идём, идём, Идём, идём, идём, Идём, идём, идём, Идём, идём, идём, Идём, идём, идём,"
1,https://cdn-st.rutubelist.ru/media/39/6c/b31bc6864bef9d8a96814f1822ca/fhd.mp4,🤫НЕ ВВОДИ ЭТУ КОМАНДУ В РОБЛОКС ! #shorts #roblox #роблокс,"Человек, едущий на велосипеде на тротуаре. Человек в маске и держит банан. Игрушечный поезд с гигантским роботом на нем. Кукла фигура с бейсбольной битой на стуле. Мужчина с черной рубашкой и очками держит контроллер видеоигр. Размытая фотография человека с кошкой на голове. Человек ездит на велосипеде на вершине красного стула. Игрушечный велосипед едет на синей стене. Человек в маске и держи...",Человек в маске и держит сноуборд.,A person riding a bike on a sidewalk. A person wearing a mask and holding a banana. A toy train with a giant robot on it. A doll figure with a baseball bat on a chair. A man with a black shirt and glasses is holding a video game controller. A blurry photo of a person with a cat on their head. A man riding a bike on top of a red chair. A toy bicycle is riding on a blue wall. A person wearing a ...,A person wearing a mask and holding a snowboard.,"Сейчас я тебе покажу секретную команду в Роблоксе. Чтобы её активировать, поставь лайк и подпишись, а также введи в чат команду ILOVEYOU. Когда вы её введёте, у вас на экране появится вот такой клоун. Скрипт был создан одним из создателей Роблокса и работает только в играх, где есть Роблокс Девелопер Сервис. Чтобы брать скример нужно всего-то выйти из игры, но лучше не проверяй."
2,https://cdn-st.rutubelist.ru/media/e9/e0/b47a9df14a5e97942715e5e705c0/fhd.mp4,"#boobs , #красивыедевушки , #ass",Женщина с черными волосами и белым лицом. Женщина смотрит на свой телефон в комнате. Женщина смотрит на свой телефон в гостиничном номере. Женщина с татуировкой на лице и черно -белой фотографией ее. Женщина и девушка лежат в постели. Женщина с татуировкой на лице и мужчина с маской на голове.,Женщина с черными волосами и белым лицом.,A woman with a black hair and a white face. A woman is looking at her phone in a room. A woman is looking at her phone in a hotel room. A woman with a tattoo on her face and a black and white photo of her. A woman and a girl are laying in bed. A woman with a tattoo on her face and a man with a mask on his head.,A woman with a black hair and a white face.,Субтитры сделал DimaTorzok
3,https://cdn-st.rutubelist.ru/media/87/43/b11df3f344d0af773aac81e410ee/fhd.mp4,,"Женщина, держащая мобильный телефон рядом с тортом. Женщина, сидящая за столом с тортом. Женщина, сидящая за столом с книгой. Женщина сидит за столом с кучей наклеек на нем. Женщина сидит за столом с тортом. Женщина, сидящая за столом с тортом ко дню рождения. Женщина сидит за столом с ноутбуком. Женщина, сидящая за столом с клавиатурой и мышью. Женщина сидит за столом с книгой. Женщина, держа...","Женщина, сидящая за столом с клавиатурой и мышью.",A woman holding a cell phone next to a cake. A woman sitting at a table with a cake. A woman sitting at a table with a book. A woman is sitting at a table with a bunch of stickers on it. A woman is sitting at a table with a cake. A woman sitting at a table with a birthday cake. A woman is sitting at a table with a laptop. A woman sitting at a desk with a keyboard and mouse. A woman is sitting ...,A woman sitting at a desk with a keyboard and mouse.,"Что он о тебе думает прямо сейчас? Слушай, думает, что ты, знаешь, для него непосильная ноша. Как будто бы, да, королева мечей. Чувствует то, что ты по характеру гораздо сильнее, и то, что ему с тобой будет очень сложно. Но при этом есть желания, и желания не совсем приличные. Проявляться боится, и, честно говоря, сам проявляться не будет. Я бы на твоём месте вообще подумала, нужен ли тебе т..."
4,https://cdn-st.rutubelist.ru/media/d1/e7/642dc2194fcdb69664f832d5f2dd/fhd.mp4,,"Человек в костюме и галстуке использует ноутбук. Человек в костюме и галстуке улыбается. Мужчина в галстуке и рубашку с изображением мужчины с усами. Желтый знак, который находится на черном фоне. Человек в костюме и галстуке сидит за столом. Человек в костюме и галстуке позирует для картинки.","Желтый знак, который находится на черном фоне.",A man in a suit and tie is using a laptop. A man in a suit and tie is smiling. A man wearing a tie and a shirt with a picture of a man with a mustache. A yellow sign that is on a black background. A man in a suit and tie sitting at a table. A man in a suit and tie is posing for a picture.,A yellow sign that is on a black background.,"Я убежден, что чем беднее человек, тем сложнее его удовлетворить, потому что тот человек, у которого нет денег, он всегда недоволен чем-то, он всегда просит больше. Тот человек, который в принципе удовлетворен своими деньгами, он говорит классно, это здорово, спасибо и идет и делает."
5,https://cdn-st.rutubelist.ru/media/e2/97/f9164f8a41479f961d64842154a7/fhd.mp4,,"Женщина, сидящая на полу с ее черно -белой фотографией. Собака лежит на полу в комнате. Женщина, сидящая на стуле в комнате. Женщина, лежащая на полу с зонтиком. Собака, лежащая на земле в темноте. Человек, лежащий на земле, ногами на земле. Человек, лежащий на земле в комнате. Человек, лежащий на земле с зонтиком. Женщина, сидящая на полу с кошкой на коленях. Женщина лежит на полу в комнате. ...",Женщина лежит на полу с собакой.,A woman sitting on a floor with a black and white photo of her. A dog laying on the floor in a room. A woman sitting on a chair in a room. A woman laying on the floor with an umbrella. A dog laying on the ground in the dark. A person laying on the ground with their feet on the ground. A person laying on the ground in a room. A person laying on the ground with an umbrella. A woman sitting on a ...,A woman is laying on the floor with a dog.,
6,https://cdn-st.rutubelist.ru/media/0f/48/8a1ff7324073947a31e80f71d001/fhd.mp4,#diy #постановка #юмор #комедия,"Человек со шляпой и шляпой на голове. Молодой мальчик в шляпе и бейсболке. Человек держит в руке пару ножниц. Молодой человек улыбается, чистя зубы. Женщина, держащая бокал вина в правой руке. Человек в шляпе читает бумагу. Женщина в черной рубашке и очках, глядя на телефон. Молодой человек стоит перед холодильником. Молодой человек с синей рубашкой и красным галстуком. Человек, стоящий перед ...",Молодой мальчик в шляпе и бейсболке.,A man with a hat and a hat on his head. A young boy wearing a hat and a baseball cap. A man is holding a pair of scissors in his hand. A young man is smiling while brushing his teeth. A woman holding a glass of wine in her right hand. A man in a hat is reading a paper. A woman in a black shirt and glasses looking at a phone. A young man is standing in front of a refrigerator. A young man with ...,A young boy wearing a hat and a baseball cap.,"Ситуации, которые бесят КАЖДОГО! Когда списываешь у соседа по партии, и вдруг он переворачивает страницу! Можешь назад перелистнуть, пожалуйста? Нет, я пишу! Когда твой лучший друг в сотый раз приходит к тебе в гости и не может запомнить, какая у тебя квартира! А какой номер квартиры у тебя? Когда ты запомнишь! Двадцать девятое! И самое бесячее, когда к тебе приходят гости и спрашивают! А у в..."
7,https://cdn-st.rutubelist.ru/media/19/9c/98de3b4a4d9e83cb5dda828f899e/fhd.mp4,,Уличный знак показан с небом. Уличный знак с небом и уличным знаком с закатом. Уличный знак с уличным знаком на нем.,Уличный знак с уличным знаком на нем.,A street sign is shown with a sky background. A street sign with a sky background and a street sign with a sunset. A street sign with a street sign on it.,A street sign with a street sign on it.,День и ночь.
8,https://cdn-st.rutubelist.ru/media/bf/ee/85fb6b80491db79e8baebe5c9d80/fhd.mp4,#образ #lookbook #показ #неделямоды #капсула #ошибкивстиле #селебрити #интервью #перевоплощения #обувь #кроссовки,"Ноги человека показаны на скейтборде. Ноги человека показывают их обувь. Человек, держащий мобильный телефон в руке. Женщина, держащая в руке смартфон. Человек держит пару обуви. Пара обуви с изображением человека на них. Рука, держащая синий пластиковый объект с синим фоном. Человек держит белую и черную обувь.","Женщина, держащая в руке смартфон.",A person's feet are shown on a skateboard. A person's feet are shown with their shoes. A person holding a cell phone in their hand. A woman holding a smart phone in her hand. A person is holding a pair of shoes. A pair of shoes with a picture of a man on them. A hand holding a blue plastic object with a blue background. A person is holding a white and black shoe.,A woman holding a smart phone in her hand.,"Как работает шампунь для кроссовок? Проверять будем на левом кроссовке моих суперкортов, повидавших жизнь. Прикол этой штучки в том, что внутри уже содержится раствор, и всё, что нужно сделать, это надавить губкой на кроссы. Сама губка не портит ваши кроссовки. Её плюс в том, что её можно отдельно мыть. Также сам шампунь очень удобно брать с собой в город и время от времени чистить кроссы."
9,https://cdn-st.rutubelist.ru/media/fc/73/d86600d04e519178a55774dfe65e/fhd.mp4,#путешествия #journey #туризм,"Большой самолет припарковался в терминале аэропорта. Большой реактивный, сидящий на вершине аэропорта. Самолет припаркован в терминале аэропорта. Большой пассажирский самолет, сидящий на вершине аэропорта. Сине -белый самолет припарковался в аэропорту. Сине -белый реактивный самолет припарковался в аэропорту.","Большой реактивный, сидящий на вершине аэропорта.",A large airplane parked at an airport terminal. A large jetliner sitting on top of an airport tarmac. A plane is parked at an airport terminal. A large passenger jet sitting on top of an airport tarmac. A blue and white airplane parked at an airport. A blue and white jet airplane parked at an airport.,A large jetliner sitting on top of an airport tarmac.,Субтитры подогнал Игорь Негода


Визуально пробежав по небольшой выборке видно, что далеко не у каждой записи имеется разговорная часть в видео. 
Взглянем на это статистически

In [36]:
general_data_length = general_data.shape[0]
general_data_notna_length = general_data[general_data['text'].notna()].shape[0]

In [38]:
print("Общее количество записей {}".format(general_data_length))
print("Количество записей без разговора на видео {}".format(general_data_notna_length))
print("Процент записей без разговора на видео {:.0%}".format(general_data_notna_length/general_data_length))

Общее количество записей 50
Количество записей без разговора на видео 38
Процент записей без разговора на видео 76%


Видно, что большая часть видео из исходной выборки не содержит разговора на видео. Это говорит о том, что вырабатывая стратегию поиска, на данный атрибут нужно ориентироваться в последнюю очередь и приоритетом брать эмбединги от description_ru

Что же, выработка фичей описана, данную работу считаем завершенной. В дальнейшем перейдем к подробному описанию поиска