# 腾讯广告算法大赛 2021: 多模态视频广告标签
* 赛道二: 多模态视频广告标签（Multimodal Video Ads Tagging）  
    * 赛题简介: 对于给定的测试视频样本，通过算法预测出视频在呈现形式、场景、风格等三个维度上的标签，使用Global Average Precision(GAP)进行评分。  
* 官网报名 - https://algo.qq.com/  

# 赛题解析

## 赛题说明

多模态视频广告标签是一种多模式学习任务，旨在通过理解包括视频、音频、文本等在内的多模态信息来预测语义标签。具体地，对于我们给定的视频广告，参赛者需要从4个维度来预测视频标签: 呈现、场景、样式、叙述。  
![avatar](tagging.png)
如上图所示，每个视频广告样本都包含视频和音频，还可以通过OCR和ASR提取出文本信息。基于这些特征作为输入，使用多模态标签学习来预测标签。  
* 补充说明: 允许参赛者使用外部训练数据优化模型，包括合成数据以及其它公共数据集。此外，参赛者也可以使用NLP纠错、知识图谱和其它策略进行优化。

## 评估指标

对于每个广告视频，您将提交一份预测标签及其对应的置信度得分的列表。  
评估采用具有最高k(i)的预测标签，其中i为索引，每个视频在每个索引下的置信度得分，然后将每个预测和置信度得分视为一长串的全局数据中的单个数据点预测，以计算上述各方面的所有预测和所有视频的平均精度。如果提交视频具有k(i)个预测（标记/置信对），并按其置信度得分排序，则GAP
$$
GAP = \sum_{i=1}^{3} \sum_{j=1}^{k(i)} p(j)\Delta r(j)
$$

## 提交格式

提交结果文件为json格式，示例如下:  

```json
{
    "03121d15e3cb0354c478576ec12c1f56.mp4": {
        "result": [{
                "labels": ["情景剧","BGM","办公室","人行道","悬念","中景","特写","现代","背景交代","疑问悬念","附加赠礼","游戏界面","红包","游戏原声","手机屏幕","轻快","产品展示","金币/红包激动","服务优势","品牌强化","行动指引"],
                "scores": [0.9, 0.8, 0.5, 0.5, ...]
                  }]
        }
    ...
}
```

# 数据说明

初赛阶段会提供初赛数据集，参赛者在报名成功后，可在腾讯云TI-ONE中启动一个Notebook，初赛数据集已经预置在了/home/tione/notebook/algo-2021/dataset/目录下。  
* 腾讯云TI-ONE如何启动一个Notebook - https://cloud.tencent.com/document/product/851/44434  
* /home/tione/notebook/algo-2021/dataset/目录是只读目录，为了提升性能或便于数据处理，用户可以在/home/tione/notebook/目录下新建文件夹dataset，并将/home/tione/notebook/algo-2021/dataset/下的内容复制到/home/tione/notebook/dataset/下

初赛数据集的目录结构如下:  
```
- dataset/
    - label_id.txt                                                  // 标签字典文件，每一行是(标签名称, 标签编号)
    - structuring/
        - GroundTruth/                                              // structuring任务的训练集标注信息和数据集文件
            - datafile/                                             // structuring任务的训练集数据集文件，包括训练集（datafile/train.txt, shuffle后的90%）与验证集（datafile/val.txt, shuffle后的10%）
                - train.txt
                - val.txt
            - structuring_tagging_info.txt                          // structuring任务训练集标注信息（csv格式）
            - train5k.txt                                           // structuring任务训练集标注信息（json格式）
        - structuring_dataset_test_5k/                              // structuring任务测试集特征信息
            - aud_feat/
            - aud_wav/
            - shot_keyf/
            - shot_split_video/
            - shot_stats/
            - shot_txt/
        - structuring_dataset_train_5k/                             // structuring任务训练集特征信息
            - aud_feat/
            - labels/
            - meta/
            - place_feat/
            - shot_stats/
            - shot_txt/ 
        - train5k_split_video/                                      // 切分后的视频
        - train5k_split_video_feats/                                // 切分后的视频特征，包括视频特征、音频特征、封面图、文本特征等
    - tagging/
        - GroundTruth/                                              // tagging任务的训练集标注信息和数据集文件
            - datafile/                                             // tagging任务的训练集数据集文件，包括训练集（datafile/train.txt，shuffle后的90%）与验证集（datafile/val.txt，shuffle后的10%），每一个样本包括6行，依次是video_npy、audio_npy、封面图、文本信息、多标签标注信息（文本）、空行
                - train.txt
                - val.txt
            - tagging_info.txt                                      // tagging任务的训练集标注信息（csv格式）
        - tagging_dataset_test_5k/                                  // 测试集的特征文件
            - audio_npy/Vggish/tagging/                             // 音频特征: 测试集视频的音频特征文件（.npy）
            - image_jpg/tagging/                                    // 封面图: 测试集视频的封面图文件
            - text_txt/tagging/                                     // 文本特征: 测试集视频的文本特征，包括视频广告的OCR结果、ASR结果等
            - video_npy/Youtube8M/tagging/                          // 视频特征: 测试集视频的视频特征文件（.npy）
        - tagging_dataset_train_5k/                                 // 训练集的特征文件
            - audio_npy/Vggish/tagging/                             // 音频特征: 训练集视频的音频特征文件（.npy）
            - image_jpg/tagging/                                    // 封面图: 训练集视频的封面图文件
            - text_txt/tagging/                                     // 文本特征: 训练集视频的文本特征，包括视频广告的OCR结果、ASR结果等
            - video_npy/Youtube8M/tagging/                          // 视频特征: 训练集视频的视频特征文件（.npy）
    - videos/
        - test_5k_A/                                                // 测试集原始视频文件（.mp4）
        - train_5k_A/                                               // 训练集原始视频文件（.mp4）
```

## （彩蛋）数据展示

借助TI-ONE Notebook，您可以方便地展示数据集中的数据，包括视频、图片等，以帮助进一步分析。  
以下代码片段，给出了一个简单的示例（相信你已经能感受到Notebook的强大了，尽情探索Notebook的数据展示与分析功能吧）: 

In [None]:
import os

dataset_root = './VideoStructuring/dataset/'

# ########## get train_5k_A video file lists
videos_train_5k_A_dir = os.path.join(dataset_root, 'videos/train_5k_A')
videos_train_5k_A_files = [os.path.join(videos_train_5k_A_dir, f) for f in os.listdir(videos_train_5k_A_dir) if os.path.isfile(os.path.join(videos_train_5k_A_dir, f))]

print("videos_train_5k_A_dir= {}".format(videos_train_5k_A_dir))
print("len(videos/train_5k_A)= {}".format(len(videos_train_5k_A_files)))

# ########## display
from IPython.display import display, HTML

# video
test_video_path = videos_train_5k_A_files[3000]
print(test_video_path)
print(os.path.exists(test_video_path))
html_str = '''
<video controls width=\"500\" height=\"500\" src=\"{}\">animation</video>
'''.format(test_video_path)
print(html_str)
display(HTML(html_str))

# Baseline

为了让参赛者更快速地熟悉赛题，我们提供了一个baseline，帮助参赛者们理解赛题，并开拓思路。   

参赛者在报名成功后，可在腾讯云TI-ONE中启动一个Notebook，tagging任务的baseline已经预置在了/home/tione/notebook/algo-2021/baseline/tagging/VideoStructuring/目录下。  
* 腾讯云TI-ONE如何启动一个Notebook - https://cloud.tencent.com/document/product/851/44434
* /home/tione/notebook/algo-2021/baseline/tagging/VideoStructuring/目录是只读目录，为了提升性能或便于数据处理，用户可以在/home/tione/notebook/目录下新建文件夹VideoStructuring，并将/home/tione/notebook/algo-2021/baseline/tagging/VideoStructuring/下的内容复制到/home/tione/notebook/VideoStructuring/下

Baseline（/home/tione/notebook/VideoStructuring/）的目录结构如下:  
```
- VideoStructuring/
    - MultiModal-Tagging/                              // tagging任务相关的代码
        - configs/
        - dataset/
        - pretrained/
        - scripts/
        - src/
        - utils/
        - ReadMe.md
        - requirment.txt
    - SceneSeg/                                        // Scene Segmentation相关的代码
        - lgss/
        - pre/
        - run/
        - ReadMe.md
    - init.sh                                          // 初始化脚本，需要执行 ./init.sh run 初始化环境
    - run.sh                                           // 运行脚本，seg_train、tag_train、test等步骤都封装成了脚本，可通过 ./run.sh 脚本执行相关任务，使用 ./run.sh help 了解如何使用
    - ReadMe.md
```

## 环境准备

Baseline代码运行所需要的环境可以直接运行 init.sh 进行准备  
注意: init.sh 中的 JupyterRoot 需要更改为 VideoStructuring 文件夹所在的目录  

In [11]:
!sudo chmod a+x ./init.sh && ./init.sh

CONDA_CONFIG_ROOT_PREFIX= root_prefix: /opt/conda
CONDA_ROOT= /opt/conda
TAAC2021_ENV= taac2021
JUPYTER_ROOT= /home/tione/notebook
Hit:1 http://mirrors.tencentyun.com/ubuntu bionic InRelease
Hit:2 http://mirrors.tencentyun.com/ubuntu bionic-security InRelease
Hit:3 http://mirrors.tencentyun.com/ubuntu bionic-updates InRelease
Reading package lists... Done                     
Reading package lists... Done
Building dependency tree       
Reading state information... Done
apt-utils is already the newest version (1.6.12ubuntu0.2).
0 upgraded, 0 newly installed, 0 to remove and 126 not upgraded.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
libsndfile1-dev is already the newest version (1.0.28-4ubuntu0.18.04.1).
ffmpeg is already the newest version (7:3.4.8-0ubuntu0.2).
0 upgraded, 0 newly installed, 0 to remove and 126 not upgraded.
Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.7

## 环境测试

准备好环境后，可以测试一下环境是否准备成功。  
将 notebook 的右上角 kernel 换成 TAAC2021 (taac2021-tagging)，然后执行下述代码，如果是 tf1.14 则说明环境准备成功。

In [None]:
import tensorflow as tf
print(tf.__version__)

也可以运行一下下述命令，看看虚拟环境是否正常创建。

In [12]:
!conda info --envs | grep taac2021

taac2021                 /opt/conda/envs/taac2021


## 模型训练

训练模型之前需要链接一下数据集，将VideoStructuring/dataset链接到/home/tione/notebook/algo-2021/dataset

In [1]:
!ln -s /home/tione/notebook/algo-2021/dataset /home/tione/notebook/VideoStructuring/dataset

对于标签预测，需要完成特征提取（./run.sh extract）与数据集生成（./run.sh gt）两项任务。  
为了简化操作，baseline已完成了前置步骤，用户可以直接使用下列脚本进行视频标签模型的训练。  
训练完成后，模型存在于VideoStructuring/MultiModal-Tagging/checkpoints/目录下。  

In [14]:
!sudo chmod a+x ./run.sh && ./run.sh train

CONDA_CONFIG_ROOT_PREFIX= root_prefix: /opt/conda
CONDA_ROOT= /opt/conda
TAAC2021_ENV= taac2021
JUPYTER_ROOT= /home/tione/notebook
CODE_ROOT= /home/tione/notebook/MultiModal-Tagging
# conda environments:
#
base                     /opt/conda
JupyterSystemEnv         /opt/conda/envs/JupyterSystemEnv
mxnet_py2                /opt/conda/envs/mxnet_py2
mxnet_py3                /opt/conda/envs/mxnet_py3
python2                  /opt/conda/envs/python2
python3                  /opt/conda/envs/python3
pytorch_py2              /opt/conda/envs/pytorch_py2
pytorch_py3              /opt/conda/envs/pytorch_py3
taac2021              *  /opt/conda/envs/taac2021
tensorflow2_py3          /opt/conda/envs/tensorflow2_py3
tensorflow_py2           /opt/conda/envs/tensorflow_py2
tensorflow_py3           /opt/conda/envs/tensorflow_py3

/home/tione/notebook/MultiModal-Tagging
Info: TYPE is train
Info: training with config= /home/tione/notebook/MultiModal-Tagging/config.tagging.yaml
  _np_qint8 = np.dtype([("

### 模型测试

Baseline的测试可以直接使用 ./run.sh test \[CHECKPOINT_DIR\] 进行，成功执行后会在VideoStructuring/MultiModal-Tagging/results/目录下生成tagging_5k_A.json结果文件。  
提交这个文件就可以参与排名。  
注意: ./run.sh test的特征提取时间较长（13小时左右），为了简化操作，baseline的测试集特征提取已预先完成，test时长约为半小时左右。用户可以自由地优化算法与相关流程。  

In [None]:
!sudo chmod a+x ./run.sh && ./run.sh test checkpoints/tagging_train799/export/step_2000_0.5608