# 腾讯广告算法大赛 2021: 视频广告秒级语义解析

* 赛道一: 视频广告秒级语义解析（Video Ads Content Structuring）  
    * 赛题简介: 对于给定测试视频样本，通过算法将视频在时序上进行“幕”的分段，并且预测出每一段在呈现形式、场景、风格等三个维度上的标签，使用Mean Average Precision(MAP)进行评分。  
* 官网报名 - https://algo.qq.com/  

# 赛题解析

## 赛题说明

视频广告秒级语义解析任务，定义为将广告视频分层分解为多个单元并建立它们之间的关系的过程。在此任务中，需要将视频分解为场景。场景被定义为语义上相关且在时间上相邻的镜头的集合，描绘并传达了高级概念。一个场景通常包括一系列连续的镜头，这些镜头记录在同一位置。如下图所示，给定视频，算法需要将视频分解为场景并推断每个场景的标签。   
![avatar](structuring.png)  

## 评估指标

为了确定时间段是否为真正值，我们检查具有真实值（ground-truth）与预测（prediction）时间线段上的交集（temporal Intersection of Union, tIOU，并检查其是否大于或等于给定的阈值（例如，tIOU> 0.5）。  
此任务中使用的度量标准是平均mAP，其定义为所有mAP值的平均值，其中tIOU阈值介于0.5到0.95（含）之间，步长为0.05。  
![avatar](structuring_eval.png) 

## 提交格式

提交结果文件为json格式，示例如下:  

```json
{
    "03121d15e3cb0354c478576ec12c1f56.mp4": {
        "result": [
            {
                "segment": [0, 13],
                "labels": ["情景剧","BGM","办公室","人行道","悬念","中景","特写","现代","背景交代","疑问悬念","附加赠礼"],
                "scores": [0.9, 0.5, ...],
            },
            {
                "segment": [13, 17],
                "labels": ["游戏界面","红包","游戏原声","手机屏幕","轻快","现代","产品展示","金币/红包激动"],
                "scores": [0.9, 0.5, ...],
            },
            ...
        ]
    }
    ...
}
```

# 数据说明

初赛阶段会提供初赛数据集，参赛者在报名成功后，可在腾讯云TI-ONE中启动一个Notebook，初赛数据集已经预置在了/home/tione/notebook/algo-2021/dataset/目录下。  
* 腾讯云TI-ONE如何启动一个Notebook - https://cloud.tencent.com/document/product/851/44434  
* /home/tione/notebook/algo-2021/dataset/目录是只读目录，为了提升性能或便于数据处理，用户可以在/home/tione/notebook/目录下新建文件夹dataset，并将/home/tione/notebook/algo-2021/dataset/下的内容复制到/home/tione/notebook/dataset/下

初赛数据集的目录结构如下:  
```
- dataset/
    - label_id.txt                                                  // 标签字典文件，每一行是(标签名称, 标签编号)
    - structuring/
        - GroundTruth/                                              // structuring任务的训练集标注信息和数据集文件
            - datafile/                                             // structuring任务的训练集数据集文件，包括训练集（datafile/train.txt, shuffle后的90%）与验证集（datafile/val.txt, shuffle后的10%）
                - train.txt
                - val.txt
            - structuring_tagging_info.txt                          // structuring任务训练集标注信息（csv格式）
            - train5k.txt                                           // structuring任务训练集标注信息（json格式）
        - structuring_dataset_test_5k/                              // structuring任务测试集特征信息
            - aud_feat/
            - aud_wav/
            - shot_keyf/
            - shot_split_video/
            - shot_stats/
            - shot_txt/
        - structuring_dataset_train_5k/                             // structuring任务训练集特征信息
            - aud_feat/
            - labels/
            - meta/
            - place_feat/
            - shot_stats/
            - shot_txt/ 
        - train5k_split_video/                                      // 切分后的视频
        - train5k_split_video_feats/                                // 切分后的视频特征，包括视频特征、音频特征、封面图、文本特征等
    - tagging/
        - GroundTruth/                                              // tagging任务的训练集标注信息和数据集文件
            - datafile/                                             // tagging任务的训练集数据集文件，包括训练集（datafile/train.txt，shuffle后的90%）与验证集（datafile/val.txt，shuffle后的10%），每一个样本包括6行，依次是video_npy、audio_npy、封面图、文本信息、多标签标注信息（文本）、空行
                - train.txt
                - val.txt
            - tagging_info.txt                                      // tagging任务的训练集标注信息（csv格式）
        - tagging_dataset_test_5k/                                  // 测试集的特征文件
            - audio_npy/Vggish/tagging/                             // 音频特征: 测试集视频的音频特征文件（.npy）
            - image_jpg/tagging/                                    // 封面图: 测试集视频的封面图文件
            - text_txt/tagging/                                     // 文本特征: 测试集视频的文本特征，包括视频广告的OCR结果、ASR结果等
            - video_npy/Youtube8M/tagging/                          // 视频特征: 测试集视频的视频特征文件（.npy）
        - tagging_dataset_train_5k/                                 // 训练集的特征文件
            - audio_npy/Vggish/tagging/                             // 音频特征: 训练集视频的音频特征文件（.npy）
            - image_jpg/tagging/                                    // 封面图: 训练集视频的封面图文件
            - text_txt/tagging/                                     // 文本特征: 训练集视频的文本特征，包括视频广告的OCR结果、ASR结果等
            - video_npy/Youtube8M/tagging/                          // 视频特征: 训练集视频的视频特征文件（.npy）
    - videos/
        - test_5k_A/                                                // 测试集原始视频文件（.mp4）
        - train_5k_A/                                               // 训练集原始视频文件（.mp4）
```

## （彩蛋）数据展示

借助TI-ONE Notebook，您可以方便地展示数据集中的数据，包括视频、图片等，以帮助进一步分析。  
以下代码片段，给出了一个简单的示例（相信你已经能感受到Notebook的强大了，尽情探索Notebook的数据展示与分析功能吧）:  

In [27]:
import os

dataset_root = './VideoStructuring/dataset/'

# ########## get train_5k_A video file lists
videos_train_5k_A_dir = os.path.join(dataset_root, 'videos/train_5k_A')
videos_train_5k_A_files = [os.path.join(videos_train_5k_A_dir, f) for f in os.listdir(videos_train_5k_A_dir) if os.path.isfile(os.path.join(videos_train_5k_A_dir, f))]

print("videos_train_5k_A_dir= {}".format(videos_train_5k_A_dir))
print("len(videos/train_5k_A)= {}".format(len(videos_train_5k_A_files)))

# ########## display
from IPython.display import display, HTML

# video
test_video_path = videos_train_5k_A_files[3000]
print(test_video_path)
print(os.path.exists(test_video_path))
html_str = '''
<video controls width=\"500\" height=\"500\" src=\"{}\">animation</video>
'''.format(test_video_path)
print(html_str)
display(HTML(html_str))

videos_train_5k_A_dir= ./VideoStructuring/dataset/videos/train_5k_A
len(videos/train_5k_A)= 5000
./VideoStructuring/dataset/videos/train_5k_A/3d9bad14da293c70a53e078a5a098e36.mp4
True

<video controls width="500" height="500" src="./VideoStructuring/dataset/videos/train_5k_A/3d9bad14da293c70a53e078a5a098e36.mp4">animation</video>



# Baseline

为了让参赛者更快速地熟悉赛题，我们提供了一个baseline，帮助参赛者们理解赛题，并开拓思路。   

参赛者在报名成功后，可在腾讯云TI-ONE中启动一个Notebook，structuring任务的baseline已经预置在了/home/tione/notebook/algo-2021/baseline/structuring/VideoStructuring/目录下。  
* 腾讯云TI-ONE如何启动一个Notebook - https://cloud.tencent.com/document/product/851/44434
* /home/tione/notebook/algo-2021/baseline/structuring/VideoStructuring/目录是只读目录，为了提升性能或便于数据处理，用户可以在/home/tione/notebook/目录下新建文件夹VideoStructuring，并将/home/tione/notebook/algo-2021/baseline/structuring/VideoStructuring/下的内容复制到/home/tione/notebook/VideoStructuring/下

Baseline（/home/tione/notebook/VideoStructuring/）的目录结构如下:  
```
- VideoStructuring/
    - MultiModal-Tagging/                              // tagging任务相关的代码
        - configs/
        - dataset/
        - pretrained/
        - scripts/
        - src/
        - utils/
        - ReadMe.md
        - requirment.txt
    - SceneSeg/                                        // Scene Segmentation相关的代码
        - lgss/
        - pre/
        - run/
        - ReadMe.md
    - init.sh                                          // 初始化脚本，需要执行 ./init.sh run 初始化环境
    - run.sh                                           // 运行脚本，seg_train、tag_train、test等步骤都封装成了脚本，可通过 ./run.sh 脚本执行相关任务，使用 ./run.sh help 了解如何使用
    - ReadMe.md
```

## 环境准备

Baseline代码运行所需要的环境可以直接运行 init.sh 进行准备  
注意: init.sh 中的 JupyterRoot 需要更改为 VideoStructuring 文件夹所在的目录  

In [10]:
!sudo chmod a+x ./init.sh && ./init.sh

Hit:1 http://mirrors.tencentyun.com/ubuntu bionic InRelease
Hit:2 http://mirrors.tencentyun.com/ubuntu bionic-security InRelease
Hit:3 http://mirrors.tencentyun.com/ubuntu bionic-updates InRelease
Reading package lists... Done                     
Reading package lists... Done
Building dependency tree       
Reading state information... Done
apt-utils is already the newest version (1.6.12ubuntu0.2).
0 upgraded, 0 newly installed, 0 to remove and 126 not upgraded.
Reading package lists... Done
Building dependency tree       
Reading state information... Done
libsndfile1-dev is already the newest version (1.0.28-4ubuntu0.18.04.1).
ffmpeg is already the newest version (7:3.4.8-0ubuntu0.2).
0 upgraded, 0 newly installed, 0 to remove and 126 not upgraded.
Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.7.12
  latest version: 4.9.2

Please update conda by running

    $ conda update -n base conda



## Package Plan ##

  environment 

## 环境测试

准备好环境后，可以测试一下环境是否准备成功。  
将 notebook 的右上角 kernel 换成 TAAC2021 (taac2021-structuring)，然后执行下述代码，如果是 tf1.14 则说明环境准备成功。

In [29]:
import tensorflow as tf
print(tf.__version__)

1.14.0


也可以运行一下下述命令，看看虚拟环境是否正常创建。

In [30]:
!conda info --envs | grep taac2021

                         /home/tione/notebook/envs/taac2021-structuring
                         /home/tione/notebook/envs/taac2021-tagging


## 模型训练

训练模型之前需要链接一下数据集，将VideoStructuring/dataset链接到/home/tione/notebook/algo-2021/dataset

In [6]:
!ln -s /home/tione/notebook/algo-2021/dataset /home/tione/notebook/VideoStructuring/dataset

对于structuring任务，训练需要分为两步，视频切分与标签预测。

对于视频切分，需要完成特征提取（./run.sh seg_extract）与数据集生成（./run.sh seg_gt）两项任务。  
为了简化操作，baseline已完成了前置步骤，用户可以直接使用下列脚本进行视频切分模型的训练。  
训练完成后，模型存在于VideoStructuring/SceneSeg/run/目录下。  

In [8]:
!sudo chmod a+x ./run.sh && ./run.sh seg_train

# conda environments:
#
base                     /opt/conda
JupyterSystemEnv         /opt/conda/envs/JupyterSystemEnv
mxnet_py2                /opt/conda/envs/mxnet_py2
mxnet_py3                /opt/conda/envs/mxnet_py3
python2                  /opt/conda/envs/python2
python3                  /opt/conda/envs/python3
pytorch_py2              /opt/conda/envs/pytorch_py2
pytorch_py3              /opt/conda/envs/pytorch_py3
taac2021              *  /opt/conda/envs/taac2021
tensorflow2_py3          /opt/conda/envs/tensorflow2_py3
tensorflow_py2           /opt/conda/envs/tensorflow_py2
tensorflow_py3           /opt/conda/envs/tensorflow_py3

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])

对于标签预测，需要完成特征提取（./run.sh tag_extract）与数据集生成（./run.sh tag_gt）两项任务。  
为了简化操作，baseline已完成了前置步骤，用户可以直接使用下列脚本进行视频标签模型的训练。  
训练完成后，模型存在于VideoStructuring/MultiModal-Tagging/checkpoints/目录下。  

In [None]:
!sudo chmod a+x ./run.sh && ./run.sh tag_train

## 模型测试

Baseline的测试可以直接使用 ./run.sh test \[CHECKPOINT_DIR\] 进行，成功执行后会在VideoStructuring/MultiModal-Tagging/results/目录下生成structuring_tagging_5k.json结果文件。  
提交这个文件就可以参与排名。  
注意: ./run.sh test也分为视频切分与标签预测两个步骤，视频切分的时间比较长（32小时左右），用户可以尝试进行优化，标签预测的时间在30分钟左右。Baseline仅用于示例，帮助大家更好地理解赛题，选手们可以自由地进行优化。  

In [None]:
!sudo chmod a+x ./run.sh && ./run.sh test checkpoints/structuring_train5k/export/step_7000_0.7875