EK-NLVL video captioner

Used Syntax-Aware Action Targeting for Video Captioning - SAAT as video captioner

Following is the information for the processing of the given dataset and input

Extracting the Features

In order to extract the features, we extract it by using the dataset-specific feature extractor.

2D Feature Extraction

Code for SAAT from "Syntax-Aware Action Targeting for Video Captioning" (Accepted to CVPR 2020). The implementation is based on "Consensus-based Sequence Training for Video Captioning".

Dependencies

Python 3.6
Pytorch 1.1
CUDA 10.0
Microsoft COCO Caption Evaluation
CIDEr

(Check out the coco-caption and cider projects into your working directory)

Data

Data can be downloaded here (1.6GB). This folder contains:

input/msrvtt: annotatated captions (note that val_videodatainfo.json is a symbolic link to train_videodatainfo.json)
output/feature: extracted features of IRv2, C3D and Category embeddings
output/metadata: preprocessed annotations
output/model_svo/xe: model file and generated captions on test videos, the reported result can be reproduced by the model provided in this folder (CIDEr 49.1 for XE training)

Test

make -f SpecifiedMakefile test [options]

Please refer to the Makefile (and opts_svo.py file) for the set of available train/test options. For example, to reproduce the reported result

make -f Makefile_msrvtt_svo test GID=0 EXP_NAME=xe FEATS="irv2 c3d category" BFEATS="roi_feat roi_box" USE_RL=0 CST=0 USE_MIXER=0 SCB_CAPTIONS=0 LOGLEVEL=DEBUG LAMBDA=20

Train

To train the model using XE loss

make -f Makefile_msrvtt_svo train GID=0 EXP_NAME=xe FEATS="irv2 c3d category" BFEATS="roi_feat roi_box" USE_RL=0 CST=0 USE_MIXER=0 SCB_CAPTIONS=0 LOGLEVEL=DEBUG MAX_EPOCH=100 LAMBDA=20

If you want to change the input features, modify the FEATS variable in above commands.

Citation

@InProceedings{Zheng_2020_CVPR,
author = {Zheng, Qi and Wang, Chaoyue and Tao, Dacheng},
title = {Syntax-Aware Action Targeting for Video Captioning},
booktitle = {The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2020}
}

Acknowledgements

Pytorch implementation of CST
PyTorch implementation of SCST

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
.vscode		.vscode
ActivityNet_for_SAAT		ActivityNet_for_SAAT
Charades_for_SAAT_unsup_set_10		Charades_for_SAAT_unsup_set_10
Charades_for_SAAT_unsup_set_4		Charades_for_SAAT_unsup_set_4
Charades_unsup_anno		Charades_unsup_anno
__pycache__		__pycache__
charades_vid_cap_mapping_unsup_mnli_bartsumm		charades_vid_cap_mapping_unsup_mnli_bartsumm
misc		misc
results		results
tmp_to_check_old		tmp_to_check_old
unsup event		unsup event
.gitignore		.gitignore
LICENSE		LICENSE
Makefile_msrvtt_svo		Makefile_msrvtt_svo
Makefile_yt2t_svo		Makefile_yt2t_svo
README.md		README.md
activitynet_video_cap_gt_bd.json		activitynet_video_cap_gt_bd.json
activitynet_video_cap_gt_bd.txt		activitynet_video_cap_gt_bd.txt
align_all_charades_dataset_feats.ipynb		align_all_charades_dataset_feats.ipynb
align_roi_2d_3d_features.ipynb		align_roi_2d_3d_features.ipynb
anet_train_anno.json		anet_train_anno.json
anet_train_mapping_for_vid_cap_unsupbd.json		anet_train_mapping_for_vid_cap_unsupbd.json
charades_bart_summ_unsup_randomly_chosen_set_10_result_mnli_nb4_lp2.0_maxl50_minl10_ng3.txt		charades_bart_summ_unsup_randomly_chosen_set_10_result_mnli_nb4_lp2.0_maxl50_minl10_ng3.txt
charades_bart_summ_unsup_randomly_chosen_set_4_result_mnli_nb4_lp2.0_maxl50_minl10_ng3.txt		charades_bart_summ_unsup_randomly_chosen_set_4_result_mnli_nb4_lp2.0_maxl50_minl10_ng3.txt
charades_train_mapping_for_vid_cap.json		charades_train_mapping_for_vid_cap.json
charades_train_mapping_for_vid_cap_2000.json		charades_train_mapping_for_vid_cap_2000.json
charades_train_mapping_for_vid_cap_2000_4000.json		charades_train_mapping_for_vid_cap_2000_4000.json
charades_train_mapping_for_vid_cap_4000_6000.json		charades_train_mapping_for_vid_cap_4000_6000.json
charades_train_mapping_for_vid_cap_6000.json		charades_train_mapping_for_vid_cap_6000.json
charades_train_mapping_for_vid_cap_for_3d_0.json		charades_train_mapping_for_vid_cap_for_3d_0.json
charades_train_mapping_for_vid_cap_for_3d_1.json		charades_train_mapping_for_vid_cap_for_3d_1.json
charades_train_mapping_for_vid_cap_for_3d_2.json		charades_train_mapping_for_vid_cap_for_3d_2.json
charades_train_mapping_for_vid_cap_for_3d_3.json		charades_train_mapping_for_vid_cap_for_3d_3.json
charades_train_mapping_for_vid_cap_for_3d_4.json		charades_train_mapping_for_vid_cap_for_3d_4.json
charades_train_mapping_for_vid_cap_set_3000div_set_0.json		charades_train_mapping_for_vid_cap_set_3000div_set_0.json
charades_train_mapping_for_vid_cap_set_3000div_set_1.json		charades_train_mapping_for_vid_cap_set_3000div_set_1.json
charades_train_mapping_for_vid_cap_set_3000div_set_2.json		charades_train_mapping_for_vid_cap_set_3000div_set_2.json
charades_train_mapping_for_vid_cap_set_3000div_set_3.json		charades_train_mapping_for_vid_cap_set_3000div_set_3.json
charades_train_mapping_for_vid_cap_unsupbd.json		charades_train_mapping_for_vid_cap_unsupbd.json
charades_video_cap_gt_bd.txt		charades_video_cap_gt_bd.txt
create_sequencelabel.py		create_sequencelabel.py
dataloader_svo.py		dataloader_svo.py
extraction.py		extraction.py
file_checker.ipynb		file_checker.ipynb
final_charades_anno.json		final_charades_anno.json
get_annos.ipynb		get_annos.ipynb
make_anet_train_input_file_with_saat_result.ipynb		make_anet_train_input_file_with_saat_result.ipynb
make_charades_train_input_file_with_saat_result.ipynb		make_charades_train_input_file_with_saat_result.ipynb
make_h5py_file_charades.ipynb		make_h5py_file_charades.ipynb
merge_parallel_featextracted.ipynb		merge_parallel_featextracted.ipynb
model_svo.py		model_svo.py
opts_svo.py		opts_svo.py
renewed_charades_label.json		renewed_charades_label.json
temp_anet_test.json		temp_anet_test.json
temp_charades_test.json		temp_charades_test.json
test_svo.py		test_svo.py
train.json		train.json
train_charades_with_boundary_annotations.json		train_charades_with_boundary_annotations.json
train_charades_with_mapping_annotations.json		train_charades_with_mapping_annotations.json
train_svo.py		train_svo.py
unsup_boundary_as_anno.ipynb		unsup_boundary_as_anno.ipynb
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

EK-NLVL video captioner

Extracting the Features

2D Feature Extraction

Dependencies

Data

Test

Train

Citation

Acknowledgements

About

Releases

Packages

Contributors 3

Languages

License

carpedkm/EKT-NLVL_vidcaps

Folders and files

Latest commit

History

Repository files navigation

EK-NLVL video captioner

Extracting the Features

2D Feature Extraction

Dependencies

Data

Test

Train

Citation

Acknowledgements

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages