Two-Stage Constrained Actor-Critic for Short Video Recommendation (TSCAC)

Installation

pip install -r requirements.txt

Training TSCAC

Preparing Training Data

Download the KuaiRand dataset.
Specify custome data folder in line 8 of process.py.
Run python process.py.

Performing Stage One Training

Run main.py with the following config:

python main.py --config=multi_critic_krand with save_model=True bc_load_path=krand_sl_onehot_eval seed=1 behavior_onehot=True exp_name=rcpo_full

Performing Stage Two Training

Run main.py with the following config:

python main.py --config=multi_critic_awac_ddpg_krand with save_model=True bc_load_path=krand_sl_onehot_eval seed=0 behavior_onehot=True exp_name=full_sigma30_k0_0001_new_ratio_seed0 kl_loss_coef=0.0001 sigma=30 constrained_policy_model_path=/results/multi_critic_krand/rcpo_full/1/models/ new_ratio=True

where constrained_policy_model_path is the checkpoint path of the policy trained in stage one.

If you find our code/paper useful, please consider citing our work:

@inproceedings{DBLP:conf/www/0001XZX0ZWZXZJG23,
  author       = {Qingpeng Cai and
                  Zhenghai Xue and
                  Chi Zhang and
                  Wanqi Xue and
                  Shuchang Liu and
                  Ruohan Zhan and
                  Xueliang Wang and
                  Tianyou Zuo and
                  Wentao Xie and
                  Dong Zheng and
                  Peng Jiang and
                  Kun Gai},
  title        = {Two-Stage Constrained Actor-Critic for Short Video Recommendation},
  booktitle    = {{WWW}},
  pages        = {865--875},
  publisher    = {{ACM}},
  year         = {2023}
}

Feel free to reach out if you have any questions!

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
algos		algos
behavior_model		behavior_model
config		config
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
buffer.py		buffer.py
data2buffer.py		data2buffer.py
data_process.py		data_process.py
ddpg_evaluation.py		ddpg_evaluation.py
deep_fm_evaluation.py		deep_fm_evaluation.py
evaluation.py		evaluation.py
main.py		main.py
multi_critic_evaluation.py		multi_critic_evaluation.py
multi_critic_main.py		multi_critic_main.py
pareto_critic_evaluation.py		pareto_critic_evaluation.py
pareto_critic_main.py		pareto_critic_main.py
process.py		process.py
requirements.txt		requirements.txt
utils.py		utils.py
wide_deep_evaluation.py		wide_deep_evaluation.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Two-Stage Constrained Actor-Critic for Short Video Recommendation (TSCAC)

Installation

Training TSCAC

Preparing Training Data

Performing Stage One Training

Performing Stage Two Training

About

Releases

Packages

Languages

License

AIDefender/TSCAC

Folders and files

Latest commit

History

Repository files navigation

Two-Stage Constrained Actor-Critic for Short Video Recommendation (TSCAC)

Installation

Training TSCAC

Preparing Training Data

Performing Stage One Training

Performing Stage Two Training

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages