PPO-Seq2Seq

Train a Seq2Seq model by using PPO to generate samples.

The Seq2Seq model learns to match the output of a Python REPL with an RL model generating the samples.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.vscode		.vscode
.gitignore		.gitignore
GCP instructions.md		GCP instructions.md
README.md		README.md
RUNNER.sh		RUNNER.sh
__init__.py		__init__.py
_actor_critic.py		_actor_critic.py
_actor_lstm.py		_actor_lstm.py
_constants.py		_constants.py
_decoder.py		_decoder.py
_encoder.py		_encoder.py
_find_best_training_data.py		_find_best_training_data.py
_format_training_data.py		_format_training_data.py
_language.py		_language.py
_logs.py		_logs.py
_logs_ppo.py		_logs_ppo.py
_logs_seq2seq.py		_logs_seq2seq.py
_logs_train.py		_logs_train.py
_memory.py		_memory.py
_memory_interface.py		_memory_interface.py
_ppo.py		_ppo.py
_pretrain_seq2seq.py		_pretrain_seq2seq.py
_progress_indices.py		_progress_indices.py
_repl_env.py		_repl_env.py
_reward_handler.py		_reward_handler.py
_seq2seq.py		_seq2seq.py
_seq2seq_decoder.py		_seq2seq_decoder.py
_transformer.py		_transformer.py
_value_lstm.py		_value_lstm.py
align_embeddings.ipynb		align_embeddings.ipynb
find_semantic_encoder.ipynb		find_semantic_encoder.ipynb
measure_data_variety.ipynb		measure_data_variety.ipynb
requirements.txt		requirements.txt
testing.ipynb		testing.ipynb
train.py		train.py
train_logs.txt		train_logs.txt
ways of running random code.ipynb		ways of running random code.ipynb

Provide feedback