CodecLM

CodecLM is a research codebase for codec-token audio language modeling inspired by Moshi and Mimi-style workflows.

It provides three configurable model families:

flat_rvq: audio-only flat transformer based RVQ baseline
qwen_flat_joint: flat text+audio joint modeling with Qwen2.5-1.5B-Instruct backbone
separable_qwen: temporal Qwen2.5-1.5B-Instruct + depth transformer

Core workflow: prepare cache -> train -> generate samples

Training Pipeline

Model Architecture

Quick Start

Install dependencies

pip install torch torchaudio lightning transformers pyyaml

Prepare cache

python -m audiolm.scripts.prepare_dataset \
  --config configs/experiments/qwen_flat_joint_audio_text.yaml \
  --set data.data_dir=./data \
  --set runtime.codec_device=cuda

Train

python -m audiolm.scripts.train \
  --config configs/experiments/qwen_flat_joint_audio_text.yaml

Generate samples

python -m audiolm.scripts.generate_samples \
  --checkpoint ./my_model.ckpt \
  --config configs/experiments/separable_qwen_audio_text.yaml

Fast Smoke Run

python -m audiolm.scripts.train \
  --config configs/experiments/qwen_flat_joint_audio_text.yaml \
  --set trainer.fast_dev_run=true \
  --set trainer.devices=1 \
  --set runtime.codec_device=cuda

Preliminary Result (v0.1.0)

Run	Base model	Total params	LoRA	Data	Setup	Epochs	Best val metric
`separable_qwen`	`Qwen2.5-1.5B-Instruct`	1.8B	disabled	LibriSpeech train-clean-360 -> dev-clean	8 GPU DDP	10	val loss = 15

Additional notes for this run:

Full Qwen training (not LoRA-only)
Best checkpoint selected by minimum validation loss
Loss weights: alpha_text=2.0, alpha_cb1=1.0, alpha_depth=5.0, alpha_audio=1.0

Samples

Curated v0.1.0 samples:

Model	Prompt	Dataset	Audio
separable_qwen	first two seconds	LibriSpeech dev-clean	sample_00.wav
separable_qwen	first two seconds	LibriSpeech dev-clean	sample_01.wav
separable_qwen	first two seconds	LibriSpeech dev-clean	sample_02.wav
separable_qwen	first two seconds	LibriSpeech dev-clean	sample_03.wav
separable_qwen	first two seconds	LibriSpeech dev-clean	sample_04.wav

Model Choices

Model	Conditioning	Best for
`flat_rvq`	`audio_only`	smallest audio-only baseline
`qwen_flat_joint`	`audio_text`	flat joint sequence objective
`separable_qwen`	`audio_text`	temporal-depth factorization

Use repeated --set key=value flags to override YAML fields without editing files.

5-Minute Extension Guide

Add a new dataset source:
- implement a datamodule and wire it in audiolm/data/factory.py
Add a new model variant:
- implement model class under audiolm/model/models/
- register it in audiolm/model/factory.py
Add a new experiment:
- copy a config from configs/experiments/
- edit model/data/optimizer fields
- run with python -m audiolm.scripts.train --config <new_file>.yaml

Documentation

Data pipeline: docs/DATA_PIPELINE.md
Codec logic: docs/CODEC.md
Model logic: docs/MODELS.md
Config writing: docs/CONFIGS.md
Troubleshooting: docs/TROUBLESHOOTING.md
Config folder notes: configs/README.md

Project Structure

audiolm/scripts: entrypoints (prepare_dataset, train, generate_samples)
audiolm/data: alignment, caching, datamodule, collator
audiolm/model: model factory, model implementations, runtime codec helpers
configs/experiments: runnable experiment YAML files

Near-Term Roadmap

Add standardized evaluation and expanded metrics table.
Add additional dataset adapters.
Add dual audio stream for full-duplex conversation
Add additional LLM backbones
Add acoustic delay (similar to Moshi)

Citation

Citation metadata: CITATION.cff

Name		Name	Last commit message	Last commit date
Latest commit History 27 Commits
audiolm		audiolm
configs		configs
docs		docs
samples/Qwen_RVQ		samples/Qwen_RVQ
tests		tests
CITATION.cff		CITATION.cff
LICENSE		LICENSE
README.md		README.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

CodecLM

Training Pipeline

Model Architecture

Quick Start

Fast Smoke Run

Preliminary Result (v0.1.0)

Samples

Model Choices

5-Minute Extension Guide

Documentation

Project Structure

Near-Term Roadmap

Citation

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

CodecLM

Training Pipeline

Model Architecture

Quick Start

Fast Smoke Run

Preliminary Result (v0.1.0)

Samples

Model Choices

5-Minute Extension Guide

Documentation

Project Structure

Near-Term Roadmap

Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages