PgRC: Pseudogenome based Read Compressor

Pseudogenome-based Read Compressor (PgRC) is an in-memory algorithm for compressing the DNA stream of FASTQ datasets, based on the idea of building an approximation of the shortest common superstring over high-quality reads.

The current implementation supports constant-length reads limited to 255 bases.

Installation on Linux

The following steps create an PgRC executable. On Linux PgRC build requires installed cmake version >= 3.4 (check using cmake --version):

git clone https://github.com/kowallus/PgRC.git
cd PgRC
mkdir build
cd build
cmake ..
make PgRC

Basic usage

PgRC [-c compressionLevel] [-i seqSrcFile [pairSrcFile]] [-t noOfThreads] [-o] [-d] archiveName
   
   -c compression levels: 1 - fast; 2 - default; 3 - max
   -t number of threads used (8 - default)
   -d decompression mode
   -o preserve original read order information

compression of DNA stream in order non-preserving regime (SE mode):

./PgRC -i in.fastq comp.pgrc

compression of DNA stream in order preserving regime (SE_ORD mode):

./PgRC -o -i in.fastq comp.pgrc

compression of paired-end DNA stream in order non-preserving regime (PE mode):

./PgRC -i in1.fastq in2.fastq comp.pgrc

compression of paired-end DNA stream in order preserving regime (PE mode):

./PgRC -o -i in.fastq comp.pgrc

Publications

Tomasz M. Kowalski, Szymon Grabowski: PgRC: pseudogenome-based read compressor. Bioinformatics, Volume 36, Issue 7, pp. 2082–2089 (2020).

supplementary data

bioRxiv

Related projects

PgSA - Pseudogenome Suffix Array

Name		Name	Last commit message	Last commit date
Latest commit History 307 Commits
lzma		lzma
matching		matching
pseudogenome		pseudogenome
readsset		readsset
utils		utils
CMakeLists.txt		CMakeLists.txt
PgRC.cpp		PgRC.cpp
PgRCManager.cpp		PgRCManager.cpp
PgRCManager.h		PgRCManager.h
README.md		README.md
pgsaconfig.cpp		pgsaconfig.cpp
pgsaconfig.h		pgsaconfig.h

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PgRC: Pseudogenome based Read Compressor

Installation on Linux

Basic usage

Publications

Related projects

About

Releases 2

Packages

Languages

kowallus/PgRC

Folders and files

Latest commit

History

Repository files navigation

PgRC: Pseudogenome based Read Compressor

Installation on Linux

Basic usage

Publications

Related projects

About

Resources

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages