NullPointerException at htsjdk CramNormalizer.getByteOrDefault #1993

heuermh · 2018-05-26T22:23:22Z

$ adam-shell ...

scala> import org.seqdoop.hadoop_bam.{ CRAMInputFormat, SAMFormat }
import org.seqdoop.hadoop_bam.{CRAMInputFormat, SAMFormat}

scala> sc.hadoopConfiguration.set(CRAMInputFormat.REFERENCE_SOURCE_PATH_PROPERTY, "hdfs:///data/resources/GRCh38/hs38DH.fa")

scala> val reads = sc.loadAlignments("AshkenazimTrio/HG002_NA24385_son/Ultralong_OxfordNanopore/combined_2018-05-18/combined_2018-05-18.hg38.sorted.cram")
reads: org.bdgenomics.adam.rdd.read.AlignmentRecordRDD = RDDBoundAlignmentRecordRDD with 2580 reference sequences, 0 read groups, and 1 processing steps

scala> val lengths = reads.rdd.map(_.sequence.length()).collect()
[Stage 8:>                                                       (0 + 48) / 106]

...
scheduler.TaskSetManager: Lost task 9.0 in stage 8.0: java.lang.NullPointerException
	at htsjdk.samtools.cram.build.CramNormalizer.getByteOrDefault(CramNormalizer.java:315)
	at htsjdk.samtools.cram.build.CramNormalizer.restoreReadBases(CramNormalizer.java:253)
	at htsjdk.samtools.cram.build.CramNormalizer.normalize(CramNormalizer.java:131)
	at htsjdk.samtools.CRAMIterator.nextContainer(CRAMIterator.java:191)
	at htsjdk.samtools.CRAMIterator.hasNext(CRAMIterator.java:261)
	at org.seqdoop.hadoop_bam.CRAMRecordReader.nextKeyValue(CRAMRecordReader.java:60)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.hasNext(NewHadoopRDD.scala:207)
	at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$class.foreach(Iterator.scala:893)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
	at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)
	at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)
	at scala.collection.AbstractIterator.to(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)
	at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)
	at scala.collection.AbstractIterator.toArray(Iterator.scala:1336)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
	at org.apache.spark.scheduler.Task.run(Task.scala:108)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)

The text was updated successfully, but these errors were encountered:

heuermh · 2018-05-26T23:02:36Z

Does Hadoop-BAM support reading the reference for CRAM from HDFS? If I used one mounted on shared disk, I'm seeing validation errors instead of NPEs

scala> sc.hadoopConfiguration.set(CRAMInputFormat.REFERENCE_SOURCE_PATH_PROPERTY, "/mnt/fb/resources/GRCh38/hs38DH.fa")

scala> val reads = sc.loadAlignments("AshkenazimTrio/HG002_NA24385_son/Ultralong_OxfordNanopore/combined_2018-05-18/combined_2018-05-18.hg38.sorted.cram")
reads: org.bdgenomics.adam.rdd.read.AlignmentRecordRDD = RDDBoundAlignmentRecordRDD with 2580 reference sequences, 0 read groups, and 1 processing steps

scala> val lengths = reads.rdd.map(_.sequence.length()).collect()
[Stage 9:>                                                       (0 + 48) / 106]

...
scheduler.TaskSetManager: htsjdk.samtools.SAMFormatException: SAM validation error:
ERROR: Record 61, Read name f5d18709-1946-4dd0-a519-2a88a4a55d57, CIGAR covers
2720 bases but the sequence is 0 read bases 
	at htsjdk.samtools.SAMUtils.processValidationErrors(SAMUtils.java:454)
	at htsjdk.samtools.CRAMIterator.nextContainer(CRAMIterator.java:209)
	at htsjdk.samtools.CRAMIterator.hasNext(CRAMIterator.java:261)
	at org.seqdoop.hadoop_bam.CRAMRecordReader.nextKeyValue(CRAMRecordReader.java:60)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.hasNext(NewHadoopRDD.scala:207)
	at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$class.foreach(Iterator.scala:893)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
	at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)
	at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)
	at scala.collection.AbstractIterator.to(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)
	at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)
	at scala.collection.AbstractIterator.toArray(Iterator.scala:1336)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
	at org.apache.spark.scheduler.Task.run(Task.scala:108)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)

scheduler.TaskSetManager: htsjdk.samtools.SAMFormatException: SAM validation error:
ERROR: Record 323, Read name b3cf0949-c1f0-494b-9ac9-33965291ff90, CIGAR covers
567 bases but the sequence is 0 read bases 
	at htsjdk.samtools.SAMUtils.processValidationErrors(SAMUtils.java:454)
	at htsjdk.samtools.CRAMIterator.nextContainer(CRAMIterator.java:209)
	at htsjdk.samtools.CRAMIterator.hasNext(CRAMIterator.java:261)
	at org.seqdoop.hadoop_bam.CRAMRecordReader.nextKeyValue(CRAMRecordReader.java:60)
	at org.apache.spark.rdd.NewHadoopRDD$$anon$1.hasNext(NewHadoopRDD.scala:207)
	at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:37)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
	at scala.collection.Iterator$class.foreach(Iterator.scala:893)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1336)
	at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)
	at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)
	at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)
	at scala.collection.AbstractIterator.to(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)
	at scala.collection.AbstractIterator.toBuffer(Iterator.scala:1336)
	at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)
	at scala.collection.AbstractIterator.toArray(Iterator.scala:1336)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
	at org.apache.spark.scheduler.Task.run(Task.scala:108)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
	at java.lang.Thread.run(Thread.java:745)

...

fnothaft · 2018-06-13T22:07:14Z

Does the CRAM codepath use NIO? If no, then HDFS won't be supported.

fnothaft · 2018-06-13T22:07:30Z

Also, shouldn't this be opened against an upstream repo?

heuermh · 2018-06-23T16:30:41Z

According to the Hadoop-BAM docs HDFS should be supported for CRAM references.

CRAMInputFormat | hadoopbam.cram.reference-source-path | (Required.) The path to the reference. May be an hdfs:// path.

Filed upstream issue HadoopGenomics/Hadoop-BAM#201

heuermh · 2021-08-23T19:17:35Z

Closing as WontFix

heuermh mentioned this issue Jun 23, 2018

NullPointerException at htsjdk CramNormalizer.getByteOrDefault with HDFS reference HadoopGenomics/Hadoop-BAM#201

Open

heuermh mentioned this issue Jan 8, 2019

CRAM ReferenceSource is not always broadcastable. disq-bio/disq#73

Merged

heuermh added this to the 0.37.0 milestone Aug 23, 2021

heuermh closed this as completed Aug 23, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

NullPointerException at htsjdk CramNormalizer.getByteOrDefault #1993

NullPointerException at htsjdk CramNormalizer.getByteOrDefault #1993

heuermh commented May 26, 2018

heuermh commented May 26, 2018

fnothaft commented Jun 13, 2018

fnothaft commented Jun 13, 2018

heuermh commented Jun 23, 2018

heuermh commented Aug 23, 2021

NullPointerException at htsjdk CramNormalizer.getByteOrDefault #1993

NullPointerException at htsjdk CramNormalizer.getByteOrDefault #1993

Comments

heuermh commented May 26, 2018

heuermh commented May 26, 2018

fnothaft commented Jun 13, 2018

fnothaft commented Jun 13, 2018

heuermh commented Jun 23, 2018

heuermh commented Aug 23, 2021