Large rows cause unnecessary OOM exceptions

If columns contains lots of lengthy string value, it will run into OOM error during writing.

2014-09-22 19:16:11,626 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: Java heap space
	at java.util.Arrays.copyOf(Arrays.java:2271)
	at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:113)
	at java.io.ByteArrayOutputStream.ensureCapacity(ByteArrayOutputStream.java:93)
	at java.io.ByteArrayOutputStream.write(ByteArrayOutputStream.java:140)
	at org.apache.hadoop.io.compress.CompressorStream.compress(CompressorStream.java:83)
	at org.apache.hadoop.io.compress.CompressorStream.write(CompressorStream.java:76)
	at parquet.bytes.CapacityByteArrayOutputStream.writeTo(CapacityByteArrayOutputStream.java:144)
	at parquet.bytes.BytesInput$CapacityBAOSBytesInput.writeAllTo(BytesInput.java:308)
	at parquet.bytes.BytesInput$SequenceBytesIn.writeAllTo(BytesInput.java:233)
	at parquet.hadoop.CodecFactory$BytesCompressor.compress(CodecFactory.java:108)
	at parquet.hadoop.ColumnChunkPageWriteStore$ColumnChunkPageWriter.writePage(ColumnChunkPageWriteStore.java:110)
	at parquet.column.impl.ColumnWriterImpl.writePage(ColumnWriterImpl.java:147)
	at parquet.column.impl.ColumnWriterImpl.flush(ColumnWriterImpl.java:236)
	at parquet.column.impl.ColumnWriteStoreImpl.flush(ColumnWriteStoreImpl.java:113)
	at parquet.hadoop.InternalParquetRecordWriter.flushStore(InternalParquetRecordWriter.java:151)
	at parquet.hadoop.InternalParquetRecordWriter.checkBlockSizeReached(InternalParquetRecordWriter.java:130)
	at parquet.hadoop.InternalParquetRecordWriter.write(InternalParquetRecordWriter.java:122)
	at parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:81)
	at parquet.hadoop.ParquetRecordWriter.write(ParquetRecordWriter.java:37)
	at org.apache.hadoop.hive.ql.io.parquet.write.ParquetRecordWriterWrapper.write(ParquetRecordWriterWrapper.java:77)
	at org.apache.hadoop.hive.ql.io.parquet.write.ParquetRecordWriterWrapper.write(ParquetRecordWriterWrapper.java:90)
	at org.apache.hadoop.hive.ql.exec.FileSinkOperator.processOp(FileSinkOperator.java:688)
	at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:502)
	at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:832)
	at org.apache.hadoop.hive.ql.exec.SelectOperator.processOp(SelectOperator.java:84)
	at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:502)
	at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:832)
	at org.apache.hadoop.hive.ql.exec.FilterOperator.processOp(FilterOperator.java:132)
	at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:502)
	at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:832)
	at org.apache.hadoop.hive.ql.exec.TableScanOperator.processOp(TableScanOperator.java:90)
	at org.apache.hadoop.hive.ql.exec.Operator.process(Operator.java:502)

**Reporter**: [Tongjie Chen](https://issues.apache.org/jira/secure/ViewProfile.jspa?name=tongjie) / @tongjiechen 
**Assignee**: [Daniel Weeks](https://issues.apache.org/jira/secure/ViewProfile.jspa?name=dweeks-netflix) / @danielcweeks
#### Related issues:
- [Release Parquet-mr 1.9.0](https://github.com/apache/parquet-java/issues/1903) (blocks)
- [InternalParquetRecordWriter doesn't use min/max row counts](https://github.com/apache/parquet-java/issues/1461) (relates to)
#### PRs and other links:
- [PR #250](https://github.com/apache/parquet-mr/pull/250)
- [PR #297](https://github.com/apache/parquet-mr/pull/297)

<sub>**Note**: *This issue was originally created as [PARQUET-99](https://issues.apache.org/jira/browse/PARQUET-99). Please see the [migration documentation](https://issues.apache.org/jira/browse/PARQUET-2502) for further details.*</sub>

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Large rows cause unnecessary OOM exceptions #1584

Related issues:

PRs and other links:

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Large rows cause unnecessary OOM exceptions #1584

Description

Related issues:

PRs and other links:

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions