Read parquet column chunks in small steps #15374

lukasz-stec · 2022-12-12T17:13:54Z

Description

Currently, ParquetReader will read the entire row group at once. This means that:

limit N queries will take longer time than needed because the reader might read hundreds of megabytes before returning a few rows.
Reader might allocate and read hundreds of megabytes at once. This is problematic because:
- memory accounting for the reader happens after data is already read and arrays are created. This can lead to OOM and general system instability (e.g. GC) because such allocations will not be accounted for
- peak memory usage is higher than needed (e.g. GBs vs MBs)

The issue can especially be seen when Parquet row group size is large.

This PR fixes this by reading parquet column chunks in small (8MB by default) pieces.

Additional context and related issues

fixes ArithmeticException: integer overflow when querying large Parquet files with large row group (2GB) #5729

Release notes

( ) This is not user-visible or docs only and no release notes are required.
( ) Release notes are required, please propose a release note for me.
( X) Release notes are required, with the following suggested text:

# Hive, Delta, Hudi, Iceberg
* Avoid large memory allocations in parquet reader by limiting the maximum size of reads from file. This improves stability and reduces peak memory requirements. The catalog configuration property `parquet.max-buffer-size` can be used to change the maximum size of reads performed by the parquet reader from the default value of 8MB. ({issue}`15374`)

lib/trino-parquet/src/main/java/io/trino/parquet/reader/PageReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/PageReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/PrimitiveColumnReader.java

lukasz-stec · 2022-12-15T08:53:25Z

I added tests for PageReader and ChunkedInputStream. This is ready for review.

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lukasz-stec

some comments.

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lukasz-stec

most comments addressed

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lukasz-stec

most comments addressed (javadoc for ChunkedInputStream still pending)

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

plugin/trino-hive/src/main/java/io/trino/plugin/hive/parquet/ParquetReaderConfig.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java

lukasz-stec

comments addressed. Test of memory accounting are pending

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetReader.java

lukasz-stec · 2022-12-20T15:15:22Z

memory accounting test added in io.trino.parquet.reader.TestParquetDataSource#testMemoryAccounting

TestParquetDataSource tests only a generic AbstractParquetDataSource logic so it should be in trino-parquet.

Before this change, parquet column chunks were read in one go, copying everything into one big Slice. This had two issues. One, for limit queries, we potentially don't need to read entire column chunk to finish the query as first page may satisfy the limit. Second, for files with big row group size the allocated Slice can exceed the jvm limits for native byte array, and even if it doesn't, it makes memory usage not efficient due to how humungous allocations are implemented in the jvm.

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java

We can allow for a big DiskRange to be passed to the ParquetDataSource.planRead, since it's going to split the ranges into small chunks anyway.

@lukasz-stec

Comments were addressed. Thanks @lukasz-stec, @raunaqmorarka

lukasz-stec · 2022-12-22T17:52:45Z

Benchmark results for tpch/tpcds parquet sf1k partitioned with default parquet.max-buffer-size=8MB and parquet.max-buffer-size=128MB.

parquet-small-chunks-128MB-buffer-oss-sf1k-part-ext.pdf

cla-bot bot added the cla-signed label Dec 12, 2022

github-actions bot added the tests:hive label Dec 12, 2022

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch 5 times, most recently from fb2380e to 8c1f314 Compare December 13, 2022 09:50

lukasz-stec requested review from sopel39 and raunaqmorarka December 13, 2022 10:14

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 8c1f314 to 5972765 Compare December 13, 2022 11:03

raunaqmorarka reviewed Dec 13, 2022

View reviewed changes

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 5972765 to 24af6be Compare December 13, 2022 13:44

lukasz-stec requested review from raunaqmorarka and radek-kondziolka December 13, 2022 13:45

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch 2 times, most recently from 1b732cf to 973e7e0 Compare December 15, 2022 08:51

lukasz-stec marked this pull request as ready for review December 15, 2022 08:52

raunaqmorarka reviewed Dec 15, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java Outdated Show resolved Hide resolved

lukasz-stec commented Dec 15, 2022

View reviewed changes

raunaqmorarka reviewed Dec 15, 2022

View reviewed changes

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 973e7e0 to 21de362 Compare December 15, 2022 15:52

lukasz-stec commented Dec 15, 2022

View reviewed changes

lukasz-stec requested a review from raunaqmorarka December 15, 2022 15:52

raunaqmorarka reviewed Dec 15, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java Outdated Show resolved Hide resolved

raunaqmorarka reviewed Dec 15, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ParquetColumnChunkIterator.java Outdated Show resolved Hide resolved

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 21de362 to 90dbd07 Compare December 15, 2022 16:31

raunaqmorarka reviewed Dec 15, 2022

View reviewed changes

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 90dbd07 to 20e0a82 Compare December 16, 2022 10:35

lukasz-stec commented Dec 16, 2022

View reviewed changes

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from b90c5b1 to 8ae0089 Compare December 20, 2022 14:20

lukasz-stec commented Dec 20, 2022

View reviewed changes

Rename TestHdfsParquetDataSource to TestParquetDataSource

cc18eb1

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 8ae0089 to d28cd54 Compare December 20, 2022 15:08

lukasz-stec requested a review from raunaqmorarka December 20, 2022 15:15

raunaqmorarka approved these changes Dec 20, 2022

View reviewed changes

lukasz-stec added 2 commits December 20, 2022 18:09

Move TestParquetDataSource to trino-parquet

5c64bce

TestParquetDataSource tests only a generic AbstractParquetDataSource logic so it should be in trino-parquet.

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from d28cd54 to 7be2201 Compare December 20, 2022 17:09

Dith3r reviewed Dec 21, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java Show resolved Hide resolved

Dith3r reviewed Dec 21, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java Show resolved Hide resolved

Dith3r reviewed Dec 21, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/reader/ChunkedInputStream.java Show resolved Hide resolved

raunaqmorarka approved these changes Dec 21, 2022

View reviewed changes

lib/trino-parquet/src/main/java/io/trino/parquet/AbstractParquetDataSource.java Outdated Show resolved Hide resolved

Support reading large parquet column chunks

b581c52

We can allow for a big DiskRange to be passed to the ParquetDataSource.planRead, since it's going to split the ranges into small chunks anyway.

lukasz-stec force-pushed the ls/054-parquet-small-buffer branch from 5914833 to b581c52 Compare December 21, 2022 11:13

lukasz-stec requested a review from Dith3r December 21, 2022 11:13

Dith3r approved these changes Dec 21, 2022

View reviewed changes

raunaqmorarka added the performance label Dec 22, 2022

raunaqmorarka merged commit b107bf7 into trinodb:master Dec 23, 2022

raunaqmorarka deleted the ls/054-parquet-small-buffer branch December 23, 2022 03:20

github-actions bot added this to the 404 milestone Dec 23, 2022

This was referenced Dec 23, 2022

Release notes for 405 #15058

Closed

Enable reading Parquet's bloomfilter statistics for hive connector #14428

Merged

colebow mentioned this pull request Dec 28, 2022

Add Trino 405 release notes #15139

Merged

This was referenced Dec 29, 2022

Avoid reading data in parquet ChunkedInputStream constructor #15552

Merged

Parquet allocates large byte array when reading column chunk #1357

Closed

raunaqmorarka mentioned this pull request Feb 2, 2023

Fix reading parquet column with unused dictionary #15942

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Read parquet column chunks in small steps #15374

Read parquet column chunks in small steps #15374

lukasz-stec commented Dec 12, 2022 •

edited by raunaqmorarka

Loading

lukasz-stec commented Dec 15, 2022

lukasz-stec left a comment

lukasz-stec left a comment

lukasz-stec left a comment

lukasz-stec left a comment

lukasz-stec commented Dec 20, 2022

lukasz-stec commented Dec 22, 2022

Read parquet column chunks in small steps #15374

Read parquet column chunks in small steps #15374

Conversation

lukasz-stec commented Dec 12, 2022 • edited by raunaqmorarka Loading

Description

Additional context and related issues

Release notes

lukasz-stec commented Dec 15, 2022

lukasz-stec left a comment

Choose a reason for hiding this comment

lukasz-stec left a comment

Choose a reason for hiding this comment

lukasz-stec left a comment

Choose a reason for hiding this comment

lukasz-stec left a comment

Choose a reason for hiding this comment

lukasz-stec commented Dec 20, 2022

lukasz-stec commented Dec 22, 2022

lukasz-stec commented Dec 12, 2022 •

edited by raunaqmorarka

Loading