1 4 1 by rchillyard · Pull Request #64 · rchillyard/TableParser

rchillyard · 2026-03-28T01:09:56Z

Deferred items for Parquet

@deprecated

- Rename Analysis case class → ColumnStatistics (the result, not the actor) - Introduce sealed Analyzer trait with CsvAnalyzer and ParquetAnalyzer - Extract CSV analysis logic into CsvAnalyzer.analyze() - Add Analysis factory methods: * Analysis(table: RawTable) — backward-compatible primary path * Analysis.forCsv(path: Path) — parse and analyze CSV files * Analysis.forParquet[Row](path: Path) — analyze Parquet (impl TBD) - Preserve backward compatibility via @deprecated alias - Enables schema-driven analysis for Parquet without row materialization

- Refactor core Analysis into Analyzer trait hierarchy (CsvAnalyzer, sealed trait) - Introduce ColumnStatisticsProvider trait for pluggable column statistics - Move ParquetAnalyzer to parquet module; zero Parquet imports in core - Add ParquetColumnStatisticsProvider for efficient single-column analysis - Provide implicit analyzer factory and provider via parquet package object - Analysis.forParquet[Row](path) and Column.statisticsFrom(path, col) now work with implicits - Lazy statistics: schema analysis is fast (metadata only); row stats computed on demand - Add comprehensive unit tests for schema analysis and on-demand statistics

- Add MaybeStatistics sealed trait with EagerStatistics and LazyStatistics cases - EagerStatistics: computed upfront (from Parquet metadata or CSV row scan) - LazyStatistics: deferred as thunk () => Option[Statistics] for on-demand evaluation - Update Column to use Option[MaybeStatistics] instead of Option[Statistics] - ParquetColumnStatisticsProvider supports metadata-first with lazy fallback * useMetadataOnly=true (default): return None if metadata unavailable * useMetadataOnly=false: return LazyStatistics thunk for row scan - extractMetadataStatistics stubbed for future Parquet metadata extraction - CSV analysis continues to use eager statistics (no change to behavior) - Add comprehensive tests covering eager, lazy, and metadata-only modes - Enables fast schema analysis with deferred statistics computation - Adjustments to Cats and Zio tests to accomodate the new statistics types.

…et APIs - Add parseParquetDataset() and parseDataset() factory methods for multi-part datasets - Add Analysis.forParquetDataset[Row](path) for schema analysis on directories - Implement ParquetDatasetAnalyzer for polymorphic dataset handling - Handle both single files and dataset directories transparently: * Read schema from _metadata if present, else from first part-*.parquet file * Sum row counts across all part files for accurate dataset statistics - Add SingleFileAnalyzerFactory and DatasetAnalyzerFactory marker traits in core - Parquet module implements factories; core remains parquet-agnostic - Add comprehensive tests for dataset parsing, analysis, and error cases - Validate paths: parseParquet rejects directories, parseDataset rejects files

- Extend CsvRenderers and CsvGenerators traits from arity 13 to 19 - Add bare-type and Option instances for Float, Short, Byte, Instant, Temporal, and Option[Long] - Wire YellowTaxiTrip companion with renderer19/generator19 - Demonstrate full Parquet→CSV pipeline: ParquetParser → Table[YellowTaxiTrip] → CsvTableFileRenderer

Remove Codacy complaints

rchillyard added 6 commits March 27, 2026 09:26

refactor: ParquetAnalyzer

26fbdf2

Remove Codacy complaints

rchillyard merged commit 49f74b3 into master Mar 28, 2026
2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

1 4 1#64

1 4 1#64
rchillyard merged 6 commits intomasterfrom
1_4_1

rchillyard commented Mar 28, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant

Conversation

rchillyard commented Mar 28, 2026

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

1 participant