[SPARK-27524][BUILD] Remove the parquet-provided support #24422

wangyum · 2019-04-20T02:59:38Z

What changes were proposed in this pull request?

The Parquet file format is the default data source to use in input/output.
The parquet-provided profile will be confusing for end users:

Build Spark with parquet-provided:

./dev/make-distribution.sh --name parquet-provided --tgz -Phadoop-2.7 -Phive -Pparquet-provided

Save the ML model:

scala> model.save("/tmp/spark/w2v")
java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.execution.datasources.parquet.ParquetFileFormat could not be instantiated
  at java.util.ServiceLoader.fail(ServiceLoader.java:232)
  at java.util.ServiceLoader.access$100(ServiceLoader.java:185)
  at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:384)
  at java.util.ServiceLoader$LazyIterator.next(ServiceLoader.java:404)
  at java.util.ServiceLoader$1.next(ServiceLoader.java:480)
  at scala.collection.convert.Wrappers$JIteratorWrapper.next(Wrappers.scala:44)
  at scala.collection.Iterator.foreach(Iterator.scala:941)
  at scala.collection.Iterator.foreach$(Iterator.scala:941)
  at scala.collection.AbstractIterator.foreach(Iterator.scala:1429)
  at scala.collection.IterableLike.foreach(IterableLike.scala:74)
  at scala.collection.IterableLike.foreach$(IterableLike.scala:73)
  at scala.collection.AbstractIterable.foreach(Iterable.scala:56)
  at scala.collection.TraversableLike.filterImpl(TraversableLike.scala:250)
  at scala.collection.TraversableLike.filterImpl$(TraversableLike.scala:248)
  at scala.collection.AbstractTraversable.filterImpl(Traversable.scala:108)
  at scala.collection.TraversableLike.filter(TraversableLike.scala:262)
  at scala.collection.TraversableLike.filter$(TraversableLike.scala:262)
  at scala.collection.AbstractTraversable.filter(Traversable.scala:108)
  at org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSource.scala:632)
  at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:252)
  at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:233)
  at org.apache.spark.sql.DataFrameWriter.parquet(DataFrameWriter.scala:607)
  at org.apache.spark.ml.feature.Word2VecModel$Word2VecModelWriter.saveImpl(Word2Vec.scala:352)
  at org.apache.spark.ml.util.MLWriter.save(ReadWrite.scala:168)
  at org.apache.spark.ml.util.MLWritable.save(ReadWrite.scala:287)
  at org.apache.spark.ml.util.MLWritable.save$(ReadWrite.scala:287)
  at org.apache.spark.ml.feature.Word2VecModel.save(Word2Vec.scala:210)
  ... 47 elided
Caused by: java.lang.NoClassDefFoundError: org/apache/parquet/hadoop/ParquetOutputFormat$JobSummaryLevel
  at java.lang.Class.getDeclaredConstructors0(Native Method)
  at java.lang.Class.privateGetDeclaredConstructors(Class.java:2671)
  at java.lang.Class.getConstructor0(Class.java:3075)
  at java.lang.Class.newInstance(Class.java:412)
  at java.util.ServiceLoader$LazyIterator.nextService(ServiceLoader.java:380)
  ... 71 more
Caused by: java.lang.ClassNotFoundException: org.apache.parquet.hadoop.ParquetOutputFormat$JobSummaryLevel
  at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
  at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:349)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
  ... 76 more

The end users will be confused about the relationship between Parquet and ML models.

How was this patch tested?

manual tests

SparkQA · 2019-04-20T05:06:11Z

Test build #104770 has finished for PR 24422 at commit 10d6d88.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

viirya

Will we break other applications by removing this? For example, I saw Spark built with parquet-provided is used like:
https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started

felixcheung · 2019-04-21T01:01:21Z

I don't know that's confusing? ML model is persisted in parquet format.

Remove parquet-provided support

10d6d88

viirya reviewed Apr 20, 2019

View reviewed changes

wangyum closed this Apr 21, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-27524][BUILD] Remove the parquet-provided support #24422

[SPARK-27524][BUILD] Remove the parquet-provided support #24422

Uh oh!

wangyum commented Apr 20, 2019 •

edited

Loading

Uh oh!

SparkQA commented Apr 20, 2019

Uh oh!

viirya left a comment

Uh oh!

felixcheung commented Apr 21, 2019

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

[SPARK-27524][BUILD] Remove the parquet-provided support #24422

[SPARK-27524][BUILD] Remove the parquet-provided support #24422

Uh oh!

Conversation

wangyum commented Apr 20, 2019 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

What changes were proposed in this pull request?

How was this patch tested?

Uh oh!

SparkQA commented Apr 20, 2019

Uh oh!

viirya left a comment

Choose a reason for hiding this comment

Uh oh!

felixcheung commented Apr 21, 2019

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

4 participants

wangyum commented Apr 20, 2019 •

edited

Loading