SPARK-5134 [BUILD] Bump default Hadoop version to 2+ #5027

srowen · 2015-03-14T08:37:24Z

Bump default Hadoop version to 2.2.0. (This is already the dependency version reported by published Maven artifacts.) See JIRA for further discussion.

… version reported by published Maven artifacts.)

SparkQA · 2015-03-14T10:03:21Z

Test build #28609 has finished for PR 5027 at commit acbee14.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

srowen · 2015-03-19T13:44:50Z

I want to double- and triple-check about this. I'm in favor, I think @pwendell is in favor since it reflects how Spark is already published vs Hadoop 2.2. It doesn't remove support for older Hadoop. I'd like to merge tomorrow.

pwendell · 2015-03-21T00:12:37Z

Looks good - thanks for commiting this sean.

nchammas · 2015-04-14T21:30:27Z

This PR seems to have broken spark-perf. Not sure why, but the executor stderr logs have the following:

15/04/14 19:14:46 INFO executor.CoarseGrainedExecutorBackend: Registered signal handlers for [TERM, HUP, INT]
Exception in thread "main" java.lang.ExceptionInInitializerError
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.run(CoarseGrainedExecutorBackend.scala:128)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend$.main(CoarseGrainedExecutorBackend.scala:224)
    at org.apache.spark.executor.CoarseGrainedExecutorBackend.main(CoarseGrainedExecutorBackend.scala)
Caused by: java.lang.RuntimeException: java.lang.reflect.InvocationTargetException
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:131)
    at org.apache.hadoop.security.Groups.<init>(Groups.java:55)
    at org.apache.hadoop.security.Groups.getUserToGroupsMappingService(Groups.java:182)
    at org.apache.hadoop.security.UserGroupInformation.initialize(UserGroupInformation.java:235)
    at org.apache.hadoop.security.UserGroupInformation.setConfiguration(UserGroupInformation.java:249)
    at org.apache.spark.deploy.SparkHadoopUtil.<init>(SparkHadoopUtil.scala:44)
    at org.apache.spark.deploy.SparkHadoopUtil$.<init>(SparkHadoopUtil.scala:220)
    at org.apache.spark.deploy.SparkHadoopUtil$.<clinit>(SparkHadoopUtil.scala)
    ... 3 more
Caused by: java.lang.reflect.InvocationTargetException
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:57)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:526)
    at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:129)
    ... 10 more
Caused by: java.lang.UnsatisfiedLinkError: org.apache.hadoop.security.JniBasedUnixGroupsMapping.anchorNative()V
    at org.apache.hadoop.security.JniBasedUnixGroupsMapping.anchorNative(Native Method)
    at org.apache.hadoop.security.JniBasedUnixGroupsMapping.<clinit>(JniBasedUnixGroupsMapping.java:49)
    at org.apache.hadoop.security.JniBasedUnixGroupsMappingWithFallback.<init>(JniBasedUnixGroupsMappingWithFallback.java:38)
    ... 15 more

cc @JoshRosen

nchammas · 2015-04-14T21:45:04Z

Suspicion is it's just a Hadoop 1 vs. 2 issue since spark-ec2 (which we use for spark-perf testing) launches clusters with Hadoop 1 by default.

Will confirm.

nchammas · 2015-04-14T23:50:38Z

Confirmed. Simply building Spark with the Hadoop version explicitly set to 1.0.4 resolves this issue.

srowen · 2015-04-15T09:37:17Z

How about setting up Hadoop 2 on EC2 by default?
Alternatively, yeah at least you'd want to specify a particular version if a particular version is needed.

nchammas · 2015-04-15T15:36:09Z

Yeah, I asked about that some time ago, and I believe the concern was about surprising users (by changing defaults) + the fact that the Hadoop 2 distro used by spark-ec2 is somehow not a "real" distro. @shivaram could explain more.

shivaram · 2015-04-15T17:05:49Z

Yeah spark-ec2 does not support Hadoop 2 right now, though there has been a patch sitting around for a while now
http://apache-spark-developers-list.1001551.n3.nabble.com/spark-ec2-default-to-Hadoop-2-td10824.html has more details

Bump default Hadoop version to 2.2.0. (This is already the dependency…

acbee14

… version reported by published Maven artifacts.)

asfgit closed this in d08e3eb Mar 20, 2015

srowen deleted the SPARK-5134 branch March 20, 2015 15:09

pwendell mentioned this pull request May 12, 2015

[SPARK-7249] Updated Hadoop dependencies due to inconsistency in the versions #5786

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SPARK-5134 [BUILD] Bump default Hadoop version to 2+ #5027

SPARK-5134 [BUILD] Bump default Hadoop version to 2+ #5027

srowen commented Mar 14, 2015

SparkQA commented Mar 14, 2015

srowen commented Mar 19, 2015

pwendell commented Mar 21, 2015

nchammas commented Apr 14, 2015

nchammas commented Apr 14, 2015

nchammas commented Apr 14, 2015

srowen commented Apr 15, 2015

nchammas commented Apr 15, 2015

shivaram commented Apr 15, 2015

SPARK-5134 [BUILD] Bump default Hadoop version to 2+ #5027

SPARK-5134 [BUILD] Bump default Hadoop version to 2+ #5027

Conversation

srowen commented Mar 14, 2015

SparkQA commented Mar 14, 2015

srowen commented Mar 19, 2015

pwendell commented Mar 21, 2015

nchammas commented Apr 14, 2015

nchammas commented Apr 14, 2015

nchammas commented Apr 14, 2015

srowen commented Apr 15, 2015

nchammas commented Apr 15, 2015

shivaram commented Apr 15, 2015