java.lang.RuntimeException: Cloud size 1 under 2 #1739

BhushG · 2020-01-22T07:52:36Z

Hi, I'm getting this exception when I'm executing the job on the YARN cluster. There is no problem executing same job on a local machine.
I've tried all of these settings: http://docs.h2o.ai/sparkling-water/2.1/latest-stable/doc/configuration/internal_backend_tuning.html , but still couldn't resolve this exception.
Here are the logs:

20/01/22 07:06:53 INFO cluster.YarnSchedulerBackend$YarnDriverEndpoint: Disabling executor 2.
20/01/22 07:06:53 INFO scheduler.DAGScheduler: Executor lost: 2 (epoch 18)
20/01/22 07:06:53 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 2 from BlockManagerMaster.
20/01/22 07:06:53 INFO storage.BlockManagerMasterEndpoint: Removing block manager BlockManagerId(2, project-master, 37245, None)
20/01/22 07:06:53 INFO storage.BlockManagerMaster: Removed 2 successfully in removeExecutor
20/01/22 07:06:53 INFO scheduler.DAGScheduler: Shuffle files lost for executor: 2 (epoch 18)
20/01/22 07:06:53 INFO yarn.YarnAllocator: Completed container container_1578919282272_0243_01_000003 on host: project-master (state: COMPLETE, exit status: 50)
20/01/22 07:06:53 WARN yarn.YarnAllocator: Container from a bad node: container_1578919282272_0243_01_000003 on host: project-master. Exit status: 50. Diagnostics: Exception from container-launch.
Container id: container_1578919282272_0243_01_000003
Exit code: 50
Stack trace: ExitCodeException exitCode=50: 
	at org.apache.hadoop.util.Shell.runCommand(Shell.java:582)
	at org.apache.hadoop.util.Shell.run(Shell.java:479)
	at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)
	at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:212)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)


Container exited with a non-zero exit code 50
.
20/01/22 07:06:53 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Requesting driver to remove executor 2 for reason Container from a bad node: container_1578919282272_0243_01_000003 on host: project-master. Exit status: 50. Diagnostics: Exception from container-launch.
Container id: container_1578919282272_0243_01_000003
Exit code: 50
Stack trace: ExitCodeException exitCode=50: 
	at org.apache.hadoop.util.Shell.runCommand(Shell.java:582)
	at org.apache.hadoop.util.Shell.run(Shell.java:479)
	at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)
	at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:212)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)


Container exited with a non-zero exit code 50
.
20/01/22 07:06:53 ERROR cluster.YarnClusterScheduler: Lost executor 2 on project-master: Container from a bad node: container_1578919282272_0243_01_000003 on host: project-master. Exit status: 50. Diagnostics: Exception from container-launch.
Container id: container_1578919282272_0243_01_000003
Exit code: 50
Stack trace: ExitCodeException exitCode=50: 
	at org.apache.hadoop.util.Shell.runCommand(Shell.java:582)
	at org.apache.hadoop.util.Shell.run(Shell.java:479)
	at org.apache.hadoop.util.Shell$ShellCommandExecutor.execute(Shell.java:773)
	at org.apache.hadoop.yarn.server.nodemanager.DefaultContainerExecutor.launchContainer(DefaultContainerExecutor.java:212)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302)
	at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:82)
	at java.util.concurrent.FutureTask.run(FutureTask.java:266)
	at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
	at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
	at java.lang.Thread.run(Thread.java:748)


Container exited with a non-zero exit code 50
.
20/01/22 07:06:53 INFO storage.BlockManagerMasterEndpoint: Trying to remove executor 2 from BlockManagerMaster.
20/01/22 07:06:53 INFO storage.BlockManagerMaster: Removal of executor 2 requested
20/01/22 07:06:53 INFO cluster.YarnSchedulerBackend$YarnDriverEndpoint: Asked to remove non-existent executor 2
20/01/22 07:06:56 INFO yarn.ApplicationMaster: Final app status: FAILED, exitCode: 11, (reason: Max number of executor failures (1) reached)
20/01/22 07:07:52 ERROR job.projectJobDriver$: Job failed in cluster mode with IrisMemOverhead
java.lang.RuntimeException: Cloud size 1 under 2
	at water.H2O.waitForCloudSize(H2O.java:1845)
	at org.apache.spark.h2o.backends.internal.InternalH2OBackend$.org$apache$spark$h2o$backends$internal$InternalH2OBackend$$startH2OCluster(InternalH2OBackend.scala:92)
	at org.apache.spark.h2o.backends.internal.InternalH2OBackend.init(InternalH2OBackend.scala:64)
	at org.apache.spark.h2o.H2OContext.init(H2OContext.scala:130)
	at org.apache.spark.h2o.H2OContext$.getOrCreate(H2OContext.scala:418)
	at org.apache.spark.h2o.H2OContext$.getOrCreate(H2OContext.scala:446)
	at ai.h2o.sparkling.ml.algos.H2OAlgoCommonUtils$class.prepareDatasetForFitting(H2OAlgoCommonUtils.scala:47)
	at ai.h2o.sparkling.ml.algos.H2OAutoML.prepareDatasetForFitting(H2OAutoML.scala:42)
	at ai.h2o.sparkling.ml.algos.H2OAutoML.fit(H2OAutoML.scala:57)

The text was updated successfully, but these errors were encountered:

mn-mikke · 2020-01-22T10:32:53Z

Hi @BhushG,
Can you try to give Spark executors more memory?

BhushG · 2020-01-22T14:09:46Z

@mn-mikke Thanks for the quick reply. We already tried that. We have taken Iris dataset for testing which is just of a few KBs and allocated 5GB to executors as well as the driver but still, it did not work.

mn-mikke · 2020-01-22T14:19:16Z

What version of Sparkling Water do you use? Could you share a code snippet that you tried to run?

BhushG · 2020-01-23T08:35:33Z

@mn-mikke We have tried these versions of Sparkling water: 3.28.0.1-1-2.4 and 3.26.11-2.4 on spark 2.4. scala version: 2.11.8

Here is the code snippet:

def main(args: Array[String]): Unit =
{
import org.apache.spark.h2o.{H2OConf, H2OContext}
println("H2O AutoML")
println("Creating Spark Session..")
val sparkConf = new SparkConf()
.setAppName("H2OAutoML")
.setMaster("yarn")

val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate()
val conf = new H2OConf(sparkSession)
  .setInternalClusterMode()
H2OContext.getOrCreate(sparkSession, conf)

val df = sparkSession.read
  .option("header", true)
  .option("inferschema", true)
  .csv("/Users/Bhushan/Datasets/iris2.csv")
df.show()

val labelCol = "species"
val predCol = "pred"
val Array(trainingDF, testingDF) = df.randomSplit(Array(0.8, 0.2))
val automl = new H2OAutoML()
automl.setLabelCol(labelCol)
automl.setSortMetric("AUTO")
automl
  .setMaxRuntimeSecs(30)
  .setPredictionCol(predCol)
  .setConvertUnknownCategoricalLevelsToNa(true)
val model = automl.fit(trainingDF)
val transformed = model.transform(testingDF)
val modelDetails = model.getModelDetails()
println(modelDetails)
transformed.show(30)

}

BhushG · 2020-01-23T08:38:57Z

@mn-mikke we are using internal cluster mode and I've in fact set spark.dynamicAllocation.enabled to false

BhushG · 2020-01-30T19:05:16Z

@jakubhava Hi.. Is there any solution to this exception? Sometimes the model gets trained on cluster but when I deploy same model for same dataset on cluster, it fails with cloud size 0 under 2. I appreciate your help.

BhushG · 2020-01-31T05:01:05Z

@jakubhava @mn-mikke Is there any solution to this? or shall I use External backend?

BhushG · 2020-01-31T14:14:20Z

I'm also not able to start the External backend. Created new issue: #1759

jakubhava · 2020-02-03T21:38:26Z

Can you share the full YARN logs ( executors, driver)? We have fixed various clouding issues in the upcoming release 3.28.0.3 and I would like to verify if this issue is one of them.

niebloomj · 2020-02-04T22:15:56Z

I am getting the same issue and have sent the full logs on the gitter channel. Thank you.

jakubhava · 2020-02-04T22:16:50Z

Yes, this issue will be fixed in the upcoming 3.28.0.3 release

jakubhava · 2020-02-06T07:12:45Z

Sparkling Water 3.28.0.3 is released which fixes the clouding issues mentioned above:

Spark 2.4: http://h2o-release.s3.amazonaws.com/sparkling-water/spark-2.4/3.28.0.3-1-2.4/index.html
Spark 2.3: http://h2o-release.s3.amazonaws.com/sparkling-water/spark-2.3/3.28.0.3-1-2.3/index.html
Spark 2.2: http://h2o-release.s3.amazonaws.com/sparkling-water/spark-2.2/3.28.0.3-1-2.2/index.html
Spark 2.1: http://h2o-release.s3.amazonaws.com/sparkling-water/spark-2.1/3.28.0.3-1-2.1/index.html

If you bump into any new issues, please create new or feel free to reopen this issue.

BhushG mentioned this issue Feb 3, 2020

Not able to start external backend on YARN : java.io.IOException: Cannot run program "hadoop": error=2, No such file or directory #1759

Closed

jakubhava closed this as completed Feb 6, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

java.lang.RuntimeException: Cloud size 1 under 2 #1739

java.lang.RuntimeException: Cloud size 1 under 2 #1739

BhushG commented Jan 22, 2020 •

edited

mn-mikke commented Jan 22, 2020

BhushG commented Jan 22, 2020

mn-mikke commented Jan 22, 2020

BhushG commented Jan 23, 2020 •

edited

BhushG commented Jan 23, 2020

BhushG commented Jan 30, 2020

BhushG commented Jan 31, 2020

BhushG commented Jan 31, 2020

jakubhava commented Feb 3, 2020

niebloomj commented Feb 4, 2020

jakubhava commented Feb 4, 2020

jakubhava commented Feb 6, 2020

java.lang.RuntimeException: Cloud size 1 under 2 #1739

java.lang.RuntimeException: Cloud size 1 under 2 #1739

Comments

BhushG commented Jan 22, 2020 • edited

mn-mikke commented Jan 22, 2020

BhushG commented Jan 22, 2020

mn-mikke commented Jan 22, 2020

BhushG commented Jan 23, 2020 • edited

BhushG commented Jan 23, 2020

BhushG commented Jan 30, 2020

BhushG commented Jan 31, 2020

BhushG commented Jan 31, 2020

jakubhava commented Feb 3, 2020

niebloomj commented Feb 4, 2020

jakubhava commented Feb 4, 2020

jakubhava commented Feb 6, 2020

BhushG commented Jan 22, 2020 •

edited

BhushG commented Jan 23, 2020 •

edited