Resolve conflicts

apache · Mar 2, 2016 · b7fc39e · b7fc39e
2 parents 4ac73d9 + b4d096d
commit b7fc39e
Show file tree

Hide file tree

Showing 557 changed files with 11,472 additions and 4,490 deletions.
diff --git a/.github/PULL_REQUEST_TEMPLATE b/.github/PULL_REQUEST_TEMPLATE
@@ -3,7 +3,7 @@
 (Please fill in changes proposed in this fix)
 
 
-## How was the this patch tested?
+## How was this patch tested?
 
 (Please explain how this patch was tested. E.g. unit tests, integration tests, manual tests)
 

diff --git a/R/pkg/NAMESPACE b/R/pkg/NAMESPACE
@@ -13,7 +13,9 @@ export("print.jobj")
 # MLlib integration
 exportMethods("glm",
               "predict",
-              "summary")
+              "summary",
+              "kmeans",
+              "fitted")
 
 # Job group lifecycle management methods
 export("setJobGroup",
@@ -109,6 +111,7 @@ exportMethods("%in%",
               "add_months",
               "alias",
               "approxCountDistinct",
+              "approxQuantile",
               "array_contains",
               "asc",
               "ascii",

diff --git a/R/pkg/R/generics.R b/R/pkg/R/generics.R
@@ -67,6 +67,13 @@ setGeneric("crosstab", function(x, col1, col2) { standardGeneric("crosstab") })
 # @export
 setGeneric("freqItems", function(x, cols, support = 0.01) { standardGeneric("freqItems") })
 
+# @rdname statfunctions
+# @export
+setGeneric("approxQuantile",
+           function(x, col, probabilities, relativeError) {
+             standardGeneric("approxQuantile")
+           })
+
 # @rdname distinct
 # @export
 setGeneric("distinct", function(x, numPartitions = 1) { standardGeneric("distinct") })
@@ -1160,3 +1167,11 @@ setGeneric("predict", function(object, ...) { standardGeneric("predict") })
 #' @rdname rbind
 #' @export
 setGeneric("rbind", signature = "...")
+
+#' @rdname kmeans
+#' @export
+setGeneric("kmeans")
+
+#' @rdname fitted
+#' @export
+setGeneric("fitted")
diff --git a/R/pkg/R/mllib.R b/R/pkg/R/mllib.R
@@ -104,11 +104,11 @@ setMethod("predict", signature(object = "PipelineModel"),
 setMethod("summary", signature(object = "PipelineModel"),
           function(object, ...) {
             modelName <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
-                                   "getModelName", object@model)
+                                     "getModelName", object@model)
             features <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
-                                   "getModelFeatures", object@model)
+                                    "getModelFeatures", object@model)
             coefficients <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
-                                   "getModelCoefficients", object@model)
+                                        "getModelCoefficients", object@model)
             if (modelName == "LinearRegressionModel") {
               devianceResiduals <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
                                                "getModelDevianceResiduals", object@model)
@@ -119,10 +119,76 @@ setMethod("summary", signature(object = "PipelineModel"),
               colnames(coefficients) <- c("Estimate", "Std. Error", "t value", "Pr(>|t|)")
               rownames(coefficients) <- unlist(features)
               return(list(devianceResiduals = devianceResiduals, coefficients = coefficients))
-            } else {
+            } else if (modelName == "LogisticRegressionModel") {
               coefficients <- as.matrix(unlist(coefficients))
               colnames(coefficients) <- c("Estimate")
               rownames(coefficients) <- unlist(features)
               return(list(coefficients = coefficients))
+            } else if (modelName == "KMeansModel") {
+              modelSize <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
+                                       "getKMeansModelSize", object@model)
+              cluster <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
+                                     "getKMeansCluster", object@model, "classes")
+              k <- unlist(modelSize)[1]
+              size <- unlist(modelSize)[-1]
+              coefficients <- t(matrix(coefficients, ncol = k))
+              colnames(coefficients) <- unlist(features)
+              rownames(coefficients) <- 1:k
+              return(list(coefficients = coefficients, size = size, cluster = dataFrame(cluster)))
+            } else {
+              stop(paste("Unsupported model", modelName, sep = " "))
+            }
+          })
+
+#' Fit a k-means model
+#'
+#' Fit a k-means model, similarly to R's kmeans().
+#'
+#' @param x DataFrame for training
+#' @param centers Number of centers
+#' @param iter.max Maximum iteration number
+#' @param algorithm Algorithm choosen to fit the model
+#' @return A fitted k-means model
+#' @rdname kmeans
+#' @export
+#' @examples
+#'\dontrun{
+#' model <- kmeans(x, centers = 2, algorithm="random")
+#'}
+setMethod("kmeans", signature(x = "DataFrame"),
+          function(x, centers, iter.max = 10, algorithm = c("random", "k-means||")) {
+            columnNames <- as.array(colnames(x))
+            algorithm <- match.arg(algorithm)
+            model <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers", "fitKMeans", x@sdf,
+                                 algorithm, iter.max, centers, columnNames)
+            return(new("PipelineModel", model = model))
+         })
+
+#' Get fitted result from a model
+#'
+#' Get fitted result from a model, similarly to R's fitted().
+#'
+#' @param object A fitted MLlib model
+#' @return DataFrame containing fitted values
+#' @rdname fitted
+#' @export
+#' @examples
+#'\dontrun{
+#' model <- kmeans(trainingData, 2)
+#' fitted.model <- fitted(model)
+#' showDF(fitted.model)
+#'}
+setMethod("fitted", signature(object = "PipelineModel"),
+          function(object, method = c("centers", "classes"), ...) {
+            modelName <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
+                                     "getModelName", object@model)
+
+            if (modelName == "KMeansModel") {
+              method <- match.arg(method)
+              fittedResult <- callJStatic("org.apache.spark.ml.api.r.SparkRWrappers",
+                                          "getKMeansCluster", object@model, method)
+              return(dataFrame(fittedResult))
+            } else {
+              stop(paste("Unsupported model", modelName, sep = " "))
             }
           })
diff --git a/R/pkg/R/stats.R b/R/pkg/R/stats.R
@@ -130,6 +130,45 @@ setMethod("freqItems", signature(x = "DataFrame", cols = "character"),
             collect(dataFrame(sct))
           })
 
+#' approxQuantile
+#'
+#' Calculates the approximate quantiles of a numerical column of a DataFrame.
+#'
+#' The result of this algorithm has the following deterministic bound:
+#' If the DataFrame has N elements and if we request the quantile at probability `p` up to error
+#' `err`, then the algorithm will return a sample `x` from the DataFrame so that the *exact* rank
+#' of `x` is close to (p * N). More precisely,
+#'   floor((p - err) * N) <= rank(x) <= ceil((p + err) * N).
+#' This method implements a variation of the Greenwald-Khanna algorithm (with some speed
+#' optimizations). The algorithm was first present in [[http://dx.doi.org/10.1145/375663.375670
+#' Space-efficient Online Computation of Quantile Summaries]] by Greenwald and Khanna.
+#'
+#' @param x A SparkSQL DataFrame.
+#' @param col The name of the numerical column.
+#' @param probabilities A list of quantile probabilities. Each number must belong to [0, 1].
+#'                      For example 0 is the minimum, 0.5 is the median, 1 is the maximum.
+#' @param relativeError The relative target precision to achieve (>= 0). If set to zero,
+#'                      the exact quantiles are computed, which could be very expensive.
+#'                      Note that values greater than 1 are accepted but give the same result as 1.
+#' @return The approximate quantiles at the given probabilities.
+#'
+#' @rdname statfunctions
+#' @name approxQuantile
+#' @export
+#' @examples
+#' \dontrun{
+#' df <- jsonFile(sqlContext, "/path/to/file.json")
+#' quantiles <- approxQuantile(df, "key", c(0.5, 0.8), 0.0)
+#' }
+setMethod("approxQuantile",
+          signature(x = "DataFrame", col = "character",
+                    probabilities = "numeric", relativeError = "numeric"),
+          function(x, col, probabilities, relativeError) {
+            statFunctions <- callJMethod(x@sdf, "stat")
+            callJMethod(statFunctions, "approxQuantile", col,
+                        as.list(probabilities), relativeError)
+          })
+
 #' sampleBy
 #'
 #' Returns a stratified sample without replacement based on the fraction given on each stratum.

diff --git a/R/pkg/inst/tests/testthat/test_mllib.R b/R/pkg/inst/tests/testthat/test_mllib.R
@@ -113,3 +113,31 @@ test_that("summary works on base GLM models", {
   baseSummary <- summary(baseModel)
   expect_true(abs(baseSummary$deviance - 12.19313) < 1e-4)
 })
+
+test_that("kmeans", {
+  newIris <- iris
+  newIris$Species <- NULL
+  training <- suppressWarnings(createDataFrame(sqlContext, newIris))
+
+  # Cache the DataFrame here to work around the bug SPARK-13178.
+  cache(training)
+  take(training, 1)
+
+  model <- kmeans(x = training, centers = 2)
+  sample <- take(select(predict(model, training), "prediction"), 1)
+  expect_equal(typeof(sample$prediction), "integer")
+  expect_equal(sample$prediction, 1)
+
+  # Test stats::kmeans is working
+  statsModel <- kmeans(x = newIris, centers = 2)
+  expect_equal(sort(unique(statsModel$cluster)), c(1, 2))
+
+  # Test fitted works on KMeans
+  fitted.model <- fitted(model)
+  expect_equal(sort(collect(distinct(select(fitted.model, "prediction")))$prediction), c(0, 1))
+
+  # Test summary works on KMeans
+  summary.model <- summary(model)
+  cluster <- summary.model$cluster
+  expect_equal(sort(collect(distinct(select(cluster, "prediction")))$prediction), c(0, 1))
+})
diff --git a/R/pkg/inst/tests/testthat/test_sparkSQL.R b/R/pkg/inst/tests/testthat/test_sparkSQL.R
@@ -1785,6 +1785,14 @@ test_that("sampleBy() on a DataFrame", {
   expect_identical(as.list(result[2, ]), list(key = "1", count = 7))
 })
 
+test_that("approxQuantile() on a DataFrame", {
+  l <- lapply(c(0:99), function(i) { i })
+  df <- createDataFrame(sqlContext, l, "key")
+  quantiles <- approxQuantile(df, "key", c(0.5, 0.8), 0.0)
+  expect_equal(quantiles[[1]], 50)
+  expect_equal(quantiles[[2]], 80)
+})
+
 test_that("SQL error message is returned from JVM", {
   retError <- tryCatch(sql(sqlContext, "select * from blah"), error = function(e) e)
   expect_equal(grepl("Table not found: blah", retError), TRUE)

diff --git a/bin/spark-submit.cmd b/bin/spark-submit.cmd
@@ -20,4 +20,4 @@ rem
 rem This is the entry point for running Spark submit. To avoid polluting the
 rem environment, it just launches a new cmd to do the real work.
 
-cmd /V /E /C spark-submit2.cmd %*
+cmd /V /E /C "%~dp0spark-submit2.cmd" %*
diff --git a/network/common/pom.xml → common/network-common/pom.xml b/network/common/pom.xml → common/network-common/pom.xml
diff --git a/...pache/spark/network/TransportContext.java → ...pache/spark/network/TransportContext.java b/...pache/spark/network/TransportContext.java → ...pache/spark/network/TransportContext.java
diff --git a/...work/buffer/FileSegmentManagedBuffer.java → ...work/buffer/FileSegmentManagedBuffer.java b/...work/buffer/FileSegmentManagedBuffer.java → ...work/buffer/FileSegmentManagedBuffer.java
diff --git a/.../spark/network/buffer/LazyFileRegion.java → .../spark/network/buffer/LazyFileRegion.java b/.../spark/network/buffer/LazyFileRegion.java → .../spark/network/buffer/LazyFileRegion.java
diff --git a/...e/spark/network/buffer/ManagedBuffer.java → ...e/spark/network/buffer/ManagedBuffer.java b/...e/spark/network/buffer/ManagedBuffer.java → ...e/spark/network/buffer/ManagedBuffer.java
diff --git a/...rk/network/buffer/NettyManagedBuffer.java → ...rk/network/buffer/NettyManagedBuffer.java b/...rk/network/buffer/NettyManagedBuffer.java → ...rk/network/buffer/NettyManagedBuffer.java
diff --git a/...park/network/buffer/NioManagedBuffer.java → ...park/network/buffer/NioManagedBuffer.java b/...park/network/buffer/NioManagedBuffer.java → ...park/network/buffer/NioManagedBuffer.java
@@ -28,7 +28,7 @@
 /**
  * A {@link ManagedBuffer} backed by {@link ByteBuffer}.
  */
-public final class NioManagedBuffer extends ManagedBuffer {
+public class NioManagedBuffer extends ManagedBuffer {
   private final ByteBuffer buf;
 
   public NioManagedBuffer(ByteBuffer buf) {

diff --git a/...rk/client/ChunkFetchFailureException.java → ...rk/client/ChunkFetchFailureException.java b/...rk/client/ChunkFetchFailureException.java → ...rk/client/ChunkFetchFailureException.java
diff --git a/...network/client/ChunkReceivedCallback.java → ...network/client/ChunkReceivedCallback.java b/...network/client/ChunkReceivedCallback.java → ...network/client/ChunkReceivedCallback.java
diff --git a/...k/network/client/RpcResponseCallback.java → ...k/network/client/RpcResponseCallback.java b/...k/network/client/RpcResponseCallback.java → ...k/network/client/RpcResponseCallback.java
diff --git a/.../spark/network/client/StreamCallback.java → .../spark/network/client/StreamCallback.java b/.../spark/network/client/StreamCallback.java → .../spark/network/client/StreamCallback.java
diff --git a/...ark/network/client/StreamInterceptor.java → ...ark/network/client/StreamInterceptor.java b/...ark/network/client/StreamInterceptor.java → ...ark/network/client/StreamInterceptor.java
diff --git a/...spark/network/client/TransportClient.java → ...spark/network/client/TransportClient.java b/...spark/network/client/TransportClient.java → ...spark/network/client/TransportClient.java
diff --git a/...work/client/TransportClientBootstrap.java → ...work/client/TransportClientBootstrap.java b/...work/client/TransportClientBootstrap.java → ...work/client/TransportClientBootstrap.java
diff --git a/...etwork/client/TransportClientFactory.java → ...etwork/client/TransportClientFactory.java b/...etwork/client/TransportClientFactory.java → ...etwork/client/TransportClientFactory.java
diff --git a/...work/client/TransportResponseHandler.java → ...work/client/TransportResponseHandler.java b/...work/client/TransportResponseHandler.java → ...work/client/TransportResponseHandler.java
diff --git a/...ark/network/protocol/AbstractMessage.java → ...ark/network/protocol/AbstractMessage.java b/...ark/network/protocol/AbstractMessage.java → ...ark/network/protocol/AbstractMessage.java
diff --git a/...ork/protocol/AbstractResponseMessage.java → ...ork/protocol/AbstractResponseMessage.java b/...ork/protocol/AbstractResponseMessage.java → ...ork/protocol/AbstractResponseMessage.java
diff --git a/...k/network/protocol/ChunkFetchFailure.java → ...k/network/protocol/ChunkFetchFailure.java b/...k/network/protocol/ChunkFetchFailure.java → ...k/network/protocol/ChunkFetchFailure.java
diff --git a/...k/network/protocol/ChunkFetchRequest.java → ...k/network/protocol/ChunkFetchRequest.java b/...k/network/protocol/ChunkFetchRequest.java → ...k/network/protocol/ChunkFetchRequest.java
diff --git a/...k/network/protocol/ChunkFetchSuccess.java → ...k/network/protocol/ChunkFetchSuccess.java b/...k/network/protocol/ChunkFetchSuccess.java → ...k/network/protocol/ChunkFetchSuccess.java
diff --git a/...che/spark/network/protocol/Encodable.java → ...che/spark/network/protocol/Encodable.java b/...che/spark/network/protocol/Encodable.java → ...che/spark/network/protocol/Encodable.java
diff --git a/...ache/spark/network/protocol/Encoders.java → ...ache/spark/network/protocol/Encoders.java b/...ache/spark/network/protocol/Encoders.java → ...ache/spark/network/protocol/Encoders.java
diff --git a/...pache/spark/network/protocol/Message.java → ...pache/spark/network/protocol/Message.java b/...pache/spark/network/protocol/Message.java → ...pache/spark/network/protocol/Message.java
diff --git a/...park/network/protocol/MessageDecoder.java → ...park/network/protocol/MessageDecoder.java b/...park/network/protocol/MessageDecoder.java → ...park/network/protocol/MessageDecoder.java
diff --git a/...park/network/protocol/MessageEncoder.java → ...park/network/protocol/MessageEncoder.java b/...park/network/protocol/MessageEncoder.java → ...park/network/protocol/MessageEncoder.java
diff --git a/...k/network/protocol/MessageWithHeader.java → ...k/network/protocol/MessageWithHeader.java b/...k/network/protocol/MessageWithHeader.java → ...k/network/protocol/MessageWithHeader.java
diff --git a/...spark/network/protocol/OneWayMessage.java → ...spark/network/protocol/OneWayMessage.java b/...spark/network/protocol/OneWayMessage.java → ...spark/network/protocol/OneWayMessage.java
diff --git a/...park/network/protocol/RequestMessage.java → ...park/network/protocol/RequestMessage.java b/...park/network/protocol/RequestMessage.java → ...park/network/protocol/RequestMessage.java
diff --git a/...ark/network/protocol/ResponseMessage.java → ...ark/network/protocol/ResponseMessage.java b/...ark/network/protocol/ResponseMessage.java → ...ark/network/protocol/ResponseMessage.java
diff --git a/...he/spark/network/protocol/RpcFailure.java → ...he/spark/network/protocol/RpcFailure.java b/...he/spark/network/protocol/RpcFailure.java → ...he/spark/network/protocol/RpcFailure.java
diff --git a/...he/spark/network/protocol/RpcRequest.java → ...he/spark/network/protocol/RpcRequest.java b/...he/spark/network/protocol/RpcRequest.java → ...he/spark/network/protocol/RpcRequest.java
diff --git a/...e/spark/network/protocol/RpcResponse.java → ...e/spark/network/protocol/RpcResponse.java b/...e/spark/network/protocol/RpcResponse.java → ...e/spark/network/protocol/RpcResponse.java
diff --git a/...spark/network/protocol/StreamChunkId.java → ...spark/network/protocol/StreamChunkId.java b/...spark/network/protocol/StreamChunkId.java → ...spark/network/protocol/StreamChunkId.java
diff --git a/...spark/network/protocol/StreamFailure.java → ...spark/network/protocol/StreamFailure.java b/...spark/network/protocol/StreamFailure.java → ...spark/network/protocol/StreamFailure.java
diff --git a/...spark/network/protocol/StreamRequest.java → ...spark/network/protocol/StreamRequest.java b/...spark/network/protocol/StreamRequest.java → ...spark/network/protocol/StreamRequest.java
diff --git a/...park/network/protocol/StreamResponse.java → ...park/network/protocol/StreamResponse.java b/...park/network/protocol/StreamResponse.java → ...park/network/protocol/StreamResponse.java
diff --git a/...ark/network/sasl/SaslClientBootstrap.java → ...ark/network/sasl/SaslClientBootstrap.java b/...ark/network/sasl/SaslClientBootstrap.java → ...ark/network/sasl/SaslClientBootstrap.java
diff --git a/...he/spark/network/sasl/SaslEncryption.java → ...he/spark/network/sasl/SaslEncryption.java b/...he/spark/network/sasl/SaslEncryption.java → ...he/spark/network/sasl/SaslEncryption.java
diff --git a/...k/network/sasl/SaslEncryptionBackend.java → ...k/network/sasl/SaslEncryptionBackend.java b/...k/network/sasl/SaslEncryptionBackend.java → ...k/network/sasl/SaslEncryptionBackend.java
diff --git a/...pache/spark/network/sasl/SaslMessage.java → ...pache/spark/network/sasl/SaslMessage.java b/...pache/spark/network/sasl/SaslMessage.java → ...pache/spark/network/sasl/SaslMessage.java
diff --git a/...he/spark/network/sasl/SaslRpcHandler.java → ...he/spark/network/sasl/SaslRpcHandler.java b/...he/spark/network/sasl/SaslRpcHandler.java → ...he/spark/network/sasl/SaslRpcHandler.java
diff --git a/...ark/network/sasl/SaslServerBootstrap.java → ...ark/network/sasl/SaslServerBootstrap.java b/...ark/network/sasl/SaslServerBootstrap.java → ...ark/network/sasl/SaslServerBootstrap.java
diff --git a/...e/spark/network/sasl/SecretKeyHolder.java → ...e/spark/network/sasl/SecretKeyHolder.java b/...e/spark/network/sasl/SecretKeyHolder.java → ...e/spark/network/sasl/SecretKeyHolder.java
diff --git a/...e/spark/network/sasl/SparkSaslClient.java → ...e/spark/network/sasl/SparkSaslClient.java b/...e/spark/network/sasl/SparkSaslClient.java → ...e/spark/network/sasl/SparkSaslClient.java
diff --git a/...e/spark/network/sasl/SparkSaslServer.java → ...e/spark/network/sasl/SparkSaslServer.java b/...e/spark/network/sasl/SparkSaslServer.java → ...e/spark/network/sasl/SparkSaslServer.java
diff --git a/.../spark/network/server/MessageHandler.java → .../spark/network/server/MessageHandler.java b/.../spark/network/server/MessageHandler.java → .../spark/network/server/MessageHandler.java
diff --git a/.../spark/network/server/NoOpRpcHandler.java → .../spark/network/server/NoOpRpcHandler.java b/.../spark/network/server/NoOpRpcHandler.java → .../spark/network/server/NoOpRpcHandler.java
diff --git a/...etwork/server/OneForOneStreamManager.java → ...etwork/server/OneForOneStreamManager.java b/...etwork/server/OneForOneStreamManager.java → ...etwork/server/OneForOneStreamManager.java
diff --git a/...ache/spark/network/server/RpcHandler.java → ...ache/spark/network/server/RpcHandler.java b/...ache/spark/network/server/RpcHandler.java → ...ache/spark/network/server/RpcHandler.java
diff --git a/...e/spark/network/server/StreamManager.java → ...e/spark/network/server/StreamManager.java b/...e/spark/network/server/StreamManager.java → ...e/spark/network/server/StreamManager.java
diff --git a/...twork/server/TransportChannelHandler.java → ...twork/server/TransportChannelHandler.java b/...twork/server/TransportChannelHandler.java → ...twork/server/TransportChannelHandler.java
diff --git a/...twork/server/TransportRequestHandler.java → ...twork/server/TransportRequestHandler.java b/...twork/server/TransportRequestHandler.java → ...twork/server/TransportRequestHandler.java
diff --git a/...spark/network/server/TransportServer.java → ...spark/network/server/TransportServer.java b/...spark/network/server/TransportServer.java → ...spark/network/server/TransportServer.java
diff --git a/...work/server/TransportServerBootstrap.java → ...work/server/TransportServerBootstrap.java b/...work/server/TransportServerBootstrap.java → ...work/server/TransportServerBootstrap.java
diff --git a/...etwork/util/ByteArrayWritableChannel.java → ...etwork/util/ByteArrayWritableChannel.java b/...etwork/util/ByteArrayWritableChannel.java → ...etwork/util/ByteArrayWritableChannel.java
diff --git a/...g/apache/spark/network/util/ByteUnit.java → ...g/apache/spark/network/util/ByteUnit.java b/...g/apache/spark/network/util/ByteUnit.java → ...g/apache/spark/network/util/ByteUnit.java
diff --git a/...he/spark/network/util/ConfigProvider.java → ...he/spark/network/util/ConfigProvider.java b/...he/spark/network/util/ConfigProvider.java → ...he/spark/network/util/ConfigProvider.java
diff --git a/...org/apache/spark/network/util/IOMode.java → ...org/apache/spark/network/util/IOMode.java b/...org/apache/spark/network/util/IOMode.java → ...org/apache/spark/network/util/IOMode.java
diff --git a/.../apache/spark/network/util/JavaUtils.java → .../apache/spark/network/util/JavaUtils.java b/.../apache/spark/network/util/JavaUtils.java → .../apache/spark/network/util/JavaUtils.java
diff --git a/...park/network/util/LimitedInputStream.java → ...park/network/util/LimitedInputStream.java b/...park/network/util/LimitedInputStream.java → ...park/network/util/LimitedInputStream.java
diff --git a/...spark/network/util/MapConfigProvider.java → ...spark/network/util/MapConfigProvider.java b/...spark/network/util/MapConfigProvider.java → ...spark/network/util/MapConfigProvider.java
diff --git a/...apache/spark/network/util/NettyUtils.java → ...apache/spark/network/util/NettyUtils.java b/...apache/spark/network/util/NettyUtils.java → ...apache/spark/network/util/NettyUtils.java
diff --git a/...rk/util/SystemPropertyConfigProvider.java → ...rk/util/SystemPropertyConfigProvider.java b/...rk/util/SystemPropertyConfigProvider.java → ...rk/util/SystemPropertyConfigProvider.java
diff --git a/...che/spark/network/util/TransportConf.java → ...che/spark/network/util/TransportConf.java b/...che/spark/network/util/TransportConf.java → ...che/spark/network/util/TransportConf.java
@@ -132,7 +132,8 @@ public int ioRetryWaitTimeMs() {
    * memory mapping has high overhead for blocks close to or below the page size of the OS.
    */
   public int memoryMapBytes() {
-    return conf.getInt("spark.storage.memoryMapThreshold", 2 * 1024 * 1024);
+    return Ints.checkedCast(JavaUtils.byteStringAsBytes(
+      conf.get("spark.storage.memoryMapThreshold", "2m")));
   }
 
   /**

diff --git a/...k/network/util/TransportFrameDecoder.java → ...k/network/util/TransportFrameDecoder.java b/...k/network/util/TransportFrameDecoder.java → ...k/network/util/TransportFrameDecoder.java
diff --git a/...k/network/ChunkFetchIntegrationSuite.java → ...k/network/ChunkFetchIntegrationSuite.java b/...k/network/ChunkFetchIntegrationSuite.java → ...k/network/ChunkFetchIntegrationSuite.java
diff --git a/...g/apache/spark/network/ProtocolSuite.java → ...g/apache/spark/network/ProtocolSuite.java b/...g/apache/spark/network/ProtocolSuite.java → ...g/apache/spark/network/ProtocolSuite.java
diff --git a/...twork/RequestTimeoutIntegrationSuite.java → ...twork/RequestTimeoutIntegrationSuite.java b/...twork/RequestTimeoutIntegrationSuite.java → ...twork/RequestTimeoutIntegrationSuite.java
diff --git a/...he/spark/network/RpcIntegrationSuite.java → ...he/spark/network/RpcIntegrationSuite.java b/...he/spark/network/RpcIntegrationSuite.java → ...he/spark/network/RpcIntegrationSuite.java
diff --git a/...org/apache/spark/network/StreamSuite.java → ...org/apache/spark/network/StreamSuite.java b/...org/apache/spark/network/StreamSuite.java → ...org/apache/spark/network/StreamSuite.java
diff --git a/...ache/spark/network/TestManagedBuffer.java → ...ache/spark/network/TestManagedBuffer.java b/...ache/spark/network/TestManagedBuffer.java → ...ache/spark/network/TestManagedBuffer.java
diff --git a/...a/org/apache/spark/network/TestUtils.java → ...a/org/apache/spark/network/TestUtils.java b/...a/org/apache/spark/network/TestUtils.java → ...a/org/apache/spark/network/TestUtils.java
diff --git a/.../network/TransportClientFactorySuite.java → .../network/TransportClientFactorySuite.java b/.../network/TransportClientFactorySuite.java → .../network/TransportClientFactorySuite.java
diff --git a/...etwork/TransportResponseHandlerSuite.java → ...etwork/TransportResponseHandlerSuite.java b/...etwork/TransportResponseHandlerSuite.java → ...etwork/TransportResponseHandlerSuite.java
diff --git a/...work/protocol/MessageWithHeaderSuite.java → ...work/protocol/MessageWithHeaderSuite.java b/...work/protocol/MessageWithHeaderSuite.java → ...work/protocol/MessageWithHeaderSuite.java
diff --git a/...he/spark/network/sasl/SparkSaslSuite.java → ...he/spark/network/sasl/SparkSaslSuite.java b/...he/spark/network/sasl/SparkSaslSuite.java → ...he/spark/network/sasl/SparkSaslSuite.java
diff --git a/...k/server/OneForOneStreamManagerSuite.java → ...k/server/OneForOneStreamManagerSuite.java b/...k/server/OneForOneStreamManagerSuite.java → ...k/server/OneForOneStreamManagerSuite.java
diff --git a/...work/util/TransportFrameDecoderSuite.java → ...work/util/TransportFrameDecoderSuite.java b/...work/util/TransportFrameDecoderSuite.java → ...work/util/TransportFrameDecoderSuite.java
diff --git a/...ommon/src/test/resources/log4j.properties → ...ommon/src/test/resources/log4j.properties b/...ommon/src/test/resources/log4j.properties → ...ommon/src/test/resources/log4j.properties
diff --git a/network/shuffle/pom.xml → common/network-shuffle/pom.xml b/network/shuffle/pom.xml → common/network-shuffle/pom.xml
diff --git a/...rk/network/sasl/ShuffleSecretManager.java → ...rk/network/sasl/ShuffleSecretManager.java b/...rk/network/sasl/ShuffleSecretManager.java → ...rk/network/sasl/ShuffleSecretManager.java
diff --git a/...etwork/shuffle/BlockFetchingListener.java → ...etwork/shuffle/BlockFetchingListener.java b/...etwork/shuffle/BlockFetchingListener.java → ...etwork/shuffle/BlockFetchingListener.java
diff --git a/.../shuffle/ExternalShuffleBlockHandler.java → .../shuffle/ExternalShuffleBlockHandler.java b/.../shuffle/ExternalShuffleBlockHandler.java → .../shuffle/ExternalShuffleBlockHandler.java
diff --git a/...shuffle/ExternalShuffleBlockResolver.java → ...shuffle/ExternalShuffleBlockResolver.java b/...shuffle/ExternalShuffleBlockResolver.java → ...shuffle/ExternalShuffleBlockResolver.java
diff --git a/...etwork/shuffle/ExternalShuffleClient.java → ...etwork/shuffle/ExternalShuffleClient.java b/...etwork/shuffle/ExternalShuffleClient.java → ...etwork/shuffle/ExternalShuffleClient.java
diff --git a/...etwork/shuffle/OneForOneBlockFetcher.java → ...etwork/shuffle/OneForOneBlockFetcher.java b/...etwork/shuffle/OneForOneBlockFetcher.java → ...etwork/shuffle/OneForOneBlockFetcher.java
diff --git a/...network/shuffle/RetryingBlockFetcher.java → ...network/shuffle/RetryingBlockFetcher.java b/...network/shuffle/RetryingBlockFetcher.java → ...network/shuffle/RetryingBlockFetcher.java
diff --git a/.../spark/network/shuffle/ShuffleClient.java → .../spark/network/shuffle/ShuffleClient.java b/.../spark/network/shuffle/ShuffleClient.java → .../spark/network/shuffle/ShuffleClient.java
diff --git a/...fle/mesos/MesosExternalShuffleClient.java → ...fle/mesos/MesosExternalShuffleClient.java b/...fle/mesos/MesosExternalShuffleClient.java → ...fle/mesos/MesosExternalShuffleClient.java
diff --git a/...huffle/protocol/BlockTransferMessage.java → ...huffle/protocol/BlockTransferMessage.java b/...huffle/protocol/BlockTransferMessage.java → ...huffle/protocol/BlockTransferMessage.java
diff --git a/...shuffle/protocol/ExecutorShuffleInfo.java → ...shuffle/protocol/ExecutorShuffleInfo.java b/...shuffle/protocol/ExecutorShuffleInfo.java → ...shuffle/protocol/ExecutorShuffleInfo.java
diff --git a/.../network/shuffle/protocol/OpenBlocks.java → .../network/shuffle/protocol/OpenBlocks.java b/.../network/shuffle/protocol/OpenBlocks.java → .../network/shuffle/protocol/OpenBlocks.java
diff --git a/...rk/shuffle/protocol/RegisterExecutor.java → ...rk/shuffle/protocol/RegisterExecutor.java b/...rk/shuffle/protocol/RegisterExecutor.java → ...rk/shuffle/protocol/RegisterExecutor.java
diff --git a/...etwork/shuffle/protocol/StreamHandle.java → ...etwork/shuffle/protocol/StreamHandle.java b/...etwork/shuffle/protocol/StreamHandle.java → ...etwork/shuffle/protocol/StreamHandle.java
diff --git a/...network/shuffle/protocol/UploadBlock.java → ...network/shuffle/protocol/UploadBlock.java b/...network/shuffle/protocol/UploadBlock.java → ...network/shuffle/protocol/UploadBlock.java
diff --git a/...huffle/protocol/mesos/RegisterDriver.java → ...huffle/protocol/mesos/RegisterDriver.java b/...huffle/protocol/mesos/RegisterDriver.java → ...huffle/protocol/mesos/RegisterDriver.java
diff --git a/...rk/network/sasl/SaslIntegrationSuite.java → ...rk/network/sasl/SaslIntegrationSuite.java b/...rk/network/sasl/SaslIntegrationSuite.java → ...rk/network/sasl/SaslIntegrationSuite.java
diff --git a/...k/shuffle/BlockTransferMessagesSuite.java → ...k/shuffle/BlockTransferMessagesSuite.java b/...k/shuffle/BlockTransferMessagesSuite.java → ...k/shuffle/BlockTransferMessagesSuite.java
diff --git a/...fle/ExternalShuffleBlockHandlerSuite.java → ...fle/ExternalShuffleBlockHandlerSuite.java b/...fle/ExternalShuffleBlockHandlerSuite.java → ...fle/ExternalShuffleBlockHandlerSuite.java
diff --git a/...le/ExternalShuffleBlockResolverSuite.java → ...le/ExternalShuffleBlockResolverSuite.java b/...le/ExternalShuffleBlockResolverSuite.java → ...le/ExternalShuffleBlockResolverSuite.java
diff --git a/.../shuffle/ExternalShuffleCleanupSuite.java → .../shuffle/ExternalShuffleCleanupSuite.java b/.../shuffle/ExternalShuffleCleanupSuite.java → .../shuffle/ExternalShuffleCleanupSuite.java
diff --git a/...ffle/ExternalShuffleIntegrationSuite.java → ...ffle/ExternalShuffleIntegrationSuite.java b/...ffle/ExternalShuffleIntegrationSuite.java → ...ffle/ExternalShuffleIntegrationSuite.java
diff --git a/...shuffle/ExternalShuffleSecuritySuite.java → ...shuffle/ExternalShuffleSecuritySuite.java b/...shuffle/ExternalShuffleSecuritySuite.java → ...shuffle/ExternalShuffleSecuritySuite.java
diff --git a/...k/shuffle/OneForOneBlockFetcherSuite.java → ...k/shuffle/OneForOneBlockFetcherSuite.java b/...k/shuffle/OneForOneBlockFetcherSuite.java → ...k/shuffle/OneForOneBlockFetcherSuite.java
diff --git a/...rk/shuffle/RetryingBlockFetcherSuite.java → ...rk/shuffle/RetryingBlockFetcherSuite.java b/...rk/shuffle/RetryingBlockFetcherSuite.java → ...rk/shuffle/RetryingBlockFetcherSuite.java
diff --git a/...twork/shuffle/TestShuffleDataContext.java → ...twork/shuffle/TestShuffleDataContext.java b/...twork/shuffle/TestShuffleDataContext.java → ...twork/shuffle/TestShuffleDataContext.java
diff --git a/network/yarn/pom.xml → common/network-yarn/pom.xml b/network/yarn/pom.xml → common/network-yarn/pom.xml
diff --git a/...park/network/yarn/YarnShuffleService.java → ...park/network/yarn/YarnShuffleService.java b/...park/network/yarn/YarnShuffleService.java → ...park/network/yarn/YarnShuffleService.java
diff --git a/...twork/yarn/util/HadoopConfigProvider.java → ...twork/yarn/util/HadoopConfigProvider.java b/...twork/yarn/util/HadoopConfigProvider.java → ...twork/yarn/util/HadoopConfigProvider.java
diff --git a/common/sketch/src/main/java/org/apache/spark/util/sketch/CountMinSketch.java b/common/sketch/src/main/java/org/apache/spark/util/sketch/CountMinSketch.java
@@ -50,7 +50,7 @@
  *
  * This implementation is largely based on the {@code CountMinSketch} class from stream-lib.
  */
-abstract public class CountMinSketch {
+public abstract class CountMinSketch {
 
   public enum Version {
     /**

diff --git a/tags/README.md → common/tags/README.md b/tags/README.md → common/tags/README.md
diff --git a/tags/pom.xml → common/tags/pom.xml b/tags/pom.xml → common/tags/pom.xml
@@ -23,7 +23,7 @@
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-parent_2.11</artifactId>
     <version>2.0.0-SNAPSHOT</version>
-    <relativePath>../pom.xml</relativePath>
+    <relativePath>../../pom.xml</relativePath>
   </parent>
 
   <groupId>org.apache.spark</groupId>

diff --git a/...ava/org/apache/spark/tags/DockerTest.java → ...ava/org/apache/spark/tags/DockerTest.java b/...ava/org/apache/spark/tags/DockerTest.java → ...ava/org/apache/spark/tags/DockerTest.java
diff --git a/...g/apache/spark/tags/ExtendedHiveTest.java → ...g/apache/spark/tags/ExtendedHiveTest.java b/...g/apache/spark/tags/ExtendedHiveTest.java → ...g/apache/spark/tags/ExtendedHiveTest.java
diff --git a/...g/apache/spark/tags/ExtendedYarnTest.java → ...g/apache/spark/tags/ExtendedYarnTest.java b/...g/apache/spark/tags/ExtendedYarnTest.java → ...g/apache/spark/tags/ExtendedYarnTest.java
diff --git a/unsafe/pom.xml → common/unsafe/pom.xml b/unsafe/pom.xml → common/unsafe/pom.xml
@@ -23,7 +23,7 @@
     <groupId>org.apache.spark</groupId>
     <artifactId>spark-parent_2.11</artifactId>
     <version>2.0.0-SNAPSHOT</version>
-    <relativePath>../pom.xml</relativePath>
+    <relativePath>../../pom.xml</relativePath>
   </parent>
 
   <groupId>org.apache.spark</groupId>

diff --git a/...a/org/apache/spark/unsafe/KVIterator.java → ...a/org/apache/spark/unsafe/KVIterator.java b/...a/org/apache/spark/unsafe/KVIterator.java → ...a/org/apache/spark/unsafe/KVIterator.java
diff --git a/...ava/org/apache/spark/unsafe/Platform.java → ...ava/org/apache/spark/unsafe/Platform.java b/...ava/org/apache/spark/unsafe/Platform.java → ...ava/org/apache/spark/unsafe/Platform.java
diff --git a/.../spark/unsafe/array/ByteArrayMethods.java → .../spark/unsafe/array/ByteArrayMethods.java b/.../spark/unsafe/array/ByteArrayMethods.java → .../spark/unsafe/array/ByteArrayMethods.java
diff --git a/.../apache/spark/unsafe/array/LongArray.java → .../apache/spark/unsafe/array/LongArray.java b/.../apache/spark/unsafe/array/LongArray.java → .../apache/spark/unsafe/array/LongArray.java
diff --git a/...he/spark/unsafe/bitset/BitSetMethods.java → ...he/spark/unsafe/bitset/BitSetMethods.java b/...he/spark/unsafe/bitset/BitSetMethods.java → ...he/spark/unsafe/bitset/BitSetMethods.java
diff --git a/...che/spark/unsafe/hash/Murmur3_x86_32.java → ...che/spark/unsafe/hash/Murmur3_x86_32.java b/...che/spark/unsafe/hash/Murmur3_x86_32.java → ...che/spark/unsafe/hash/Murmur3_x86_32.java
diff --git a/...rk/unsafe/memory/HeapMemoryAllocator.java → ...rk/unsafe/memory/HeapMemoryAllocator.java b/...rk/unsafe/memory/HeapMemoryAllocator.java → ...rk/unsafe/memory/HeapMemoryAllocator.java
diff --git a/.../spark/unsafe/memory/MemoryAllocator.java → .../spark/unsafe/memory/MemoryAllocator.java b/.../spark/unsafe/memory/MemoryAllocator.java → .../spark/unsafe/memory/MemoryAllocator.java
diff --git a/...ache/spark/unsafe/memory/MemoryBlock.java → ...ache/spark/unsafe/memory/MemoryBlock.java b/...ache/spark/unsafe/memory/MemoryBlock.java → ...ache/spark/unsafe/memory/MemoryBlock.java
diff --git a/...e/spark/unsafe/memory/MemoryLocation.java → ...e/spark/unsafe/memory/MemoryLocation.java b/...e/spark/unsafe/memory/MemoryLocation.java → ...e/spark/unsafe/memory/MemoryLocation.java
diff --git a/.../unsafe/memory/UnsafeMemoryAllocator.java → .../unsafe/memory/UnsafeMemoryAllocator.java b/.../unsafe/memory/UnsafeMemoryAllocator.java → .../unsafe/memory/UnsafeMemoryAllocator.java
diff --git a/.../apache/spark/unsafe/types/ByteArray.java → .../apache/spark/unsafe/types/ByteArray.java b/.../apache/spark/unsafe/types/ByteArray.java → .../apache/spark/unsafe/types/ByteArray.java
diff --git a/.../spark/unsafe/types/CalendarInterval.java → .../spark/unsafe/types/CalendarInterval.java b/.../spark/unsafe/types/CalendarInterval.java → .../spark/unsafe/types/CalendarInterval.java
diff --git a/...apache/spark/unsafe/types/UTF8String.java → ...apache/spark/unsafe/types/UTF8String.java b/...apache/spark/unsafe/types/UTF8String.java → ...apache/spark/unsafe/types/UTF8String.java
diff --git a/...pache/spark/unsafe/PlatformUtilSuite.java → ...pache/spark/unsafe/PlatformUtilSuite.java b/...pache/spark/unsafe/PlatformUtilSuite.java → ...pache/spark/unsafe/PlatformUtilSuite.java
diff --git a/...he/spark/unsafe/array/LongArraySuite.java → ...he/spark/unsafe/array/LongArraySuite.java b/...he/spark/unsafe/array/LongArraySuite.java → ...he/spark/unsafe/array/LongArraySuite.java
diff --git a/...park/unsafe/hash/Murmur3_x86_32Suite.java → ...park/unsafe/hash/Murmur3_x86_32Suite.java b/...park/unsafe/hash/Murmur3_x86_32Suite.java → ...park/unsafe/hash/Murmur3_x86_32Suite.java
diff --git a/...k/unsafe/types/CalendarIntervalSuite.java → ...k/unsafe/types/CalendarIntervalSuite.java b/...k/unsafe/types/CalendarIntervalSuite.java → ...k/unsafe/types/CalendarIntervalSuite.java
diff --git a/...e/spark/unsafe/types/UTF8StringSuite.java → ...e/spark/unsafe/types/UTF8StringSuite.java b/...e/spark/unsafe/types/UTF8StringSuite.java → ...e/spark/unsafe/types/UTF8StringSuite.java
diff --git a/.../types/UTF8StringPropertyCheckSuite.scala → .../types/UTF8StringPropertyCheckSuite.scala b/.../types/UTF8StringPropertyCheckSuite.scala → .../types/UTF8StringPropertyCheckSuite.scala
diff --git a/core/src/main/resources/org/apache/spark/ui/static/historypage-template.html b/core/src/main/resources/org/apache/spark/ui/static/historypage-template.html
@@ -64,7 +64,7 @@
   <tbody>
   {{#applications}}
     <tr>
-      <td class="rowGroupColumn"><a href="/history/{{id}}/{{num}}/jobs/">{{id}}</a></td>
+      <td class="rowGroupColumn"><span title="{{id}}"><a href="/history/{{id}}/{{num}}/jobs/">{{id}}</a></span></td>
       <td class="rowGroupColumn">{{name}}</td>
       {{#attempts}}
       <td class="attemptIDSpan"><a href="/history/{{id}}/{{attemptId}}/jobs/">{{attemptId}}</a></td>

diff --git a/core/src/main/resources/org/apache/spark/ui/static/historypage.js b/core/src/main/resources/org/apache/spark/ui/static/historypage.js
@@ -37,6 +37,22 @@ function formatDuration(milliseconds) {
   return hours.toFixed(1) + " h";
 }
 
+function makeIdNumeric(id) {
+  var strs = id.split("_");
+  if (strs.length < 3) {
+    return id;
+  }
+  var appSeqNum = strs[2];
+  var resl = strs[0] + "_" + strs[1] + "_";
+  var diff = 10 - appSeqNum.length;
+  while (diff > 0) {
+      resl += "0"; // padding 0 before the app sequence number to make sure it has 10 characters
+      diff--;
+  }
+  resl += appSeqNum;
+  return resl;
+}
+
 function formatDate(date) {
   return date.split(".")[0].replace("T", " ");
 }
@@ -62,6 +78,21 @@ jQuery.extend( jQuery.fn.dataTableExt.oSort, {
     }
 } );
 
+jQuery.extend( jQuery.fn.dataTableExt.oSort, {
+    "appid-numeric-pre": function ( a ) {
+        var x = a.match(/title="*(-?[0-9a-zA-Z\-\_]+)/)[1];
+        return makeIdNumeric(x);
+    },
+
+    "appid-numeric-asc": function ( a, b ) {
+        return ((a < b) ? -1 : ((a > b) ? 1 : 0));
+    },
+
+    "appid-numeric-desc": function ( a, b ) {
+        return ((a < b) ? 1 : ((a > b) ? -1 : 0));
+    }
+} );
+
 $(document).ajaxStop($.unblockUI);
 $(document).ajaxStart(function(){
     $.blockUI({ message: '<h3>Loading history summary...</h3>'});
@@ -109,7 +140,7 @@ $(document).ready(function() {
         var selector = "#history-summary-table";
         var conf = {
                     "columns": [
-                        {name: 'first'},
+                        {name: 'first', type: "appid-numeric"},
                         {name: 'second'},
                         {name: 'third'},
                         {name: 'fourth'},
@@ -118,7 +149,8 @@ $(document).ready(function() {
                         {name: 'seventh'},
                         {name: 'eighth'},
                     ],
-                    "autoWidth": false
+                    "autoWidth": false,
+                    "order": [[ 0, "desc" ]]
         };
 
         var rowGroupConf = {

diff --git a/core/src/main/resources/org/apache/spark/ui/static/spark-dag-viz.js b/core/src/main/resources/org/apache/spark/ui/static/spark-dag-viz.js
@@ -222,10 +222,11 @@ function renderDagVizForJob(svgContainer) {
       var attemptId = 0
       var stageLink = d3.select("#stage-" + stageId + "-" + attemptId)
         .select("a.name-link")
-        .attr("href") + "&expandDagViz=true";
+        .attr("href");
       container = svgContainer
         .append("a")
         .attr("xlink:href", stageLink)
+        .attr("onclick", "window.localStorage.setItem(expandDagVizArrowKey(false), true)")
         .append("g")
         .attr("id", containerId);
     }