[SPARK-6256] [MLlib] MLlib Python API parity check for regression #4997

yanboliang · 2015-03-12T11:23:10Z

MLlib Python API parity check for Regression, major disparities need to be added for Python list following:

LinearRegressionWithSGD
    setValidateData
LassoWithSGD
    setIntercept
    setValidateData
RidgeRegressionWithSGD
    setIntercept
    setValidateData

setFeatureScaling is mllib private function which is not needed to expose in pyspark.

SparkQA · 2015-03-12T11:28:08Z

Test build #28509 has started for PR 4997 at commit 2dff3df.

This patch merges cleanly.

SparkQA · 2015-03-12T12:49:08Z

Test build #28509 has finished for PR 4997 at commit 2dff3df.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

AmplabJenkins · 2015-03-12T12:49:13Z

Test PASSed.
Refer to this link for build results (access rights to CI server needed):
https://amplab.cs.berkeley.edu/jenkins//job/SparkPullRequestBuilder/28509/
Test PASSed.

yanboliang · 2015-03-20T15:36:34Z

@jkbradley @mengxr Can you review this patch?

mengxr · 2015-03-20T20:43:20Z

@yanboliang setFeatureScaling is not a public method. We were a little hesitated to expose it. Shall we only add validateData in this PR?

mengxr · 2015-03-20T20:43:56Z

mllib/src/main/scala/org/apache/spark/mllib/api/python/PythonMLLibAPI.scala

    lassoAlg.optimizer
      .setNumIterations(numIterations)
      .setRegParam(regParam)
      .setStepSize(stepSize)
      .setMiniBatchFraction(miniBatchFraction)
+    lassoAlg.optimizer.setUpdater(getUpdaterFromString(regType))


Use builder pattern.

jkbradley · 2015-03-21T00:08:16Z

Let's also add setIntercept. Also, in addition to setFeatureScaling being private, we do not need to expose optimizer.setUpdater for the 2 algorithms you listed because they have fixed updaters they should use (corresponding to the regularization they use).

SparkQA · 2015-03-23T04:08:12Z

Test build #28978 has started for PR 4997 at commit de5ecbc.

This patch merges cleanly.

SparkQA · 2015-03-23T05:54:19Z

Test build #28978 has finished for PR 4997 at commit de5ecbc.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

AmplabJenkins · 2015-03-23T05:54:23Z

Test PASSed.
Refer to this link for build results (access rights to CI server needed):
https://amplab.cs.berkeley.edu/jenkins//job/SparkPullRequestBuilder/28978/
Test PASSed.

yanboliang · 2015-03-24T14:09:05Z

mllib/src/main/scala/org/apache/spark/mllib/api/python/PythonMLLibAPI.scala

@@ -111,9 +111,11 @@ private[python] class PythonMLLibAPI extends Serializable {
      initialWeights: Vector,
      regParam: Double,
      regType: String,
-      intercept: Boolean): JList[Object] = {
+      intercept: Boolean,


Yes, "addIntercept" should be more clear and consistent.

SparkQA · 2015-03-24T14:13:16Z

Test build #29090 has started for PR 4997 at commit 1fb7b4f.

This patch merges cleanly.

SparkQA · 2015-03-24T15:34:56Z

Test build #29090 has finished for PR 4997 at commit 1fb7b4f.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

AmplabJenkins · 2015-03-24T15:35:00Z

Test PASSed.
Refer to this link for build results (access rights to CI server needed):
https://amplab.cs.berkeley.edu/jenkins//job/SparkPullRequestBuilder/29090/
Test PASSed.

jkbradley · 2015-03-25T01:09:14Z

python/pyspark/mllib/regression.py

@@ -142,7 +149,8 @@ class LinearRegressionWithSGD(object):

    @classmethod
    def train(cls, data, iterations=100, step=1.0, miniBatchFraction=1.0,
-              initialWeights=None, regParam=0.0, regType=None, intercept=False):
+              initialWeights=None, regParam=0.0, regType=None, addIntercept=False,


I'm sorry! I got confused about "intercept," thinking it was being added to this class. We should stick with the original name ("intercept") since it's a public API change otherwise.

jkbradley · 2015-03-25T04:41:17Z

@yanboliang It looks fine to me, except for the intercept issue (sorry!) and for doc tests. Could you please add doc tests for LassoWithSGD, RidgeRegressionWithSGD using setIntercept, setValidateData? Thanks!

SparkQA · 2015-03-25T08:57:43Z

Test build #29160 has started for PR 4997 at commit 102f498.

This patch merges cleanly.

SparkQA · 2015-03-25T10:22:33Z

Test build #29160 has finished for PR 4997 at commit 102f498.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

AmplabJenkins · 2015-03-25T10:22:37Z

Test PASSed.
Refer to this link for build results (access rights to CI server needed):
https://amplab.cs.berkeley.edu/jenkins//job/SparkPullRequestBuilder/29160/
Test PASSed.

jkbradley · 2015-03-25T20:38:16Z

@yanboliang LGTM merging into master
Thanks!

mengxr reviewed Mar 20, 2015
View reviewed changes

MLlib Python API parity check for regression

de5ecbc

yanboliang force-pushed the spark-6256 branch from 2dff3df to de5ecbc Compare March 23, 2015 04:04

change 'intercept' to 'addIntercept'

1fb7b4f

yanboliang reviewed Mar 24, 2015
View reviewed changes

jkbradley reviewed Mar 25, 2015
View reviewed changes

fix intercept issue & add doc test

102f498

asfgit closed this in 4353373 Mar 25, 2015

yanboliang deleted the spark-6256 branch April 24, 2015 10:03

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-6256] [MLlib] MLlib Python API parity check for regression #4997

[SPARK-6256] [MLlib] MLlib Python API parity check for regression #4997

yanboliang commented Mar 12, 2015

SparkQA commented Mar 12, 2015

SparkQA commented Mar 12, 2015

AmplabJenkins commented Mar 12, 2015

yanboliang commented Mar 20, 2015

mengxr commented Mar 20, 2015

mengxr Mar 20, 2015

jkbradley commented Mar 21, 2015

SparkQA commented Mar 23, 2015

SparkQA commented Mar 23, 2015

AmplabJenkins commented Mar 23, 2015

yanboliang Mar 24, 2015

SparkQA commented Mar 24, 2015

SparkQA commented Mar 24, 2015

AmplabJenkins commented Mar 24, 2015

jkbradley Mar 25, 2015

jkbradley commented Mar 25, 2015

SparkQA commented Mar 25, 2015

SparkQA commented Mar 25, 2015

AmplabJenkins commented Mar 25, 2015

jkbradley commented Mar 25, 2015

[SPARK-6256] [MLlib] MLlib Python API parity check for regression #4997

[SPARK-6256] [MLlib] MLlib Python API parity check for regression #4997

Conversation

yanboliang commented Mar 12, 2015

SparkQA commented Mar 12, 2015

SparkQA commented Mar 12, 2015

AmplabJenkins commented Mar 12, 2015

yanboliang commented Mar 20, 2015

mengxr commented Mar 20, 2015

mengxr Mar 20, 2015

Choose a reason for hiding this comment

jkbradley commented Mar 21, 2015

SparkQA commented Mar 23, 2015

SparkQA commented Mar 23, 2015

AmplabJenkins commented Mar 23, 2015

yanboliang Mar 24, 2015

Choose a reason for hiding this comment

SparkQA commented Mar 24, 2015

SparkQA commented Mar 24, 2015

AmplabJenkins commented Mar 24, 2015

jkbradley Mar 25, 2015

Choose a reason for hiding this comment

jkbradley commented Mar 25, 2015

SparkQA commented Mar 25, 2015

SparkQA commented Mar 25, 2015

AmplabJenkins commented Mar 25, 2015

jkbradley commented Mar 25, 2015