KYLIN-4035 Calculate column cardinality by using spark engine #680

majic31 · 2019-06-10T03:03:43Z

link to https://issues.apache.org/jira/browse/KYLIN-4035
Support calculating column cardinality by using spark engine

asfgit · 2019-06-10T03:03:45Z

Can one of the admins verify this patch?

asfgit · 2019-06-10T03:03:45Z

Can one of the admins verify this patch?

codecov-io · 2019-06-10T03:31:15Z

Codecov Report

❗ No coverage uploaded for pull request base (master@5f5895d). Click here to learn what that means.
The diff coverage is 0%.

@@           Coverage Diff            @@
##             master    #680   +/-   ##
========================================
  Coverage          ?   25.7%           
  Complexity        ?    6011           
========================================
  Files             ?    1386           
  Lines             ?   82510           
  Branches          ?   11568           
========================================
  Hits              ?   21207           
  Misses            ?   59258           
  Partials          ?    2045

Impacted Files	Coverage Δ	Complexity Δ
...org/apache/kylin/engine/spark/SparkExecutable.java	`0% <0%> (ø)`	`0 <0> (?)`
.../java/org/apache/kylin/common/KylinConfigBase.java	`12.92% <0%> (ø)`	`42 <0> (?)`
...va/org/apache/kylin/rest/service/TableService.java	`13.95% <0%> (ø)`	`9 <0> (?)`
...che/kylin/engine/spark/SparkColumnCardinality.java	`0% <0%> (ø)`	`0 <0> (?)`

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 5f5895d...2148fec. Read the comment docs.

hit-lacus · 2019-06-16T07:36:16Z

engine-spark/src/main/java/org/apache/kylin/engine/spark/SparkColumnCardinality.java

+                    })
+                    .sortByKey(true, 1);
+
+            if (resultRdd.count() == 0) {


Both count and saveAsNewAPIHadoopFile are action of RDD, I think here resultRdd should be cached to avoid recompute, am I right?

Yes, It's a good point. I forgot to cache it.
I will add cache, Thank you !

hit-lacus · 2019-06-16T10:38:17Z

In my hadoop cluster(JDK8, hadoop2.6-cdh5.6 with spark-2.3.3-hadoop2.6), I have verfied this patch pass happy path with correct result.

By MR

By Spark

Yarn Successful Jobs

hit-lacus · 2019-06-16T11:49:10Z

core-common/src/main/java/org/apache/kylin/common/KylinConfigBase.java

@@ -1430,6 +1430,10 @@ public boolean isSparkFactDistinctEnable() {
        return Boolean.parseBoolean(getOptional("kylin.engine.spark-fact-distinct", "false"));
    }

+    public boolean isSparkCardinalityEnabled(){
+        return Boolean.parseBoolean(getOptional("kylin.engin.spark-cardinality", "false"));


"engin" should be "engine"

coveralls · 2019-06-17T11:02:01Z

Pull Request Test Coverage Report for Build 4615

0 of 98 (0.0%) changed or added relevant lines in 4 files are covered.
155 unchanged lines in 8 files lost coverage.
Overall coverage decreased (-0.04%) to 28.193%

Changes Missing Coverage	Changed/Added Lines	%
core-common/src/main/java/org/apache/kylin/common/KylinConfigBase.java	1	0.0%
engine-spark/src/main/java/org/apache/kylin/engine/spark/SparkExecutable.java	14	0.0%
server-base/src/main/java/org/apache/kylin/rest/service/TableService.java	14	0.0%
engine-spark/src/main/java/org/apache/kylin/engine/spark/SparkColumnCardinality.java	69	0.0%

Files with Coverage Reduction	New Missed Lines	%
core-job/src/main/java/org/apache/kylin/job/impl/curator/CuratorScheduler.java	1	68.64%
core-dictionary/src/main/java/org/apache/kylin/dict/lookup/cache/RocksDBLookupTable.java	1	81.08%
core-cube/src/main/java/org/apache/kylin/cube/cuboid/TreeCuboidScheduler.java	2	68.46%
core-job/src/main/java/org/apache/kylin/job/impl/threadpool/DefaultScheduler.java	2	80.23%
source-kafka/src/main/java/org/apache/kylin/source/kafka/util/KafkaClient.java	26	0.0%
engine-mr/src/main/java/org/apache/kylin/engine/mr/steps/UHCDictionaryJob.java	29	0.0%
query/src/main/java/org/apache/kylin/query/adhoc/PushDownRunnerJdbcImpl.java	46	0.0%
core-job/src/main/java/org/apache/kylin/job/lock/zookeeper/ZookeeperDistributedLock.java	48	0.0%

Totals
Change from base Build 4593:	-0.04%
Covered Lines:	23254
Relevant Lines:	82481

💛 - Coveralls

nichunen

Fine to me

hit-lacus reviewed Jun 16, 2019

View reviewed changes

majic31 force-pushed the master branch from 0cc12ff to 0b16c39 Compare June 17, 2019 11:15

KYLIN-4035 Calculate column cardinality by using spark engine

2148fec

majic31 force-pushed the master branch from 0b16c39 to 2148fec Compare June 19, 2019 16:09

nichunen approved these changes Jun 24, 2019

View reviewed changes

nichunen merged commit 760aefd into apache:master Jun 24, 2019

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

KYLIN-4035 Calculate column cardinality by using spark engine #680

KYLIN-4035 Calculate column cardinality by using spark engine #680

majic31 commented Jun 10, 2019

asfgit commented Jun 10, 2019

asfgit commented Jun 10, 2019

codecov-io commented Jun 10, 2019 •

edited

hit-lacus Jun 16, 2019 •

edited

majic31 Jun 17, 2019

hit-lacus commented Jun 16, 2019

hit-lacus Jun 16, 2019

coveralls commented Jun 17, 2019

nichunen left a comment

KYLIN-4035 Calculate column cardinality by using spark engine #680

KYLIN-4035 Calculate column cardinality by using spark engine #680

Conversation

majic31 commented Jun 10, 2019

asfgit commented Jun 10, 2019

asfgit commented Jun 10, 2019

codecov-io commented Jun 10, 2019 • edited

Codecov Report

hit-lacus Jun 16, 2019 • edited

Choose a reason for hiding this comment

majic31 Jun 17, 2019

Choose a reason for hiding this comment

hit-lacus commented Jun 16, 2019

By MR

By Spark

Yarn Successful Jobs

hit-lacus Jun 16, 2019

Choose a reason for hiding this comment

coveralls commented Jun 17, 2019

Pull Request Test Coverage Report for Build 4615

💛 - Coveralls

nichunen left a comment

Choose a reason for hiding this comment

codecov-io commented Jun 10, 2019 •

edited

hit-lacus Jun 16, 2019 •

edited