microsoft · andrei-ionescu · Jan 8, 2021 · Jan 8, 2021 · Jan 8, 2021 · Jan 13, 2021
diff --git a/src/main/scala/com/microsoft/hyperspace/actions/CreateAction.scala b/src/main/scala/com/microsoft/hyperspace/actions/CreateAction.scala
@@ -43,7 +43,7 @@ class CreateAction(
 
   final override def validate(): Unit = {
     // We currently only support createIndex() over HDFS file based scan nodes.
-    if (!LogicalPlanUtils.isLogicalRelation(df.queryExecution.optimizedPlan)) {
+    if (!LogicalPlanUtils.isSupportedRelation(df.queryExecution.optimizedPlan)) {
       throw HyperspaceException(
         "Only creating index over HDFS file based scan nodes is supported.")
     }

diff --git a/src/main/scala/com/microsoft/hyperspace/actions/CreateActionBase.scala b/src/main/scala/com/microsoft/hyperspace/actions/CreateActionBase.scala
@@ -18,13 +18,16 @@ package com.microsoft.hyperspace.actions
 
 import org.apache.hadoop.fs.Path
 import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
+import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan
 import org.apache.spark.sql.execution.datasources.{HadoopFsRelation, LogicalRelation}
+import org.apache.spark.sql.execution.datasources.v2.DataSourceV2Relation
 import org.apache.spark.sql.functions.input_file_name
+import org.apache.spark.sql.types.StructType
 
 import com.microsoft.hyperspace.{Hyperspace, HyperspaceException}
 import com.microsoft.hyperspace.index._
 import com.microsoft.hyperspace.index.DataFrameWriterExtensions.Bucketizer
-import com.microsoft.hyperspace.util.{HyperspaceConf, PathUtils, ResolverUtils}
+import com.microsoft.hyperspace.util.{HyperspaceConf, LogicalPlanUtils, PathUtils, ResolverUtils}
 
 /**
  * CreateActionBase provides functionality to write dataframe as covering index.
@@ -64,7 +67,7 @@ private[actions] abstract class CreateActionBase(dataManager: IndexDataManager)
     signatureProvider.signature(df.queryExecution.optimizedPlan) match {
       case Some(s) =>
         val relations = sourceRelations(spark, df)
-        // Currently we only support to create an index on a LogicalRelation.
+        // Currently, we only support to create an index on only one relation.
         assert(relations.size == 1)
 
         val sourcePlanProperties = SparkPlan.Properties(
@@ -97,8 +100,8 @@ private[actions] abstract class CreateActionBase(dataManager: IndexDataManager)
   private def hasParquetAsSourceFormatProperty(
       spark: SparkSession,
       df: DataFrame): Option[(String, String)] = {
-    val relation = df.queryExecution.optimizedPlan.asInstanceOf[LogicalRelation]
-    if (Hyperspace.getContext(spark).sourceProviderManager.hasParquetAsSourceFormat(relation)) {
+    if (Hyperspace.getContext(spark).sourceProviderManager
+        .hasParquetAsSourceFormat(df.queryExecution.optimizedPlan)) {
       Some(IndexConstants.HAS_PARQUET_AS_SOURCE_FORMAT_PROPERTY -> "true")
     } else {
       None
@@ -115,7 +118,7 @@ private[actions] abstract class CreateActionBase(dataManager: IndexDataManager)
 
   protected def sourceRelations(spark: SparkSession, df: DataFrame): Seq[Relation] =
     df.queryExecution.optimizedPlan.collect {
-      case p: LogicalRelation =>
+      case p: LogicalPlan if LogicalPlanUtils.isSupportedRelation(p) =>
         Hyperspace.getContext(spark).sourceProviderManager.createRelation(p, fileIdTracker)
     }
 
@@ -190,9 +193,8 @@ private[actions] abstract class CreateActionBase(dataManager: IndexDataManager)
       //    + file:/C:/hyperspace/src/test/part-00003.snappy.parquet
       import spark.implicits._
       val dataPathColumn = "_data_path"
-      val relation = df.queryExecution.optimizedPlan.asInstanceOf[LogicalRelation]
-      val lineagePairs =
-        Hyperspace.getContext(spark).sourceProviderManager.lineagePairs(relation, fileIdTracker)
+      val lineagePairs = Hyperspace.getContext(spark).sourceProviderManager
+          .lineagePairs(df.queryExecution.optimizedPlan, fileIdTracker)
       val lineageDF = lineagePairs.toDF(dataPathColumn, IndexConstants.DATA_FILE_NAME_ID)
 
       df.withColumn(dataPathColumn, input_file_name())
@@ -211,6 +213,7 @@ private[actions] abstract class CreateActionBase(dataManager: IndexDataManager)
     // Extract partition keys, if original data is partitioned.
     val partitionSchemas = df.queryExecution.optimizedPlan.collect {
       case LogicalRelation(HadoopFsRelation(_, pSchema, _, _, _, _), _, _, _) => pSchema
+      case DataSourceV2Relation(_, _, _, _, uSchema) => uSchema.getOrElse(StructType(Nil))
     }
 
     // Currently we only support creating an index on a single LogicalRelation.

diff --git a/src/main/scala/com/microsoft/hyperspace/index/FileBasedSignatureProvider.scala b/src/main/scala/com/microsoft/hyperspace/index/FileBasedSignatureProvider.scala
@@ -18,6 +18,7 @@ package com.microsoft.hyperspace.index
 
 import org.apache.spark.sql.catalyst.plans.logical.LogicalPlan
 import org.apache.spark.sql.execution.datasources.LogicalRelation
+import org.apache.spark.sql.execution.datasources.v2.DataSourceV2Relation
 
 import com.microsoft.hyperspace.Hyperspace
 import com.microsoft.hyperspace.util.HashingUtils
@@ -49,7 +50,7 @@ class FileBasedSignatureProvider extends LogicalPlanSignatureProvider {
   private def fingerprintVisitor(logicalPlan: LogicalPlan): Option[String] = {
     var fingerprint = ""
     logicalPlan.foreachUp {
-      case p: LogicalRelation =>
+      case p @ (_: LogicalRelation | _: DataSourceV2Relation) =>
         fingerprint ++= Hyperspace.getContext.sourceProviderManager.signature(p)
       case _ =>
     }

diff --git a/src/main/scala/com/microsoft/hyperspace/index/rules/FilterIndexRule.scala b/src/main/scala/com/microsoft/hyperspace/index/rules/FilterIndexRule.scala
@@ -21,14 +21,13 @@ import org.apache.spark.sql.catalyst.analysis.CleanupAliases
 import org.apache.spark.sql.catalyst.expressions.{AttributeReference, Expression}
 import org.apache.spark.sql.catalyst.plans.logical.{Filter, LogicalPlan, Project}
 import org.apache.spark.sql.catalyst.rules.Rule
-import org.apache.spark.sql.execution.datasources._
 
 import com.microsoft.hyperspace.{ActiveSparkSession, Hyperspace}
 import com.microsoft.hyperspace.actions.Constants
 import com.microsoft.hyperspace.index.IndexLogEntry
 import com.microsoft.hyperspace.index.rankers.FilterIndexRanker
 import com.microsoft.hyperspace.telemetry.{AppInfo, HyperspaceEventLogging, HyperspaceIndexUsageEvent}
-import com.microsoft.hyperspace.util.{HyperspaceConf, ResolverUtils}
+import com.microsoft.hyperspace.util.{HyperspaceConf, LogicalPlanUtils, ResolverUtils}
 
 /**
  * FilterIndex rule looks for opportunities in a logical plan to replace
@@ -50,7 +49,7 @@ object FilterIndexRule
     //  1. The index covers all columns from the filter predicate and output columns list, and
     //  2. Filter predicate's columns include the first 'indexed' column of the index.
     plan transformDown {
-      case ExtractFilterNode(originalPlan, filter, outputColumns, filterColumns, _, _) =>
+      case ExtractFilterNode(originalPlan, filter, outputColumns, filterColumns) =>
         try {
           val candidateIndexes =
             findCoveringIndexes(filter, outputColumns, filterColumns)
@@ -136,7 +135,6 @@ object FilterIndexRule
    * @param filterColumns List of columns in filter predicate.
    * @param indexedColumns List of indexed columns (e.g. from an index being checked)
    * @param includedColumns List of included columns (e.g. from an index being checked)
-   * @param fileFormat FileFormat for input relation in original logical plan.
    * @return 'true' if
    *         1. Index fully covers output and filter columns, and
    *         2. Filter predicate contains first column in index's 'indexed' columns.
@@ -160,34 +158,34 @@ object ExtractFilterNode {
       LogicalPlan, // original plan
       Filter,
       Seq[String], // output columns
-      Seq[String], // filter columns
-      LogicalRelation,
-      HadoopFsRelation)
+      Seq[String]) // filter columns
 
   def unapply(plan: LogicalPlan): Option[returnType] = plan match {
     case project @ Project(
           _,
           filter @ Filter(
             condition: Expression,
-            logicalRelation @ LogicalRelation(fsRelation: HadoopFsRelation, _, _, _)))
-        if !RuleUtils.isIndexApplied(fsRelation) =>
+            p: LogicalPlan))
+        if LogicalPlanUtils.isSupportedRelation(p) &&
+            !RuleUtils.isIndexApplied(p) =>
       val projectColumnNames = CleanupAliases(project)
         .asInstanceOf[Project]
         .projectList
         .map(_.references.map(_.asInstanceOf[AttributeReference].name))
         .flatMap(_.toSeq)
       val filterColumnNames = condition.references.map(_.name).toSeq
 
-      Some(project, filter, projectColumnNames, filterColumnNames, logicalRelation, fsRelation)
+      Some(project, filter, projectColumnNames, filterColumnNames)
 
     case filter @ Filter(
           condition: Expression,
-          logicalRelation @ LogicalRelation(fsRelation: HadoopFsRelation, _, _, _))
-        if !RuleUtils.isIndexApplied(fsRelation) =>
-      val relationColumnsName = logicalRelation.output.map(_.name)
+          p: LogicalPlan)
+        if LogicalPlanUtils.isSupportedRelation(p) &&
+            !RuleUtils.isIndexApplied(p) =>
+      val relationColumnsName = p.output.map(_.name)
       val filterColumnNames = condition.references.map(_.name).toSeq
 
-      Some(filter, filter, relationColumnsName, filterColumnNames, logicalRelation, fsRelation)
+      Some(filter, filter, relationColumnsName, filterColumnNames)
 
     case _ => None // plan does not match with any of filter index rule patterns
   }

diff --git a/src/main/scala/com/microsoft/hyperspace/index/rules/JoinIndexRule.scala b/src/main/scala/com/microsoft/hyperspace/index/rules/JoinIndexRule.scala
@@ -21,16 +21,18 @@ import scala.util.Try
 
 import org.apache.spark.internal.Logging
 import org.apache.spark.sql.catalyst.analysis.CleanupAliases
-import org.apache.spark.sql.catalyst.expressions.{Alias, And, Attribute, AttributeReference, AttributeSet, EqualTo, Expression}
-import org.apache.spark.sql.catalyst.plans.logical.{Join, LogicalPlan, Project}
+import org.apache.spark.sql.catalyst.expressions.{And, Attribute, AttributeReference, EqualTo, Expression}
+import org.apache.spark.sql.catalyst.plans.logical.{Join, LogicalPlan}
 import org.apache.spark.sql.catalyst.rules.Rule
-import org.apache.spark.sql.execution.datasources.{HadoopFsRelation, LogicalRelation}
+import org.apache.spark.sql.execution.datasources.LogicalRelation
+import org.apache.spark.sql.execution.datasources.v2.DataSourceV2Relation
 
 import com.microsoft.hyperspace.{ActiveSparkSession, Hyperspace}
 import com.microsoft.hyperspace.actions.Constants
 import com.microsoft.hyperspace.index._
 import com.microsoft.hyperspace.index.rankers.JoinIndexRanker
 import com.microsoft.hyperspace.telemetry.{AppInfo, HyperspaceEventLogging, HyperspaceIndexUsageEvent}
+import com.microsoft.hyperspace.util.LogicalPlanUtils
 import com.microsoft.hyperspace.util.ResolverUtils._
 
 /**
@@ -166,8 +168,8 @@ object JoinIndexRule
    */
   private def isPlanModified(plan: LogicalPlan): Boolean = {
     plan.find {
-      case LogicalRelation(fsRelation: HadoopFsRelation, _, _, _) =>
-        RuleUtils.isIndexApplied(fsRelation)
+      case p: LogicalRelation =>
+        RuleUtils.isIndexApplied(p)
       case _ => false
     }.isDefined
   }
@@ -338,7 +340,9 @@ object JoinIndexRule
   }
 
   private def relationOutputs(l: LogicalPlan): Seq[Attribute] = {
-    l.collectLeaves().filter(_.isInstanceOf[LogicalRelation]).flatMap(_.output)
+    l.collectLeaves()
+        .filter(LogicalPlanUtils.isSupportedRelation)
+        .flatMap(_.output)
   }
 
   /**
@@ -379,7 +383,7 @@ object JoinIndexRule
   private def allRequiredCols(plan: LogicalPlan): Seq[String] = {
     val cleaned = CleanupAliases(plan)
     val allReferences = cleaned.collect {
-      case _: LogicalRelation => Seq()
+      case _ @ (_: LogicalRelation | _: DataSourceV2Relation) => Seq()
       case p => p.references
     }.flatten
     val topLevelOutputs = cleaned.outputSet.toSeq