arangodb
diff --git a/‎.github/workflows/test.yml‎
Lines changed: 19 additions & 0 deletions b/‎.github/workflows/test.yml‎
Lines changed: 19 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/pom.xml‎
Lines changed: 79 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/pom.xml‎
Lines changed: 79 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.arangodb.commons.mapping.ArangoGeneratorProvider‎
Lines changed: 1 addition & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.arangodb.commons.mapping.ArangoGeneratorProvider‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.arangodb.commons.mapping.ArangoParserProvider‎
Lines changed: 1 addition & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.arangodb.commons.mapping.ArangoParserProvider‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.sources.DataSourceRegister‎
Lines changed: 1 addition & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/resources/META-INF/services/org.apache.spark.sql.sources.DataSourceRegister‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/scala/com/arangodb/spark/DefaultSource.scala‎
Lines changed: 40 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/scala/com/arangodb/spark/DefaultSource.scala‎
Lines changed: 40 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/ArangoTable.scala‎
Lines changed: 37 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/ArangoTable.scala‎
Lines changed: 37 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/ArangoGeneratorImpl.scala‎
Lines changed: 46 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/ArangoGeneratorImpl.scala‎
Lines changed: 46 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/ArangoParserImpl.scala‎
Lines changed: 47 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/ArangoParserImpl.scala‎
Lines changed: 47 additions & 0 deletions
diff --git a/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/json/CreateJacksonParser.scala‎
Lines changed: 95 additions & 0 deletions b/‎arangodb-spark-datasource-3.3/src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/json/CreateJacksonParser.scala‎
Lines changed: 95 additions & 0 deletions
@@ -282,6 +282,25 @@ jobs:
           - spark-version: 3.2
             scala-version: 2.13
             spark-full-version: 3.2.4
+          - spark-version: 3.3
+            scala-version: 2.12
+            spark-full-version: 3.3.0
+          - spark-version: 3.3
+            scala-version: 2.13
+            spark-full-version: 3.3.0
+          - spark-version: 3.3
+            scala-version: 2.12
+            spark-full-version: 3.3.1
+          - spark-version: 3.3
+            scala-version: 2.13
+            spark-full-version: 3.3.1
+          - spark-version: 3.3
+            scala-version: 2.12
+            spark-full-version: 3.3.2
+          - spark-version: 3.3
+            scala-version: 2.13
+            spark-full-version: 3.3.2
+
     steps:
       - uses: actions/checkout@v2
       - uses: actions/setup-java@v2
 
@@ -0,0 +1,79 @@
+<?xml version="1.0" encoding="UTF-8"?>
+<project xmlns="http://maven.apache.org/POM/4.0.0"
+         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
+         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
+    <parent>
+        <artifactId>arangodb-spark-datasource</artifactId>
+        <groupId>com.arangodb</groupId>
+        <version>1.4.3</version>
+    </parent>
+    <modelVersion>4.0.0</modelVersion>
+
+    <artifactId>arangodb-spark-datasource-3.3_${scala.compat.version}</artifactId>
+
+    <name>arangodb-spark-datasource-3.3</name>
+    <description>ArangoDB Datasource for Apache Spark 3.3</description>
+    <url>https://github.com/arangodb/arangodb-spark-datasource</url>
+
+    <developers>
+        <developer>
+            <name>Michele Rastelli</name>
+            <url>https://github.com/rashtao</url>
+        </developer>
+    </developers>
+
+    <scm>
+        <url>https://github.com/arangodb/arangodb-spark-datasource</url>
+    </scm>
+
+    <properties>
+        <maven.deploy.skip>false</maven.deploy.skip>
+        <sonar.coverage.jacoco.xmlReportPaths>../integration-tests/target/site/jacoco-aggregate/jacoco.xml</sonar.coverage.jacoco.xmlReportPaths>
+        <sonar.coverage.exclusions>src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/json/*</sonar.coverage.exclusions>
+        <sonar.exclusions>src/main/scala/org/apache/spark/sql/arangodb/datasource/mapping/json/*</sonar.exclusions>
+        <scalastyle.skip>false</scalastyle.skip>
+    </properties>
+
+    <dependencies>
+        <dependency>
+            <groupId>com.arangodb</groupId>
+            <artifactId>arangodb-spark-commons-${spark.compat.version}_${scala.compat.version}</artifactId>
+            <version>${project.version}</version>
+        </dependency>
+        <dependency>
+            <groupId>org.apache.httpcomponents</groupId>
+            <artifactId>httpclient</artifactId>
+            <version>4.5.13</version>
+        </dependency>
+    </dependencies>
+
+    <build>
+        <plugins>
+            <plugin>
+                <artifactId>maven-assembly-plugin</artifactId>
+                <configuration>
+                    <descriptorRefs>
+                        <descriptorRef>jar-with-dependencies</descriptorRef>
+                    </descriptorRefs>
+                </configuration>
+                <executions>
+                    <execution>
+                        <phase>package</phase>
+                        <goals>
+                            <goal>single</goal>
+                        </goals>
+                    </execution>
+                </executions>
+            </plugin>
+            <plugin>
+                <groupId>org.sonatype.plugins</groupId>
+                <artifactId>nexus-staging-maven-plugin</artifactId>
+                <extensions>true</extensions>
+                <configuration>
+                    <skipNexusStagingDeployMojo>false</skipNexusStagingDeployMojo>
+                </configuration>
+            </plugin>
+        </plugins>
+    </build>
+
+</project>
@@ -0,0 +1 @@
+org.apache.spark.sql.arangodb.datasource.mapping.ArangoGeneratorProviderImpl
@@ -0,0 +1 @@
+org.apache.spark.sql.arangodb.datasource.mapping.ArangoParserProviderImpl
@@ -0,0 +1 @@
+com.arangodb.spark.DefaultSource
@@ -0,0 +1,40 @@
+package com.arangodb.spark
+
+import org.apache.spark.sql.arangodb.commons.{ArangoClient, ArangoDBConf}
+import org.apache.spark.sql.arangodb.datasource.ArangoTable
+import org.apache.spark.sql.connector.catalog.{Table, TableProvider}
+import org.apache.spark.sql.connector.expressions.Transform
+import org.apache.spark.sql.sources.DataSourceRegister
+import org.apache.spark.sql.types.StructType
+import org.apache.spark.sql.util.CaseInsensitiveStringMap
+
+import java.util
+
+class DefaultSource extends TableProvider with DataSourceRegister {
+
+  private def extractOptions(options: util.Map[String, String]): ArangoDBConf = {
+    val opts: ArangoDBConf = ArangoDBConf(options)
+    if (opts.driverOptions.acquireHostList) {
+      val hosts = ArangoClient.acquireHostList(opts)
+      opts.updated(ArangoDBConf.ENDPOINTS, hosts.mkString(","))
+    } else {
+      opts
+    }
+  }
+
+  override def inferSchema(options: CaseInsensitiveStringMap): StructType = getTable(options).schema()
+
+  private def getTable(options: CaseInsensitiveStringMap): Table =
+    getTable(None, options.asCaseSensitiveMap()) // scalastyle:ignore null
+
+  override def getTable(schema: StructType, partitioning: Array[Transform], properties: util.Map[String, String]): Table =
+    getTable(Option(schema), properties)
+
+  override def supportsExternalMetadata(): Boolean = true
+
+  override def shortName(): String = "arangodb"
+
+  private def getTable(schema: Option[StructType], properties: util.Map[String, String]) =
+    new ArangoTable(schema, extractOptions(properties))
+
+}
@@ -0,0 +1,37 @@
+package org.apache.spark.sql.arangodb.datasource
+
+import org.apache.spark.sql.arangodb.commons.{ArangoDBConf, ArangoUtils}
+import org.apache.spark.sql.arangodb.datasource.reader.ArangoScanBuilder
+import org.apache.spark.sql.arangodb.datasource.writer.ArangoWriterBuilder
+import org.apache.spark.sql.connector.catalog.{SupportsRead, SupportsWrite, Table, TableCapability}
+import org.apache.spark.sql.connector.read.ScanBuilder
+import org.apache.spark.sql.connector.write.{LogicalWriteInfo, WriteBuilder}
+import org.apache.spark.sql.types.StructType
+import org.apache.spark.sql.util.CaseInsensitiveStringMap
+
+import java.util
+import scala.collection.JavaConverters.setAsJavaSetConverter
+
+class ArangoTable(private var schemaOpt: Option[StructType], options: ArangoDBConf) extends Table with SupportsRead with SupportsWrite {
+  private lazy val tableSchema = schemaOpt.getOrElse(ArangoUtils.inferSchema(options))
+
+  override def name(): String = this.getClass.toString
+
+  override def schema(): StructType = tableSchema
+
+  override def capabilities(): util.Set[TableCapability] = Set(
+    TableCapability.BATCH_READ,
+    TableCapability.BATCH_WRITE,
+    //    TableCapability.STREAMING_WRITE,
+    TableCapability.ACCEPT_ANY_SCHEMA,
+    TableCapability.TRUNCATE
+    //    TableCapability.OVERWRITE_BY_FILTER,
+    //    TableCapability.OVERWRITE_DYNAMIC,
+  ).asJava
+
+  override def newScanBuilder(scanOptions: CaseInsensitiveStringMap): ScanBuilder =
+    new ArangoScanBuilder(options.updated(ArangoDBConf(scanOptions)), schema())
+
+  override def newWriteBuilder(info: LogicalWriteInfo): WriteBuilder =
+    new ArangoWriterBuilder(info.schema(), options.updated(ArangoDBConf(info.options())))
+}
@@ -0,0 +1,46 @@
+package org.apache.spark.sql.arangodb.datasource.mapping
+
+import com.arangodb.jackson.dataformat.velocypack.VPackFactoryBuilder
+import com.fasterxml.jackson.core.JsonFactoryBuilder
+import org.apache.spark.sql.arangodb.commons.{ArangoDBConf, ContentType}
+import org.apache.spark.sql.arangodb.commons.mapping.{ArangoGenerator, ArangoGeneratorProvider}
+import org.apache.spark.sql.arangodb.datasource.mapping.json.{JSONOptions, JacksonGenerator}
+import org.apache.spark.sql.types.{DataType, StructType}
+
+import java.io.OutputStream
+
+abstract sealed class ArangoGeneratorImpl(
+                                           schema: DataType,
+                                           writer: OutputStream,
+                                           options: JSONOptions)
+  extends JacksonGenerator(
+    schema,
+    options.buildJsonFactory().createGenerator(writer),
+    options) with ArangoGenerator
+
+class ArangoGeneratorProviderImpl extends ArangoGeneratorProvider {
+  override def of(
+                   contentType: ContentType,
+                   schema: StructType,
+                   outputStream: OutputStream,
+                   conf: ArangoDBConf
+                 ): ArangoGeneratorImpl = contentType match {
+    case ContentType.JSON => new JsonArangoGenerator(schema, outputStream, conf)
+    case ContentType.VPACK => new VPackArangoGenerator(schema, outputStream, conf)
+    case _ => throw new IllegalArgumentException
+  }
+}
+
+class JsonArangoGenerator(schema: StructType, outputStream: OutputStream, conf: ArangoDBConf)
+  extends ArangoGeneratorImpl(
+    schema,
+    outputStream,
+    createOptions(new JsonFactoryBuilder().build(), conf)
+  )
+
+class VPackArangoGenerator(schema: StructType, outputStream: OutputStream, conf: ArangoDBConf)
+  extends ArangoGeneratorImpl(
+    schema,
+    outputStream,
+    createOptions(new VPackFactoryBuilder().build(), conf)
+  )
@@ -0,0 +1,47 @@
+package org.apache.spark.sql.arangodb.datasource.mapping
+
+import com.arangodb.jackson.dataformat.velocypack.VPackFactoryBuilder
+import com.fasterxml.jackson.core.json.JsonReadFeature
+import com.fasterxml.jackson.core.{JsonFactory, JsonFactoryBuilder}
+import org.apache.spark.sql.arangodb.commons.{ArangoDBConf, ContentType}
+import org.apache.spark.sql.arangodb.commons.mapping.{ArangoParser, ArangoParserProvider, MappingUtils}
+import org.apache.spark.sql.arangodb.datasource.mapping.json.{JSONOptions, JacksonParser}
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.sql.types.DataType
+import org.apache.spark.unsafe.types.UTF8String
+
+abstract sealed class ArangoParserImpl(
+                                        schema: DataType,
+                                        options: JSONOptions,
+                                        recordLiteral: Array[Byte] => UTF8String)
+  extends JacksonParser(schema, options) with ArangoParser {
+  override def parse(data: Array[Byte]): Iterable[InternalRow] = super.parse(
+    data,
+    (jsonFactory: JsonFactory, record: Array[Byte]) => jsonFactory.createParser(record),
+    recordLiteral
+  )
+}
+
+class ArangoParserProviderImpl extends ArangoParserProvider {
+  override def of(contentType: ContentType, schema: DataType, conf: ArangoDBConf): ArangoParserImpl = contentType match {
+    case ContentType.JSON => new JsonArangoParser(schema, conf)
+    case ContentType.VPACK => new VPackArangoParser(schema, conf)
+    case _ => throw new IllegalArgumentException
+  }
+}
+
+class JsonArangoParser(schema: DataType, conf: ArangoDBConf)
+  extends ArangoParserImpl(
+    schema,
+    createOptions(new JsonFactoryBuilder()
+      .configure(JsonReadFeature.ALLOW_UNESCAPED_CONTROL_CHARS, true)
+      .build(), conf),
+    (bytes: Array[Byte]) => UTF8String.fromBytes(bytes)
+  )
+
+class VPackArangoParser(schema: DataType, conf: ArangoDBConf)
+  extends ArangoParserImpl(
+    schema,
+    createOptions(new VPackFactoryBuilder().build(), conf),
+    (bytes: Array[Byte]) => UTF8String.fromString(MappingUtils.vpackToJson(bytes))
+  )
@@ -0,0 +1,95 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one or more
+ * contributor license agreements.  See the NOTICE file distributed with
+ * this work for additional information regarding copyright ownership.
+ * The ASF licenses this file to You under the Apache License, Version 2.0
+ * (the "License"); you may not use this file except in compliance with
+ * the License.  You may obtain a copy of the License at
+ *
+ *    http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+// scalastyle:off
+
+package org.apache.spark.sql.arangodb.datasource.mapping.json
+
+import com.fasterxml.jackson.core.{JsonFactory, JsonParser}
+import org.apache.hadoop.io.Text
+import org.apache.spark.sql.catalyst.InternalRow
+import org.apache.spark.unsafe.types.UTF8String
+import sun.nio.cs.StreamDecoder
+
+import java.io.{ByteArrayInputStream, InputStream, InputStreamReader}
+import java.nio.channels.Channels
+import java.nio.charset.{Charset, StandardCharsets}
+
+private[sql] object CreateJacksonParser extends Serializable {
+  def string(jsonFactory: JsonFactory, record: String): JsonParser = {
+    jsonFactory.createParser(record)
+  }
+
+  def utf8String(jsonFactory: JsonFactory, record: UTF8String): JsonParser = {
+    val bb = record.getByteBuffer
+    assert(bb.hasArray)
+
+    val bain = new ByteArrayInputStream(
+      bb.array(), bb.arrayOffset() + bb.position(), bb.remaining())
+
+    jsonFactory.createParser(new InputStreamReader(bain, StandardCharsets.UTF_8))
+  }
+
+  def text(jsonFactory: JsonFactory, record: Text): JsonParser = {
+    jsonFactory.createParser(record.getBytes, 0, record.getLength)
+  }
+
+  // Jackson parsers can be ranked according to their performance:
+  // 1. Array based with actual encoding UTF-8 in the array. This is the fastest parser
+  //    but it doesn't allow to set encoding explicitly. Actual encoding is detected automatically
+  //    by checking leading bytes of the array.
+  // 2. InputStream based with actual encoding UTF-8 in the stream. Encoding is detected
+  //    automatically by analyzing first bytes of the input stream.
+  // 3. Reader based parser. This is the slowest parser used here but it allows to create
+  //    a reader with specific encoding.
+  // The method creates a reader for an array with given encoding and sets size of internal
+  // decoding buffer according to size of input array.
+  private def getStreamDecoder(enc: String, in: Array[Byte], length: Int): StreamDecoder = {
+    val bais = new ByteArrayInputStream(in, 0, length)
+    val byteChannel = Channels.newChannel(bais)
+    val decodingBufferSize = Math.min(length, 8192)
+    val decoder = Charset.forName(enc).newDecoder()
+
+    StreamDecoder.forDecoder(byteChannel, decoder, decodingBufferSize)
+  }
+
+  def text(enc: String, jsonFactory: JsonFactory, record: Text): JsonParser = {
+    val sd = getStreamDecoder(enc, record.getBytes, record.getLength)
+    jsonFactory.createParser(sd)
+  }
+
+  def inputStream(jsonFactory: JsonFactory, is: InputStream): JsonParser = {
+    jsonFactory.createParser(is)
+  }
+
+  def inputStream(enc: String, jsonFactory: JsonFactory, is: InputStream): JsonParser = {
+    jsonFactory.createParser(new InputStreamReader(is, enc))
+  }
+
+  def internalRow(jsonFactory: JsonFactory, row: InternalRow): JsonParser = {
+    val ba = row.getBinary(0)
+
+    jsonFactory.createParser(ba, 0, ba.length)
+  }
+
+  def internalRow(enc: String, jsonFactory: JsonFactory, row: InternalRow): JsonParser = {
+    val binary = row.getBinary(0)
+    val sd = getStreamDecoder(enc, binary, binary.length)
+
+    jsonFactory.createParser(sd)
+  }
+}
Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+org.apache.spark.sql.arangodb.datasource.mapping.ArangoGeneratorProviderImpl`