-
Notifications
You must be signed in to change notification settings - Fork 55
06. Spark 3.1.1 使用注意事项
shujiewu edited this page Mar 30, 2023
·
8 revisions
-
直接使用Yarn-cluster模式在本地提交任务
-
通过DataWorks平台选择Spark 3.x选项。若提交任务报错,则需要提单升级独享资源组版本。
-
如果使用Yarn-cluster模式从本地提交任务,需要新增环境变量 export HADOOP_CONF_DIR=$SPARK_HOME/conf
-
如果使用Yarn-cluster模式提交Pyspark作业,需要添加以下参数使用Python3
spark.hadoop.odps.cupid.resources = public.python-3.7.9-ucs4.tar.gz
spark.pyspark.python = ./public.python-3.7.9-ucs4.tar.gz/python-3.7.9-ucs4/bin/python3
- 如果使用local模式进行调试,需要在类路径下新建odps.conf文件,并添加以下配置:
odps.project.name =
odps.access.id =
odps.access.key =
odps.end.point =
- 如果使用local模式进行调试,需要添加spark.hadoop.fs.defaultFS = file:///
val spark = SparkSession
.builder()
.config("spark.hadoop.fs.defaultFS", "file:///")
.enableHiveSupport()
.getOrCreate()
-
spark.sql.defaultCatalog
-
配置值
odps
-
配置值
-
spark.sql.catalog.odps
-
配置值
org.apache.spark.sql.execution.datasources.v2.odps.OdpsTableCatalog
-
配置值
-
spark.sql.sources.partitionOverwriteMode
-
配置值
dynamic
-
配置值
-
spark.sql.extensions
-
配置值
org.apache.spark.sql.execution.datasources.v2.odps.extension.OdpsExtensions
-
配置值
-
spark.sql.catalog.odps.enableVectorizedReader
-
默认值
true
-
配置说明
开启向量化读
-
默认值
-
spark.sql.catalog.odps.enableVectorizedWriter
-
默认值
true
-
配置说明
开启向量化写
-
默认值
-
spark.sql.catalog.odps.splitSizeInMB
-
默认值
256
-
配置说明
该配置可以用来调节读Maxcompute表的并发度,默认每个分区为256MB
-
默认值
- MaxCompute Spark概述
- 功能发布
- Spark 3.1.1
- 搭建开发环境
- Spark配置详解
- 应用开发示例
- 作业诊断
- Spark常见问题
- 阿里云服务接入
- 其他运行模式
- Github图片无法显示的问题