Skip to content

SparkStreaming消费Kafka消息队列数据,实时写入Kudu列存数据库。

Notifications You must be signed in to change notification settings

readme2gh/KafkaToSparkToKudu

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

KafkaToSparkToKudu

#实时流数据同步

SparkStreaming消费Kafka消息队列数据,实时写入Kudu列存数据库。

#调用方式

根据Kafka offset存储方式的不同,调用方式也不同。

##Kafka offset 存储方式有以下三种:

###1.ZooKeeper存储

zkCli.sh -server bigdata04:2181,bigdata05:2181,bigdata06:2181,bigdata07:2181,bigdata08:2181 ls /oggoffset get /oggoffset/0

####使用zk存储和读取采用以下方式调用:

spark-submit
--master local[*]
--class ConsumerMain
/home/ConsumerMain.jar zk

###2.本地文件存储

存储位置在 ./files/offset.log

####调用方式:

spark-submit
--master local[*]
--class ConsumerMain
/home/ConsumerMain.jar local

###3.新版本Kafka(0.10及以上)自身存储

自身存储不需要专门编写读取Kafka offset的方法

####调用方式(不带参数): spark-submit
--master local[*]
--class ConsumerMain
--conf spark.streaming.stopGracefullyOnShutdown=true --conf spark.streaming.backpressure.enabled=true --conf spark.streaming.backpressure.initialRate=5000 --conf spark.streaming.kafka.maxRatePerPartition=2000 /home/ConsumerMain.jar

#后续提升

###仅供参考

现阶段只是模板,暂未实现正常的参数调用和配置实例化。 --files /home/kafka.keystore,/home/kafka.truststore Kafka SSL认证

About

SparkStreaming消费Kafka消息队列数据,实时写入Kudu列存数据库。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Scala 100.0%