-
Notifications
You must be signed in to change notification settings - Fork 13
distri_026
Zhang Jc edited this page Jan 15, 2019
·
2 revisions
Spark 的数据API进化:
RDD(2011) --> DataFrame(2013) --> DataSet(2015)
Resilient Distributed Datasets (RDD)是Spark最原始支持的数据形式。
DataFrame 是一种结构化(支持SQL)数据抽象。
DataSet是最新的,是一种”compile time type-safe“的DataFrame。
Spark支持CSV、parquet等文件格式,可以从这些文件中创建DataFrame等数据形式。
本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。
Wiki: wiki.jcix.top ~聚沙成塔~ Blog: blog.jcix.top