Skip to content

Latest commit

 

History

History
146 lines (37 loc) · 3.68 KB

20151111_01.md

File metadata and controls

146 lines (37 loc) · 3.68 KB

一张图看懂MADlib能干什么

作者

digoal

日期

2015-11-11

标签

PostgreSQL , MADlib , PivotalR


背景

MADlib最初是由pivotal的一些数据科学家贡献的开源数据挖掘库,现已加入阿帕奇孵化器项目。

MADlib能干什么呢?看一张图就明白了,以下取自

http://user2014.stat.ucla.edu/files/PivotalR_user2014/userR2014_PivotalR.pdf

pic

回归分析,决策树,随机森林,贝叶斯分类,向量机,风险模型,KMEAN聚集,文本挖掘,数据校验,。。。等。

一个线性回归的例子,对应上图

supervised learning -> generalized linear models -> linear regression  

pic

如果你是R的数据科学家,并且不习惯使用SQL的话,使用pivotalR的R包就可以了,左边是R的写法。右边对应的是SQL。

pic

话说今天要预测每个时间点的11.11销售额,可以用到它了。

PostgreSQL用户来搞数据挖掘有天然优势。

pic

madlib的使用手册:

http://doc.madlib.net/latest/index.html

pivotalR使用手册

https://cran.r-project.org/web/packages/PivotalR/PivotalR.pdf

您的愿望将传达给PG kernel hacker、数据库厂商等, 帮助提高数据库产品质量和功能, 说不定下一个PG版本就有您提出的功能点. 针对非常好的提议,奖励限量版PG文化衫、纪念品、贴纸、PG热门书籍等,奖品丰富,快来许愿。开不开森.

digoal's wechat