Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

统计月读(2019 年 4 月) #826

Open
yufree opened this Issue Feb 25, 2019 · 12 comments

Comments

Projects
None yet
5 participants
@yufree
Copy link
Collaborator

yufree commented Feb 25, 2019

请回复 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

文章推荐格式如下:

推荐语:(几句话就可以,可长可短,有态度不严肃)

推荐人:(建议用真名)

链接:(论文建议给doi,其余给链接)

招聘信息格式如下:

岗位介绍:(例如博士生、博后、xx公司软件工程师等)

工作地点:(具体到城市)

联系方式:(网站链接或邮箱)

@Perfectizer

This comment has been minimized.

Copy link
Collaborator

Perfectizer commented Feb 27, 2019

推荐语:PAC学习理论是统计机器学习中最最重要的基础理论之一,它解答了机器学习机制、可学习性等一系列问题,衍生出了计算学习理论这一机器学习的子领域。这篇文章对PAC理论中的概念进行了较为详细的梳理,并加入了作者自己的理解,挺适合统计机器学习初学者一窥门径。

推荐人:林枫

链接:https://jeremykun.com/2014/01/02/probably-approximately-correct-a-formal-theory-of-learning/

@Perfectizer

This comment has been minimized.

Copy link
Collaborator

Perfectizer commented Mar 1, 2019

推荐语:一篇关于频率方法和贝叶斯方法的挺有意思的小文章,文章的核心观点是“不要在意方法流派,关键是看哪种方法解决问题”。围绕这个观点,文章给出了一个药物控制相关的对比案例,并分析了什么样的问题适用于频率方法,什么样的问题适用于贝叶斯方法,并附上了相应的R代码。是一篇值得探讨的文章。

推荐人:林枫

链接:http://www.win-vector.com/blog/2013/05/bayesian-and-frequentist-approaches-ask-the-right-question/

@dddd1007

This comment has been minimized.

Copy link

dddd1007 commented Mar 4, 2019

推荐语:在科学界刮起了 Open Science 的风潮下,如何使得发表的论文的数据分析过程变得易于可重复是诸多研究者和出版方所探讨的问题。生命科学界的 eLife 杂志刚刚做出了他们新的发表规范——可重复文档(Reproducible Document)。在这种规范下,研究者可以借助 eLife 提供的一系列工具,在最终发表的文章中集成数据与分析代码,并使得读者可以直接在文章中阅读代码以理解研究过程。相信在出版方的推动下,可重复研究的各种规范将会推广得更为迅速。

推荐人:夏骁凯

链接:https://elifesciences.org/labs/7dbeb390/reproducible-document-stack-supporting-the-next-generation-research-article

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Mar 4, 2019

推荐语:伴随开放数据源的公布,越来越多的人可以直接通过API与开源软件来重组旧知识或探索新知识。这篇文章的作者介绍了自己从想法提出到做出加州百年野火可视化的过程并介绍了一些实际过程中的难点。开源数据与软件降低了研究的门槛并提高了效率,这对问题导向型研究是一个利好,通过技术组合有可能发现新现象与规律。

推荐人:于淼

链接:https://source.opennews.org/articles/how-we-mapped-more-100-years-california-wildfire-h/

@harryprince

This comment has been minimized.

Copy link
Contributor

harryprince commented Mar 10, 2019

推荐语:AutoML最近几年越发流行,autoxgboost 旨在实现模型 xgboost 的自动调参,解放算法工程师,它基于机器学习框架 mlr 和 贝叶斯优化框架 mlrMBO 实现。

推荐人:朱俊辉

链接:https://github.com/ja-thomas/autoxgboost

@harryprince

This comment has been minimized.

Copy link
Contributor

harryprince commented Mar 10, 2019

推荐语:OMPR包提供了一个方便易用的优化求解的 R 语言接口,它受 Julia Jump 包的启发,将混合整数规划模型(MILP)实现了更高的抽象,以便于数据分析使用,并与目前 R语言中的 ROI 包以及其他求解器完美结合。

推荐人:朱俊辉

链接:https://github.com/dirkschumacher/ompr

@Perfectizer

This comment has been minimized.

Copy link
Collaborator

Perfectizer commented Mar 11, 2019

推荐语:一个非常cooooool的想法,贯穿了代数和图论。想法很简单,就是利用矩阵构造一个等价二分图,将矩阵运算转化成图上的路径运算。在这种视阵为图的观点下,我们可以将概率、关系等都转化成图的表示,从而将多学科之间关联、统一起来。相当有意思的文章,推荐大家都可以看看,有一定启发性。顺便推荐一下这个数学网站 https://www.math3ma.com 。里面有不少有意思的代数、拓扑和几何相关的文章。

推荐人:林枫

链接:https://www.math3ma.com/blog/matrices-probability-graphs

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Mar 11, 2019

推荐语:可重复性不仅仅意味着结果的重现性,还可以指代模版式报告,可抽象为同一工作的数据可以用同一脚本通过条件触发用来强化模型或更新。这篇文章通过电子邮件在移动端启动 R 脚本实现数据与报告的按需更新,类似 ifttt 的模式不过可玩性更高一些。例如我们可以设置一个数据源 rss 更新的邮件提醒,然后触发一个服务器端 R 脚本去自动更新数据并重新训练模型,实现无人值守的实时模型训练。这可能比 API 监控要灵活些,因为你可以在 R 端搞点正则表达式或预处理来自定义触发更新的条件,而邮件可以当第三方日志用。

推荐人:于淼

链接:https://r-bar.net/r-scripts-mobile-device-email-triggers/

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Mar 14, 2019

推荐语:R 最初被认为是一种统计学专用的语言,甚至现在很多人介绍 R 语言都不忘来一个学术圈里用的多的标签,其实 R 用户并不知道 R 社区聚合了很多其他语言要么实现复杂,要么压根儿没有的特性与扩展,这篇文章就总结了 R 语言中十个比较特殊的应用,包括但不限于制作 word 或 ppt 文档、制作网络应用与 API 、统一的数据库接口与语法、支持深度学习、支持集群计算、互动式学习甚至是游戏界面等。我个人感觉是也许 R 作为编程语言很多设计比较奇怪,执行效率也可能不高,但作为探索与想法实现的工具可以说是非常平易近人了,基于 R 社区的支持,你可以很快把想法透过数据展示给受众或进行试错,这就已经可以解决很多实际问题了。

推荐人:于淼

链接:https://simplystatistics.org/2019/03/13/10-things-r-can-do-that-might-surprise-you/

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Mar 15, 2019

推荐语:零假设显著性检验(NHST)可以说是可重复性危机的核心,很多人批评这个方法,但更多的人并不知道除了 NHST 外还有什么简明的分析框架。Gelman 曾提出用 Type M 与 Type S 来替代现在流行的假阳性与假阴性,但一直以来缺少直观的理解方式,retrodesign 包就是设计出来通过仿真展示 Type M 与 Type S 错误及其功效的,这对于很多小样本研究来说可能是灾难性打击,一行代码就可以说明研究不靠谱了。其实 NHST 不是问题不够严重,而是不够明显到让人直观理解,更多类似工具的出现可以进一步防止 NHST 的滥用。

推荐人:于淼

链接:https://andytimm.github.io/2019/02/05/Intro_To_retrodesign.html

@yixuan

This comment has been minimized.

Copy link
Member

yixuan commented Mar 21, 2019

空假设显著性检验(NHST)

一般是叫原假设或者零假设。

另外我发现这篇文章参考了 Lu et al. (2018),那是两年前微软的两位大牛带着我合写的。😂

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Mar 22, 2019

空假设显著性检验(NHST)

一般是叫原假设或者零假设。

另外我发现这篇文章参考了 Lu et al. (2018),那是两年前微软的两位大牛带着我合写的。😂

👌 有没有兴趣写一篇介绍性文章?这个问题感觉国内关注度还不高,但又确实很重要。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.