Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

投稿:统计学上的创造力 李杰桠 #787

Merged
merged 19 commits into from Aug 12, 2019

Conversation

@lijieya1
Copy link
Contributor

commented Jul 8, 2018

非常感谢您的PR, 如果您是在为主站投稿, 请将PR的标题改为"投稿:标题+作者的形式",如:
"投稿: 数据通灵术 杜亚磊"
并保留下面的内容.

  • 投稿者请注意
    • 主编审核确认接收
    • 主编安排审稿人
    • 审稿、修改

至此,投稿部分的工作结束

  • 编辑部分工作
    • 文字编辑做校对工作。需校对文章分类,目前的文章分类包括:COS访谈,R会议,R语言,推荐文章,新闻动态,机器学习,统计之都,统计图形,统计应用,统计模型,统计计算,统计软件,职业事业。不得擅自增加分类。
    • 论坛帖子负责人发帖,粘贴链接,隐藏帖子后提供 forum_id 加入文章
    • 微信编辑、发布,阅读原文附主站链接,文末附作者介绍
    • 合并 PR,发布文章
    • 论坛帖子负责人帖子取消隐藏

投稿指南在这里,有任何问题,可以直接在PR留言,其他问题请联系: editor@cos.name

@cosbot

This comment has been minimized.

Copy link

commented Jul 8, 2018

@{}
Hi, it seems that you're the first time contributor, welcome!
你好,你似乎是第一次投稿,非常欢迎!

@XueningZhu

This comment has been minimized.

Copy link
Contributor

commented Jul 8, 2018

格式有些问题 请 @夏丰盛 指导修改下 请蔡博审稿内容

@xfs1010

This comment has been minimized.

Copy link
Contributor

commented Jul 8, 2018

妹子辛苦了!

格式的话主要改4点:

  1. 添加文件头信息。

    ---

    title: 文章标题

    date: 日期,格式YYYY-mm-dd

    author: 翻译者的名字

    slug: 文章标题英文版

    meta_extra: 原作者:原作者的名字;

    categories:

    tags:

    forum_id:

    ---

  2. 添加文章来源信息

    本文翻译自xxx,作者xxx。本文已获得原作者授权。

  3. 修改文件名

    文件名修改成日期+文章标题英文版,其实就是头文件里的date-slug.md。比如2018-06-14-11th-china-r-beijing-summary.md

  4. markdown的格式

    标题的井号#后记得跟一个小小的空格。

更多例子可以参考已经合并的PR或者COS官网的投稿指南

@lijieya1 lijieya1 changed the title Create 2018-07-07-特伦斯的作品:统计学上的创造力-李杰桠翻译.md 投稿:特伦斯的作品:统计学上的创造力 李杰桠 Jul 10, 2018

lijieya1 and others added some commits Jul 10, 2018

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 11, 2018

貌似我没有push access,哪位编辑部大大可以给加一下吗

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 11, 2018

先把一些评论直接写在这里:

  1. 原文网址应修改为 http://bulletin.imstat.org/2014/05/terence%E2%80%99s-stuff-creativity-in-statistics/ 原网址打开是Terence Stuff的母列表。
@zhanruicai
Copy link

left a comment

你可能知道那句老话:他使用统计数据,就像一个醉汉用灯柱来支撑而不是照明。但是其他人,比如:非统计学家、非应用统计学家,知道我们是如何阐明的,而不是支持或者不支持?

建议修改为:
你可能知道那句老话 : 虽然某人可能在使用统计数据,但他就像一个醉汉用路灯来支撑自己一样,并不是靠路灯来照明的。对于其他人来说,比如非统计学家和非应用统计学家,他们又是如何知道我们到底是在用数据来“照明”,还是仅仅是“支撑”自己呢?甚至都不能“支撑”呢?

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 11, 2018

我一直觉得现代中文是一门表达效率比较低的语言,所以翻译英文的时候要加很多助词和转折词。最重要的莫过于把原文的意思表达清楚,而不是只直译英文结果却是一句句不通顺不达意的表达。译者后面的内容也有一点这个问题。
我记得之前是可以在文章里直接写评论的对吗?如果是求加权限 @XueningZhu @tomatoiscoding @Lchiffon

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 11, 2018

@lijieya1 你先按着我说的这个思路改改后面的段落

lijieya1 added some commits Jul 11, 2018

@yihui

This comment has been minimized.

Copy link
Member

commented Jul 11, 2018

@SpinozaRUC 窃以为这个锅不能让“现代中文”来背,就算古代中文也无法表达清楚。文化背景大不一样,翻译本来就不是一件容易事。这句话让我翻译我也译不清楚,因为它用到了双关。用了双关的中文一样难翻译成英文,但你不能因此就说英文效率低。

这句话的来源是:https://en.wikiquote.org/wiki/Andrew_Lang 其中 illumination 有双重含义:对醉汉来说是照明,对政治家来说是启发/启示(从统计数字中获得新知识)。

你把“照明”一词打上引号大概是唯一的出路了(读者也许可以理解这里用的是“照明”的特殊含义),可以加个脚注解释一下英文背景。

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

@yihui 果然姜还是老的辣。老大是真辣。
@lijieya1 按照谢老大说的,加个脚注解释一下英文背景吧。

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

第二段,“我们该怎么办呢”建议修改为“我们究竟在做些什么呢”

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

第二句话应该是“我们是如何想出……”

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

最后一句话改为,我认为,不仅别人不知道,而且我们自己也不知道……

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

第三段第一句,这种沉默,一部分是由于……

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

一部分是由于我们不愿意承认自己所做的很多事情的主观性

@zhanruicai

This comment has been minimized.

Copy link

commented Jul 12, 2018

感谢边总的电话指导,问题已经解决了!吼哈!

lijieya1 and others added some commits Jul 12, 2018

@fyears

This comment has been minimized.

Copy link
Member

commented Jul 14, 2018

把格式问题帮投稿者梳理了一下,此外,请不要中英文标点混用,我看到的都给改过来了。

翻译的词语问题请参考上文 @SpinozaRUC 师兄的意见修改一下~

谢谢


# 特伦斯的作品:统计学上的创造力

你可能知道那句老话 : 虽然某人可能在使用统计数据,但他就像一个醉汉用路灯来支撑自己一样,并不是靠路灯来照明的。对于其他人来说,比如非统计学家和非应用统计学家,他们又是如何知道我们到底是在用数据来“照明”,还是仅仅是“支撑”自己呢?甚至都不能“支撑”呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么
当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢在我们的工作中,创造力和想象力是如何发挥作用的呢我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么

一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是看了数据决定去做什么,在实施一个频率轮方法之前,此方法指在看数据之后看操作特征和在看数据之前的操作特征有所不同。转换数据就是一个简单的例子。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

频率轮方法??


# 特伦斯的作品:统计学上的创造力

你可能知道那句老话 : 虽然某人可能在使用统计数据,但他就像一个醉汉用路灯来支撑自己一样,并不是靠路灯来照明的。对于其他人来说,比如非统计学家和非应用统计学家,他们又是如何知道我们到底是在用数据来“照明”,还是仅仅是“支撑”自己呢?甚至都不能“支撑”呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么
当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢在我们的工作中,创造力和想象力是如何发挥作用的呢我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

建议改为:我认为,不仅别人不知道,而且我们自己也不知道。


你可能知道那句老话 : 虽然某人可能在使用统计数据,但他就像一个醉汉用路灯来支撑自己一样,并不是靠路灯来照明的。对于其他人来说,比如非统计学家和非应用统计学家,他们又是如何知道我们到底是在用数据来“照明”,还是仅仅是“支撑”自己呢?甚至都不能“支撑”呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

我认为,不仅别人不知道,而且我们自己也不知道。


你可能知道那句老话 : 虽然某人可能在使用统计数据,但他就像一个醉汉用路灯来支撑自己一样,并不是靠路灯来照明的。对于其他人来说,比如非统计学家和非应用统计学家,他们又是如何知道我们到底是在用数据来“照明”,还是仅仅是“支撑”自己呢?甚至都不能“支撑”呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我不仅认为别人不知道,我还认为我们自己也不知道。先查看数据以决定该做什么。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“先查看数据以决定该做什么。” 这句话放在这里不觉得很别扭吗?如何承上 or 启下?


一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是看了数据决定去做什么,在实施一个频率论方法之前,此方法指在看数据之后看操作特征和在看数据之前的操作特征有所不同。转换数据就是一个简单的例子。

这里显示出了一个悖论:我们可能想把一些东西给人们指出,我们可能会说:“我们注意到,这种调整后的数据表现更好”以展示我们的创造力和想象力。但是,这些东西也正是我们想要隐藏的,因为这些东西可能会被别人认为是与我们分析相矛盾的。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

我们可能想给人们指出一些东西


这里显示出了一个悖论:我们可能想把一些东西给人们指出,我们可能会说:“我们注意到,这种调整后的数据表现更好”以展示我们的创造力和想象力。但是,这些东西也正是我们想要隐藏的,因为这些东西可能会被别人认为是与我们分析相矛盾的。

当然,当有人转换数据时,我们通常不会反对。但是我们很乐于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图,所有我们考虑的层次,所有我们感兴趣的模型,所有我们检验出的符合和不符合的点,以及相关的参数估计和离群值,我们慢慢用我们的方式进行分析,我们认为这种分析适合用我们的数据解决问题。它可能很容易着手、总结、可视化和进行探索性分析,但本可能可以更进一步。当我们注意到某些情况比如这有尖峰、那里有一个错误的斜率这样的情况时,我们通常会对它做一些处理,例如,丢弃、截断或转换数据,或者修改模型。我们可能需要考虑可能的干扰因子、选择性偏差、聚合、可能相关的数据缺失等等。所有做过这个的人都知道,这个列表可以无限扩展,尽管在一般情况下我们只需要尝试很少的方法去处理,快速地(可能是无意识地)消除一些选择以达到我们想要的分析。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“但是我们很乐于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图” 这句话看懂原文了吗?原文是反问句。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

建议,先读懂原文,再尝试着用中文把原文的意思表达出来。这样译文读起来才通畅。


当然,当有人转换数据时,我们通常不会反对。但是我们很乐于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图,所有我们考虑的层次,所有我们感兴趣的模型,所有我们检验出的符合和不符合的点,以及相关的参数估计和离群值,我们慢慢用我们的方式进行分析,我们认为这种分析适合用我们的数据解决问题。它可能很容易着手、总结、可视化和进行探索性分析,但本可能可以更进一步。当我们注意到某些情况比如这有尖峰、那里有一个错误的斜率这样的情况时,我们通常会对它做一些处理,例如,丢弃、截断或转换数据,或者修改模型。我们可能需要考虑可能的干扰因子、选择性偏差、聚合、可能相关的数据缺失等等。所有做过这个的人都知道,这个列表可以无限扩展,尽管在一般情况下我们只需要尝试很少的方法去处理,快速地(可能是无意识地)消除一些选择以达到我们想要的分析。

在某些情况下,以预测为例,我们想要对预测误差进行无偏估计,这些初等结果可能很重要,而在其他情况下,则可能不重要。经验丰富的数据分析师本能地知道如何避免过度训练,例如,通过探索部分可用的数据,然后观察他们对其他部分的影响。他们也可以做仿真。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“初等结果”建议改为 “基础的分析”

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“仿真”改为“数值模拟”


在某些情况下,以预测为例,我们想要对预测误差进行无偏估计,这些初等结果可能很重要,而在其他情况下,则可能不重要。经验丰富的数据分析师本能地知道如何避免过度训练,例如,通过探索部分可用的数据,然后观察他们对其他部分的影响。他们也可以做仿真。

如果我们是一个团队中的咨询或协作统计学家,所有这些准备工作不太可能被记录并且出现在出版物中。根据我的经验,我们很少把工作全部记录下来。我们只是偶尔会在书中看到这类讨论,Peter Huber 2011年的专著《数据分析》就是一个明显的例子。在写作时,我们通常只描述最终结果。所有这些都让人想起了彼得·梅达瓦尔1963年的论文《科学论文是骗局吗?----是的,它歪曲科学思想》

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

出版物 改为 “最终的报告”

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“我们只是偶尔会在书中看到这类讨论” 改为 “只有在极少见的情况下,我们才会看到书中有相关的讨论”

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

所有这些都让人想起了彼得·梅达瓦尔1963年的论文《科学论文是骗局吗?----是的,它歪曲科学思想》 change to
这些不禁让人想起彼得·梅达瓦尔1963年的那篇《科学论文是骗局吗》中的副标题:是的,�它错误的展示了科学思想。


如果我们是一个团队中的咨询或协作统计学家,所有这些准备工作不太可能被记录并且出现在出版物中。根据我的经验,我们很少把工作全部记录下来。我们只是偶尔会在书中看到这类讨论,Peter Huber 2011年的专著《数据分析》就是一个明显的例子。在写作时,我们通常只描述最终结果。所有这些都让人想起了彼得·梅达瓦尔1963年的论文《科学论文是骗局吗?----是的,它歪曲科学思想》

这些有关系吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(比如数据科学家)不知道我们的这一活动,不知道我们对它的重视,不知道我们把它做好会得到什么满足感。但是,如果我们对别人隐瞒我们的工具、技术和思想过程,然后发现当它们被再度探索时,它们并不是统计数据的一部分,而是数据科学或大数据的一部分,我们又能怎么抱怨呢?更重要的是,如果我们不谈论这个领域的知识和经验,我们怎么能把它传递出去呢?我们应该做什么?

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

+这些有关系吗 change to 这些到底重要吗

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

统计数据 change to 统计学


这些有关系吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(比如数据科学家)不知道我们的这一活动,不知道我们对它的重视,不知道我们把它做好会得到什么满足感。但是,如果我们对别人隐瞒我们的工具、技术和思想过程,然后发现当它们被再度探索时,它们并不是统计数据的一部分,而是数据科学或大数据的一部分,我们又能怎么抱怨呢?更重要的是,如果我们不谈论这个领域的知识和经验,我们怎么能把它传递出去呢?我们应该做什么?

我们经常说,我们想要超越食谱式的数据分析,但这通常意味着我们想要传达对理论的理解,而不是鼓励创造性的烹饪。让我们承认甚至强调创造力在数据分析课程中,包括统计学入门课程中的作用。如今,随着大多数期刊刊登了文章的补充性材料,我们的文章中包含更多的初步细节已经很简单了,并且很多人已经这么做了。我们应该谈论的是创造性的过程,不只是当它带来一种新的工具或技术,更在我们生活中发挥着重要作用。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Jul 27, 2018

“食谱式的数据分析” change to “简单按照食谱一样的说明操作来做数据分析的方式”
“烹饪”要加双引号,因为双关,as mentioned by Yihui previously.

@zhanruicai
Copy link

left a comment

建议师妹再通读一遍,先修改文中病句,包括但不限于以上指出来的部分。
任重而道远啊!


当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也不知道。

一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是在执行概率论程序之前要先查看数据以决定该做什么,这会使那些程序的操作特征有所不同。转换数据就是一个简单的例子。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 2, 2018

建议修改为:一部分原因是我们不愿意承认自己所做的……


当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也不知道。

一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是在执行概率论程序之前要先查看数据以决定该做什么,这会使那些程序的操作特征有所不同。转换数据就是一个简单的例子。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 2, 2018

为什么还是写的“概率论程序”?之前不是说过这个地方嘛


一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是在执行概率论程序之前要先查看数据以决定该做什么,这会使那些程序的操作特征有所不同。转换数据就是一个简单的例子。

这里显示出了一个悖论:我们可能想给人们指出一些东西,我们可能会说:“我们注意到,这种调整后的数据表现更好”以展示我们的创造力和想象力。但是,这些东西也正是我们想要规避的,因为这些东西可能会被别人认为是为了得到我们分析而处理的。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 2, 2018

这一段话表述不清楚,第一句话是病句,建议重新改写。


如果我们是一个团队中的咨询或协作统计学家,所有这些准备工作不太可能被记录并且出现在最终的报告中。根据我的经验,我们很少把工作全部记录下来。只有极少见的情况下,我们才会看到书中有相关的讨论,Peter Huber 2011年的专著《数据分析》就是一个明显的例子。在写作时,我们通常只描述最终结果。这些不禁让人想起彼得·梅达瓦尔1936年的那篇《科学论文是骗局吗》中的副标题:是的,他错误地展示了科学思想。

这些到底重要吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(我敢说,即使是数据科学家)不知道我们的这一活动,不知道我们对它的重视,不知道我们把它做好会得到什么满足感。但是,如果我们对别人隐瞒我们的工具、技术和思想过程,然后发现当它们被再度探索时,它们并不是统计学的一部分,而是数据科学或大数据的一部分,我们又能怎么抱怨呢?更重要的是,如果我们不谈论这个领域的知识和经验,我们怎么能把它传递出去呢?我们应该做什么?

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 2, 2018

“不知道我们这一活动” “活动”一词是不是太直白了?

@zhanruicai

This comment has been minimized.

Copy link

commented Aug 20, 2018

@XueningZhu Can you see here

@@ -19,18 +19,18 @@ forum_id: ""
# 特伦斯的作品:统计学上的创造力
你可能听说过那句老话 : 一个人使用统计数据就像是醉汉抱着路灯来支撑平衡而不是为了照明。对于其他非统计学家和非应用统计学家而言,他们又是如何知道我们到底是在用数据来“照明”,而不是“支撑”自己呢?或者甚至连“支撑”都不是呢?

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

你可能听说过那句老话 : 有的人虽然在做数据分析,但却好像是醉汉抱着路灯一样,是来支撑平衡防止摔倒而不是为了照明。对于其他非统计学家和非应用统计学家而言,他们又是如何知道我们到底是在用数据来“照明”,而不是“支撑”自己呢?或者甚至连“支撑”都不是呢?

@@ -19,18 +19,18 @@ forum_id: ""
# 特伦斯的作品:统计学上的创造力
你可能听说过那句老话 : 一个人使用统计数据就像是醉汉抱着路灯来支撑平衡而不是为了照明。对于其他非统计学家和非应用统计学家而言,他们又是如何知道我们到底是在用数据来“照明”,而不是“支撑”自己呢?或者甚至连“支撑”都不是呢?

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也不知道。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

当我们花几天、几周或几个月的时间分析一个数据集时,我们究竟在做些什么呢?我们是如何想出一系列实验或者观察性研究的可行的设计方案的呢?在我们的工作中,创造力和想象力是如何发挥作用的呢?我认为,不仅别人不知道,而且我们自己也常常刻意保持沉默。


一部分是由于不愿意承认我们所做的很多事情的主观性。另一部分原因是在执行概率论程序之前要先查看数据以决定该做什么,这会使那些程序的操作特征有所不同。转换数据就是一个简单的例子。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

这种沉默一部分是由于我们不愿意承认所做的很多统计分析的主观性。我们经常看到数据后才会决定使用哪些经典频率统计学派但分析方法。但这些方法往往会让数据面目全非。数据变换就是其中一个简单但例子。


这里显示出了一个悖论:我们可能想给人们指出一些东西,我们可能会说:“我们注意到,这种调整后的数据表现更好”以展示我们的创造力和想象力。但是,这些东西也正是我们想要规避的,因为这些东西可能会被别人认为是为了得到我们分析而处理的。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

这里显示出了一个悖论:那些本可用来展示我们创造力和想象力但东西往往也是数据科学家们力图规避的,比如我们经常会说:“大家可以发现,经过这样的数据变换,最后的分析结果会更好。” 而这,往往会被别人当作我们向数据妥协的例证。


当然,当有人转换数据时,我们通常不会反对。但是当我们使用一些我们觉得合适的数据对问题进行分析时,难道我们就甘于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图,所有我们考虑的层次,所有我们感兴趣的模型,所有我们检验出的符合和不符合的点,以及相关的参数估计和离群值,再慢慢用我们的方式进行分析么?它可能很容易着手,总结、可视化和进行探索性分析,但这样的研究可以更加深入。当我们注意到某些情况比如这有尖峰、那里有一个错误的斜率这样的情况时,我们通常会对它做一些处理,例如,丢弃、截断或转换数据,或者修改模型。我们可能需要考虑可能的干扰因子、选择性偏差、聚合、可能相关的数据缺失等等。所有做过这个的人都知道,这个列表可以无限扩展,尽管在一般情况下我们只需要尝试很少的方法去处理,快速地(可能是无意识地)消除一些选择以达到我们想要的分析。
当然,当有人转换数据时,我们通常不会反对。但是当我们使用一些我们觉得合适的数据对问题进行分析时,难道我们就甘于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图,所有我们考虑的层次,所有我们感兴趣的模型,所有我们检验出的符合和不符合的点,以及相关的参数估计和离群值,再慢慢用我们的方式进行分析么?它可能很容易着手,总结、可视化和进行探索性分析,但这样的研究可以更加深入。当我们注意到某些情况比如这有尖峰、那里有一个错误的斜率这样的情况时,我们通常会对它做一些处理,例如,丢弃、截断或转换数据,或者修改模型。我们也许需要考虑相关的干扰因子、选择性偏差、聚合、可能相关的数据缺失等等。所有做过相关工作的人都知道,这个列表可以无限扩展,尽管在一般情况下我们只需要尝试很少的方法去处理,快速地(可能是无意识地)消除一些选择以达到我们想要的分析。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

当然啦,在有人做数据变换的时候,我们通常不会声嘶力竭的反对。但当我们使用各种工具做真正的数据分析时,难道会不厌其烦的记录下所有的操作吗?我们会保存所有的列联表、直方图、箱形图、散点图、集群图、主成分分析图和自己设计的那些图表吗?会记录下那些我们设计的数据分层吗?那些年我们所有输入的模型、模型检验的结果、拟合的参数和异常值,又会出现在最后的数据分析报告中吗?(答案往往是不会)数据分析是一个由简单到逐渐深入的过程。开始的时候往往只是进行数据简化、可视化和其他一些探索性分析,但是会慢慢深入。有些情况下,当我们注意到数据中出现一段异常高峰或出现一个错误的斜率时,我们通常会做一些处理。如直接舍弃某部分数据,截断异常数据,做数据变换,或直接放大招修改模型。在另外一些情况下,我们还需要考虑模型中但干扰变量,选择性偏差,数据整合,还有可能的数据缺失等等。但凡有过数据分析经验的人都知道,类似的情况还有很多很多。但我们往往只会尝试很少的一些我们熟悉的方法,快速(甚至可能是无意识的)排除掉其他可能性,来达到我们最终想要的结果。

吗?会记录下那些
难道我们就甘于记录所有我们做的边际表,所有直方图、箱形图、散点图、集群图、主成分分析或我们看到过的自制的图,所有我们考虑的层次,所有我们感兴趣的模型,所有我们检验出的符合和不符合的点,以及相关的参数估计和离群值,再慢慢用我们的方式进行分析么?它可能很容易着手,总结、可视化和进行探索性分析,但这样的研究可以更加深入。当我们注意到某些情况比如这有尖峰、那里有一个错误的斜率这样的情况时,我们通常会对它做一些处理,例如,丢弃、截断或转换数据,或者修改模型。我们可能需要考虑可能的干扰因子、选择性偏差、聚合、可能相关的数据缺失等等。所有做过这个的人都知道,这个列表可以无限扩展,尽管在一般情况下我们只需要尝试很少的方法去处理,快速地(可能是无意识地)消除一些选择以达到我们想要的分析。


在某些情况下,以预测为例,我们想要对预测误差进行无偏估计,这些基础的分析可能很重要,而在其他情况下,则可能不重要。经验丰富的数据分析师本能地知道如何避免过度训练,例如,通过探索部分可用的数据,然后观察他们对其他部分的影响。他们也可以做数值模拟。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

在某些情况下,以模型预测为例,我们想要尽可能控制预测误差,上面提到的这些基础的处理可能会非常重要。而在其他情况下,却可能没有那么重要。经验丰富的数据分析师也大都知道如何避免过度拟合,例如,通过使用一部分数据训练模型,再用另外的数据做模型检验。数值模拟也是一个经常被用到的方法。


如果我们是一个团队中的咨询或协作统计学家,所有这些准备工作不太可能被记录并且出现在最终的报告中。根据我的经验,我们很少把工作全部记录下来。只有极少见的情况下,我们才会看到书中有相关的讨论,Peter Huber 2011年的专著《数据分析》就是一个明显的例子。在写作时,我们通常只描述最终结果。这些不禁让人想起彼得·梅达瓦尔1936年的那篇《科学论文是骗局吗》中的副标题:是的,他错误地展示了科学思想。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

如果我们是一个团队中的数据咨询师或统计学家,我们不太可能会把上述这些准备工作不记录在最终的分析报告中。根据我的经验,事实上我们很少把它们全部记录下来。只有在特殊情况下,我们才会看到书中有相关的讨论,Peter Huber 2011年的专著《数据分析》就是一个很好的例子。在撰写报告时,我们通常只描述最终的分析结果。这不禁让人想起Peter Medawar1936年的那篇《科学届的论文是骗局吗》中的副标题:是的,他错误地展示了科学的思想。


这些到底重要吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(我敢说,即使是数据科学家)不知道我们的这一活动,不知道我们对它的重视,不知道我们把它做好会得到什么满足感。但是,如果我们对别人隐瞒我们的工具、技术和思想过程,然后发现当它们被再度探索时,它们并不是统计学的一部分,而是数据科学或大数据的一部分,我们又能怎么抱怨呢?更重要的是,如果我们不谈论这个领域的知识和经验,我们怎么能把它传递出去呢?我们应该做什么
准备工作究竟重要吗?我认为许多非统计学家(我敢说,即使是数据科学家)不知道统计学家进行的准备活动,不知道我们对它的重视,不知道我们把它做好会得到什么满足感。但是,如果我们对别人隐瞒我们的工具、技术和思想过程,然后发现当这些被再度探索时,它们并不是统计学的一部分,而是数据科学或大数据的一部分,我们又能抱怨什么呢?更重要的是,如果我们不谈论这个领域的知识和经验,我们怎么能把它传递出去呢?我们应该做什么呢

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

这些到底重要吗?我有一个印象(在以后的专栏中会有更多的探讨):许多非统计学家(我敢说,即使是数据科学家)都不会在意这些基础的工作,不知道它的重要性,更不了解其中带给人的满足和乐趣。但是,如果我们对别人隐瞒这些工具、技术和思路,回过头来却意识到它们被其他人重新“发现”,变成了数据科学或大数据的一部分而不是统计学的一部分,我们又能抱怨什么呢?更重要的是,如果我们不讨论这些数据分析处理的知识和经验,又怎么能把它传给后人呢?我们究竟应该做些什么呢?


我们经常说,我们想要超越简单按照食谱一样的说明操作来做数据分析的方式,但这通常意味着我们想要传达对理论的理解,而不是鼓励创造性的“烹饪”。让我们承认甚至强调创造力在数据分析课程中,包括统计学入门课程中的作用。如今,随着大多数期刊刊登了文章的补充性材料,我们的文章中包含更多的初步细节已经很简单了,并且很多人已经这么做了。我们应该谈论的是创造性的过程,不只是当它带来一种新的工具或技术,更在我们生活中发挥着重要作用。

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Aug 20, 2018

我们经常说,我们想要超越“食谱”式的根据说明操作分析数据的方式,但这通常意味着我们想要传达对理论的理解,而不是鼓励创造性的“烹饪”。让我们开始重视,乃至强调创造力在数据分析和统计入门课程中的重要作用吧!如今,大多数期刊都开始刊登论文的补充性材料,我们的论文中的技术性细节已经变得更加通俗易懂,并且很多人已经这么做了。我们更应该谈论这个创造性的过程。不只是那些创造性的工具和技术,更有它在我们每天的生活中发挥的重要作用。

@zhanruicai

This comment has been minimized.

Copy link

commented Aug 20, 2018

@lijieya1 辛苦师妹继续按照以上意见修改下!

lijieya1 added some commits Sep 11, 2018


一部分是由于我们主观上不愿意承认自己做过的很多事情。另一部分原因是在执行频率论程序之前要先查看数据以决定该做什么,这会使那些程序的操作特征有所不同。转换数据就是一个简单的例子
这种沉默一部分是由于我们不愿意承认所做的很多统计分析的主观性。我们经常看到数据后才会决定使用哪些经典频率统计学派但分析方法。但这些方法往往会让数据面目全非。数据变换就是其中一个简单但例子

This comment has been minimized.

Copy link
@zhanruicai

zhanruicai Sep 12, 2018

“简单的例子”

@Perfectizer

This comment has been minimized.

Copy link
Collaborator

commented Oct 25, 2018

@SpinozaRUC 麻烦锐哥看下这篇ok了吗?

@yufree yufree added this to To do in 主站日常管理 Oct 31, 2018

@yufree

This comment has been minimized.

Copy link
Collaborator

commented Jan 11, 2019

感谢 @lijieya1 投稿,请问 @SpinozaRUC 还有修改意见吗?

@yufree yufree moved this from To do to In progress in 主站日常管理 Jan 11, 2019

@yufree yufree moved this from In progress to Delay in 主站日常管理 Jun 19, 2019

@yufree yufree moved this from Delay to In progress in 主站日常管理 Jul 13, 2019

@XiangyunHuang

This comment has been minimized.

Copy link
Member

commented Jul 14, 2019

感谢 @lijieya1 投稿,请问 @zhanruicai 还有修改意见吗?

@taiyun

This comment has been minimized.

Copy link
Member

commented Aug 8, 2019

可以考虑配个作者的图~

* 修改标题的翻译
* 翻译类/访谈类的文章作者字段都是原作,译者放后面

* Terence's Stuff 是人家在主席专栏上的标签,和XL Files一样,不要翻译

* 还有很多细节修改,不一一说明,请看 Git 记录

Terence Speed 是 2004 年的 IMS 主席,这篇文章是发表在IMS主席专栏上的

@XiangyunHuang XiangyunHuang changed the title 投稿:特伦斯的作品:统计学上的创造力 李杰桠 投稿:统计学上的创造力 李杰桠 Aug 11, 2019

@XiangyunHuang

This comment has been minimized.

Copy link
Member

commented Aug 11, 2019

@taiyun @zhanruicai 为了让这篇文章早日发出来,我动用我副主编的权限,对这篇译文进行了大量的修改

@Perfectizer 麻烦添加 Terence Speed 的个人介绍

@XiangyunHuang XiangyunHuang merged commit 490d324 into cosname:master Aug 12, 2019

1 check passed

deploy/netlify Deploy preview ready!
Details

@yufree yufree moved this from In progress to Done in 主站日常管理 Aug 12, 2019

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
You can’t perform that action at this time.