New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

统计月读(2019 年 3 月) #825

Open
yufree opened this Issue Jan 28, 2019 · 11 comments

Comments

Projects
None yet
3 participants
@yufree
Copy link
Collaborator

yufree commented Jan 28, 2019

请回复 issue 进行文章推荐与招聘投稿,内容须与统计/数据科学相关,是否采纳取决于编辑部意见。

文章推荐包括学术论文、博客、书籍、教程或软件等的推荐,如果是英文文章在月报发布后自动作为翻译备选文章。

招聘主要面向学术界与工业界的招聘信息发布且岗位要与统计/数据科学相关。

文章推荐格式如下:

推荐语:(几句话就可以,可长可短,有态度不严肃)

推荐人:(建议用真名)

链接:(论文建议给doi,其余给链接)

招聘信息格式如下:

岗位介绍:(例如博士生、博后、xx公司软件工程师等)

工作地点:(具体到城市)

联系方式:(网站链接或邮箱)

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 4, 2019

推荐语:传感技术是数据收集的底层支撑,当开放数据不能满足需求时,使用开源硬件搭建传感平台收集展示数据就成了天然需求。开源硬件平台目前比较流行的是全功能的树莓派/Rock64系列与单一功能但开发便利的单片机 arduino,当然还有个介于之间的 intel Galileo 平台(善用搜索建议功能)。那么如何实现开源硬件与数据分析平台的交互呢?这篇文章提供了 arduino 与 R 的交互函数,使得实时收集的数据可以直接在RStudio里进行展示。

推荐人:于淼

链接:https://zhuhao.org/post/connect-arduino-chips-with-r/

@yihui

This comment has been minimized.

Copy link
Member

yihui commented Feb 4, 2019

推荐语:关于为什么用 R Markdown 这个问题,我都没法比他解释得更清楚(我非常不擅长图文并茂,而这篇日志图表俱全)。他用 pagedown 排版的一篇日志看起来也很惊艳。我读了这篇日志,感觉如同发现一枚知己。

推荐人:谢益辉(王婆卖瓜)

链接:https://liao961120.github.io/2019/01/22/write-in-rmd.html

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 5, 2019

推荐语:迄今为止最大的一次双胞胎研究显示,在 560 种疾病中,约 40% 受基因影响而受环境影响的占约 25%,社会经济地位或空气质量影响的比例较少。这是很有意义的基线数据,这提示我们在考虑疾病治疗方法时可以下手的方向。如果跟环境影响大却搞了基因疗法,基本就是浪费经费了。更可贵的是,这篇文章提供了数据分析的R代码与rmd文档,其为此研究搭建的网站也是基于shiny构建的(虽然前端设计有点简陋)。这暗示了前沿科研一个很重要的趋势:可重复性文档与便捷的交互可视化手段可以极大提高科研人员的研究效率与探索手段。当然,这对科学家的数据分析也提出了更高的要求。

推荐人:于淼

链接:https://github.com/cmlakhan/twinInsurance

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 6, 2019

推荐语:“全家桶”也许是个贬义词,但对于分析结果的重现而言却是很重要的,数据分析环境容器化与项目化正在成为一种流行趋势。部署数据分析环境是很头疼的事,各类包依赖、软件版本混杂与系统平台大大阻碍了分析效率。目前有两个分支解决方案,一种是通过云计算或集群计算平台来实现在线数据分析,目前 R Cloud 与 RStudio 内测的RStudio Cloud就是代表;另一种则是对软件配置环境进行打包,确保本地部署的一致性,这条路需要容器化技术作为依托,docker 差不多是目前最流行的轻量容器化技术。目前市面上已经有针对Jupyter notebooks的Binder,可以直接将一个Github 仓库打包成 docker 镜像然后一键部署到JupyterHub上,也可以通过stencila本地创作后在线部署。R社区也有rocker镜像或liftr包来实现分析环境的快速部署。当然单纯分析脚本是不够的,数据也应该可以打包或链接并方便分享,目前支持此功能的此类产品是CodeOcean,容器叫做胶囊,里面可以打包脚本、数据及生成docker镜像的配置文件,而且也有期刊支持胶囊与论文的同步发表了,但目前版本控制功能还没有,无论如何研究中的可重复性危机有望基于技术来减弱。

推荐人:于淼

链接:https://codeocean.com

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 13, 2019

推荐语:这个网站对各种可视化方式进行了归类,更重要的是介绍了使用场景与制图工具的链接,很多图的中文名翻译很有意思,例如美国线、子弹图、脑力激荡图等。

推荐人:于淼

链接:https://datavizcatalogue.com/ZH/

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 13, 2019

推荐语:BBC公布了自己的可视化手册并推出了自己风格的 bbplot 包,其实很多网站媒体都逐渐形成了自己的可视化风格,例如xkcd漫画的手绘风格、Fivethirtyeight、《经济学人》、《华尔街日报》等。这些好比字体,有风格总是好的,起码也不要是 Excel 默认风格,要还是张3D饼图,一股浓郁土味情话的既视感扑面而来。

推荐人:于淼

链接:https://bbc.github.io/rcookbook/

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 13, 2019

推荐语:在考虑未来人工智能大数据是否会改变生活之前,皮尤研究中心调查了下当下人们对算法的理解,结果显示虽然算法目前已经在主导更多人信息流了,但大多数人根本没意识到自己被算法分类了。然而,人们已经开始对算法是持怀疑态度且认为算法驱动的社交网络与现实脱节。有个段子说在一些网游服务器上虽然显示爆满,但其实就几个玩家陪了一堆机器人在玩;很多社交应用也大量使用机器人来营造繁荣;自动化体育新闻报道算法的水平已经跟记者差距不大了…未来其实就在今天的新闻里,只不过总有人活在过去。

推荐人:于淼

链接:http://www.pewresearch.org/fact-tank/2019/02/13/7-things-weve-learned-about-computer-algorithms/

@yufree

This comment has been minimized.

Copy link
Collaborator Author

yufree commented Feb 14, 2019

推荐语:没被R包里 OpenMP 编译问题折磨过的 Mac OS 用户人生是不完整的,苹果公司默认的 clang 编译器并不支持 OpenMP ,这导致很多R包在本地编译时各种花式报错,修改 ~/.R/Makevars 让R编译时选择支持 OpenMP 的 clang 编译器或 gcc 编译器对绝大多数应用层用户来说比较困难,前置的依赖安装工程也是各种复杂,这篇文章详细梳理了关于这个问题的糊涂账,非常适合从入门到放弃。

推荐人:于淼

链接:http://thecoatlessprofessor.com/programming/openmp-in-r-on-os-x/#bash-clang4

@XiangyunHuang

This comment has been minimized.

Copy link
Member

XiangyunHuang commented Feb 16, 2019

推荐语:R 语言因其较陡的学习曲线,商业的、开源的图形用户界面层出不穷,如 rattleRcmdrradiant 等等,这里又出现一款新的工具 jamovi, Bob Muenchen 为此写了篇文章予以介绍,他的博客中还介绍了其它同类工具,对社会、经济、语言学科的人来说,不妨比较看看,除了 SPSS 可能还有一款更适合的工具在等着你!

推荐人: 黄湘云

链接: https://r4stats.com/2019/01/09/updated-review-jamovi/

@XiangyunHuang

This comment has been minimized.

Copy link
Member

XiangyunHuang commented Feb 16, 2019

推荐语:htmlwidgets 包自出世以来不断促进新的交互可视化利器诞生,目前已有 100+ 扩展包使用了 htmlwidgets, 颇具影响力的有 plotly 、rbokeh、leaflet、 highcharter、 dygraphs 等,Ryan Hafen 最近把它们收拢在一起,创建了一个 htmlwidgets 扩展包合集,图文并茂的介绍它们,方便大家选用。BTW,不知大伙是否还记得 Daniel Emaasit 维护的 ggplot2 扩展包合集,它们的网站和目的迷之相似!

推荐人:黄湘云

链接:https://gallery.htmlwidgets.org/

@XiangyunHuang

This comment has been minimized.

Copy link
Member

XiangyunHuang commented Feb 16, 2019

推荐语:数据狂人 Maëlle Salmon 基于 C++ 库搬运狂魔 Jeroen Ooms 的两个 R 包 pdftoolsmagick,以从白宫泄露出来的川普日程表为例展示 PDF 表格抽取技术,想尝新 pdftools工具的萌新目前需要手动编译安装新版 Poppler C++ 库,以 Ubuntu 18.04 为例,博主贴心地指出了其中可能遇到的坑,此处应有掌声!文本抽取和清洗用到的工具有 tidyverse 全家桶和正则表达式,看完这篇博文,你对原来很火的自然语言处理技术会有新的理解:洗数据 🚀

推荐人:黄湘云

链接:https://masalmon.eu/2019/02/11/trump-schedule/

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment