init

apachecn · Jul 29, 2019 · c6722fd · c6722fd
commit c6722fd
Show file tree

Hide file tree

Showing 498 changed files with 6,563 additions and 0 deletions.
diff --git a/.gitignore b/.gitignore
@@ -0,0 +1,115 @@
+# Byte-compiled / optimized / DLL files
+__pycache__/
+*.py[cod]
+*$py.class
+
+# C extensions
+*.so
+
+# Distribution / packaging
+.Python
+env/
+build/
+develop-eggs/
+dist/
+downloads/
+eggs/
+.eggs/
+lib/
+lib64/
+parts/
+sdist/
+var/
+wheels/
+*.egg-info/
+.installed.cfg
+*.egg
+
+# PyInstaller
+#  Usually these files are written by a python script from a template
+#  before PyInstaller builds the exe, so as to inject date/other infos into it.
+*.manifest
+*.spec
+
+# Installer logs
+pip-log.txt
+pip-delete-this-directory.txt
+
+# Unit test / coverage reports
+htmlcov/
+.tox/
+.coverage
+.coverage.*
+.cache
+nosetests.xml
+coverage.xml
+*.cover
+.hypothesis/
+
+# Translations
+*.mo
+*.pot
+
+# Django stuff:
+*.log
+local_settings.py
+
+# Flask stuff:
+instance/
+.webassets-cache
+
+# Scrapy stuff:
+.scrapy
+
+# Sphinx documentation
+docs/_build/
+
+# PyBuilder
+target/
+
+# Jupyter Notebook
+.ipynb_checkpoints
+
+# pyenv
+.python-version
+
+# celery beat schedule file
+celerybeat-schedule
+
+# SageMath parsed files
+*.sage.py
+
+# dotenv
+.env
+
+# virtualenv
+.venv
+venv/
+ENV/
+
+# Spyder project settings
+.spyderproject
+.spyproject
+
+# Rope project settings
+.ropeproject
+
+# mkdocs documentation
+/site
+
+# mypy
+.mypy_cache/
+.DS_Store
+
+# gitbook
+_book
+
+# node.js
+node_modules
+
+# windows
+Thumbs.db
+
+# word
+~$*.docx
+~$*.doc
diff --git a/.nojekyll b/.nojekyll
diff --git a/404.html b/404.html
@@ -0,0 +1,4 @@
+---
+permalink: /404.html
+---
+<script>window.location.href = '/';</script>
diff --git a/README.md b/README.md
@@ -0,0 +1,33 @@
+# 21 世纪的统计学
+
+> 原文：[Statistical Thinking for the 21st Century](http://statsthinking21.org/)
+> 
+> 协议：[CC BY-NC-SA 4.0](http://creativecommons.org/licenses/by-nc-sa/4.0/)
+> 
+> 欢迎任何人参与和完善：一个人可以走的很快，但是一群人却可以走的更远。
+
+* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
+* [ApacheCN 学习资源](http://www.apachecn.org/)
+
+## 贡献指南
+
+本项目需要校对，欢迎大家提交 Pull Request。
+
+> 请您勇敢地去翻译和改进翻译。虽然我们追求卓越，但我们并不要求您做到十全十美，因此请不要担心因为翻译上犯错——在大部分情况下，我们的服务器已经记录所有的翻译，因此您不必担心会因为您的失误遭到无法挽回的破坏。（改编自维基百科）
+
+## 联系方式
+
+### 负责人
+
+* [飞龙](https://github.com/wizardforcel): 562826179
+
+### 其他
+
+*   认领翻译和项目进度-地址: <https://github.com/apachecn/stats-thinking-21-zh/issues/1>
+*   在我们的 [apachecn/stats-thinking-21-zh](https://github.com/apachecn/stats-thinking-21-zh) github 上提 issue.
+*   发邮件到 Email: `apachecn@163.com`.
+*   在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
+
+## 赞助我们
+
+![](http://data.apachecn.org/img/about/donate.jpg)
diff --git a/SUMMARY.md b/SUMMARY.md
@@ -0,0 +1,129 @@
++   [前言](docs/0.md)
+    +   [0.1 本书为什么存在？](docs/0.1.md)
+    +   [0.2 你不是统计学家-我们为什么要听你的？](docs/0.2.md)
+    +   [0.3 为什么是 R？](docs/0.3.md)
+    +   [0.4 数据的黄金时代](docs/0.4.md)
+    +   [0.5 开源书籍](docs/0.5.md)
+    +   [0.6 确认](docs/0.6.md)
++   [1 引言](docs/1.md)
+    +   [1.1 什么是统计思维？](docs/1.1.md)
+    +   [1.2 统计数据能为我们做什么？](docs/1.2.md)
+    +   [1.3 统计学的基本概念](docs/1.3.md)
+    +   [1.4 因果关系与统计](docs/1.4.md)
+    +   [1.5 阅读建议](docs/1.5.md)
++   [2 处理数据](docs/2.md)
+    +   [2.1 什么是数据？](docs/2.1.md)
+    +   [2.2 测量尺度](docs/2.2.md)
+    +   [2.3 什么是良好的测量？](docs/2.3.md)
+    +   [2.4 阅读建议](docs/2.4.md)
++   [3 概率](docs/3.md)
+    +   [3.1 什么是概率？](docs/3.1.md)
+    +   [3.2 我们如何确定概率？](docs/3.2.md)
+    +   [3.3 概率分布](docs/3.3.md)
+    +   [3.4 条件概率](docs/3.4.md)
+    +   [3.5 根据数据计算条件概率](docs/3.5.md)
+    +   [3.6 独立性](docs/3.6.md)
+    +   [3.7 逆转条件概率：贝叶斯规则](docs/3.7.md)
+    +   [3.8 数据学习](docs/3.8.md)
+    +   [3.9 优势比](docs/3.9.md)
+    +   [3.10 概率是什么意思？](docs/3.10.md)
+    +   [3.11 阅读建议](docs/3.11.md)
++   [4 汇总数据](docs/4.md)
+    +   [4.1 为什么要总结数据？](docs/4.1.md)
+    +   [4.2 使用表格汇总数据](docs/4.2.md)
+    +   [4.3 分布的理想化表示](docs/4.3.md)
+    +   [4.4 阅读建议](docs/4.4.md)
++   [5 将模型拟合到数据](docs/5.md)
+    +   [5.1 什么是模型？](docs/5.1.md)
+    +   [5.2 统计建模：示例](docs/5.2.md)
+    +   [5.3 什么使模型“良好”？](docs/5.3.md)
+    +   [5.4 模型是否太好？](docs/5.4.md)
+    +   [5.5 最简单的模型：平均值](docs/5.5.md)
+    +   [5.6 模式](docs/5.6.md)
+    +   [5.7 变异性：平均值与数据的拟合程度如何？](docs/5.7.md)
+    +   [5.8 使用模拟了解统计数据](docs/5.8.md)
+    +   [5.9 Z 分数](docs/5.9.md)
++   [6 数据可视化](docs/6.md)
+    +   [6.1 数据可视化如何拯救生命](docs/6.1.md)
+    +   [6.2 绘图解剖](docs/6.2.md)
+    +   [6.3 使用 ggplot 在 R 中绘制](docs/6.3.md)
+    +   [6.4 良好可视化原则](docs/6.4.md)
+    +   [6.5 最大化数据/墨水比](docs/6.5.md)
+    +   [6.6 避免图表垃圾](docs/6.6.md)
+    +   [6.7 避免数据失真](docs/6.7.md)
+    +   [6.8 谎言因素](docs/6.8.md)
+    +   [6.9 记住人的局限性](docs/6.9.md)
+    +   [6.10 其他因素的修正](docs/6.10.md)
+    +   [6.11 建议阅读和视频](docs/6.11.md)
++   [7 取样](docs/7.md)
+    +   [7.1 我们如何取样？](docs/7.1.md)
+    +   [7.2 采样误差](docs/7.2.md)
+    +   [7.3 平均值的标准误差](docs/7.3.md)
+    +   [7.4 中心极限定理](docs/7.4.md)
+    +   [7.5 置信区间](docs/7.5.md)
+    +   [7.6 阅读建议](docs/7.6.md)
++   [8 重新采样和模拟](docs/8.md)
+    +   [8.1 蒙特卡罗模拟](docs/8.1.md)
+    +   [8.2 统计的随机性](docs/8.2.md)
+    +   [8.3 生成随机数](docs/8.3.md)
+    +   [8.4 使用蒙特卡罗模拟](docs/8.4.md)
+    +   [8.5 使用模拟统计：引导程序](docs/8.5.md)
+    +   [8.6 阅读建议](docs/8.6.md)
++   [9 假设检验](docs/9.md)
+    +   [9.1 无效假设统计检验（NHST）](docs/9.1.md)
+    +   [9.2 无效假设统计检验：一个例子](docs/9.2.md)
+    +   [9.3 无效假设检验过程](docs/9.3.md)
+    +   [9.4 现代环境下的 NHST：多重测试](docs/9.4.md)
+    +   [9.5 阅读建议](docs/9.5.md)
++   [10 置信区间、效应大小和统计功率](docs/10.md)
+    +   [10.1 置信区间](docs/10.1.md)
+    +   [10.2 效果大小](docs/10.2.md)
+    +   [10.3 统计能力](docs/10.3.md)
+    +   [10.4 阅读建议](docs/10.4.md)
++   [11 贝叶斯统计](docs/11.md)
+    +   [11.1 生成模型](docs/11.1.md)
+    +   [11.2 贝叶斯定理与逆推理](docs/11.2.md)
+    +   [11.3 进行贝叶斯估计](docs/11.3.md)
+    +   [11.4 估计后验分布](docs/11.4.md)
+    +   [11.5 选择优先权](docs/11.5.md)
+    +   [11.6 贝叶斯假设检验](docs/11.6.md)
+    +   [11.7 阅读建议](docs/11.7.md)
++   [12 分类关系建模](docs/12.md)
+    +   [12.1 示例：糖果颜色](docs/12.1.md)
+    +   [12.2 皮尔逊卡方检验](docs/12.2.md)
+    +   [12.3 应急表及双向试验](docs/12.3.md)
+    +   [12.4 标准化残差](docs/12.4.md)
+    +   [12.5 优势比](docs/12.5.md)
+    +   [12.6 贝叶斯系数](docs/12.6.md)
+    +   [12.7 超出 2 x 2 表的分类分析](docs/12.7.md)
+    +   [12.8 注意辛普森悖论](docs/12.8.md)
++   [13 建模持续关系](docs/13.md)
+    +   [13.1 一个例子：仇恨犯罪和收入不平等](docs/13.1.md)
+    +   [13.2 收入不平等是否与仇恨犯罪有关？](docs/13.2.md)
+    +   [13.3 协方差和相关性](docs/13.3.md)
+    +   [13.4 相关性和因果关系](docs/13.4.md)
+    +   [13.5 阅读建议](docs/13.5.md)
++   [14 一般线性模型](docs/14.md)
+    +   [14.1 线性回归](docs/14.1.md)
+    +   [14.2 安装更复杂的模型](docs/14.2.md)
+    +   [14.3 变量之间的相互作用](docs/14.3.md)
+    +   [14.4“预测”的真正含义是什么？](docs/14.4.md)
+    +   [14.5 阅读建议](docs/14.5.md)
++   [15 比较方法](docs/15.md)
+    +   [15.1 学生 T 考试](docs/15.1.md)
+    +   [15.2 t 检验作为线性模型](docs/15.2.md)
+    +   [15.3 平均差的贝叶斯因子](docs/15.3.md)
+    +   [15.4 配对 t 检验](docs/15.4.md)
+    +   [15.5 比较两种以上的方法](docs/15.5.md)
++   [16 统计建模过程：一个实例](docs/16.md)
+    +   [16.1 统计建模过程](docs/16.1.md)
++   [17 做重复性研究](docs/17.md)
+    +   [17.1 我们认为科学应该如何运作](docs/17.1.md)
+    +   [17.2 科学（有时）是如何工作的](docs/17.2.md)
+    +   [17.3 科学中的再现性危机](docs/17.3.md)
+    +   [17.4 有问题的研究实践](docs/17.4.md)
+    +   [17.5 进行重复性研究](docs/17.5.md)
+    +   [17.6 进行重复性数据分析](docs/17.6.md)
+    +   [17.7 结论：提高科学水平](docs/17.7.md)
+    +   [17.8 阅读建议](docs/17.8.md)
++   [References](docs/18.md)
diff --git a/docs/0.1.md b/docs/0.1.md
@@ -0,0 +1,5 @@
+## 0.1 本书为什么存在？
+
+2018 年，我开始在斯坦福大学教授统计学本科课程（psych 10/stats 60）。我以前从未教过统计学，这是一个振作起来的机会。我对心理学的本科统计教育越来越不满意，我想把一些新的想法和方法带到课堂上。特别是，我希望采用 21 世纪实际统计实践中越来越多使用的方法。正如 Brad Efron 和 Trevor Hastie 在他们的《计算机时代统计推断：算法、证据和数据科学》一书中所阐述的那样，这些方法利用了当今日益增强的计算能力，以远远超出标准方法的方式解决统计问题。E 通常在心理学本科生的统计学课程中教授。
+
+在我教这门课的第一年，我用安迪·菲尔德的令人惊叹的图形小说《统计学的冒险》作为教科书。这本书有许多我真正喜欢的东西——特别是，我喜欢它围绕模型的构建构建构建统计实践的框架，并以足够的谨慎对待无效假设测试（在我看来，尽管没有足够的轻蔑）。不幸的是，我的大多数学生都讨厌这本书，主要是因为它涉及到大量的故事，以获得统计知识。我还发现它是想要的，因为有很多主题（特别是那些来自人工智能领域，被称为机器学习（htg0）的主题），我想包括但没有在他的书中讨论。我最终感觉到学生们最好能得到一本跟我讲课很近的书，所以我开始把我的讲课写进一套计算笔记本，最终成为这本书。这本书的提纲大致遵循菲尔德书的提纲，因为讲课最初大部分是基于这本书的流程，但内容却大不相同（而且也不那么有趣和聪明）。
diff --git a/docs/0.2.md b/docs/0.2.md
@@ -0,0 +1,5 @@
+## 0.2 你不是统计学家-我们为什么要听你的？
+
+我受过心理学家和神经科学家的训练，而不是统计学家。然而，我过去 20 年对脑成像的研究需要使用复杂的统计和计算工具，这需要我自学许多统计学的基本概念。因此，我认为我有一个坚实的感觉，什么样的统计方法是重要的科学战壕。几乎可以肯定的是，这本书中有些东西会让一个真正的统计学家恼火（例如，我确信有些地方我应该在变量上放一个![](img/4fdfcc4c22892cfa15494d9d626fc389.jpg)但没有）。
+
+尽管如此，我欢迎拥有比我更专业的统计知识的读者的意见。
diff --git a/docs/0.3.md b/docs/0.3.md
@@ -0,0 +1,7 @@
+## 0.3 为什么是 R？
+
+在我的课程中，学生学习使用 R 语言实际分析数据。“为什么是 R？”可以解释为“为什么 R 而不是像（在这里插入名称）这样的图形软件包？”毕竟，我班上的大多数学生以前从来没有编程过，所以把他们教给编程将使他们从统计学概念的教学中脱离出来。我的答案是，我认为学习统计工具的最佳方法是直接使用数据，而使用图形包会使人与数据和方法隔离开来，从而阻碍真正的理解。此外，对于我班的许多学生来说，这可能是他们接触编程的唯一课程；鉴于编程在越来越多的学术领域中是必不可少的能力，我认为为这些学生提供基本的编程知识对他们的学习至关重要。未来的成功，并希望能激励他们中的至少一些人学习更多。
+
+这个问题也可以解释为“为什么 R 而不是（在这里插入语言）”。在这个问题上，我更加矛盾，因为我非常不喜欢 R 作为编程语言（我非常喜欢 Python）。那我为什么要用它？这个问题的第一个答案是实际的——几乎所有潜在的助教（大部分是我们系的研究生）都有 R 方面的经验，因为我们的研究生统计课程使用 R。事实上，他们中的大多数人在 R 方面的技能比我强得多！另一方面，他们中相对较少的人拥有 Python 方面的专业知识。因此，如果我想要一支技能熟练的助教队伍，使用 R 是有意义的。
+
+另一个原因是免费的 rstudio 软件使新用户使用 r 相对容易。特别是，我喜欢 Rmarkdown 笔记本功能，它允许将叙述性代码和可执行代码与集成输出混合在一起。它在精神上类似于我们许多人在 Python 编程中使用的 Jupyter 笔记本，但我发现它更容易处理，因为您将其编辑为纯文本文件，而不是通过 HTML 接口。在我的课上，我给学生一个问题集的框架 rmarkdown 文件，他们提交文件并添加解决方案，然后我使用一组自动评分脚本评分。
diff --git a/docs/0.4.md b/docs/0.4.md
@@ -0,0 +1,3 @@
+## 0.4 数据的黄金时代
+
+在这本书中，我尽可能使用真实数据中的例子。这现在很容易，因为我们正在开放数据集中游泳，因为政府、科学家和公司越来越多地免费提供数据。我认为使用真实数据集很重要，因为它让学生准备好使用真实数据而不是玩具数据集，我认为这应该是统计培训的主要目标之一。它还帮助我们认识到（正如我们将在书中的不同点看到的那样），数据并不总是会出现在我们准备分析的地方，而且常常需要 _ 争论 _ 来帮助它们成形。使用真实数据还表明，通常在统计方法中假定的理想化统计分布并不总是适用于真实世界——例如，正如我们将在第[4 章](#summarizing-data)中看到的，一些真实世界数量的分布（如 Facebook 上的朋友数）可能非常长的尾巴可以打破许多标准假设。
diff --git a/docs/0.5.md b/docs/0.5.md
@@ -0,0 +1,5 @@
+## 0.5 开源书籍
+
+这本书是一个活生生的文件，这就是为什么它的来源可以在[https://github.com/poldrack/psych10-book](https://github.com/poldrack/psych10-book)在线获得的原因。如果您在本书中发现任何错误或想提出改进建议，请在 Github 网站上打开一个问题。更好的方法是，提交一个请求，其中包含您建议的更改。
+
+本书根据[Creative Commons 属性非商业 2.0 通用（CC BY-NC 2.0）许可证](https://creativecommons.org/licenses/by-nc/2.0/)获得许可。有关详细信息，请参阅该许可证的条款。
diff --git a/docs/0.6.md b/docs/0.6.md
@@ -0,0 +1,9 @@
+## 0.6 确认
+
+我首先要感谢苏珊·福尔摩斯，她首先激励我考虑写我自己的统计书。露西金提供了整本书的详细评论和编辑，并帮助清理代码，使之与 tidyverse 一致。迈克尔·亨利·泰斯勒对贝叶斯分析一章提供了非常有用的评论。特别感谢 Bookdown 软件包的创建者谢一辉（音译）改进了书籍对 Bookdown 功能的使用（包括用户通过编辑按钮直接生成编辑的功能）。
+
+我还要感谢其他提供了有益的评论和建议的人：阿塔纳西奥斯的原爸爸，韦斯利·坦西，杰克·范·霍恩。
+
+感谢以下 Twitter 用户提供的有用建议：@noriverbend
+
+感谢以下个人/用户名通过 Github 或电子邮件提交编辑或问题：Mehdi Rahim、Shanathanan Modchalingam、Alan He、Wenjin Tao、Martijn Stegeman、Dan Kessler、Philipp Kuhnke、James Kent、Michael Waskom、Alexander Wang、Isis Anderson、Albane Valenzuela、Chuanji Gao、JA 萨里·里科·赫雷拉、巴斯克维奇、嘉明港、卡洛西瓦尔、香港唐、特维尔、埃佩森、布雷特利扎贝特。
diff --git a/docs/0.md b/docs/0.md
@@ -0,0 +1 @@
+# 前言
diff --git a/docs/1.1.md b/docs/1.1.md
@@ -0,0 +1,5 @@
+## 1.1 什么是统计思维？
+
+统计思维是理解一个复杂世界的一种方式，它用相对简单的术语来描述这个世界，尽管如此，它捕捉到了这个世界结构的基本方面，同时也为我们提供了一些关于我们的知识有多不确定的概念。统计思维的基础主要来自数学和统计学，也来自计算机科学、心理学和其他研究领域。
+
+我们可以区分统计思维和其他不太可能准确描述世界的思维方式。特别是，人类的直觉经常试图回答我们可以用统计思维回答的相同问题，但往往得到错误的答案。例如，近年来，大多数美国人报告说，他们认为暴力犯罪比前一年更严重（[pew 研究中心](http://www.pewresearch.org/fact-tank/2018/01/30/5-facts-about-crime-in-the-u-s/)）。然而，对实际犯罪数据的统计分析表明，事实上，暴力犯罪自 20 世纪 90 年代以来一直在稳步下降（htg2）。直觉让我们失望，因为我们依赖于最好的猜测（心理学家称之为 _ 启发式 _），而这种猜测往往会出错。例如，人类通常使用 _ 可用性启发式 _ 来判断某些事件（如暴力犯罪）的流行率——也就是说，我们如何容易想到暴力犯罪的例子。因此，我们对提高犯罪率的判断可能更能反映新闻报道的增加，尽管犯罪率实际有所下降。统计思维为我们提供了更准确地理解世界和克服人类直觉错误的工具。