# 统计建模与R语言

## 数据描述性分析

### 统计量

`rstatix`包的`get_summary_stats()`函数可以直接给出多个描述性统计量值：

In [35]:
library(tidyverse)
library(rstatix)
stats <- iris %>%
  group_by(Species) %>%
  get_summary_stats()
print(head(stats))

[90m# A tibble: 6 × 14[39m
  Species  variable     n   min   max median    q1    q3   iqr   mad  mean    sd
  [3m[90m<fct>[39m[23m    [3m[90m<fct>[39m[23m    [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m  [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m [3m[90m<dbl>[39m[23m
[90m1[39m setosa   Sepal.L…    50   4.3   5.8    5    4.8   5.2  0.4   0.297 5.01  0.352
[90m2[39m setosa   Sepal.W…    50   2.3   4.4    3.4  3.2   3.68 0.475 0.371 3.43  0.379
[90m3[39m setosa   Petal.L…    50   1     1.9    1.5  1.4   1.58 0.175 0.148 1.46  0.174
[90m4[39m setosa   Petal.W…    50   0.1   0.6    0.2  0.2   0.3  0.1   0     0.246 0.105
[90m5[39m versico… Sepal.L…    50   4.9   7      5.9  5.6   6.3  0.7   0.519 5.94  0.516
[90m6[39m versico… Sepal.W…    50   2     3.4    2.8  2.52  3    0.475 0.297 2.77  0.314
[90m# ℹ 2 more variables: se <dbl>

#### 平均数

```r
## Default S3 method:
mean(x, trim = 0, na.rm = FALSE, ...)
```

mean()函数的常见参数：
- `x`: 必需参数，表示要计算平均值的数值向量或数值对象（矩阵、数组、数据框都可以）。
- `trim`: 可选参数，用于指定要从计算中删除的极值比例。默认值为0，表示不删除任何极值。如果设置为0.1，则将删除最高和最低的10%的极值。
- `na.rm`: 可选参数，用于控制是否删除包含缺失值（NA）的元素。默认为FALSE，表示保留包含缺失值的元素；如果设置为TRUE，则在计算平均值时会忽略缺失值。
- `weights`: 可选参数，用于指定每个元素的权重。权重应该是与x的长度相同的数值向量。（加权平均）

In [37]:
num1 <- seq(1, 10)
weights  <- seq(0, 1, 0.1)
mean(x = num1, weights = weights)

#### 极值

用`min()`,  `max()`

In [None]:
num2 <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
min(num2)
max(num2)

用`range()`函数返回向量的范围：

In [None]:
range(num2)
range(num2)[1]

进而得到极差：

In [None]:
max(num2) - min(num2)
range(num2)[2] - range(num2)[1]

##### 中位数和百分位数

```r
quantile(x, probs = seq(0, 1, 0.25), na.rm = FALSE,
         names = TRUE, type = 7, digits = 7, ...)
```

- median()求中位数就常用`x`和`na.rm`两个参数。

- quantile()函数的常见参数：
    - `x`: 必需参数，表示要计算分位数的向量或数值对象。
    - `prbs`: 可选参数，表示要计算的概率或分位数值。可以是单个概率值，也可以是一个概率值的向量。
    - `na.rm`: 可选参数，用于控制是否忽略缺失值。默认值为FALSE，表示在计算分位数时包含缺失值；如果设置为TRUE，则在计算分位数时将忽略缺失值。
    - `type`: 可选参数，在1到9之间选择一个整数，每个数值代表一种分位数算法（具体看帮助文档）。

In [None]:
set.seed(99)
data <- round(
  rnorm(10, mean = 50, sd = 10)
)
print(quantile(x = data))

  0%  25%  50%  75% 100% 
37.0 46.0 51.0 53.5 55.0 


进而可以得到四分位距：

In [None]:
quan <- quantile(x = data)
quan[4] - quan[2]
#! 直接使用IQR()函数
IQR(data)

#### 方差与标准差

`var()`, `sd()`函数用于计算一组数据的方差/标准差的常用参数：
- `x`: 要计算方差的数据向量或数据框。
- `na.rm`: 逻辑值，表示是否移除包含缺失值（NA）的观测值。默认为FALSE，表示不移除缺失值。

In [None]:
#! var()求的是样本方差， 进一步由样本方差求得总体方差
var(x = data)
sd(x = data)


#### 变异系数

变异系数是无量纲处理，用标准差除以均值得到。

In [39]:
cv <- sd(data) / mean(data) * 100
str_c(cv, "%")

sort()函数常用的参数：
- `x`: 必需参数，表示要排序的向量、列表、数组或数据框。
- `decreasing`: 可选参数，用于指定排序的顺序。默认值为FALSE，表示升序排序；如果设置为TRUE，则表示降序排序。
- `na.last`: 可选参数，用于指定缺失值的位置。默认值为NA，表示将缺失值放在排序的最后；如果设置为TRUE，则表示将缺失值放在排序的最后；如果设置为FALSE，则表示将缺失值放在排序的最前面。
- `index.return`: 可选参数，用于指定是否返回排序的索引。默认值为FALSE，表示不返回排序的索引；如果设置为TRUE，则返回排序后的元素在原始向量中的索引。

In [None]:
data <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
sort(x = data)
sort(x = data, decreasing = TRUE, index.return = TRUE)
rev(sort(x = data)) # reverse翻转

#### 偏度和峰度

In [None]:
library(datawizard)
print(skewness(data))  #! 偏度
print(kurtosis(data))  #! 峰度

Skewness |    SE
----------------
  -0.893 | 0.579
Kurtosis |    SE
----------------
  -0.193 | 0.755


order函数可以直接按照升序返回索引值

In [None]:
order(data)
data[order(data)]

cor(), cov()用于计算相关系数、协方差，其主要参数：
- `x和y`：要计算协方差的向量、因子或数据框。
- `method`：指定计算协方差的方法，默认为"pearson"，表示使用皮尔逊相关系数。其他选项包括"kendall"（肯德尔相关系数）和"spearman"（斯皮尔曼相关系数）。

In [None]:
set.seed(1000)
data1 <- rnorm(10, mean = 2, sd = 4)
data2 <- rt(10, df = 10)
cor(x = data1, y = data2, method = "pearson")


cov(x = data1, y = data2, method = "kendall")
cov(x = data1, y = data2, method = "spearman")
cov(x = data1, y = data2, method = "pearson")

ore <-data.frame(
     x=c(67, 54, 72, 64, 39, 22, 58, 43, 46, 34),
     y=c(24, 15, 23, 19, 16, 11, 20, 16, 17, 13)
)
# 返回协方差和相关系数矩阵
cov(ore)
cor(ore)

Unnamed: 0,x,y
x,252.7667,60.6
y,60.6,17.15556


Unnamed: 0,x,y
x,1.0,0.9202595
y,0.9202595,1.0


相关系数的检验

In [None]:
cor.test(data1, data2, method = "pearson")
cor.test(data1, data2, method = "spearman")


	Pearson's product-moment correlation

data:  data1 and data2
t = 0.020605, df = 8, p-value = 0.9841
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.6252091  0.6340032
sample estimates:
        cor 
0.007284862 



	Spearman's rank correlation rho

data:  data1 and data2
S = 134, p-value = 0.6076
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.1878788 


### 列联表

传统的table()函数功能少且不方便，推荐使用`janitor`包的一系列函数（核心函数`tabyl()`），然后结合bruceR包中的print_table()函数实现三线统计表的输出。

#### tabyl()

```r
## S3 method for class 'data.frame'
tabyl(dat, var1, var2, var3, show_na = TRUE, show_missing_levels = TRUE, ...)
```
根据变量数确定一维表，二维表还是三维表（类似多维数组的“分页”）

In [42]:
library(janitor)
library(bruceR)
mpg %>%
  tabyl(drv, cyl) %>%
  print_table()

─────────────────────────────────
   drv      4     5      6      8
─────────────────────────────────
1    4 23.000 0.000 32.000 48.000
2    f 58.000 4.000 43.000  1.000
3    r  0.000 0.000  4.000 21.000
─────────────────────────────────


#### adorn_title()

```r
adorn_title(dat, placement = "top", row_name, col_name)
```
参数解释：
- `dat`：tabyl对象
- `placement`：确定列名的放置位置。"top"将列名添加到tabyl的顶部，作为一个单独的空行，"combined"附加到已存在的行名变量上。
- `row_name, col_name`：（可选）默认就是进行列联表统计的变量名。提供一个字符串以覆盖默认文本。

In [44]:
mpg %>%
  tabyl(drv, cyl) %>%
  adorn_title(placement = "combined") %>%
  print_table()

─────────────────────────────────────
   drv/cyl      4     5      6      8
─────────────────────────────────────
1        4 23.000 0.000 32.000 48.000
2        f 58.000 4.000 43.000  1.000
3        r  0.000 0.000  4.000 21.000
─────────────────────────────────────


#### adorn_percentages()

列联表默认是统计频数，可以转换成百分比的形式。

```r
adorn_percentages(dat, denominator = "row", na.rm = TRUE, ...)
```
`denominator`参数用于计算百分比的方向。可以是"row"（按行计算），"col"（按列计算）或"all"（总计算）之一。

In [45]:
mpg %>%
  tabyl(drv, cyl) %>%
  adorn_title(placement = "combined") %>%
  adorn_percentages(denominator = "col") %>%
  print_table()

──────────────────────────────────
   drv/cyl     4     5     6     8
──────────────────────────────────
1        4 0.284 0.000 0.405 0.686
2        f 0.716 1.000 0.544 0.014
3        r 0.000 0.000 0.051 0.300
──────────────────────────────────


#### adorn_pct_formatting()

将上面小数点的形式转换成百分数的形式。

```r
adorn_pct_formatting(
  dat,
  digits = 1,
  rounding = "half to even",
  affix_sign = TRUE,
  ...
)
```
参数解释：
- `digits`：小数点后应显示多少位数字。
- `rounding`：用于四舍五入的方法：可以是"half to even"（即基本R的默认方法），或者"half up"。
- `affix_sign`：是否应该在末尾附加%符号，默认为TRUE。

"Half to even" 也被称为 "round half to even" 或 "banker's rounding"，它实际上是一种四舍五入的方法。它与标准的四舍五入有所不同，特别是在处理"5"时。在 "half to even" 方法中，当要舍入的数字是 "5" 时，如果它前面的数字是偶数，则向下舍入；如果前面的数字是奇数，则向上舍入。这种方法旨在减小累积舍入误差的影响，因此在统计学和金融领域中经常使用。它的名字 "banker's rounding" 源自银行和金融机构在舍入操作中的常见做法。

例如：

2.5 将被四舍五入为 2（因为前面的数字 2 是偶数）。
3.5 将被四舍五入为 4（因为前面的数字 3 是奇数）。
这与标准的四舍五入方法不同，标准的四舍五入方法会始终向上舍入，不考虑前面的数字是奇数还是偶数。

In [46]:
mpg %>%
  tabyl(drv, cyl) %>%
  adorn_title(placement = "combined") %>%
  adorn_percentages(denominator = "col") %>%
  adorn_pct_formatting(digits = 2) %>%
  print_table()

───────────────────────────────────────
   drv/cyl      4       5      6      8
───────────────────────────────────────
1        4 28.40% 0.00%   40.51% 68.57%
2        f 71.60% 100.00% 54.43% 1.43% 
3        r 0.00%  0.00%   5.06%  30.00%
───────────────────────────────────────


#### adorn_totals()

```r
adorn_totals(dat, where = "row", fill = "-", na.rm = TRUE, name = "Total", ...)
```
where参数指定要计算总和的方向，可以是"row"（按行计算），"col"（按列计算）或 c("row", "col")（同时计算行和列）之一。

In [48]:
mpg %>%
  tabyl(drv, cyl) %>%
  adorn_title(placement = "combined") %>%
  adorn_totals(where = c("row", "col")) %>%
  print_table()

─────────────────────────────────────────────
   drv/cyl      4     5      6      8   Total
─────────────────────────────────────────────
1    4     23.000 0.000 32.000 48.000 103.000
2    f     58.000 4.000 43.000  1.000 106.000
3    r      0.000 0.000  4.000 21.000  25.000
4    Total 81.000 4.000 79.000 70.000 234.000
─────────────────────────────────────────────


#### adorn_ns()

这个函数将使用adorn_percentages()计算的百分比的底层频数值添加回tabyl，以便将频数值和百分比一起显示。
```r
adorn_ns(
  dat,
  position = "rear",
  ns = attr(dat, "core"),
  format_func = function(x) {
     format(x, big.mark = ",")
 },
  ...
)
```
`position`参数决定频数值是在前面（front）还是后面（rear）。

In [49]:
mpg %>%
  tabyl(drv, cyl) %>%
  adorn_title(placement = "combined") %>%
  adorn_percentages() %>%
  adorn_pct_formatting(digits = 2) %>%
  adorn_ns(position = "front") %>%
  bruceR::print_table()

────────────────────────────────────────────────────────
   drv/cyl           4         5           6           8
────────────────────────────────────────────────────────
1        4 23 (22.33%) 0 (0.00%) 32 (31.07%) 48 (46.60%)
2        f 58 (54.72%) 4 (3.77%) 43 (40.57%) 1  (0.94%) 
3        r 0  (0.00%)  0 (0.00%) 4 (16.00%)  21 (84.00%)
────────────────────────────────────────────────────────


## 数据分布

### 正态分布（高斯分布）

qnorm()函数是R中用于计算正态分布的累积分布函数的逆函数。它可以根据给定的概率值计算对应的分位数（即给定概率下的观测值）。以下是qnorm()函数的常用参数：
- `p`：表示累积概率值，即要计算的分位数对应的概率值。
- ` mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。
- `lower.tail`：一个逻辑值，用于指定计算累积分布函数的方式。当lower.tail=TRUE时（默认值），计算累积分布函数的左侧概率；当lower.tail=FALSE时，计算右侧概率。

In [None]:
qnorm(p = 0.05, mean = 0, sd = 1)
qnorm(p = 0.95, mean = 0, sd = 1)
qnorm(p = 0.05, mean = 0, sd = 1, lower.tail = FALSE)

pnorm()函数是R中用于计算正态分布的累积分布函数。它可以计算给定值的累积概率（即小于或等于给定值的概率）。以下是pnorm()函数的常用参数：
- `q`：表示要计算累积概率的值。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。
- `lower.tail`：一个逻辑值，用于指定计算累积分布函数的方式。当lower.tail=TRUE时（默认值），计算累积分布函数的左侧概率；当lower.tail=FALSE时，计算右侧概率。

In [None]:
pnorm(q = -0.5, mean = 0, sd = 1)
pnorm(q = -0.5, mean = 0, sd = 1, lower.tail = FALSE)

dnorm()函数是R中用于计算正态分布的概率密度函数（Probability Density Function, PDF）。它可以计算给定值处的概率密度。以下是dnorm()函数的常用参数：
- `x`：表示要计算概率密度的值。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。

In [None]:
dnorm(x = 0.6, mean = 0, sd = 1)

rnorm()函数是R中用于生成服从正态分布（高斯分布）的随机数的函数。它可以生成指定数量的随机数样本。以下是rnorm()函数的常用参数：
- `n`：表示要生成的随机数样本的数量。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。

In [None]:
rnorm(5, mean = 0, sd = 1)

Shapiro-Wilk的正态分布检验

In [None]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
shapiro.test(data)


	Shapiro-Wilk normality test

data:  data
W = 0.96862, p-value = 0.8371


### 卡方分布（Chi-Square）

卡方分布的特殊之处只有`df`参数的设置。

In [None]:
qchisq(p = 0.05, df = 10)
qchisq(p = 0.05, df = 10, lower.tail = FALSE)
pchisq(q = 2, df = 10)
dchisq(x = 2, df = 10)
rchisq(n = 5, df = 10)

### 分布检验

#### Kolmogorov-Smirnov test（ks检验）

KS检验（Kolmogorov-Smirnov test）是一种非参数统计检验方法，用于检验两个样本是否来自同一个分布或者一个样本是否来自某个特定的理论分布。它基于经验分布函数（empirical distribution function，简称EDF）与理论分布函数之间的最大差异。有如下几个常用参数：
- `x`：待检验的数据向量，包含数值型的数据值。
- `y`：可选参数，可以是另一个数据向量，或者是指定累积分布函数的字符字符串，如pnorm。只有连续型的累积分布函数是有效的。
- `...`：对于默认方法，是传递给或从方法中传出的分布参数。可以是分布的字符字符串形式。对于其他方法，是其他需要传递的参数。
- `alternative`：指定备择假设的类型，可取值为"two.sided"（双侧检验，默认）、"less"（左侧检验）或"greater"（右侧检验）。
- `exact`：指定是否计算精确的p值，可以是NULL或逻辑值。详细解释请参考文档中的说明。

In [None]:
data <- rnorm(100, mean = 1, sd = 2)
ks.test(x = data, y = "pnorm", mean = 1, sd = 2, exact = TRUE)
ks.test(x = data, y = "pnorm", mean = 1, sd = 2, alternative = "greater", exact = TRUE)


	Exact one-sample Kolmogorov-Smirnov test

data:  data
D = 0.046175, p-value = 0.9768
alternative hypothesis: two-sided



	Exact one-sample Kolmogorov-Smirnov test

data:  data
D^+ = 0.046175, p-value = 0.6335
alternative hypothesis: the CDF of x lies above the null hypothesis


ks检验不能出现重复值，在检验前需要用相关方法进行去重。

## 参数检验

### 二项分布的检验

```r
binom.test(x = , n = , p = , alternative = c("two.sided", "greater", "less"), conf.level = )
```

In [None]:
binom.test(x = 445, n = 500, p = 0.85, alternative = "two.sided", conf.level = 0.95)


	Exact binomial test

data:  445 and 500
number of successes = 445, number of trials = 500, p-value = 0.01207
alternative hypothesis: true probability of success is not equal to 0.85
95 percent confidence interval:
 0.8592342 0.9160509
sample estimates:
probability of success 
                  0.89 
