# 统计建模与R语言

## 数据描述性分析

### 位置的统计量

#### 平均数

mean()函数的常见参数：
- `x`: 必需参数，表示要计算平均值的数值向量或数值对象（矩阵、数组、数据框都可以）。
- `trim`: 可选参数，用于指定要从计算中删除的极值比例。默认值为0，表示不删除任何极值。如果设置为0.1，则将删除最高和最低的10%的极值。
- `na.rm`: 可选参数，用于控制是否删除包含缺失值（NA）的元素。默认为FALSE，表示保留包含缺失值的元素；如果设置为TRUE，则在计算平均值时会忽略缺失值。
- `weights`: 可选参数，用于指定每个元素的权重。权重应该是与x的长度相同的数值向量。（加权平均）

In [3]:
data <- seq(1, 10)
weights  <- seq(0, 1)
mean(x = data, weights = weights)

#### 极值

用`min()`,  `max()`, `range()`函数（返回最值的向量）

In [16]:
data <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
min(data)
max(data)
range(data)
range(data)[1]

#### 顺序统计量

sort()函数常用的参数：
- `x`: 必需参数，表示要排序的向量、列表、数组或数据框。
- `decreasing`: 可选参数，用于指定排序的顺序。默认值为FALSE，表示升序排序；如果设置为TRUE，则表示降序排序。
- `na.last`: 可选参数，用于指定缺失值的位置。默认值为NA，表示将缺失值放在排序的最后；如果设置为TRUE，则表示将缺失值放在排序的最后；如果设置为FALSE，则表示将缺失值放在排序的最前面。
- `index.return`: 可选参数，用于指定是否返回排序的索引。默认值为FALSE，表示不返回排序的索引；如果设置为TRUE，则返回排序后的元素在原始向量中的索引。

In [1]:
data <- c(75, 64, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5)
sort(x = data)
sort(x = data, decreasing = TRUE, index.return = TRUE)
rev(sort(x = data)) # reverse翻转

order函数可以直接按照升序返回索引值

In [6]:
order(data)
data[order(data)]

#### 中位数和百分位数

- median()求中位数就常用`x`和`na.rm`两个参数。

- quantile()函数的常见参数：
    - `x`: 必需参数，表示要计算分位数的向量或数值对象。
    - `prbs`: 可选参数，表示要计算的概率或分位数值。可以是单个概率值，也可以是一个概率值的向量。默认值为0.25，表示计算第一个四分位数。
    - `na.rm`: 可选参数，用于控制是否忽略缺失值。默认值为FALSE，表示在计算分位数时包含缺失值；如果设置为TRUE，则在计算分位数时将忽略缺失值。
    - `type`: 可选参数，用于指定分位数的计算方法。可选值包括1（计算第一个四分位数，即25%分位数，默认值）、2（计算第二个四分位数，即中位数）、3（计算第三个四分位数，即75%分位数）等。

In [1]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
quantile(x = data, probs = seq(0, 1, 0.2))

### 分散程度的统计量

#### 方差与标准差

`var()`, `sd()`函数用于计算一组数据的方差/标准差的常用参数：
- `x`: 要计算方差的数据向量或数据框。
- `na.rm`: 逻辑值，表示是否移除包含缺失值（NA）的观测值。默认为FALSE，表示不移除缺失值。

In [7]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
var(x = data)
sd(x = data)

# var()求的是样本方差， 进一步由样本方差求得总体方差
n <- length(data)
sample_var <- (n-1) * var(data) / n
sample_var

cor(), cov()用于计算相关系数、协方差，其主要参数：
- `x和y`：要计算协方差的向量、因子或数据框。
- `method`：指定计算协方差的方法，默认为"pearson"，表示使用皮尔逊相关系数。其他选项包括"kendall"（肯德尔相关系数）和"spearman"（斯皮尔曼相关系数）。

In [5]:
set.seed(1000)
data1 <- rnorm(10, mean = 2, sd = 4)
data2 <- rt(10, df = 10)
cor(x = data1, y = data2, method = "pearson")


cov(x = data1, y = data2, method = "kendall")
cov(x = data1, y = data2, method = "spearman")
cov(x = data1, y = data2, method = "pearson")

ore <-data.frame(
     x=c(67, 54, 72, 64, 39, 22, 58, 43, 46, 34),
     y=c(24, 15, 23, 19, 16, 11, 20, 16, 17, 13)
)
# 返回协方差和相关系数矩阵
cov(ore)
cor(ore)

Unnamed: 0,x,y
x,252.7667,60.6
y,60.6,17.15556


Unnamed: 0,x,y
x,1.0,0.9202595
y,0.9202595,1.0


相关系数的检验

In [4]:
cor.test(data1, data2, method = "pearson")
cor.test(data1, data2, method = "spearman")


	Pearson's product-moment correlation

data:  data1 and data2
t = 0.020605, df = 8, p-value = 0.9841
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.6252091  0.6340032
sample estimates:
        cor 
0.007284862 



	Spearman's rank correlation rho

data:  data1 and data2
S = 134, p-value = 0.6076
alternative hypothesis: true rho is not equal to 0
sample estimates:
      rho 
0.1878788 


#### 变异系数

变异系数是无量纲处理，用标准差除以均值得到。

### 分布形状的统计量

#### 偏度和峰度

In [13]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
skewness(data)  # 偏度
kurtosis(data)  # 峰度

#### summary?

In [24]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
summary(data)
summary(data)["Min."]

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  47.40   57.85   63.50   62.36   66.75   75.00 

Min. 
47.4 

## 数据分布

### 正态分布（高斯分布）

qnorm()函数是R中用于计算正态分布的累积分布函数的逆函数。它可以根据给定的概率值计算对应的分位数（即给定概率下的观测值）。以下是qnorm()函数的常用参数：
- `p`：表示累积概率值，即要计算的分位数对应的概率值。
- ` mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。
- `lower.tail`：一个逻辑值，用于指定计算累积分布函数的方式。当lower.tail=TRUE时（默认值），计算累积分布函数的左侧概率；当lower.tail=FALSE时，计算右侧概率。

In [26]:
qnorm(p = 0.05, mean = 0, sd = 1)
qnorm(p = 0.95, mean = 0, sd = 1)
qnorm(p = 0.05, mean = 0, sd = 1, lower.tail = FALSE)

pnorm()函数是R中用于计算正态分布的累积分布函数。它可以计算给定值的累积概率（即小于或等于给定值的概率）。以下是pnorm()函数的常用参数：
- `q`：表示要计算累积概率的值。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。
- `lower.tail`：一个逻辑值，用于指定计算累积分布函数的方式。当lower.tail=TRUE时（默认值），计算累积分布函数的左侧概率；当lower.tail=FALSE时，计算右侧概率。

In [28]:
pnorm(q = -0.5, mean = 0, sd = 1)
pnorm(q = -0.5, mean = 0, sd = 1, lower.tail = FALSE)

dnorm()函数是R中用于计算正态分布的概率密度函数（Probability Density Function, PDF）。它可以计算给定值处的概率密度。以下是dnorm()函数的常用参数：
- `x`：表示要计算概率密度的值。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。

In [29]:
dnorm(x = 0.6, mean = 0, sd = 1)

rnorm()函数是R中用于生成服从正态分布（高斯分布）的随机数的函数。它可以生成指定数量的随机数样本。以下是rnorm()函数的常用参数：
- `n`：表示要生成的随机数样本的数量。
- `mean`：表示正态分布的均值（默认为0）。
- `sd`：表示正态分布的标准差（默认为1）。

In [33]:
rnorm(5, mean = 0, sd = 1)

Shapiro-Wilk的正态分布检验

In [44]:
data <- c(75.0, 64.0, 47.4, 66.9, 62.2, 62.2, 58.7, 63.5, 66.6, 64.0, 57.0, 69.0, 56.9, 50.0, 72.0)
shapiro.test(data)


	Shapiro-Wilk normality test

data:  data
W = 0.96862, p-value = 0.8371


### 卡方分布（Chi-Square）

卡方分布的特殊之处只有`df`参数的设置。

In [32]:
qchisq(p = 0.05, df = 10)
qchisq(p = 0.05, df = 10, lower.tail = FALSE)
pchisq(q = 2, df = 10)
dchisq(x = 2, df = 10)
rchisq(n = 5, df = 10)

### 分布检验

#### Kolmogorov-Smirnov test（ks检验）

KS检验（Kolmogorov-Smirnov test）是一种非参数统计检验方法，用于检验两个样本是否来自同一个分布或者一个样本是否来自某个特定的理论分布。它基于经验分布函数（empirical distribution function，简称EDF）与理论分布函数之间的最大差异。有如下几个常用参数：
- `x`：待检验的数据向量，包含数值型的数据值。
- `y`：可选参数，可以是另一个数据向量，或者是指定累积分布函数的字符字符串，如pnorm。只有连续型的累积分布函数是有效的。
- `...`：对于默认方法，是传递给或从方法中传出的分布参数。可以是分布的字符字符串形式。对于其他方法，是其他需要传递的参数。
- `alternative`：指定备择假设的类型，可取值为"two.sided"（双侧检验，默认）、"less"（左侧检验）或"greater"（右侧检验）。
- `exact`：指定是否计算精确的p值，可以是NULL或逻辑值。详细解释请参考文档中的说明。

In [49]:
data <- rnorm(100, mean = 1, sd = 2)
ks.test(x = data, y = "pnorm", mean = 1, sd = 2, exact = TRUE)
ks.test(x = data, y = "pnorm", mean = 1, sd = 2, alternative = "greater", exact = TRUE)


	Exact one-sample Kolmogorov-Smirnov test

data:  data
D = 0.046175, p-value = 0.9768
alternative hypothesis: two-sided



	Exact one-sample Kolmogorov-Smirnov test

data:  data
D^+ = 0.046175, p-value = 0.6335
alternative hypothesis: the CDF of x lies above the null hypothesis


ks检验不能出现重复值，在检验前需要用相关方法进行去重。

## 参数检验

### 二项分布的检验

```r
binom.test(x = , n = , p = , alternative = c("two.sided", "greater", "less"), conf.level = )
```

In [9]:
binom.test(x = 445, n = 500, p = 0.85, alternative = "two.sided", conf.level = 0.95)


	Exact binomial test

data:  445 and 500
number of successes = 445, number of trials = 500, p-value = 0.01207
alternative hypothesis: true probability of success is not equal to 0.85
95 percent confidence interval:
 0.8592342 0.9160509
sample estimates:
probability of success 
                  0.89 
