# 统计方法

### 参数检验

函数：

```
t.test(x,y=NULL,

    alternative=c("two.sided","less","greater"),

    mu=0,paired=FALSE,var.equal=FALSE,

    conf.level=0.95)

```

例子：
某种原件的寿命X（以小时计）服从正态分布N（μ, σ)其中μ, σ2均未知。现测得16只元件的寿命如下：

                 159 280 101 212 224 379 179 264
                  222 362 168 250 149 260 485 170

问是否有理由认为元件的平均寿命大于255小时？

In [None]:
X<-c(159, 280, 101, 212, 224, 379, 179, 264,
        222, 362, 168, 250, 149, 260, 485, 170)
t.test(X,alternative = "greater",mu=225)

### 回归分析

线性回归函数：

```
lm(formula, data, subset, weights, na.action,

  method = "qr", model = TRUE, x = FALSE, y = FALSE, qr = TRUE,

  singular.ok = TRUE, contrasts = NULL, offset, ...)
```
以下是所使用的参数的说明

- 公式是表示x和y之间的关系的符号。

- 数据是应用公式的向量。


预测函数：
```
predict(object, newdata)
```

以下是所使用的参数的描述

- object是已使用lm()函数创建的公式。

- newdata是包含预测变量的新值的向量。


建立回归的步骤

回归的简单例子是当人的身高已知时预测人的体重。 为了做到这一点，我们需要有一个人的身高和体重之间的关系。

创建关系的步骤是：

- 进行收集高度和相应重量的观测值的样本的实验。

- 使用R语言中的lm()函数创建关系模型。

- 从创建的模型中找到系数，并使用这些创建数学方程

- 获得关系模型的摘要以了解预测中的平均误差。 也称为残差。

- 为了预测新人的体重，使用R中的predict()函数

In [None]:
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

plot(x,y)

In [None]:
# Apply the lm() function.
relation <- lm(y~x)

print(summary(relation))

In [None]:
# The predictor vector.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)

# The resposne vector.
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)

# Apply the lm() function.
relation <- lm(y~x)

# Find weight of a person with height 170.
a <- data.frame(x = 170)
result <-  predict(relation,a)
print(result)

In [None]:
# Create the predictor and response variable.
x <- c(151, 174, 138, 186, 128, 136, 179, 163, 152, 131)
y <- c(63, 81, 56, 91, 47, 57, 76, 72, 62, 48)
relation <- lm(y~x)

# Plot the chart.
plot(y,x,col = "blue",main = "Height & Weight Regression",
abline(lm(x~y)),cex = 1.3,pch = 16,xlab = "Weight in Kg",ylab = "Height in cm")


### 模拟

在统计分析中，除了随机模拟是统计研究的重要方法， 另外许多现代统计计算方法（如MCMC）也是基于随机模拟的。 R中提供了多种不同概率分布的随机数函数， 可以批量地产生随机数。 一些R扩展包利用了随机模拟方法，如boot包进行bootstrap估计。主要讲：

- 随机数
- 随机抽样
- 随机模拟

所谓随机数，实际是“伪随机数”， 是从一组起始值（称为种子）， 按照某种递推算法向前递推得到的。 所以，从同一种子出发，得到的随机数序列是相同的。

为了得到可重现的结果， 随机模拟应该从固定不变的种子开始模拟。 用set.seed(k)指定一个编号为k的种子， 这样每次从编号k种子运行相同的模拟程序可以得到相同的结果。

R提供了多种分布的随机数函数，如runif(n)产生n个标准均匀分布随机数， rnorm(n)产生n个标准正态分布随机数。


In [None]:
round(runif(5), 2)

In [None]:
round(rnorm(5), 2)

用R中的随机抽样函数，可以模拟统计中的抽样过程，分为：

- 抽样，`sample()`函数
- Bootstrap方法


In [None]:
# sample()的选项size指定抽样个数， prob指定每个值的概率， replace=TRUE说明是有放回抽样。

sample(c('正面', '反面'), size=10, prob=c(0.7, 0.3), replace=TRUE)

以下尝试一个随机模拟的例子，考虑如下线性回归模型

![](./images/随机模拟示例.png)

In [None]:
n <- 10; a <- 10; b <- 2
x <- sample(1:10, size=n, replace=TRUE)
eps <- rnorm(n, 0, 0.5)
y <- a + b * x + eps

plot(x,y)

In [None]:
lm(y ~ x)

In [None]:
summary(lm(y ~ x)) # 返回一个矩阵， 包括a,b的估计值、标准误差、t检验统计量、检验p值

In [None]:
c(summary(lm(y ~ x))$coefficients[,1:2]) # 相应的估计值以及标准差

用replicate(, 复合语句)执行多次模拟， 返回向量或矩阵结果， 返回矩阵时，每列是一次模拟的结果。 下面是线性回归整个模拟程序，写成了一个函数。

In [None]:
reg.sim <- function(
  a=10, b=2, sigma=0.5, 
  n=10, B=1000){
  set.seed(1)
  resm <- replicate(B, {
      x <- sample(1:10, size=n, replace=TRUE)
      eps <- rnorm(n, 0, 0.5)
      y <- a + b * x + eps
      c(summary(lm(y ~ x))$coefficients[,1:2])
  })
  resm <- t(resm)
  colnames(resm) <- c('a', 'b', 'SE.a', 'SE.b')
  cat(B, '次模拟的平均值:\n')
  print( apply(resm, 2, mean) )
  cat(B, '次模拟的标准差:\n')
  print( apply(resm, 2, sd) )
}

set.seed(1)
reg.sim()