# 기초적인 자료분석 방법

## 수치형 자료

### 1) 단일집단

- 단일 집단으로부터 얻어진 표본을 사용해 수치형 혹은 순서형 변수 하나를 평가하는 경우

    예) 전북대학교 통계학과 학부생의 평균 키는 165cm 인가?    

- 얻어진 표본이 정규분포를 따르는 경우  $\rightarrow $  모수적방법 one-sample t-test<br><br>

    * 모평균 $\mu$, 표본 크기 $n$, 표준편차의 추정값 $S$, 가정된 값 $\mu_1$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $\mu = \mu_1$ <br>
        $H_1$ : $\mu \neq \mu_1$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n, \bar{X}, S$ <br><br>
        
        3. $H_0$에 해당하는 검정통계량 값 계산 

        $\displaystyle  t = \frac{(\bar{X}-\mu_1)}{S/\sqrt{n}} \sim t_{n-1}$
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교  
        Student t distiribution table과 비교 

        5. P-value를 해석하고 결론을 내림 
        해당 P-value를 해석하고 모평균 $\mu$에 대한 신뢰구간을 계산 

         95$% CI = $$\bar{x} \pm t_{0.025}\times (S  /\sqrt{n})$

<center>Student t distribution 양측 P-value</center>


| $df$ | 0.10  | 0.05   | 0.01   | 0.001  |
|------|-------|--------|--------|--------|
| 1    | 6.314 | 12.706 | 63.656 | 636.58 |
| 2    | 2.920 | 4.303  | 9.925  | 31.600 |
| 3    | 2.353 | 3.182  | 5.841  | 12.924 |
| 4    | 2.132 | 2.776  | 4.604  | 8.610  |
| 5    | 2.015 | 2.571  | 4.032  | 6.869  |
| 6    | 1.943 | 2.447  | 3.707  | 5.959  |
| 7    | 1.895 | 2.365  | 3.499  | 5.408  |
| 8    | 1.860 | 2.306  | 3.355  | 5.041  |
| 9    | 1.833 | 2.262  | 3.250  | 4.781  |
| 10   | 1.812 | 2.228  | 3.169  | 4.587  |
| | | | | |
| 11   | 1.796 | 2.201  | 3.106  | 4.437  |
| 12   | 1.782 | 2.179  | 3.055  | 4.318  |
| 13   | 1.771 | 2.160  | 3.012  | 4.221  |
| 14   | 1.761 | 2.145  | 2.977  | 4.140  |
| 15   | 1.753 | 2.131  | 2.947  | 4.073  |
| 16   | 1.746 | 2.120  | 2.921  | 4.015  |
| 17   | 1.740 | 2.110  | 2.898  | 3.965  |
| 18   | 1.734 | 2.101  | 2.878  | 3.922  |
| 19   | 1.729 | 2.093  | 2.861  | 3.883  |
| 20   | 1.725 | 2.086  | 2.845  | 3.850  |
| | | | | |
| 21   | 1.721 | 2.080  | 2.831  | 3.819  |
| 22   | 1.717 | 2.074  | 2.819  | 3.792  |
| 23   | 1.714 | 2.069  | 2.807  | 3.768  |
| 24   | 1.711 | 2.064  | 2.797  | 3.745  |
| 25   | 1.708 | 2.060  | 2.787  | 3.725  |
| 26   | 1.706 | 2.056  | 2.779  | 3.707  |
| 27   | 1.703 | 2.052  | 2.771  | 3.689  |
| 28   | 1.701 | 2.048  | 2.763  | 3.674  |
| 29   | 1.699 | 2.045  | 2.756  | 3.660  |
| 30   | 1.697 | 2.042  | 2.750  | 3.646  |
| 40   | 1.684 | 2.021  | 2.704  | 3.551  |
| 50   | 1.676 | 2.009  | 2.678  | 3.496  |
| 100  | 1.660 | 1.984  | 2.626  | 3.390  |
| 200  | 1.653 | 1.972  | 2.601  | 3.340  |
| 5000 | 1.645 | 1.960  | 2.577  | 3.293  |

In [None]:
A1 <- rnorm(40,170,10); mu1 <- 165

In [None]:
hist(A1)

In [None]:
shapiro.test(A1)

In [None]:
A1; mu1

In [None]:
length(A1); mean(A1); sd(A1)

In [None]:
t <- (mean(A1)-mu1)/(sd(A1)/sqrt(length(A1)))

In [None]:
t

In [None]:
t.test(A1,mu=mu1)

- 얻어진 표본이 정규분포를 따르지 않는 경우 $\rightarrow $ 비모수적방법 <b>sign test</b> or Wilcoxon's signed ranks test <br><br>

    * 모집단 중앙값 $median_{pop}$, 표본 크기 $n$, 가정된 값 $\lambda$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $median_{pop} = \lambda$ <br>
        $H_1$ : $median_{pop} \neq \lambda$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n', r$ <br><br>
        
        3. $H_0$에 해당하는 검정통계량 값 계산 <br>
        $n$개의 표본 중 $\lambda$와 동일한 값을 가지는 표본을 제외하고 남아 있는 표본 크기 $n'$ <br>
        $n'$개 표본 중 $\lambda$보다 큰 표본의 개수와 $\lambda$보다 작은 표본의 개수 중 작은 것 $r$ <br>
        $n' \leq 10$ 인 경우 $r$을 검정통계량으로 사용 <br>
        $n' > 10$ 인 경우  $z$를 검정통계량으로 사용 <br>
        # $z = \frac{|r-\frac{n'}{2}| -\frac{1}{2}}{\frac{\sqrt{n'}}{2}}$ <br><br>
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교 <br>
        $n' \leq 10$이면 $r$을 Sign test table과 비교 <br>
        $n' > 10$ 이면 $z$를 Standard normal distribution table과 비교 <br><br>

        5. $P-value$를 해석하고 결론을 내림 <br>
        해당 $P-value$를 해석하고 중앙값에 대한 신뢰구간을 계산 <br>
        중앙값에 대한 근사적 신뢰구간(통계 소프트웨어 계산 or 표와 비교)

<center>Sign test 양측 P-value<br>
$r =$ "양의 차이값"에 관한 수
</center>


| $df$ | 0     | 1     | 2     | 3     | 4     | 5     |
|------|-------|-------|-------|-------|-------|-------|
| 4 | 0.125 | 0.624 | 1.000 |       |       |       |
| 5 | 0.062 | 0.376 | 1.000 |       |       |       |
| 6 | 0.032 | 0.218 | 0.688 | 1.000 |       |       |
| 7 | 0.016 | 0.124 | 0.454 | 1.000 |       |       |
| 8 | 0.008 | 0.070 | 0.290 | 0.726 | 1.000 |       |
| 9 | 0.004 | 0.040 | 0.180 | 0.508 | 1.000 |       |
| 10 | 0.001 | 0.022 | 0.110 | 0.344 | 0.754 | 1.000 |
|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|





<center>Standard normal distribution </center>


| $z$ | 양측 P-value |
|------|-------|
| 0.0 | 1.000 |
| 0.1 | 0.920 |
| 0.2 | 0.841 |
| 0.3 | 0.764 |
| 0.4 | 0.689 |
| 0.5 | 0.617 |
| 0.6 | 0.549 |
| 0.7 | 0.484 |
| 0.8 | 0.424 |
| 0.9 | 0.368 |
| | |
| 1.0 | 0.317 |
| 1.1 | 0.271 |
| 1.2 | 0.230 |
| 1.3 | 0.194 |
| 1.4 | 0.162 |
| 1.5 | 0.134 |
| 1.6 | 0.110 |
| 1.7 | 0.089 |
| 1.8 | 0.072 |
| 1.9 | 0.057 |
| | |
| 2.0 | 0.046 |
| 2.1 | 0.036 |
| 2.2 | 0.028 |
| 2.3 | 0.021 |
| 2.4 | 0.016 |
| 2.5 | 0.012 |
| 2.6 | 0.009 |
| 2.7 | 0.007 |
| 2.8 | 0.005 |
| 2.9 | 0.004 |
| 3.0 | 0.003 |
| 3.1 | 0.002 |
| 3.2 | 0.001 |
| 3.3 | 0.001 |
| 3.4 | 0.001 |
| 3.5 | 0.000 |





In [None]:
A2 <- sample(x=150:180, size=30, replace=T); lambda=160

In [None]:
hist(A2)

In [None]:
shapiro.test(A2)

In [None]:
A2;median(A2);lambda

In [None]:
sum(A2-lambda>0); sum(A2-lambda<0); sum(A2-lambda!=0)

In [None]:
z <- (abs(min(sum(A2-lambda<0),sum(A2-lambda>0))-(sum(A2-lambda!=0)/2))-(1/2))/(sqrt(sum(A2-lambda!=0))/2)

In [None]:
z

In [None]:
install.packages("BSDA")

In [None]:
library(BSDA)

In [None]:
SIGN.test(A2, md=lambda)

In [None]:
wilcox.test(A2, lambda, exact=FALSE)

---

### 2) 서로 관련이 있는 두 집단(aka.짝지어진)

- 서로 관련이 있는 두 표본의 평균 비교

    예) 전북대학교 통계학과 학부생의 10년전 키와 현재 키는 차이가 있는가?

- 얻어진 표본이 정규분포를 따르는 경우  $\rightarrow $  모수적방법 paired t-test<br><br>

    * A 집단 모평균 $\mu_{A}$, B 집단 모평균 $\mu_{B}$, 표본 크기 $n$, 자료들의 차이 $(d_{1}, d_{2}$, $\cdots$, $d_{n})$, 표본평균 $\bar{d}$, 표준편차 추정값 $S_{d}$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $\mu_{d} = \mu_{A} - \mu_{B} = 0$ <br>
        $H_1$ : $\mu_{d} \neq 0$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n, \bar{d}, S_{d}$ <br><br>
        
        3. $H_0$에 해당하는 검정통계량 값 계산 <br>
        $\displaystyle t = \frac{(\bar{d}-0)}{SE(\bar{d})} = \frac{\bar{d}}{S_{d}  /\sqrt{n}}\sim t_{n-1}$
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교 <br>
        Student t distribution table과 비교 

        5. P-value를 해석하고 결론을 내림 <br>
        해당 P-value를 해석하고 모평균 $\mu_{d}$에 대한 신뢰구간을 계산 <br>
        95%CI = $\bar{d}$ $\pm$ $t_{0.025}$ $\times$ $(S_{d}$  /$\sqrt{n})$

In [None]:
B1_A <- rnorm(40,140,10); B1_B <- rnorm(40,170,10)

In [None]:
hist(B1_A); hist(B1_B)

In [None]:
shapiro.test(B1_A); shapiro.test(B1_B)

In [None]:
d1 <- (B1_A-B1_B)

In [None]:
length(d1); mean(d1); sd(d1)

In [None]:
t <- mean(d1)/(sd(d1)/sqrt(length(d1)))

In [None]:
t

In [None]:
t.test(B1_A, B1_B, paired=T)

- 얻어진 표본이 정규분포를 따르지 않는 경우 $\rightarrow $ 비모수적방법 Wilcoxon's signed ranks test <br><br>

    * 중앙값의 차이 $median_{d}$, 표본 크기 $n$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $median_{d} = 0$ <br>
        $H_1$ : $median_{d} \neq 0$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n', T_{+}, T_{-}$ <br><br>
        
        3. $H_0$에 해당하는 검정통계량 값 계산 <br>
        각 짝의 차이를 계산 후 0인 경우를 제외한 표본 크기 $n'$ <br>
        $n'$개 표본 중 부호를 무시한 상태에서 가장 작은 차이에 순위 1을, 가장 큰 차이에 순위 $n'$을 매긴다. <br>
        부호가 양인 짝들의 순위의 합 $T_{+}$, 부호가 음인 짝들의 순위의 합 $T_{-}$ 중 작은 값을 $T$ <br>
        $n' \leq 25$ 인 경우 $T$를 검정통계량으로 사용 <br>
        $n' > 25$ 인 경우 $z$ 를 검정통계량으로 사용 <br>
        # $z = \frac{|T-\frac{n'(n'+1)}{4}| -\frac{1}{2}}{\sqrt{\frac{n'(n'+1)(2n'+1)}{24}}}$ <br><br>
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교 <br>
        $n' \leq 25$이면 $T$를 Wilcoxon signed rank test's critical range table과 비교 <br>
        $n' > 25$ 이면 $z$를 Standard normal distribution table과 비교 <br><br>

        5. P-value를 해석하고 결론을 내림 <br>
        해당 P-value를 해석하고 전체 표본을 사용해 모집단 중앙값 차이에 관한 신뢰구간을 계산 <br>
        중앙값에 대한 근사적 신뢰구간(통계 소프트웨어 계산 or 표와 비교)

<center>Wilcoxn signed-rank test's critical range</center>


| $n'$ | 0.05  | 0.01  | 0.001 |
|------|-------|-------|-------|
| 6 | 0-21 | - | - |
| 7 | 2-26 | - | - |
| 8 | 3-33 | 0-36 | - |
| 9 | 5-40 | 1-44 | - |
| 10 | 8-47 | 3-52 | - |
|  |  |  |  |
| 11 | 10-56 | 5-61 | 0-66 |
| 12 | 13-65 | 7-71 | 1-77 |
| 13 | 17-74 | 9-82 | 2-89 |
| 14 | 21-84 | 12-93 | 4-101 |
| 15 | 25-95 | 15-105 | 6-114 |
| 16 | 29-107 | 19-117 | 9-127 |
| 17 | 34-119 | 23-130 | 11-142 |
| 18 | 40-131 | 27-144 | 14-157 |
| 19 | 46-144 | 32-158 | 18-172 |
| 20 | 52-158 | 37-173 | 21-189 |
|  |  |  |  |
| 21 | 58-173 | 42-189 | 26-205 |
| 22 | 66-187 | 48-205 | 30-223 |
| 23 | 73-203 | 54-222 | 35-241 |
| 24 | 81-219 | 61-239 | 40-260 |
| 25 | 89-236 | 68-257 | 45-280 |
|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|


In [None]:
B2_A <- sample(x=130:160, size=40, replace=T); B2_B <- sample(x=150:180, size=40, replace=T)

In [None]:
hist(B2_A); hist(B2_B)

In [None]:
shapiro.test(B2_A); shapiro.test(B2_B)

In [None]:
d2 <- (B2_A-B2_B)

In [None]:
order_d2 <- rank(abs(d2))

In [None]:
sum(subset(order_d2,d2>0)); sum(subset(order_d2,d2<0));sum(d2==0)

In [None]:
z <- (abs(min(sum(subset(order_d2,d2>0)),sum(subset(order_d2,d2<0)))-((length(d2)-sum(d2==0))*((length(d2)-sum(d2==0))+1))/(4))-(1/2))/(sqrt(((length(d2)-sum(d2==0))*((length(d2)-sum(d2==0))+1)*(2*(length(d2)-sum(d2==0))+1))/(24)))

In [None]:
z

In [None]:
wilcox.test(B2_A, B2_B, paired=T, exact=FALSE)

In [None]:
qnorm(wilcox.test(B2_A, B2_B, paired=T, exact=FALSE)$p.value/2)

### 3) 서로 독립적인 두 집단

- 서로 관련이 없는(독립적인) 두 표본의 평균 비교

    예) 전북대학교 통계학과 학부생과 모델학과 학부생의 키는 차이가 있는가?

- 얻어진 표본이 정규분포를 따르는 경우  $\rightarrow $  모수적방법 independent t-test<br><br>

    * A 집단 모평균 $\mu_{1}$, 표본 크기 $n_{1}$, 표본평균 $\bar{X_{1}}$, 표본표준편차 $S_{1}$ <br>
      B 집단 모평균 $\mu_{2}$, 표본 크기 $n_{2}$, 표본평균 $\bar{X_{2}}$, 표본표준편차 $S_{2}$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $\mu_{1} = \mu_{2}$ <br>
        $H_1$ : $\mu_{1} \neq \mu_{2}$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n_{1}, n_{2}, \bar{X_{1}}, \bar{X_{2}}, S_{1}, S_{2}$
        
        3. $H_0$에 해당하는 검정통계량 값 계산 <br>
        두 집단간 결합표준편차 <br> 
         $\displaystyle S_{P} = \sqrt{\frac{(n_{1}-1)S_{1}^{2}+(n_{2}-1)S_{2}^{2}}{n_{1}+n_{2}-2}} $

        $\displaystyle t = \frac{(\bar{X_{1}}-\bar{X_{2}})-0}{SE(\bar{X_{1}}-\bar{X_{2}})} = \frac{(\bar{X_{1}}-\bar{X_{2}})}{S_{P}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}\sim t_{n_{1}+n_{2}-2}$ 
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교 <br>
        Student t distribution table과 비교 

        5. P-value를 해석하고 결론을 내림 <br>
        해당 P-value를 해석하고 두 모평균의 차이에 대한 신뢰구간을 계산 <br>
        95CI = $(\bar{X_{1}} - \bar{X_{2}})\pm t_{0.025}\times SE(\bar{X_{1}}-\bar{X_{2}})$

In [None]:
C1_A <- rnorm(40,170,10); C1_B <- rnorm(40,178,10)

In [None]:
hist(C1_A); hist(C1_B)

In [None]:
shapiro.test(C1_A); shapiro.test(C1_B)

In [None]:
var.test(C1_A, C1_B)

In [None]:
s_p <- sqrt((((length(C1_A)-1)*sd(C1_A)^2)+(length(C1_B)-1)*sd(C1_B)^2) /(length(C1_A)+length(C1_B)-2))

In [None]:
t <- (mean(C1_A)-mean(C1_B))/(s_p*(sqrt(1/length(C1_A) + 1/length(C1_B))))

In [None]:
s_p; t

In [None]:
t.test(C1_A, C1_B, paired=F)

- 얻어진 표본이 정규분포를 따르지 않는 경우 $\rightarrow $ 비모수적방법 Wilcoxon's ranks sum test (aka. Mann-Whitney U test) <br><br>

    * A 집단 중앙값 $median_{1}$, B 집단 중앙값 $median_{2}$
        1. 해당 연구의 가설을 설정 <br>
        $H_0$ : $median_{1} = median_{2}$ <br>
        $H_1$ : $median_{1} \neq median_{2}$ <br><br>
        
        2. 표본으로부터 통계량 계산 <br>
        $n_{S}$ 표본 크기가 작은 집단의 표본 크기, $n_{L}$ 표본 크기가 큰 집단의 표본 크기, $T$ <br><br><br>
        
        3. $H_0$에 해당하는 검정통계량 값 계산 <br>
        두 집단 자료를 섞어서 순위를 매긴다. (같은 크기를 가지는 관찰값은 평균 순위 부여) <br>
        표본 크기가 작은 집단에 해당하는 관찰값들의 순위 합을 $T$ <br>
        $\displaystyle \mu_{T}=\frac{n_{S}(n_{S}+n_{L}+1)}{2},\quad   \sigma_{T} = \sqrt{\frac{n_{L}\mu_{T}}{6}}$

        $n_{1} < 15, n_{2} < 15$ 이면 $T$를 검정통계량으로 사용 <br>
        $n_{1} > 15$  or $n_{2} > 15$ 인 경우 $z$를 검정통계량으로 사용 <br>
        $\displaystyle z = \frac{T-\mu_{t}}{\sigma_{T}}$  <
        
        4. 검정통계량 값을 알려진 확률분포의 값과 비교 <br>
        $n_{1} < 15, n_{2} < 15$이면 $T$를 Wilcoxon rank sum test's critical range table과 비교 <br>
        $n_{1} > 15$  or $n_{2} > 15$ 이면 $z$를 Standard normal distribution table과 비교 <br><br>

        5. P-value를 해석하고 결론을 내림 <br>
        해당 P-value를 해석하고 두 중앙값의 차이에 대한 신뢰구간을 계산 <br>
        중앙값에 대한 근사적 신뢰구간(통계 소프트웨어 계산 or 표와 비교)

<center>Wilcoxon rank sum test's critical range <br> $n_{S}$</center>

| $n_{L}$ | 4     | 5     | 6     | 7      | 8      | 9      | 10     | 11      | 12      | 13      | 14      | 15      |
|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|-----|
| 4       | 10<br>-26 | 16<br>-34 | 23<br>-43 | 31<br>-53  | 40<br>-64  | 49<br>-77  | 60<br>-90  | 72<br>-104  | 85<br>-119  | 99<br>-135  | 114<br>-152 | 130<br>-170 |
| 5       | 11<br>-29 | 17<br>-38 | 24<br>-48 | 33<br>-58  | 42<br>-70  | 52<br>-83  | 63<br>-97  | 75<br>-112  | 89<br>-127  | 103<br>-144 | 118<br>-162 | 134<br>-181 |
| 6       | 12<br>-32 | 18<br>-42 | 26<br>-52 | 34<br>-64  | 44<br>-76  | 55<br>-89  | 66<br>-104 | 79<br>-119  | 92<br>-136  | 107<br>-153 | 122<br>-172 | 139<br>-191 |
| 7       | 13<br>-35 | 20<br>-45 | 27<br>-57 | 26<br>-69  | 46<br>-82  | 57<br>-96  | 69<br>-111 | 82<br>-127  | 96<br>-144  | 111<br>-162 | 127<br>-181 | 144<br>-201 |
| 8       | 14<br>-38 | 21<br>-49 | 29<br>-61 | 38<br>-74  | 49<br>-87  | 60<br>-102 | 72<br>-118 | 85<br>-135  | 100<br>-152 | 115<br>-171 | 131<br>-191 | 149<br>-211 |
| 9       | 14<br>-42 | 22<br>-53 | 31<br>-65 | 40<br>-79  | 21<br>-93  | 62<br>-109 | 75<br>-125 | 89<br>-142  | 104<br>-160 | 119<br>-180 | 136<br>-200 | 154<br>-221 |
| 10      | 15<br>-45 | 23<br>-57 | 32<br>-70 | 42<br>-84  | 53<br>-99  | 65<br>-115 | 78<br>-132 | 92<br>-150  | 107<br>-169 | 124<br>-188 | 141<br>-209 | 159<br>-231 |
|         |       |       |       |        |        |        |        |         |         |         |         |         |
| 11      | 16<br>-48 | 24<br>-61 | 34<br>-74 | 44<br>-89  | 55<br>-105 | 68<br>-121 | 81<br>-139 | 96<br>-157  | 111<br>-177 | 128<br>-197 | 145<br>-219 | 164<br>-241 |
| 12      | 17<br>-51 | 26<br>-64 | 35<br>-79 | 46<br>-94  | 58<br>-110 | 71<br>-127 | 84<br>-146 | 99<br>-165  | 115<br>-185 | 132<br>-206 | 150<br>-228 | 169<br>-251 |
| 13      | 18<br>-54 | 27<br>-68 | 37<br>-83 | 48<br>-99  | 60<br>-116 | 73<br>-134 | 88<br>-152 | 103<br>-172 | 119<br>-193 | 136<br>-215 | 155<br>-237 | 174<br>-261 |
| 14      | 19<br>-57 | 28<br>-72 | 38<br>-88 | 50<br>-104 | 62<br>-122 | 76<br>-140 | 91<br>-159 | 106<br>-180 | 123<br>-201 | 141<br>-223 | 160<br>-246 | 179<br>-271 |
| 15      | 20<br>-60 | 29<br>-76 | 40<br>-92 | 52<br>-109 | 65<br>-127 | 79<br>-146 | 94<br>-166 | 110<br>-187 | 127<br>-209 | 145<br>-232 | 164<br>-256 | 184<br>-281 |
|<span style="color:white">-----</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|<span style="color:white">------</span>|

In [None]:
C2_A <- sample(x=160:175, size=39, replace=T); C2_B <- sample(x=170:190, size=39, replace=T)

In [None]:
hist(C2_A); hist(C2_B)

In [None]:
shapiro.test(C2_A); shapiro.test(C2_B)

In [None]:
median(C2_A); median(C2_B)

In [None]:
C2_AA <- data.frame(group="A",data=C2_A); C2_BB <- data.frame(group="B",data=C2_B)

In [None]:
C2 <- rbind(C2_AA, C2_BB)

In [None]:
C2$rank <- rank(C2[,2])

In [None]:
sum(C2$rank[which(C2$group=="A")]);sum(C2$rank[which(C2$group=="B")])

In [None]:
mu_T <- min(length(C2_A),length(C2_B))*(min(length(C2_A),length(C2_B))+max(length(C2_A),length(C2_B))+1)/2

In [None]:
sigma_T <- sqrt(max(length(C2_A),length(C2_B))*mu_T/6)

In [None]:
z <- (sum(C2$rank[which(C2$group==if(sum(length(C2_A) < length(C2_B))>0) "A" else "B")])-mu_T)/sigma_T
z

In [None]:
wilcox.test(C2_A, C2_B, paired=FALSE, exact=FALSE)

In [None]:
qnorm(wilcox.test(C2_A, C2_B, paired=FALSE, exact=FALSE)$p.value/2)