In [1]:
#@author: Venky Rao raove@us.ibm.com
#@last edited: 13 Sep 2017
#@source: materials, data and examples adapted from R in Action 2nd Edition by Dr. Robert Kabacoff

# 기초통계학

## 기술통계

In [2]:
#이 섹션에서는 연속 변수에 대한 중심 경향, 가변성 및 분포 모양 측정을 검토합니다.
#R의 기본 설치와 함께 제공되는 mtcars 데이터 세트를 사용합니다.

myvars=c("mpg","hp","wt")
head(mtcars[myvars])

Unnamed: 0_level_0,mpg,hp,wt
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
Mazda RX4,21.0,110,2.62
Mazda RX4 Wag,21.0,110,2.875
Datsun 710,22.8,93,2.32
Hornet 4 Drive,21.4,110,3.215
Hornet Sportabout,18.7,175,3.44
Valiant,18.1,105,3.46


In [3]:
#먼저 32 대의 모든 자동차에 대한 기술 통계를 살펴 보겠습니다. 그런 다음 전송 유형 (am) 및 실린더 수 (cyl)별로 기술 통계를 검토합니다.
#변속기 유형은 0 = 자동, 1 = 수동으로 코딩 된이 분형 변수입니다.
#실린더 수는 4, 5 또는 6이 될 수 있습니다.

In [4]:
#R의 기본 설치에서 summary () 함수를 사용하여 기술 통계를 얻을 수 있습니다.
summary(mtcars[myvars])

      mpg              hp              wt       
 Min.   :10.40   Min.   : 52.0   Min.   :1.513  
 1st Qu.:15.43   1st Qu.: 96.5   1st Qu.:2.581  
 Median :19.20   Median :123.0   Median :3.325  
 Mean   :20.09   Mean   :146.7   Mean   :3.217  
 3rd Qu.:22.80   3rd Qu.:180.0   3rd Qu.:3.610  
 Max.   :33.90   Max.   :335.0   Max.   :5.424  

In [5]:
#요약 통계를위한 사용자 정의 함수 생성
mystats=function(x,na.omit=F){
    if (na.omit){
        x=x[!is.na(x)]
    }
    m=mean(x)
    n=length(x)
    s=sd(x)
    skew=sum((x-m)^3/s^3)/n
    kurt=sum((x-m)^4/s^4)/n-3 
    return (c(n=n,mean=m,stdev=s,skew=skew,kurosis=kurt))
}

In [60]:
#사용자 정의 함수를 데이터 세트에 적용
options(digits=3) #가독성을 높이기 위해 소수점을 3 자리로 유지
sapply(mtcars[myvars],mystats)

Unnamed: 0,mpg,hp,wt
n,32.0,32.0,32.0
mean,20.091,146.688,3.2172
stdev,6.027,68.563,0.9785
skew,0.611,0.726,0.4231
kurosis,-0.373,-0.136,-0.0227


In [7]:
# psych 패키지의 describe () 함수를 통한 기술 통계
library(psych) #load the psych package
describe(mtcars[myvars])

# Hmisc 패키지의 describe () 함수를 통한 설명 통계
# library(Hmisc) #load the Hmisc package
# describe(mtcars[myvars])

# pastecs 패키지의 stat.desc () 함수를 통한 기술 통계
# library(pastecs) #load the pastecs package
# stat.desc(mtcars[myvars])

Unnamed: 0_level_0,vars,n,mean,sd,median,trimmed,mad,min,max,range,skew,kurtosis,se
Unnamed: 0_level_1,<int>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
mpg,1,32,20.09,6.027,19.2,19.7,5.411,10.4,33.9,23.5,0.611,-0.3728,1.065
hp,2,32,146.69,68.563,123.0,141.19,77.095,52.0,335.0,283.0,0.726,-0.1356,12.12
wt,3,32,3.22,0.978,3.33,3.15,0.767,1.51,5.42,3.91,0.423,-0.0227,0.173


### 그룹 별 기술 통계

In [8]:
# aggregate()를 사용하는 그룹 별 기술 통계
# example 1: mean
aggregate(mtcars[myvars],by=list(am=mtcars$am),mean)

am,mpg,hp,wt
<dbl>,<dbl>,<dbl>,<dbl>
0,17.1,160,3.77
1,24.4,127,2.41


In [9]:
# example 2: standard deviation
aggregate(mtcars[myvars],by=list(am=mtcars$am),sd)

am,mpg,hp,wt
<dbl>,<dbl>,<dbl>,<dbl>
0,3.83,53.9,0.777
1,6.17,84.1,0.617


In [10]:
# by()를 사용하는 그룹 별 기술 통계
dstats=function(x){
    sapply(x,mystats)
}
by(mtcars[myvars],mtcars$am,dstats)

mtcars$am: 0
           mpg       hp     wt
n       19.000  19.0000 19.000
mean    17.147 160.2632  3.769
stdev    3.834  53.9082  0.777
skew     0.014  -0.0142  0.976
kurosis -0.803  -1.2097  0.142
------------------------------------------------------------ 
mtcars$am: 1
            mpg      hp     wt
n       13.0000  13.000 13.000
mean    24.3923 126.846  2.411
stdev    6.1665  84.062  0.617
skew     0.0526   1.360  0.210
kurosis -1.4554   0.563 -1.174

In [11]:
#doBy 패키지의 summaryBy () 함수를 사용하여 그룹 별 요약 통계
# install.packages("doBy") #install doBy
# library(doBy) #load the pastecs package
# summaryBy(mpg + hp + wt ~ am, data = mtcars, FUN = mystats)

#psych 패키지의 describe.by () 함수를 사용하여 그룹 별 요약 통계
# library(psych) #load the psych package
# describeBy(mtcars[myvars], list(am = mtcars$am))

## 빈도 및 테이블(Frequency and contingency tables)

In [12]:
#이 섹션에서는 독립성 테스트, 연관성 측정 및 결과를 그래픽으로 표시하는 방법과 함께 범주 형 변수의 빈도 및 분할 표를 살펴 보겠습니다.
#vcd 패키지의 관절염 데이터 세트를 사용합니다.
library(vcd) #load the vcd package
head(Arthritis) #display the first 6 rows

Loading required package: grid



Unnamed: 0_level_0,ID,Treatment,Sex,Age,Improved
Unnamed: 0_level_1,<int>,<fct>,<fct>,<int>,<ord>
1,57,Treated,Male,27,Some
2,46,Treated,Male,29,
3,77,Treated,Male,30,
4,17,Treated,Male,32,Marked
5,36,Treated,Male,46,Marked
6,23,Treated,Male,58,Marked


### 빈도 테이블

#### One way tables

In [13]:
mytable=with(Arthritis,table(Improved)) ## count
mytable

Improved
  None   Some Marked 
    42     14     28 

In [14]:
# prop.table ()을 사용하여 주파수를 비율로 변환 :
# prop.table(mytable) * 100
prop.table(mytable)

Improved
  None   Some Marked 
 0.500  0.167  0.333 

#### Two way tables

In [15]:
mytable=xtabs(~Treatment+Improved,data=Arthritis)
mytable

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

In [16]:
#margin.table () 및 prop.table () 함수를 사용하여 한계 빈도와 비율을 생성 할 수 있습니다.
#행 합계 및 행 비율의 경우 다음이 있습니다.
margin.table(mytable,1)
prop.table(mytable,1)

Treatment
Placebo Treated 
     43      41 

         Improved
Treatment  None  Some Marked
  Placebo 0.674 0.163  0.163
  Treated 0.317 0.171  0.512

In [17]:
#열 합계 및 행 비율의 경우 다음이 있습니다.
margin.table(mytable, 2)
prop.table(mytable, 2)

Improved
  None   Some Marked 
    42     14     28 

         Improved
Treatment None Some Marked
  Placebo 0.69 0.50   0.25
  Treated 0.31 0.50   0.75

In [18]:
#addmargins ()를 사용하여 이 테이블에 한계 합계를 추가 할 수 있습니다
addmargins(mytable)
addmargins(prop.table(mytable))

Unnamed: 0,None,Some,Marked,Sum
Placebo,29,7,7,43
Treated,13,7,21,41
Sum,42,14,28,84


Unnamed: 0,None,Some,Marked,Sum
Placebo,0.345,0.0833,0.0833,0.512
Treated,0.155,0.0833,0.25,0.488
Sum,0.5,0.1667,0.3333,1.0


In [19]:
#합계 열만 추가하려는 경우 :
addmargins(prop.table(mytable,1),2)

Unnamed: 0,None,Some,Marked,Sum
Placebo,0.674,0.163,0.163,1
Treated,0.317,0.171,0.512,1


In [20]:
#합계 행만 추가하려는 경우 :
addmargins(prop.table(mytable, 2), 1)

Unnamed: 0,None,Some,Marked
Placebo,0.69,0.5,0.25
Treated,0.31,0.5,0.75
Sum,1.0,1.0,1.0


In [21]:
#양방향 테이블을 만드는 세 번째 방법은 "gmodels"패키지의 CrossTable () 함수입니다.
# library(gmodels)
# CrossTable(Arthritis$Treatment,Arthritis$Improved)

#### 다차원 테이블

In [22]:
#두 개 이상의 범주 형 변수가있는 경우 다차원 테이블을 다룹니다.
#다음은 3 원 분할 표의 예입니다.
mytable=xtabs(~Treatment+Sex +Improved,data=Arthritis) #cell frequencies
mytable

, , Improved = None

         Sex
Treatment Female Male
  Placebo     19   10
  Treated      6    7

, , Improved = Some

         Sex
Treatment Female Male
  Placebo      7    0
  Treated      5    2

, , Improved = Marked

         Sex
Treatment Female Male
  Placebo      6    1
  Treated     16    5


In [23]:
ftable(mytable) #콤팩트하고 매력적인 방식으로 다차원 테이블을 제공합니다.

                 Improved None Some Marked
Treatment Sex                             
Placebo   Female            19    7      6
          Male              10    0      1
Treated   Female             6    5     16
          Male               7    2      5

In [24]:
margin.table(mytable, 1) ##행별 한계 빈도 (Treatment )

Treatment
Placebo Treated 
     43      41 

In [25]:
margin.table(mytable, 2) #행별 한계 빈도 (gender )

Sex
Female   Male 
    59     25 

In [26]:
margin.table(mytable, 3)#열별 한계 빈도 (Improved)

Improved
  None   Some Marked 
    42     14     28 

In [27]:
margin.table(mytable, c(1, 3)) # 치료 X 한계 빈도 

         Improved
Treatment None Some Marked
  Placebo   29    7      7
  Treated   13    7     21

In [28]:
ftable(prop.table(mytable, c(1, 2))) # 치료 X 성별을 위한 개선 된 비율

                 Improved   None   Some Marked
Treatment Sex                                 
Placebo   Female          0.5938 0.2188 0.1875
          Male            0.9091 0.0000 0.0909
Treated   Female          0.2222 0.1852 0.5926
          Male            0.5000 0.1429 0.3571

In [29]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3)) # 행 합계로 치료 X 성별에 대한 비율 개선

                 Improved   None   Some Marked    Sum
Treatment Sex                                        
Placebo   Female          0.5938 0.2188 0.1875 1.0000
          Male            0.9091 0.0000 0.0909 1.0000
Treated   Female          0.2222 0.1852 0.5926 1.0000
          Male            0.5000 0.1429 0.3571 1.0000

In [30]:
ftable(addmargins(prop.table(mytable, c(1, 2)), 3)) * 100 # 행 합계로 치료 X 성별에 대한 백분율 개선

                 Improved   None   Some Marked    Sum
Treatment Sex                                        
Placebo   Female           59.38  21.88  18.75 100.00
          Male             90.91   0.00   9.09 100.00
Treated   Female           22.22  18.52  59.26 100.00
          Male             50.00  14.29  35.71 100.00

### 독립 검정

#### Chi-Square test of independence

In [31]:
#chisq.test () 함수를 양방향 테이블에 적용하여 행 및 열 변수의 독립성에 대한 카이 제곱 테스트를 생성 할 수 있습니다. 예:
# library(vcd) 
mytable=xtabs(~ Treatment + Improved, data = Arthritis) #create a two-way table
chisq.test(mytable) #run the chi-square test


	Pearson's Chi-squared test

data:  mytable
X-squared = 13, df = 2, p-value = 0.001


In [32]:
# 결과를 보겠습니다.
# 가설부터 시작하겠습니다 : 치료 유형과 결과는 독립적입니다.
# p- 값은 다음의 독립성을 가정하여 샘플링 된 결과를 얻을 확률입니다.
    # 모집단의 행 및 열 변수.
# p- 값 <0.01이므로 처리 유형이 결과와 독립적이라는 가설을 기각합니다!

In [33]:
#another example:
mytable=xtabs(~ Improved + Sex, data = Arthritis) #create a two-way table
chisq.test(mytable) #run the chi-square test

“Chi-squared approximation may be incorrect”



	Pearson's Chi-squared test

data:  mytable
X-squared = 5, df = 2, p-value = 0.09


In [34]:
# 결과를 보겠습니다.
# 가설로 시작하자 : 결과와 성별은 독립적이다
# p- 값은 다음의 독립성을 가정하여 샘플링 된 결과를 얻을 확률입니다.
     # 모집단의 행 및 열 변수.
# p- 값> 0.05이므로 결과가 성별과 무관하다는 가설을 확인합니다!

In [35]:
#결론:
# 카이 제곱 독립성 테스트 :
# 가설은 두 변수가 독립적이라는 것입니다.
# p- 값이 0.01 미만이면 가설을 기각합니다.
# p- 값> 0.05이면 가설을 확인합니다.

#### Fisher's exact test

In [36]:
## chi와 fisher의 차이점은 chi는 근사값으로 추정하는것익, fisher는 정확하게 추정한다. 
## cell의 20%가 <5 이면 fisher로 정확하게 추정해야한다.

#Fisher의 정확한 테스트는 행과 열의 독립성에 대한 귀무 가설을 평가합니다.
# 고정 한계가있는 분할 테이블에서. 형식은 fisher.test (mytable)입니다. 여기서
#mytable은 양방향 테이블입니다. 많은 통계 패키지와 달리 fisher.test ()
#function은 두 개 이상의 행과 열이있는 양방향 테이블에 적용될 수 있습니다.
# 2X2 테이블입니다. 다음은 Fisher의 정확한 테스트의 예입니다.
# library(vcd) #load the vcd package for the Arthritis dataset
mytable=xtabs(~ Treatment + Improved, data = Arthritis) #create the 2-way table
fisher.test(mytable) #run the test


	Fisher's Exact Test for Count Data

data:  mytable
p-value = 0.001
alternative hypothesis: two.sided


In [37]:
# p- 값이 0.01 미만이기 때문에 처리와 개선이 서로 독립적이라는 귀무 가설을 기각합니다.

#### Cochran-Mantel-Haenszel test

In [38]:
#the mantelhaen.test ()는 귀무 가설에 대한 Cochran-Mantel-Haenszel 카이 제곱 테스트를 제공합니다.
# 두 개의 명목 변수는 세 번째 변수의 각 계층에서 조건부로 독립적입니다.
# 다음 코드는 치료 및 개선 변수가 독립적이라는 가설을 테스트합니다.
# 성별 각 레벨 내. 이 테스트에서는 3 원 (치료 X 개량 X 성별) 상호 작용이 없다고 가정합니다.
# library(vcd) #load the vcd package for the Arthritis dataset
mytable=xtabs(~ Treatment + Improved + Sex, data = Arthritis) #create the 3-way table
mantelhaen.test(mytable) #run the test


	Cochran-Mantel-Haenszel test

data:  mytable
Cochran-Mantel-Haenszel M^2 = 15, df = 2, p-value = 7e-04


In [39]:
#7e-04 = 7 * 10^-4 = 0.0007
# p- 값이 0.01 미만이기 때문에 Sex에 대해 통제 할 때 치료와 개선이 서로 독립적이라는 귀무 가설을 기각합니다.

### Measures of association

In [40]:
# 카이-제곱 또는 피셔의 CMH 검정 검정을 사용하여 변수 독립성에 대한 귀무 가설을 기각하는 경우
# 당신은 의존성 또는 연관성의 강도를 측정하려고합니다.
# vcd 패키지의 assocstats () 함수는 양방향 테이블에 대한 파이 계수, 우발 계수 및 Cramer의 V를 계산합니다.
# 일반적으로 등급이 낮을수록 연관성이 강함을 나타냅니다. 여기에 예가 있습니다.
# library(vcd) #load the vcd package for the Arthritis dataset
mytable = xtabs(~ Treatment + Improved, data = Arthritis) #create the 2-way table
assocstats(mytable) #run the test

                    X^2 df  P(> X^2)
Likelihood Ratio 13.530  2 0.0011536
Pearson          13.055  2 0.0014626

Phi-Coefficient   : NA 
Contingency Coeff.: 0.367 
Cramer's V        : 0.394 

## Correlations

In [41]:
# 상관 계수는 양적 변수 간의 관계를 설명하는 데 사용됩니다.
# 기호 +-는 관계의 방향을 나타냅니다 (긍정적 또는 부정적)
# 크기는 관계의 강도를 나타냅니다 (관계가없는 경우 0에서 완벽하게 예측 가능한 관계의 경우 1까지).

### Types of correlations

#### Pearson, Spearman and Kendall correlations

In [42]:
#Pearson product-moment 상관 관계는 두 양적 변수 간의 선형 관계 정도를 평가합니다.
#Spearman의 순위-오더 상관 계수는 2 개의 순위 순 변수 간의 관계 정도를 평가합니다.
#Kendall의 tau는 순위 상관 관계의 비모수 척도이기도합니다.

In [43]:
# cor () 함수는 3 개의 상관 계수를 모두 생성하는 반면 cov () 함수는 공분산을 생성합니다.
# 간단한 형식은 다음과 같습니다 : cor (x, use =, method =);
# 여기서 x = 행렬 또는 데이터 프레임; use = 누락 된 데이터 처리를 지정합니다 (기본값 = 모든 것). method = method (기본값 = "pearson")

In [44]:
states = state.x77[, 1:6] # state.x77 데이터 세트의 하위 집합을 선택합니다. 1부터 6까지의 열을 선택하여 "states"객체에 저장합니다.

In [45]:
cor(states) # 사용 (모든 것) 및 방법 (pearson)에 대한 기본값 사용

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Population,1.0,0.208,0.108,-0.0681,0.344,-0.0985
Income,0.2082,1.0,-0.437,0.3403,-0.23,0.6199
Illiteracy,0.1076,-0.437,1.0,-0.5885,0.703,-0.6572
Life Exp,-0.0681,0.34,-0.588,1.0,-0.781,0.5822
Murder,0.3436,-0.23,0.703,-0.7808,1.0,-0.488
HS Grad,-0.0985,0.62,-0.657,0.5822,-0.488,1.0


In [46]:
cor(states, method = "spearman") # 사용 기본값 사용 (모든 항목)

Unnamed: 0,Population,Income,Illiteracy,Life Exp,Murder,HS Grad
Population,1.0,0.125,0.313,-0.104,0.346,-0.383
Income,0.125,1.0,-0.315,0.324,-0.217,0.51
Illiteracy,0.313,-0.315,1.0,-0.555,0.672,-0.655
Life Exp,-0.104,0.324,-0.555,1.0,-0.78,0.524
Murder,0.346,-0.217,0.672,-0.78,1.0,-0.437
HS Grad,-0.383,0.51,-0.655,0.524,-0.437,1.0


In [47]:
# 기본적으로 정사각형 행렬을 얻습니다 (즉, 다른 모든 변수와 교차하는 모든 변수).
# 다음과 같이 정사각형이 아닌 변수를 생성 할 수도 있습니다.
x = states[, c("Population", "Income", "Illiteracy", "HS Grad")]
y = states[, c("Life Exp", "Murder")]
cor(x, y)

Unnamed: 0,Life Exp,Murder
Population,-0.0681,0.344
Income,0.3403,-0.23
Illiteracy,-0.5885,0.703
HS Grad,0.5822,-0.488


#### Partial correlations

In [48]:
# 편 상관은 하나 이상의 양적 변수를 제어하는 2 개의 양적 변수 간의 상관 관계입니다.
#ggm 패키지의 pcor () 함수는 편 상관 계수를 제공합니다. 여기에 예가 있습니다.
# install.packages("ggm") #install the ggm package
library(ggm) #load the ggm package
# colnames(states) #names of the columns of the states.x77 dataset in R

Loading required package: igraph


Attaching package: ‘igraph’


The following objects are masked from ‘package:stats’:

    decompose, spectrum


The following object is masked from ‘package:base’:

    union



Attaching package: ‘ggm’


The following object is masked from ‘package:igraph’:

    pa




In [90]:
#pcor () 함수의 형식은 다음과 같습니다.
#pcor (u, S) 여기서 u는 숫자로 구성된 벡터이며 처음 두 숫자는 상관 될 숫자의 인덱스입니다.
#나머지 숫자는 조건화 변수의 인덱스입니다.
#S는 변수 간의 공분산 행렬입니다.

pcor(c(1, 5, 2, 3, 6), stats::cov(states)) 

# pcor.test(as.numeric(states[,c(1)]),as.numeric(states[,c(5)]),as.numeric(states[,c(2)])) 
# 여기서 1 = 인구 및 5 = 살인은 상관 될 두 변수입니다.
# 소득, 문맹 퇴치 및 고등 교육은 조건 제어 변수입니다.
#cov (states)는 변수 간의 공분산 행렬입니다.
#cov () 함수가 작동하도록하려면 stats :: cov (dataset)를 사용하여 패키지 이름을 지정합니다.

In [None]:
#이 경우 0.346은 다음에 대한 인구와 살인율 간의 상관 관계입니다.
# 소득, 문맹률 및 HS 졸업률

#### Other types of correlations

In [87]:
#polycor 패키지의 hatcor () 함수는 다음을 포함하는 이기종 상관 행렬을 계산할 수 있습니다.
# 숫자 변수 사이의 피어슨 제품-순간 상관 관계,
# 숫자 변수와 순서 변수 간의 다중 직렬 상관 관계,
# 서수 변수 간의 다합 적 상관 관계
# 두 이분법 적 변수 간의 사분 법적 상관 관계.
#Polyserial, polychoric 및 tetrachoric 상관 관계는 순서 형 또는이 분형 변수가
#은 기본 정규 분포에서 파생됩니다.

### Testing correlations for significance

In [88]:
# cor.test () 함수를 사용하여 개별 상관 계수를 테스트 할 수 있습니다.
# 형식 : cor.test (x, y, alternative =, method =), 여기서
#x와 y는 상관 될 변수입니다.
#alternative는 "two.side"일 수 있습니다 (기본값, 모집단 상관 관계는 0이 아님). "적음"(인구 상관 관계 <0); 또는
                      # "크게"(인구 상관 관계> 0)
#method는 "pearson"(기본값), "kendall"또는 "spearman"일 수 있습니다.
# 예 :
cor.test(states[, 3], states[, 5]) # 문맹률과 살인 률의 상관 관계 테스트
                                   # 기본값 : 대안 = "two.side"및 방법 = "pearson"


	Pearson's product-moment correlation

data:  states[, 3] and states[, 5]
t = 7, df = 48, p-value = 1e-08
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.528 0.821
sample estimates:
  cor 
0.703 


In [118]:
# 위의 코드는 문맹률과 살인 률 사이의 피어슨 상관 관계가 0임을 테스트합니다.
#이 변수들 사이의 인구 상관 관계가 실제로 0이라면,
# 1000 만 중 1 회 미만 0.703만큼 큰 표본 상관 관계 (즉, p- 값 = 1e-08 또는 1/10 ^ 8)
# 문맹률과 살인 률의 상관 관계가 0이라는 귀무 가설을 기각합니다.
# 문맹률과 살인 률 사이의 상관 관계가 0이 아니라는 대립 가설을 받아들입니다.

In [119]:
# cor.test ()를 사용하면 한 번에 하나의 상관 관계 만 테스트 할 수 있습니다.
# "psych"패키지의 corr.test () 함수를 사용하면 더 나아갈 수 있습니다. 여기에 예가 있습니다.
# library(psych) #load the psych library
corr.test(states, use = "complete") # "complete"= 누락 된 값의 목록 별 삭제

Call:corr.test(x = states, use = "complete")
Correlation matrix 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       1.00   0.21       0.11    -0.07   0.34   -0.10
Income           0.21   1.00      -0.44     0.34  -0.23    0.62
Illiteracy       0.11  -0.44       1.00    -0.59   0.70   -0.66
Life Exp        -0.07   0.34      -0.59     1.00  -0.78    0.58
Murder           0.34  -0.23       0.70    -0.78   1.00   -0.49
HS Grad         -0.10   0.62      -0.66     0.58  -0.49    1.00
Sample Size 
[1] 50
Probability values (Entries above the diagonal are adjusted for multiple tests.) 
           Population Income Illiteracy Life Exp Murder HS Grad
Population       0.00   0.59       1.00      1.0   0.10       1
Income           0.15   0.00       0.01      0.1   0.54       0
Illiteracy       0.46   0.00       0.00      0.0   0.00       0
Life Exp         0.64   0.02       0.00      0.0   0.00       0
Murder           0.01   0.11       0.00      0.0   0.00       0
H

In [120]:
# 위의 코드에서 모집단 크기와 HS 졸업률 (-0.10)의 상관 관계가 0 (p = 0.50)과 크게 다르지 않음을 알 수 있습니다.

## T-tests

In [121]:
# t-test는 두 그룹을 비교하는 데 도움이됩니다.

### Independent t-test

In [123]:
# 미국 남부에서 범죄를 저질렀다면 투옥 될 가능성이 더 높습니까?
# 관심의 비교는 남부 주와 비 남부 주입니다.
# 그리고 종속 변수는 감금 될 확률입니다.
# 두 집단 독립 t- 검정을 사용하여 두 모집단 평균이 같다는 가설을 검정 할 수 있습니다.
# 우리는 MASS 패키지의 UScrime 데이터 세트를 사용하여이 가설을 테스트합니다.
library(MASS) #attach the MASS package
t.test(Prob ~ So, data = UScrime) #Prob = 투옥 가능성; 그래서 = 남부 주에 대한 표시 변수


	Welch Two Sample t-test

data:  Prob by So
t = -4, df = 25, p-value = 7e-04
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.0385 -0.0119
sample estimates:
mean in group 0 mean in group 1 
         0.0385          0.0637 


In [None]:
# 위의 결과에서 남부 주와 남부가 아닌 주에 대한 귀무 가설을 기각 할 수 있습니다.
# 동일한 투옥 확률 (p <0.001)

### Dependent t-test

In [125]:
# 젊은 남성 (14-24 세)> 노인 남성 (35-39 세)의 실업률은?
# 이 경우, 두 그룹은 독립적이지 않습니다. 앨라배마 주에있는 젊고 나이 많은 남성의 실업률이 무관하다고 기대하지 않기 때문입니다.
# library(MASS) #attach the MASS package
sapply(UScrime[c("U1", "U2")], function(x)(c(mean = mean(x), sd = sd(x)))) #use sapply() to calculate mean and sd for the 2 groups

Unnamed: 0,U1,U2
mean,95.5,33.98
sd,18.0,8.45


In [126]:
with(UScrime, t.test(U1, U2, paired = T))


	Paired t-test

data:  U1 and U2
t = 32, df = 46, p-value <2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 57.7 65.3
sample estimates:
mean of the differences 
                   61.5 


In [None]:
# 평균 차이 (61.5)는 평균이 다음과 같은 가설을 거부 할만큼 충분히 큽니다.
# 연령 남성 실업률은 동일하다. 젊은 남성은 비율이 더 높습니다.
# 모집단 평균이 같으면 이렇게 큰 표본 차이를 얻을 확률은 다음과 같습니다.
# 0.0000000000000002 미만 (예 : 2e-16 또는 2 * 10 ^ -16의 p- 값)

## 그룹 차이에 대한 비모수 검정

In [130]:
# 결과 변수가 본질적으로 심하게 치우쳐 있거나 순서가있는 경우 비모수 테스트를 사용하는 것이 좋습니다.

### Comparing two groups

In [131]:
# 두 그룹이 독립적 인 경우 Wilcoxon 순위 합계 테스트 (Mann-Whitney U 테스트라고도 함)를 사용할 수 있습니다.
# 예 :
# library(MASS) #load the MASS package
with(UScrime, by(Prob, So, median)) #calculate median probabilities of incarceration rates by Southern v/s non-Southern states

So: 0
[1] 0.0382
------------------------------------------------------------ 
So: 1
[1] 0.0556

In [132]:
wilcox.test(Prob ~ So, data = UScrime) #run the test


	Wilcoxon rank sum exact test

data:  Prob by So
W = 81, p-value = 8e-05
alternative hypothesis: true location shift is not equal to 0


In [133]:
# 구금 률이 동일하다는 귀무 가설을 기각 할 수 있습니다.
# 남부 및 비 남부 주 (p- 값 <0.001 이후, 8e-05 = 8 * 10 ^ -5)

In [134]:
# 두 그룹이 쌍을 이루는 경우 동일한 테스트를 적용 할 수 있지만 paired = TRUE 옵션을 사용합니다.
sapply(UScrime[c("U1", "U2")], median) # 노년층 남성의 평균 실업률 계산

In [135]:
with(UScrime, wilcox.test(U1, U2, paired = T)) #run the test with paired = T option

“cannot compute exact p-value with ties”



	Wilcoxon signed rank test with continuity correction

data:  U1 and U2
V = 1128, p-value = 2e-09
alternative hypothesis: true location shift is not equal to 0


In [None]:
# 다시, p- 값이 0.001 미만이므로 귀무 가설을 기각 할 수 있습니다.

### Comparing more than two groups

In [None]:
# 그룹이 독립적 인 경우 Kruskal-Wallis 테스트를 사용할 수 있습니다.
# 그룹이 종속 된 경우 Friedman 테스트를 사용할 수 있습니다.

In [144]:
# 여기 Kruskal-Wallis 테스트의 예가 있습니다.
states=data.frame(state.region, state.x77) #데이터 세트에 지역 지정 추가
kruskal.test(Illiteracy ~ state.region, data = states) #apply the test


	Kruskal-Wallis rank sum test

data:  Illiteracy by state.region
Kruskal-Wallis chi-squared = 23, df = 3, p-value = 5e-05


In [145]:
#이 유의성 테스트는 문맹률이 네 가지 모두에서 같지 않음을 나타냅니다.
# 국가의 지역 (p- 값 <0.001, p- 값 = 5e-05 = 5 * 10 ^ -5)

In [146]:
summary(aov(Murder~state.region,data=states))

             Df Sum Sq Mean Sq F value  Pr(>F)    
state.region  3    281    93.7    11.2 1.3e-05 ***
Residuals    46    387     8.4                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

In [148]:
wmc

In [149]:
# wmc () 함수를 사용한 #비모수 다중 비교
source("http://www.statmethods.net/RiA/wmc.txt") #access the function
states = data.frame(state.region, state.x77) #create the data frame
wmc(Illiteracy ~ state.region, data = states) #run the test

Descriptive Statistics

         West North Central Northeast  South
n      13.000        12.000     9.000 16.000
median  0.600         0.700     1.100  1.750
mad     0.148         0.148     0.297  0.593

Multiple Comparisons (Wilcoxon Rank Sum Tests)
Probability Adjustment = holm

        Group.1       Group.2    W        p    
1          West North Central 88.0 8.67e-01    
2          West     Northeast 46.5 8.67e-01    
3          West         South 39.0 1.79e-02   *
4 North Central     Northeast 20.5 5.36e-02   .
5 North Central         South  2.0 8.05e-05 ***
6     Northeast         South 18.0 1.19e-02   *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


In [None]:
# 테스트 결과에서 남쪽이 크게 다른 것을 알 수 있습니다.
# 다른 세 지역에서 다른 세 지역은
# p <0.05 수준에서 서로 다릅니다.

In [None]:
## 설문지의 신뢰도

## 내적 합치도를 갖는지 확인 
## 문항이 얼마나 일관성을 갖나
## 문항이 하나의 개념을 갖는가

## 특징
## 1에 가까울수록 성능이 좋다. 0.6~0.8 이 좋다.
## 변수를 제거했을 때 크론바하 a 값이 커지면 변수를 제외한다. 신뢰성을 높이기 때문.
## 문항의수가 a 값에 포함되기때문에 적정한 수의 문항도 있어야한다. 

## 문제 
## 리커트 척도를 이용한 조직의 리더쉽 측정 설문
## 1A : 조직의 목표를 안다.
## 1B : 조직의 비전을 안다.
## 1C : 나의 상사는 조직의 가치를 사용하여 부하를 인도한다.
## 1D : 나의 상사는 내가 일할수있는 환경을 만들어준다.
## 1E : 나의 상사는 조직의 정보를 공유한다.
## 1F : 나의 조직은 내가 어떤생각을 하는지 묻는다.

## a= k/k-1 ( 1- 1/s2^2 (sum(s1^2)))
## k=문항의 수, s1=i번째 답의 분산 , s2=응답자 답의 합의 분산 

In [None]:
df=data.frame('1A'=c(5,4,4,5,4,5,5,4,5,5,4,3,5,5,5),
              '1B'=c(5,4,5,3,3,2,5,4,5,4,4,2,5,5,4),
              '1C'=c(3,3,4,4,5,1,4,3,1,1,3,3,5,3,3),
              '1D'=c(3,5,4,4,4,1,4,2,1,2,4,4,1,2,2),
              '1E'=c(2,4,4,2,3,1,4,1,1,2,3,3,4,4,4),
              '1F'=c(2,4,4,2,3,1,4,1,1,1,2,4,1,4,2))

In [None]:
## raw_alpha = 0.67 로 신뢰성이 어느정도 있다.
library(psych)
alpha(df)