## 통계학 개론

### 통계 분석 개요
- 모집단
    - 유용한 정보의 대상이 되는 것
    - 우리가 알고자 하는 전체를 의미
    - 조사하는 모집단의 일부분을 **표본(sample)**
    - 모집단에 대해 알고자 하는 값을 **모수(parameter)**
    - 모수를 추론하기 위해 구하는 표본의 값들을 **통계량(statistic)**
    - 모집단을 구성하는 개체를 추출단위 혹은 원소라고 한다.
    - 조사하는 방법
        - 총조사 (census)
        - 표본조사
    - 표본추출의 방법
        - 단순랜덤추출법 (Simple random sampling)
        - 계통추출법 (Systematic sampling)
        - 집락추출법 (Cluster sampling)
        - 층화추출법 (Stratified sampling)

### 자료의 종류

- 측정 : 표본조사나 실험을 실시하는 과정에서 추출된 원소들이나 실험 단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 방법
    - 명목척도 (nominal scale)
        - 측정 대상이 어느 집단에 속하는지 분류
        - 성별 구분, 출생지 등
    - 순서척도 (ordinal scale)
        - 서열관계를 관측
        - 설문조사 등에서 0 부터 5 까지 선호도 조사 등에
    - 구간척도 (interval scale)
        - 속성의 양을 측정
        - 온도, 지수 등
    - 비율척도 (ratio scale)
        - 절대적 기준인 0 값이 존재
        - 모든 사칙연산 가능
        - 제일 많은 정보를 가지고 있는 척도
        - 무게, 나이, 연간소득, 제품가격 등
        

## 기초 통계 분석

### 기술 통계
Descriptive Statistics 란 자료를 요약하는 기초적 통계를 의미한다. 데이터 분석에 앞서 데이터의 대략적인 통계적 수치를 계산해봄으로써 데이터에 대한 대략적인 이해와 앞으로 분석에 대한 통찰력을 얻기에 유리하다.

In [1]:
data(iris)
head(iris)

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


In [2]:
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
       Species  
 setosa    :50  
 versicolor:50  
 virginica :50  
                
                
                

In [4]:
sd(iris$Sepal.Length)  # 표준편차

In [5]:
var(iris$Sepal.Length)  # 분산

### 회귀 분석 (Regression Analysis)

하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다.

영향을 받는 변수를 **종속변수** 혹은 **반응변수**라 하고 보통 $y$ 로 표기한다.

영향을 주는 변수를 **독립변수** 혹은 **설명변수**라 하고 보통 $x, x_1, x_2$ 등으로 표기한다.

### 단순선형회귀모형

하나의 독립변수($x$)와 하나의 종속변수($y$)로 이뤄져 있고, 오차항이 있는 선형관계로 다음과 같이 쓸 수 있다.

$$y_i = \beta_0 + \beta_1 x_i + \epsilon_i, i = 1, 2, ..., n$$

## 회귀분석 종류

- 단순회귀
    - $Y = \beta_0 + \beta_1X + \epsilon$
    - 설명 변수가 1개이며 반응 변수와의 관계가 **직선**
- 다중회귀
    - $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon$
    - 설명변수가 $k$개 이며 반응변수와의 관계가 선형 (1차 함수)
- 다항회귀
    - 설명변수가 $k$개 이며 반응변수와의 관계가 1차 함수 이상
- 비선형회귀
    - 회귀식의 모양이 미지의 모수 $\beta_i$들의 선형관계로 이루어져 있지 않은 모형. 예를 들면 옆의 식에서 $g(t) = e^t$ 와 같은 비선형 식을 고려할 수 있다.

In [6]:
x <- runif(10, 0, 11)
y <- 2 + 3*x + rnorm(10, 0, 0.2)
dfrm <- data.frame(x, y)
dfrm

x,y
7.540425,24.468326
10.650932,34.007117
9.428202,30.328845
6.847891,22.630815
3.944268,13.720065
5.815382,19.47092
9.398782,30.39145
4.174398,14.386846
4.107021,14.294112
1.854481,7.423252


In [7]:
speed2 <- cars$speed^2
carss <- cbind(speed2, cars)
head(carss)

speed2,speed,dist
16,4,2
16,4,10
49,7,4
49,7,22
64,8,16
81,9,10


In [8]:
lm(dist ~ speed + speed2, data = carss)


Call:
lm(formula = dist ~ speed + speed2, data = carss)

Coefficients:
(Intercept)        speed       speed2  
    2.47014      0.91329      0.09996  


### 다변량 분석

### 상관 분석
Correlation Analysis

- 두 변수의 상관관계를 알아보기 위해 상관계수(Correlation coefficient) 를 이용한다.
- Pearson correlation : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계를 측정하는 데 쓰임
- Spearman correlation : 서열척도인 두 변수들의 상관관계를 측정하는 데 사용

In [9]:
data(mtcars)
head(mtcars)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,21.0,6,160,110,3.9,2.62,16.46,0,1,4,4
Mazda RX4 Wag,21.0,6,160,110,3.9,2.875,17.02,0,1,4,4
Datsun 710,22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
Hornet 4 Drive,21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
Hornet Sportabout,18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225,105,2.76,3.46,20.22,1,0,3,1


In [11]:
library(Hmisc)
rcorr(as.matrix(mtcars), type = "pearson")

Loading required package: lattice
"package 'lattice' was built under R version 3.4.2"Loading required package: survival
Loading required package: Formula
Loading required package: ggplot2
"package 'ggplot2' was built under R version 3.4.2"
Attaching package: 'Hmisc'

The following objects are masked from 'package:base':

    format.pval, round.POSIXt, trunc.POSIXt, units



       mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
mpg   1.00 -0.85 -0.85 -0.78  0.68 -0.87  0.42  0.66  0.60  0.48 -0.55
cyl  -0.85  1.00  0.90  0.83 -0.70  0.78 -0.59 -0.81 -0.52 -0.49  0.53
disp -0.85  0.90  1.00  0.79 -0.71  0.89 -0.43 -0.71 -0.59 -0.56  0.39
hp   -0.78  0.83  0.79  1.00 -0.45  0.66 -0.71 -0.72 -0.24 -0.13  0.75
drat  0.68 -0.70 -0.71 -0.45  1.00 -0.71  0.09  0.44  0.71  0.70 -0.09
wt   -0.87  0.78  0.89  0.66 -0.71  1.00 -0.17 -0.55 -0.69 -0.58  0.43
qsec  0.42 -0.59 -0.43 -0.71  0.09 -0.17  1.00  0.74 -0.23 -0.21 -0.66
vs    0.66 -0.81 -0.71 -0.72  0.44 -0.55  0.74  1.00  0.17  0.21 -0.57
am    0.60 -0.52 -0.59 -0.24  0.71 -0.69 -0.23  0.17  1.00  0.79  0.06
gear  0.48 -0.49 -0.56 -0.13  0.70 -0.58 -0.21  0.21  0.79  1.00  0.27
carb -0.55  0.53  0.39  0.75 -0.09  0.43 -0.66 -0.57  0.06  0.27  1.00

n= 32 


P
     mpg    cyl    disp   hp     drat   wt     qsec   vs     am     gear  
mpg         0.0000 0.0000 0.0000 0.0000 0.0000 0.0171 0.0000 

In [13]:
rcorr(as.matrix(mtcars), type = "spearman")

       mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
mpg   1.00 -0.91 -0.91 -0.89  0.65 -0.89  0.47  0.71  0.56  0.54 -0.66
cyl  -0.91  1.00  0.93  0.90 -0.68  0.86 -0.57 -0.81 -0.52 -0.56  0.58
disp -0.91  0.93  1.00  0.85 -0.68  0.90 -0.46 -0.72 -0.62 -0.59  0.54
hp   -0.89  0.90  0.85  1.00 -0.52  0.77 -0.67 -0.75 -0.36 -0.33  0.73
drat  0.65 -0.68 -0.68 -0.52  1.00 -0.75  0.09  0.45  0.69  0.74 -0.13
wt   -0.89  0.86  0.90  0.77 -0.75  1.00 -0.23 -0.59 -0.74 -0.68  0.50
qsec  0.47 -0.57 -0.46 -0.67  0.09 -0.23  1.00  0.79 -0.20 -0.15 -0.66
vs    0.71 -0.81 -0.72 -0.75  0.45 -0.59  0.79  1.00  0.17  0.28 -0.63
am    0.56 -0.52 -0.62 -0.36  0.69 -0.74 -0.20  0.17  1.00  0.81 -0.06
gear  0.54 -0.56 -0.59 -0.33  0.74 -0.68 -0.15  0.28  0.81  1.00  0.11
carb -0.66  0.58  0.54  0.73 -0.13  0.50 -0.66 -0.63 -0.06  0.11  1.00

n= 32 


P
     mpg    cyl    disp   hp     drat   wt     qsec   vs     am     gear  
mpg         0.0000 0.0000 0.0000 0.0000 0.0000 0.0071 0.0000 

In [12]:
cov(mtcars)

Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
mpg,36.324103,-9.172379,-633.09721,-320.732056,2.19506351,-5.1166847,4.50914919,2.0171371,1.80393145,2.1356855,-5.36310484
cyl,-9.172379,3.1895161,199.66028,101.931452,-0.66836694,1.367371,-1.88685484,-0.72983871,-0.46572581,-0.6491935,1.52016129
disp,-633.097208,199.6602823,15360.79983,6721.158669,-47.06401915,107.684204,-96.05168145,-44.37762097,-36.5640121,-50.802621,79.06875
hp,-320.732056,101.9314516,6721.15867,4700.866935,-16.45110887,44.1926613,-86.77008065,-24.98790323,-8.32056452,-6.358871,83.03629032
drat,2.195064,-0.6683669,-47.06402,-16.451109,0.28588135,-0.3727207,0.08714073,0.11864919,0.19015121,0.2759879,-0.07840726
wt,-5.116685,1.367371,107.6842,44.192661,-0.37272073,0.957379,-0.30548161,-0.27366129,-0.33810484,-0.4210806,0.67579032
qsec,4.509149,-1.8868548,-96.05168,-86.770081,0.08714073,-0.3054816,3.19316613,0.67056452,-0.20495968,-0.2804032,-1.8941129
vs,2.017137,-0.7298387,-44.37762,-24.987903,0.11864919,-0.2736613,0.67056452,0.25403226,0.04233871,0.0766129,-0.46370968
am,1.803931,-0.4657258,-36.56401,-8.320565,0.19015121,-0.3381048,-0.20495968,0.04233871,0.24899194,0.2923387,0.04637097
gear,2.135685,-0.6491935,-50.80262,-6.358871,0.2759879,-0.4210806,-0.28040323,0.0766129,0.29233871,0.5443548,0.3266129


In [14]:
korean <- c(85, 75, 65, 78, 59, 60, 90, 100, 99, 91, 70)
math <- c(80, 60, 75, 40, 50, 64, 70, 78, 90, 98, 50)
english <- c(80, 70, 69, 79, 80, 95, 98, 97, 67, 80, 59)
science <- c(90, 100, 50, 80, 67, 89, 60, 79, 89, 80, 100)

test <- data.frame(korean, math, english, science)

In [15]:
rcorr(as.matrix(test), type = "spearman")

        korean  math english science
korean    1.00  0.65    0.20    0.00
math      0.65  1.00    0.16   -0.09
english   0.20  0.16    1.00   -0.42
science   0.00 -0.09   -0.42    1.00

n= 11 


P
        korean math   english science
korean         0.0299 0.5517  1.0000 
math    0.0299        0.6462  0.7937 
english 0.5517 0.6462         0.1926 
science 1.0000 0.7937 0.1926         

In [16]:
rcorr(as.matrix(test), type = "pearson")

        korean  math english science
korean    1.00  0.63    0.21    0.10
math      0.63  1.00    0.12   -0.09
english   0.21  0.12    1.00   -0.31
science   0.10 -0.09   -0.31    1.00

n= 11 


P
        korean math   english science
korean         0.0385 0.5418  0.7592 
math    0.0385        0.7289  0.7838 
english 0.5418 0.7289         0.3455 
science 0.7592 0.7838 0.3455         

### 스피어만, 피어슨 상관 계수의 차이점은 무엇일까???

|계수|비선형적인 상관관계|ㄴㄴㄴ|
|------|------|------|
|스피어만| O | bb |
|피어슨| X | bb |