# Effective Sampling

1.  Simple random Sampling
 - 모집단 에서 Sampling을 무작위로 하는 방법
2. Systematic Sampling
 - 모집단에서 Sampling을 할때 규칙을 가지고 추출하는 방법
3. Stratified random sampling 
 - 모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 무작위 추출을 수행
4. Cluster sampling
 - 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법

# 가설검증
- 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정.
- 모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정함.

## Student T-test
### One Sample t-test


# 대표 통계량

In [None]:
import numpy as np
from scipy.stats import *
import pandas as pd

In [None]:
x = [1, 2, 3, 4, 5]
print(np.mean(x))
print(np.array(x).mean())

3.0
3.0


In [None]:
#  이진변수에대한평균  
x = [1, 0, 0, 0, 1]
print(np.mean(x))

0.4


### 조화평균

In [None]:
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
print(len(x) / np.sum(1/x))
print(hmean(x)) # hmean을 사용하여 조화평균을 구할 수 있다.

0.21897810218978103
0.21897810218978103


### 절사평균이필요한이유 

In [None]:
income = np.random.normal(2000000, 500000, 100) # 평균이 2백만원이고 표준편차가 오십만인 정규분포를 따르는 소득을 갖는 100명씩
print(np.mean(income))

2005978.8971032172


In [None]:
income = np.append(income, 10**9) #소득이 10억원인 사람의 등장
print(np.mean(income)) #100명의 소득이 200만원에 가까운데, 한 명때문에 대표값이 바뀜

11887107.818914076


### 절사 평균 계산

In [None]:
trim_mean(income, 0.2) # [20% ~ 80%]

2019898.9669516294

### 최빈값 계산

In [None]:
x = np.random.choice(['A', 'B', 'C'], 1000) # A, B, C라는 요소로 구성
x[:10]

array(['B', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'C', 'B'], dtype='<U1')

In [None]:
mode(x)

ModeResult(mode=array(['B'], dtype='<U1'), count=array([339]))

In [None]:
pd.Series(x).value_counts().index[0]

'B'

# 산포 통계량

In [None]:
import numpy as np
from scipy.stats import *
import pandas as pd

### 분산 계산

In [None]:
x = [1, 2, 3, 4, 5]
print(np.var(x,ddof = 1)) # 분모가 n-1(5-1)
print(np.array(x).var()) # 분모를 n
print(pd.Series(x).var(ddof = 0)) # 분모를 n

2.5
2.0
2.0


### 표준편차 계산

In [None]:
x = [1, 2, 3, 4, 5]
print(np.std(x, ddof = 1))
print(np.array(x).std())
print(pd.Series(x).std(ddof=1))

1.5811388300841898
1.4142135623730951
1.5811388300841898


### 변동계수의 필요성

In [None]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 *10
print(np.std(x1, ddof = 1))
print(np.std(x2, ddof = 1))

1.5811388300841898
15.811388300841896


In [None]:
print(variation(x1)) # variation = 변동계수
print(variation(x2))

0.47140452079103173
0.4714045207910317


In [None]:
print(np.std(x1, ddof = 1) / np.mean(x1))
print(np.std(x2, ddof = 1) / np.mean(x2))

0.5270462766947299
0.5270462766947299


### 스케일링

In [None]:
z1 = (x1 -  x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()

print(z1) 
print(z2)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [None]:
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())
 
print(z1)
print(z2)

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]


In [None]:
# sklearn을 이용한 스케일링(데이터프레임에서 각 컬럼별로 스케일링 됨. 즉, 머신러닝에 적합 즉 이런 데이터프레임이 있는곳에 사용)
x = pd.DataFrame({"x1" : [1, 2, 3, 4, 5], "x2" : [10, 20, 30, 40, 50]})
x

Unnamed: 0,x1,x2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler() #인스턴스화
z = scaler.fit_transform(x) # fit_t ransform => ndarray
pd.DataFrame(z)

Unnamed: 0,0,1
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


### 범위와 사분위 범위 계산

In [None]:
x = np.random.normal(100, 20, size = 1000)
print(np.ptp(x))
print(np.max(x) - np.min(x))

128.55446876421217
128.55446876421217


In [None]:
print(np.quantile(x, 0.75) - np.quantile(x, 0.25))
print(iqr(x))

26.716527326257435
26.716527326257435
