통계적 사고방식 : 어떠한 사건이 우연히 발생할 확률이 얼마인가 라고 묻는 것

##  t-test(t검정)

T검정은 모집단의 분산이나 표준편차를 알지 못할 때, 표본으로부터 추정된 분산이나 표준편차를 이용하여 두 모집단의 평균의 차이를 알아보는 검정방법이다. 집단의 수는 최대 2개까지 비교 가능하며 3개 이상인 경우 분산분석(ANOVA)를 사용한다.

T-검정의 가정(조건)
- 종속변수가 양적 변수일 때
- 모집단의 분산이나 표준편차를 알지 못할 때
- 모집단의 분포가 정규분포일 때

1. 단일표본 T-검정(One-Sample-test)
- 1개의 Sample 값들의 평균이 특정값과 동일한지 비교

In [None]:
# np.random.binomial : 이항분포로 부터 무작위 표본 추출
# 이항 분포 : 연속된 n번의 독립적 시행에서 각 시행이 확률 p를 가질 때의 이산 확률 분포이다. 
import numpy as np
np.random.seed(12) # 랜덤 시드값 설정
np.random.binomial(n = 1, p = 0.5, size = 1000) # 우연히 동전의 앞 혹은 뒷면(1로 지정)이 나올확률이 0.5인 것을 1000번하겠다.
coinflips = np.random.binomial(n = 1, p = 0.5, size = 1000) # 동전을 예시를 들기위해 변수설정, 한쪽면을 1로 가정

from scipy import stats 
stats.ttest_1samp(coinflips, .5) # stats.ttest_1samp(Sample데이터, 비교하려는 값)

Ttest_1sampResult(statistic=-1.2019326366894174, pvalue=0.22967446314397402)

결과값중 statistic은 통계치, pavalue > alpha(= 0.05) 보다 크기 때문에 귀무가설은 기각되지 않는다. 즉, 우연히 0.5가 나올확률이 0.2이다 (20%)

귀무가설 : 1이 나올확률이 0.5이다.

대립가설 : 1이 나올확률이 0.5가 아니다.

 귀무가설 과 대립가설 

< https://blog.naver.com/ljs7463/222351943157 >



 P-value 

< https://blog.naver.com/ljs7463/222351975704 > 




2. 두 표본 T-검정(Two-Sample-ttest)
- 2개의 sample값들의 평균이 서로 동일한지(차이가 0인지) 비교

In [None]:
np.random.seed(111) 
coin1 = np.random.binomial(n = 1, p = 0.6, size = 500)
coin2 = np.random.binomial(n = 1, p = 0.5, size = 200)
stats.ttest_ind(coin1, coin2)

Ttest_indResult(statistic=2.5217925052968604, pvalue=0.011897284906103034)

pvalue 값이 0.01이다. 즉, pvalue < alpah(0.05) 보다 작기 때문에 귀무가설은 기각된다. 

귀무가설 : 2개의 sample값들의 평균은 서로 동일하다.

대립가설 : 2개의 smaple값들의 평균은 서로 동일하지않다.

3. one-tailed-test
4. two-tailed-test

< https://blog.naver.com/ljs7463/222352002928 >


5. Two-sample-One-tailed
-  2개의 sample중 하나의 값이 더 크거나, 많은것

In [None]:
# stats.ttest_ind(A, B, alternative = 'greater')
# stats.ttest_ind(A, B, alternative = 'less')

# A가 B보다 더 많다, 크다
# B가 A보다 더 많다, 크다

# 귀무가설 : A가 B보다 크다
# 디립가설 : A가 B보다 크지않다.

6. t-test의 process
- 귀무가설 설정
- 대립가설 설정
- 신뢰도 설정(Confidence Level)
- P-value확인
- p-value를 바탕으로 가설에 대해 결론을 내림

# 대표 통계량

In [None]:
import numpy as np
from scipy.stats import *
import pandas as pd

In [None]:
x = [1, 2, 3, 4, 5]
print(np.mean(x))
print(np.array(x).mean())

3.0
3.0


In [None]:
#  이진변수에대한평균  
x = [1, 0, 0, 0, 1]
print(np.mean(x))

0.4


### 조화평균

In [None]:
x = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
print(len(x) / np.sum(1/x))
print(hmean(x)) # hmean을 사용하여 조화평균을 구할 수 있다.

0.21897810218978103
0.21897810218978103


### 절사평균이필요한이유 

In [None]:
income = np.random.normal(2000000, 500000, 100) # 평균이 2백만원이고 표준편차가 오십만인 정규분포를 따르는 소득을 갖는 100명씩
print(np.mean(income))

2005978.8971032172


In [None]:
income = np.append(income, 10**9) #소득이 10억원인 사람의 등장
print(np.mean(income)) #100명의 소득이 200만원에 가까운데, 한 명때문에 대표값이 바뀜

11887107.818914076


### 절사 평균 계산

In [None]:
trim_mean(income, 0.2) # [20% ~ 80%]

2019898.9669516294

### 최빈값 계산

In [None]:
x = np.random.choice(['A', 'B', 'C'], 1000) # A, B, C라는 요소로 구성
x[:10]

array(['B', 'A', 'B', 'B', 'B', 'B', 'B', 'B', 'C', 'B'], dtype='<U1')

In [None]:
mode(x)

ModeResult(mode=array(['B'], dtype='<U1'), count=array([339]))

In [None]:
pd.Series(x).value_counts().index[0]

'B'

# 산포 통계량

In [None]:
import numpy as np
from scipy.stats import *
import pandas as pd

### 분산 계산

In [None]:
x = [1, 2, 3, 4, 5]
print(np.var(x,ddof = 1)) # 분모가 n-1(5-1)
print(np.array(x).var()) # 분모를 n
print(pd.Series(x).var(ddof = 0)) # 분모를 n

2.5
2.0
2.0


### 표준편차 계산

In [None]:
x = [1, 2, 3, 4, 5]
print(np.std(x, ddof = 1))
print(np.array(x).std())
print(pd.Series(x).std(ddof=1))

1.5811388300841898
1.4142135623730951
1.5811388300841898


### 변동계수의 필요성

In [None]:
x1 = np.array([1, 2, 3, 4, 5])
x2 = x1 *10
print(np.std(x1, ddof = 1))
print(np.std(x2, ddof = 1))

1.5811388300841898
15.811388300841896


In [None]:
print(variation(x1)) # variation = 변동계수
print(variation(x2))

0.47140452079103173
0.4714045207910317


In [None]:
print(np.std(x1, ddof = 1) / np.mean(x1))
print(np.std(x2, ddof = 1) / np.mean(x2))

0.5270462766947299
0.5270462766947299


### 스케일링

In [None]:
z1 = (x1 -  x1.mean()) / x1.std()
z2 = (x2 - x2.mean()) / x2.std()

print(z1) 
print(z2)

[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]
[-1.41421356 -0.70710678  0.          0.70710678  1.41421356]


In [None]:
z1 = (x1 - x1.min()) / (x1.max() - x1.min())
z2 = (x2 - x2.min()) / (x2.max() - x2.min())
 
print(z1)
print(z2)

[0.   0.25 0.5  0.75 1.  ]
[0.   0.25 0.5  0.75 1.  ]


In [None]:
# sklearn을 이용한 스케일링(데이터프레임에서 각 컬럼별로 스케일링 됨. 즉, 머신러닝에 적합 즉 이런 데이터프레임이 있는곳에 사용)
x = pd.DataFrame({"x1" : [1, 2, 3, 4, 5], "x2" : [10, 20, 30, 40, 50]})
x

Unnamed: 0,x1,x2
0,1,10
1,2,20
2,3,30
3,4,40
4,5,50


In [None]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler() #인스턴스화
z = scaler.fit_transform(x) # fit_t ransform => ndarray
pd.DataFrame(z)

Unnamed: 0,0,1
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


### 범위와 사분위 범위 계산

In [None]:
x = np.random.normal(100, 20, size = 1000)
print(np.ptp(x))
print(np.max(x) - np.min(x))

128.55446876421217
128.55446876421217


In [None]:
print(np.quantile(x, 0.75) - np.quantile(x, 0.25))
print(iqr(x))

26.716527326257435
26.716527326257435
