## 평균 값, 중간 값, 최빈 값 구하기

In [4]:
import numpy as np
from scipy import stats

np.random.seed(0)

data = np.random.randint(0, 100, 1000)

mean = np.mean(data); print("평균 값 : ", mean.round(2))
median = np.median(data); print("중앙 값 : ", median.round(2))
mode = stats.mode(data); print("최빈 값 : ", mode[0], mode[1])

평균 값 :  49.4
중앙 값 :  49.0
최빈 값 :  [0] [18]


## 사분위수 , IQR 구하기

In [6]:
import numpy as np
from statistics import variance, stdev

np.random.seed(0)

points = np.random.randint(0, 100, 200)
var = variance(points); print("분산 : ", var)
std = stdev(points); print("표준편차 : ", np.round(std, 2))
range = np.max(points) - np.min(points) ; print("범위 : ", range)
print("사분위수:")
for val in [0, 25, 50, 75, 100]:
    quantile = np.percentile(points, val)
    print("{} % => {}".format(val, quantile))
    
q1, q3 = np.percentile(points, [25, 75])
print("IQR : ", q3 - q1)

분산 :  821
표준편차 :  28.65
범위 :  99
사분위수:
0 % => 0.0
25 % => 24.0
50 % => 48.0
75 % => 72.25
100 % => 99.0
IQR :  48.25


## p-value

### 1. t 분포

한 빵집에서 생산되는 식빵의 무게가 최소 200g이라고 주장할 경우, 표본 20개를 추출해 구한 평균 무게가 196g이고, 표준편차는 5.3g이었다면, 유의수준 5%(0.05)로 위의 주장을 기각할 수 있을까?

**귀무가설** : 모든 식빵의 무게는 200g이상이다(빵집 주인의 주장)

In [7]:
import numpy as np
from scipy import stats

# x_bar[표본의 평균], mu[모집단의 평균], sigma[표본의 표준편차], n=표본의 크기
x_bar, mu, sigma, n = 196, 200, 5.3, 20

# 검정 통계량 -> 단일 표본 t 검정 시행

# t 통계량을 구해야 한다 -> 공식 확인[노션]
t_sample = (x_bar - mu) / (sigma / np.sqrt(float(n)))
print("검정 통계량 : ", np.round(t_sample, 2))

# 귀무가설이 기각되기 위해서는 t의 면적이 0.05인 t를 찾아야 한다.
alpha = 0.05 # 유의수준
t_alpha = stats.t.ppf(alpha, n-1) #percent point를 구한다.
print("t-table로부터의 임계값 : ", np.round(t_alpha, 3))

# t_sample의 p-value값을 찾음
p_val = stats.t.sf(np.abs(t_sample), n-1) # survive function -> 아래 쪽 꼬리 값 찾을 때 사용
print("t-table의 아래쪽 꼬리 p 값 : ", np.round(p_val, 4))

검정 통계량 :  -3.38
t-table로부터의 임계값 :  -1.729
t-table의 아래쪽 꼬리 p 값 :  0.0016


### 카이제곱 분포

In [8]:
import numpy as np
import pandas as pd
from scipy import stats

np.random.seed(0)

smoke = ["안함", "가끔", "매일", "심함"]
exercise = ["안함", "가끔", "매일"]

data = {"smoke": np.random.choice(smoke, size = 500),
       "exercise": np.random.choice(exercise, size = 500)}

df = pd.DataFrame(data, columns=["smoke","exercise"])
df.head()

Unnamed: 0,smoke,exercise
0,안함,안함
1,심함,안함
2,가끔,매일
3,안함,가끔
4,심함,가끔


In [9]:
# 독립성 검정에 가장 중요한 건 ; 분할표를 만들어야 한다
xtab = pd.crosstab(df.smoke, df.exercise) # crosstab을 이용해 분할표를 만든다(빈도표)
xtab

exercise,가끔,매일,안함
smoke,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
가끔,38,39,45
매일,34,44,33
심함,45,44,51
안함,47,41,39


In [11]:
# 카이제곱 범주는 2개의 범주형 변수가 독립인지 상관인지 판단한다.
# chi2_contingency(카이제곱 함수)에 위에서 만든 분할표를 넘겨주면 contingency 정보를 제공해준다
contg = stats.chi2_contingency(observed=xtab)
# contg[0] : 카이로제곱 값, contg[1] : p-value, contg[2] : 자유도(함수의 기울기), contg[3]: 기댓값
p_val = np.round(contg[1], 3) # contingency의 두번째 인덱스 값이 p-value을 의미한다
print("p-value : ", p_val)

p-value :  0.668


### ANOVA 분산 분석(F 검정)

In [12]:
import numpy as np
import pandas as pd
from scipy import stats

np.random.seed(0)

data = (np.random.rand(30).round(2) * 10).reshape(-1, 3) # 10행 3열
# 각 A, B, C에 대한 값
df = pd.DataFrame(data=data, columns=['A','B','C'])
df

Unnamed: 0,A,B,C
0,5.5,7.2,6.0
1,5.4,4.2,6.5
2,4.4,8.9,9.6
3,3.8,7.9,5.3
4,5.7,9.3,0.7
5,0.9,0.2,8.3
6,7.8,8.7,9.8
7,8.0,4.6,7.8
8,1.2,6.4,1.4
9,9.4,5.2,4.1


In [14]:
# 분산분석은 f분포를 따르는 f 통계량을 사용, ANOVA(F 검정)
# F검정에는 1개 범주와 2개 이상 범주에 사용되는 두가지 분류가 있다 -> f_oneway는 1가지 범주에 대한 함수
one_way_anova = stats.f_oneway(df.A, df.B, df.C)
print(" F 통계량: {}, p-value: {}".format(np.round(one_way_anova[0],2), np.round(one_way_anova[1], 3)))

 F 통계량: 0.34, p-value: 0.713
