## 확률 계산

norm : 정규분포 함수   norm(mean,std)   
binom : 이항분포 함수  binom(x,n,p)  
poisson : 포아송분포 함수  poisson(x,mu)  
expon : 지수분포 함수 expon(x,scale=lambda) 


pmf : 확률질량함수(probability mass function)  
pdf : 확률밀도함수(probability density function)  
cdf : 누적분포함수(cumulative distribution function)    0 ~ 누적확률  
ppf : 누적분포함수의 역함수(inverse cumulative distribution function)  ppf(확률) = 기대값

### binom

In [394]:
# 카드 사용자 중 5% 가 연체중이라고 한다. 카드 사용자 100명을 조사했을때 10명이 연체자일 확율

from scipy.stats import binom

binom.pmf(10,100,0.05)

0.016715884095931423

In [395]:
# 10명 이하일 확율

binom.cdf(10,100,0.05)

0.9885275899325153

In [396]:
# 10명 이상일 확률

1-binom.cdf(9,100,0.05)

# 1-(9명 이하일 확률)

0.028188294163416172

### piossion

사건이 특정횟수 이하 발생할 확률 = piosson.cdf(사건 발생 횟수, 단위 시간당 발생횟수)

In [397]:
# 5 페이지당 10개의 오타가 발견된다고 할때, 새로운 페이지에서 오타가 3개 나올 확률?

from scipy.stats import poisson

poisson.pmf(3, 10/5)


0.18044704431548356

In [398]:
# 시간당 240건의 택배 요청이 들어 온다고 한다, 이후 1분동안 들어오는 요청이 2건 이하일 확율

poisson.cdf(2,240/60)

0.23810330555354436

In [399]:
# 하루 평균 3명의 신입회원이 들어 온다고 한다. 2명이상 신입회원이 들어 올 확률은 ?

1-poisson.cdf(1,3)

# 1 - (1명 이하로 들어올 확율)

0.8008517265285442

### expon

사건이 특정시간 이내 발생할 확률 = expon.cdf( 특정 시간, scale = 사건이 발생하는 평균 시간)

In [400]:
# 스마트폰의 평균 수명이 5년이라고 한다, 이 스마트폰의 수명이 6년 이상일 확률은 ?

from scipy.stats import expon

1-expon.cdf(6,scale=5)

0.3011942119122022

In [401]:
import numpy as np
np.exp(6*(-1/5))

0.301194211912202

In [402]:
# 전자제품의 평균 수명이 3년일때, 보증기간이 1년이라고 하자, 보상 받을 확률은 ? (1년 이내 수명이 다 할 확률)

expon.cdf(1,scale=3)

0.28346868942621073

In [403]:
1-np.exp(1*-1/3)

0.28346868942621073

In [404]:
# 병원의 대기 시간이 8분이라고 할때, 방문했을때 4분에서 11분 기다릴 확률은?

(1-np.exp(11*-1/8)) - (1-np.exp(4*-1/8))

0.35369106390788696

In [405]:
# 평균 대기 시간 8분, 11분 기다릴 확률 - 4 분 기다릴 확률

expon.cdf(11,scale = 8) - expon.cdf(4, scale =8)

0.35369106390788696

In [406]:
# 하루 평균 3명의 환자가 온다고 했을때, 5시간 안에 첫번째 환자가 올 확률은 

# 3/24 = 1/8  : 8시간(단위시간) 당 1명이 온다. 
1- np.exp(5*-3/24)

0.4647385714810097

In [407]:
# 환자 1명이 방문할때 걸리는 평균 시간은 24/3 = 8 시간 이므로,
expon.cdf(5,scale= 8)

0.4647385714810097

In [408]:
# 46.5% 환자들이 방문하는 시간 대, 5시간 이내에 온다. 

expon.ppf(0.465, scale=8)

5.003908256689045

### norm

[scipy.stats.norm](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.norm.html)

The location (loc) keyword specifies the mean.   
The scale (scale) keyword specifies the standard deviation.

In [409]:
from scipy.stats import norm

norm(loc=0, scale=1).ppf(q=0.975)

# 표준 정규분포 q 확율(less) 을 갖는 x 값 (표준정규 분포표에서 찾는 값 z)

1.959963984540054

In [410]:
norm.cdf(x=1.959963984540054)

# inverse ppf

0.975

In [411]:
norm.sf(x = 1.96)

# x 값에 대한 확률 (greater)
# p-values
# 1-cdf(x)
# inverse = isf(q)


0.024997895148220435

In [412]:
norm.isf(q=0.024997895148220435)

1.9599999999999997

In [413]:
norm.interval(confidence=0.95)

(-1.959963984540054, 1.959963984540054)

### proportion

주의 : 신뢰구간과, 검정통계값을 구할때 사용한는 p 값이 다르다.

In [414]:
# page 102
# 1000 개 에서 정상이 85 개가 정상이라면.
# 모평균의 68% 신뢰구간은 

norm(loc=.85, scale = np.sqrt((.85*.15)/1000)).interval(.68)

(0.8387709895187311, 0.861229010481269)

In [415]:
np.sqrt((.85*.15)/1000)

0.011291589790636216

In [416]:
# page 114
# 1000 명을 대상으로 사전 조사하여 550명이 의원 지지도를 보였다. 
# 모 평균 p 의 95% 신뢰구간을 구하여라
# z = p_hat - p / np.sqrt(p_hat*(1-p_hat)/n)

norm(loc=0.55, scale=np.sqrt((0.55*0.45)/1000)).interval(0.95)

(0.5191655864637935, 0.5808344135362066)

In [417]:
# page 121
# 모평균 p 의 99% 신뢰구간을 구하여라.
norm(loc=0.55, scale=np.sqrt((0.55*0.45)/1000)).interval(0.99)

(0.5094767115259293, 0.5905232884740708)

In [418]:
# page 124
# 1% 오차 범위에서, 지지도 55% 의 99% 신뢰구간을 구하려면 몇명의 샘플이 필요한가?

_,z = norm.interval(confidence=0.99)
# z = 2.5758293035489004
# 책에서는 z = 2.58, p = 0.5
np.square(z)*(0.55*0.45)/np.square(0.01)

16421.369087527502

In [419]:
# 지지율을 조사할 때 신뢰도 95%로, 표본에서 얻은 지지율과 실제 지지율의 오차가 3% point 이내로 되게 하려면 
# 표본의 크기는 최소 얼마로 잡아야 할까? 단, 예비 조사를 통하여 지지율이 27% 정도라는 것을 알고 있다고 한다

_,z = norm.interval(confidence=0.95)

# 오차 = Z(a/2)*SE
# SE = np.sqrt(p_hat*(1-p_hat)/n)
# n = Z**2 * p_hat * (1-p_hat)/오차**2

np.square(z)*(0.27*(1-0.27)/np.square(0.03))

# 만약 사전 조사된 지지율 27% (p_hat) 가 없다면, 50% (P0) 을 가정한다. 

841.2794817320134

#### 1 proprotioin

In [420]:
# page 138
# 참관인을 뽑은 모 집단은 50%가 유색인종이다 : H0 이라고 가정했을 때, 
# 관측값 4/80 은 .5 보다 작다, 그러면 혹시
# 유색인족은 50% 이하이다. : Ha 인지 
# 평균이 0.5 인 분포에서 80 명을 무작위로 뽑았을때 유색인종인 4명 보다 작을 확율
# SE = np.sqrt(p*(1-p)/n)
# Pr( x <= 4 | p = 0.5, n = 80)

norm(loc = 0.5, scale = 0.5/(80**0.5)).cdf(4/80)

4.144957337186113e-16

In [421]:
# page 144
# 투표자는 50% (5:5)의 공정한 성향을 갖고있다 라고 가정할 때, (지지하거나, 지지 안하거나) : H0 
# 1000명을 관측을 했더니 0.55 가 나오더라,  그래서.. 혹시 모집단 평균이 0.5 보다 큰건 아닌지, 
# 투표자는 우호적이다. (50% 이상 이다.) : Ha
# 확인을 해 보자
# 공정한 모집단 (평균 0.5) 에서 대상자 1000명을 조사한 결과 0.55 보다 큰값이 갖을 확율
# 1% (0.01) 기준으로 검증하라 

norm(loc=.5, scale=0.5*(1/(1000)**0.5)).sf(.55)

## 0.01 보다 작으므로 투표 대상자는 50% 성향을 갖은 대상이 아니였다. 

0.0007827011290012658

In [422]:
# 관측값 (0.55)가 분포의 0.01 확율을 갖는 x 값이 5.5 보다 크다. 

norm(loc=.5, scale=0.5*(1/(1000)**0.5)).isf(0.01)

0.5367827895592978

In [423]:
norm.isf(0.0007827011290012658)

3.162277660168383

#### 2 proportion

In [424]:
# page 161
# p1 : 가짜 약을 먹은 사람의 사망율 0.0217 , 11034명
# p2 : 진짜 약을 먹은 사람의 사망율 0.0126 , 11037명

# p1 - p2 = 0.0091
# SE(p1_hat - p2_hat)는 
np.sqrt((((0.0217)*(1-0.0217)/11034) + ((0.0126)*(1-0.0126))/11037))

0.0017467691585156548

In [425]:
# p1 - p2 의 95% 신뢰구간은 (p1_hat - p2_hat) +/- 1.96 * SE(p1_hat-p2_hat)
norm(loc = 0.0217-0.0126, scale = np.sqrt((((0.0217)*(1-0.0217)/11034) + ((0.0126)*(1-0.0126))/11037)) ).interval(0.95)

(0.0056763953600039805, 0.01252360463999602)

In [426]:
# p-value을 구할 때는 p1_hat-p2_hat 대신 p0(x1+x2 / n1+n2) 을 사용해야 한다. 

p0 = ((0.0217)*11034 + (0.0126)*11037) / (11034 + 11037)
SE =np.sqrt((p0)*(1-p0)*((1/11034)+(1/11037)))
p0, SE

(0.017149381541389154, 0.0017477808769542132)

In [427]:
# p1 = p2 이라고 할때 (p1-p2 = 0 인 분포에서) : H0 , 관측값 p1 - p2 = 0.0091 이 0보다 크니, 혹시 
# 0 < p1-p2  (p2<p1) 아닐까? : Ha
# 그래서 0 (p1-p2)인 분포에서 관측값 0.0091 보다 큰 값들이 나타날 확율은 ?

norm(loc = 0, scale = np.sqrt((p0)*(1-p0)*(2/11037))).sf(0.0217-0.0126)

9.598167638666245e-08

In [428]:
# 0 (p1-p2)인 분포에서 오른쪽 끝 0.05 확률 값은 0.0029 이다. 
norm(loc = 0, scale = np.sqrt((p0)*(1-p0)*(2/11037))).isf(0.05)

# 관측값이 이 한계 오른쪽 밖에 존재하니, p1-p2=0 인 분포가 아닌 p1>p2 인 분포에서 왔을 가능성이 있다.

0.0028746483264128144

### t

모집단의 분산이 알려졌거나, 샘플이 매우 크며, norm 을 사용해야 한다. 

In [429]:
from scipy.stats import t

#### 1 sample t

In [430]:
t(df=4).interval(0.95)

(-2.7764451051977987, 2.7764451051977987)

In [431]:
# page 134
# 5대 자동차를 가지고 정면 충돌 후 수리비용 평균 540 만원이고, 표준편차는  299 만원이라 할때
# 모 평균의 95% 신뢰구간을 구하면

t(loc=540,df=4,scale=299/np.sqrt(5)).interval(0.95)

(168.74246453707383, 911.2575354629262)

In [432]:
# page 149
# 0.05 유의수준으로 해당 메이커가 만드는 자동차는 1000만원 보다 수리비가 많이나온다. 즉, 
# 해당 자동차 메이커의 차가 정면 충돌 후 수리비가 1000만원 보다 같거나 크다고 가정할 때, H0
# 관측값 540 이니, 예상 분포 (평균 1000) 왼쪽 끝 (0.05) 값으로 확인 하거나, 
# (1000 미만이 확률 0.05, x = -2.13) 보다 관찰값 작게 나올 확률은 ?
# Pr( x < 540 | x >= 1000, 4 , SE)
# 작은 확률 cdf, 클 확률 sf

t(loc=1000, df=4, scale=299/np.sqrt(5)).cdf(540)

# 해당 메이커에서 만드는 자동차들은 수리비가 1000 보다 많이 나온다고 할 수 없다.

0.01314561439517004

In [433]:
# 540 평균이라고 할때 관측값은 1000 되고, greater 확율 과 같다. 
t(loc=540, df=4, scale=299/np.sqrt(5)).sf(1000)

0.01314561439517004

In [434]:
t(df=4).ppf(0.05), t(df=4).cdf(-2.1318467813362907)

(-2.1318467813362907, 0.050000000280583434)

In [435]:
t(loc=1000, df=4, scale=299/np.sqrt(5)).ppf(0.05), t(loc=1000, df=4, scale=299/np.sqrt(5)).cdf(714.9361316232118)

# 평균이 1000일때, 발생 확률 0.05 미만 (less) 이 되는 관측값은?
# 관측한 평균이 715 (0.05 확율을 갖는 x값) 보다 작으면 되는 거네. 바로 나오네.

(714.9361316232118, 0.050000000280583407)

In [436]:
# 146 page
# 평균 16 온즈라고 알려진 시리얼이라고 할때,  : H0 , 관측을 했더니 15.9 이다... (알려진 평균보다 작네) 그래서 
# 16 온즈 보다 작은거 아냐?               : Ha , 라고 가정하면
# 49 개 박스을 검사 (Norm) 했더니, 평균 15.9 , 표준 편차 0.35 온즈.. 

norm(loc = 16, scale= 0.35/np.sqrt(49)).cdf(15.9)

# 16 평균에서 해당 관측값이 나올 확률이 0.05 보다 작으므로 알려진 평균 16 온즈 이 아니, 뭔가 있다...  

0.022750131948179576

In [437]:
# 결국 0.05 값이 15.92 보다 작아서... 
norm(loc = 16, scale= 0.35/np.sqrt(49)).ppf(0.05)

15.917757318652427

#### 2 sample t

In [438]:
# page 170

# x1 : 5대, 평균 540, 표준편차 299 
# x2 : 7대, 평균 300, 표준편차 238

# x1-x2 = 540-300 = 240
# 표본이 작을 때
# s0 = ((n1-1)*s1**2 + (n2-1)*s2**2) / (n1+n2-2)
# SE = s0*np.sqrt(1/n1 + 1/n2)

s0 = np.sqrt(((4*np.square(299))+(6*np.square(238)))/(5+7-2))
SE = s0*np.sqrt(1/5 + 1/7)

s0, SE

(264.09619459583286, 154.638897342902)

In [439]:
t(loc=540-300,df=5+7-2,scale=SE).interval(.95)

(-104.55693519473766, 584.5569351947377)

In [440]:
# x1_bar - x2_bar = 0 이라고 할때, : H0
# 관측값 240 이 0 보다 크므로.. (x1_bar - x2_bar > 0 ) 혹시 
# x1_bar > x2_bar 인지 확인해보자  : Ha
# x1_bar = x2_bar 일때, 0.05 확율을 갖는 0 보다 큰쪽 값 (오른쪽 끝값) 보다 관측값(240)이 크면, H0 라고 할 수 없다. 
# 혹은 관측값 보다 큰 값이 갖는 확율이 0.05 보다 작으면, H0라고 할 수 없다. 

t(loc=0, df=10, scale=SE).isf(0.05),t(loc=0, df=10, scale=SE).sf(240)

# 결과는 0 보다 큰쪽 0.05 확율을 갖는 280 보다 관측값 240 작으므로 H0 을 무시 할 수 없다. 
# 따라서 관측값 보다 큰 값이 갖은 확률은 0.05 보다 클것이다. 

(280.27698950833, 0.07585455401211649)

#### paird sample t

In [453]:
# page 172
# 각 가솔린의 연비 데이터에서 2개의 가솔린이 다르다라고 할 수 있나?
# X1 : n1=50, x1_bar = 25, se1 = 5
# X2 : n1=50, x2_bar = 26, se2 = 4 

# x1_bar - x2_bar = -1 
# SE = np.sqrt(np.square(5)/50 + np.square(4)/50)   # 표분이 많을 때

norm(loc =-1 , scale = np.sqrt((np.square(5)/50) + (np.square(4)/50))).interval(0.95)

# 관측값으로 모평균의 95% 신뢰구간을 보면 0 (x1_bar = x2_bar)가 포함되어 있다. 

(-2.7748228736888603, 0.77482287368886)

In [451]:
norm(loc =0 , scale = np.sqrt((np.square(5)/50) + (np.square(4)/50))).cdf(25-26)

0.13472820257988866

In [443]:
# 이때, 10개 항목에 대해    (표본이 작으므로 t)
# x1 과 x2의 각 항목별 차이의 평균이 -0.6
# 표준편차가 0.61 이라고 하면
# SE = 0.61/np.sqrt(1/10)

In [444]:
# 차이값의 관측값을 기준으로 차이값의 모평균 을 95% 신뢰구간 에서 확인해 보면
t(loc = -.6, df = 9, scale = 0.61/np.sqrt(10)).interval(.95)

(-1.0363677126310689, -0.16363228736893104)

In [445]:
t(loc = 0, df = 9, scale = 0.61/np.sqrt(10)).interval(.95)

# 0 보다 작은 값의 95% 한계값이 -0.4 이므로... 관측값(-0.6)이 이미 벗어나 있음 

(-0.43636771263106894, 0.43636771263106894)

In [446]:
# x1_bar = x2_bar (x1_bar - x2_bar =0) 이라고 하면 관측값 -0.6 작으므로.
# 평균이 0, 자유도 9, SE 인 분포에서 0 작은 값들중 0.025 확율을 갖는 값 (유의수준 검정 통계값) 을 확인해 보자.

t(loc = 0, df = 9, scale = 0.61/np.sqrt(10)).ppf(0.025)

# 0.025 확율을 갖는 값(-0.4)보다 관측값(-0.6)이 더 작으므로 확율은 0.025 보다 더 작을 것이다.

-0.43636771263106916

In [447]:
t(loc = 0, df = 9, scale = 0.61/np.sqrt(10)).cdf(-.6)+\
t(loc = 0, df = 9, scale = 0.61/np.sqrt(10)).sf(.6)

# x1_bar = x2_bar 일때 관측값 (-0.6) 이 관측될 확율은 0.05 보다 작다.

0.012510038969701914

### chi2

In [448]:
from scipy.stats import chisquare

In [449]:
from scipy.stats import chi2_contingency

### f

## 변수 변환

>수치형 변수 변환 (*옆의 괄호는 Scikit Learn의 함수명)  
- 선형변환: 최소최대 스케일링(MinMaxScaler), 표준화(StandardScaler), 로버스트 스케일링(RobustScaler), 균등분포/RankGauss (QuantileTransformer)
- 비선형변환: 로그변환, 거듭제곱변환(PowerTransformer - Boxcox, YeoJohnson), 정규화(Normalizer - L1, L2, Max)
- 기타: 구간분할 (=이산화, binning), 순위 변환

>범주형 변수 변환  
- 원핫인코딩(One-hot-encoding), 더미코딩(dummy coding), 이펙트코딩(Effect coding), 숫자로 표현된 범주형 특성, 레이블인코딩(Label encoding), 특징 해싱(Feature Hashing)

## Scipy.stats

```
scipy.stats
│
├── 01 T-test
│   │
│   ├── ttest_1samp         (단일표본 t검정)
│   ├── ttest_ind           (독립표본 t검정)
│   └── ttest_rel           (대응표본 t검정) 
│ 
├── 02 비모수 검정
│   │
│   ├── mannwhitneyu        (맨-휘트니 U 검정 - 중위수 , 윌콕슨 순위합 검정과 동일하다 볼 수 있음)
│   ├── ranksums            (윌콕슨 순위합 검정 - 중위수)
│   └── wilcoxon            (윌콕슨 부호 순위합 검정)
│ 
├── 03 정규정 검정
│   │
│   ├── anderson            (Anderson-Darling , 데이터수가 상대적으로 많을 때)
│   ├── kstest              (Kolmogorov-Smirnov , 데이터수가 상대적으로 많을 때)
│   ├── mstats.normaltest
│   └── shapiro             (shapiro, 노말분포 가장 엄격하게 검정, 데이터수가 상대적으로 적을때)
│   
├── 04 등분산 검정
│   │
│   ├── bartlett
│   ├── fligner
│   └── levene
│
├── 05 카이제곱검정
│   │
│   ├── chi2_contingency     (카이제곱독립검정, 독립성 검정)
│   ├── chisquare            (카이제곱검정 , 적합도 검정)
│   └── fisher_exact         (피셔 정확 검정 - 빈도수가 5개 이하 셀의 수가 전체 셀의 20%이상일 경우 사용 )
│
└── 06 ANOVA (일원분산분석)
    │
    └── f_oneway (분산 분석은  statmodels 모듈이 더 좋음! )
```