<a href="https://colab.research.google.com/github/jeong-wooseok/Python/blob/master/1%EC%A3%BC_1%EA%B0%95_%ED%99%95%EB%A5%A0%EB%B6%84%ED%8F%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1주. 확률분포, 추정과 가설검정, 비모수 검정


## 1강 확률분포

```
확률변수(Random Variable)는 일정한 확률을 가지고 발생하는 이벤트에 수치가 부여된 변수.
- 확률변수는 X,Y,Z와 같이 대문자로 표기하고, 확률변수의 값은 x,y,z와 같이 소문자표 표기
- 셀 수 있는 확률인 이산형분포, 연속되어 셀수 없는 연속형확률분포로 구분


### 1.1 이산형 분포 확률

```
확률변수가 가질 수 있는 값이 명확하고 셀수 있는 이산형의 분포
- 확률변수 X가 취하는 확률값은 확률질량함수를 이용하여 계산
- 확률값은 0~1사이이며 모든 확률의 값은 1
- 베르누이, 이항분포, 음이항분포, 기하분포, 포아송분포, 다항분포, 초기하분포 등이 있다.


#### 1.1.1 베르누이분포

```
두 가지 결과만 있는 이벤트에서 성공의 횟수를 확률변수 X라 할 때,
확률변수 X는 성공률이 p, 실패확률 (q = 1-p)인 베르누이 분포를 따름
X ~ B(1,p) 로 표기 
```

해당 분포의 확률질량함수, 기대값, 분산을 구하는 공식은 다음과 같다
> $ f(x) = p^x(1-p)^{1-x} \quad\quad x=0,1, \quad\quad   0	\leq q	\leq 1 $<br>
 $ E(x) = p $<br>
 $ Var(X) = pq $<br>


In [None]:
# 베르누이 분포
# 기대값과 분산 계산하기
p = 0.3
q = 1-p

E = p
V = p*q
print(f'해당분포의 기대값은 {E:.3f}, 분산은 {V:.3f}')

#scipy.stats활용
from scipy.stats import bernoulli
E,V = bernoulli.stats(p)
print(f'scipy 해당분포의 기대값은 {E:.3f}, 분산은 {V:.3f}')


해당분포의 기대값은 0.300, 분산은 0.210
scipy 해당분포의 기대값은 0.300, 분산은 0.210


####  1.1.2 이항분포

``` 
베르누이 시행을 "독립적으로 n번 반복시행"했을 때 성공의 횟수를 확률변수 X라하면
확률변수 X는 시행횟수 n번과 성공확률 p, 실패확률 (q=1-p)를 모수로 하는 이항분포를 따른다.
X ~ B(n,p)로 표기

- 이항분포 B(n,p)는 n>20, np>=5, n(1-p)>=5일 때 정규분포 N(np, npq)로 근사한다.
- p <= 0.1, np= 0.1 ~ 10, n >= 50 일때 포아송분포 P(np)로 근사한다.
- scipy.stats.binom.pmf(x,n,p), scipy.stats.binom.cdf(x,n,p)
```

해당 분포의 확률질량함수, 기대값, 분산을 구하는 공식은 다음과 같다
> $ f(x) = _n C_x p^x(1-p)^{n-x} \quad\quad x=0,1,...,n $<br>
 $ E(x) = np $<br>
 $ Var(X) = npq $<br>

``` 
Q) 근로자가 내년에 회사에서 일하지 않을 확률이 0.1이라고 추정한 경우,
시간제 근로자 3명을 무작위로 뽑았을 때, 그중 한명이 금년에 회사를 떠날 확률은?


In [1]:
from scipy.stats import binom
import numpy as np

# combination 함수정의 : 수기로 계산시 확률계산용
fac = np.math.factorial
def combi(n,x):
  result = fac(n)/fac(x)/fac(n-x)
  return result

In [2]:
n = 3
x = 1
p = 0.1

E = n*p
V = n*p*(1-p)
print(f'해당분포의 기대값은 {E:.3f}, 분산은 {V:.3f}')

# 확률질량함수 계산
pmf = combi(n,x) * p**x * (1-p)**(n-x)
# pmf = binom.pmf(x,n,p)
print(f'해당분포의 확률질량함수(pmf):{pmf:.3f}')

# 누적확률질량 함수 계산
cdf = 0
for i in range(0,x+1):
  cdf += combi(n,x) * p**x * (1-p)**(n-x)
print(f'해당분포의 누적확률질량함수(cdf):{binom.cdf(x,n,p):.3f}')
 

해당분포의 기대값은 0.300, 분산은 0.270
해당분포의 확률질량함수(pmf):0.243
해당분포의 누적확률질량함수(cdf):0.972


무작위로 3명 뽑을 때 그중 한명이 금년에 회사를 떠날 확률은 0.243임

#### 1.1.3 음이항분포

```
베르누이 시행을 "독립적으로 k번 성공할 때까지 반복시행"했을 때 
1) 시행횟수를 확률변수 X라 하거나 (일반적으로 분석가가 관심을 가짐)
2) 실패횟수를 확률변수 X라 하는 경우
확률변수 X는 성공횟수 k와 성공확률 p 를 모수로 갖는 음이항 분포를 따른다
X ~ NB(k,p) 라 표기

- 음이항분포의 X는 셀 수는 있지만 값이 무한한 무한확률변수.
- 음이항분포에서 k=1이면, 음이항분포는 기하분포가 됨 
- scipy.stats.nbinom.pmf(x,k,p), scipy.stats.nbinom.cdf(x,k,p)
```

해당 분포의 확률질량함수, 기대값, 분산을 구하는 공식은 다음과 같다
<br><br>
1) 확률변수 X = 시행횟수
> $ f(x) = _{x-1} C_{k-1} p^k(1-p)^{x-k} \quad\quad x=k,k+1,...,\quad\quad k>0 $<br>
 $ E(x) = \frac{kq}{p} $<br>
 $ Var(X) = \frac{kq}{p^2}$<br>

<br>


2) 확률변수 X = 실패횟수
> $ f(x) = _{x+k-1} C_{k-1} p^k(1-p)^x \quad\quad x=0,1,2,...,\quad\quad k>0 $ <br>
 $ E(x) = \frac{kq}{p} $ <br>
 $ Var(X) = \frac{kq}{p^2}$ <br>

```
Q) A가 승리할 확률이 0.3 이라면 5번째 경기에서 2번째로 이길 확률은? 


In [None]:
from scipy.stats import nbinom
n = 5 # 총 시행횟수
k = 2 # 총 성공횟수
p = 0.3 # 성공확률
q = 1-p # 실패확률

case = 2
if case ==1: # 확률변수 X가 k번 성공할 때까지 시행횟수 x인 경우
  x = n # **확률변수
  E = k / p
  V = k*q / p**2
  pmf = combi(x-1,k-1) * p**k * q**(x-k)
  # E2, V2 = np.nan, np.nan  ## 라이브러리 지원 안함
  # pkg_pmf, pkg_cdf = np.nan, np.nan ## 라이브러리 지원 안함
  cdf=0
  for i in range(k,x+1): # 확률변수의 확률값들을 합함
    cdf += combi(i-1,k-1) * p**k * q**(1-k)
elif case ==2: # 확률변수 X가 k번 성공할 때까지의 실패횟수 x인 경우
  x = n-k # **확률변수
  E = k*q / p
  V = k*q / p**2
  pmf = combi(x+k-1, k-1) * p**k * q**(x)
  E2, V2 = nbinom.stats(k,p)
  pkg_pmf, pkg_cdf = nbinom.pmf(x,k,p), nbinom.cdf(x,k,p)
  cdf = 0
  for i in range(0, x+1): # 확률변수의 확률값들을 합함
    cdf += nbinom.pmf(i,k,p)

# 기대값과 분산 계산하기 
print(f'[수기] 해당분포의 기대값은{E:.3f}, 분산은 {V:.3f}')
print(f'[라이브러리] 해당분포의 기대값은{E2:.3f}, 분산은 {V2:.3f} \n')

# 확률질량함수 계산하기
print(f'[수기] 확률질량함수 (pmf) : {pmf:.3f}')
print(f'[라이브러리] 확률질량함수 (pmf) : {pkg_pmf:.3f} \n')

# 누적확률질량함수 계산하기 : 2번째 이하로 이길 확률은? 
print(f'[수기] 누적확률질량함수 (cdf) : {cdf:.3f}')
print(f'[라이브러리] 누적확률질량함수 (cdf) : {cdf:.3f} \n')

print(f'5번째 경기에서 2번째로 이길 확률은 {pmf*100:.1f}% 이다')



[수기] 해당분포의 기대값은4.667, 분산은 15.556
[라이브러리] 해당분포의 기대값은4.667, 분산은 15.556 

[수기] 확률질량함수 (pmf) : 0.123
[라이브러리] 확률질량함수 (pmf) : 0.123 

[수기] 누적확률질량함수 (cdf) : 0.472
[라이브러리] 누적확률질량함수 (cdf) : 0.472 

5번째 경기에서 2번째로 이길 확률은 12.3% 이다


#### 1.1.4 기하분포

```
베르누이 시행을 
1) 처음으로 성공할 때까지의 시행횟수를 확률변수 X라 하는 경우 (분석가들이 주로 관심을 가짐)
2) 처음 성공할때 까지의 실패횟수를 확률변수 X라 하는 경우
확률변수 X는 성공확률 p 를 모수로 갖는 기하분포를 따른다
X ~ G(p) 라 표기

- 기하분포의 X는 셀 수는 있지만 값이 무한한 무한확률변수임
- 기하분포는 이산확률분포 중에서 유일하게 무기억성*의 성질을 가짐
 * 무기억성 : 실패를 많이 했다고 해서 실패가 앞으로의 성공할 가능성에 영향을 미치지 않는다는 성질
- scipy.stats.geom.pmf(x,p), scipy.stats.geom.cdf(x,p)
```

해당 분포의 확률질량함수, 기대값, 분산을 구하는 공식은 다음과 같다
<br><br>
1) 확률변수 X = 시행횟수
> $ f(x) = pq^{x-1} \quad\quad x=1,2,3... $<br>
 $ E(x) = \frac{1}{p} $<br>
 $ Var(X) = \frac{1}{p^2}$<br>

<br>


2) 확률변수 X = 실패횟수
> $ f(x) = pq^{x} \quad\quad x=0,1,2... $<br>
 $ E(x) = \frac{q}{p} $ <br>
 $ Var(X) = \frac{q}{p^2}$ <br>



```
Q) 하나의 주사위를 세번 던질 때 세번째 시행에서 앞면 숫자가 6이 나올 확률은?


In [None]:
from scipy.stats import geom

#### 1.1.5 초기하분포

#### 1.1.6 포아송분포

### 1.2 연속형 확률분포

```
확률변수가 가질 수 있는 값이 연속적인 실수여서 셀 수 없는 경우의 분포
- 확률변수 X의 값은 확률밀도함수를 이용하여 계산
- 확률밀도함수를 적분함으로써 그래프 아래의 면적인 확률값 계산 (면적의 총합 =1)
- 균일분포, 정규분포, 지수분포, 카이제곱분포, t분포, F분포 등이 있음
- Scipy라이브러리를 이용하여 쉽게 얻음 .pmf(), .cmf() .ppf() 


#### 1.2.1 균일분포

#### 1.2.2 정규분포, 표준 정규분포

#### 1.2.3 지수분포

#### 1.2.4 감마분포

#### 1.2.5 카이제곱분포

#### 1.2.6 t분포

#### 1.2.7 F분포