# 확률

## z점수

In [None]:
# 라이브러리 불러오기
import pandas as pd

In [None]:
x = pd.Series([12, 15, 11, 13, 8, 14, 12, 13, 12, 10])

In [None]:
# 평균
x_bar = x.mean();x_bar

12.0

In [None]:
# 표준편차
s = x.std();s

2.0

In [None]:
# z점수 = (관측치 - 평균)/표준편차
z_score = (x - x_bar)/s;z_score

0    0.0
1    1.5
2   -0.5
3    0.5
4   -2.0
5    1.0
6    0.0
7    0.5
8    0.0
9   -1.0
dtype: float64

In [None]:
from scipy.stats import norm

In [None]:
# 누적확률 = 누적분포함수
# 왼쪽에서 오른쪽으로 가면서 누적
norm.cdf(z_score)

array([0.5       , 0.9331928 , 0.30853754, 0.69146246, 0.02275013,
       0.84134475, 0.5       , 0.69146246, 0.5       , 0.15865525])

In [None]:
# 오른쪽에서 왼쪽으로 가면서 누적
norm.cdf(-z_score)

array([0.5       , 0.0668072 , 0.69146246, 0.30853754, 0.97724987,
       0.15865525, 0.5       , 0.30853754, 0.5       , 0.84134475])

In [None]:
# 함수 이용해서 z점수 계산
# 1) 불편추정치 표준편차 사용
from scipy.stats import zscore
zscore(x, ddof = 1)

0    0.0
1    1.5
2   -0.5
3    0.5
4   -2.0
5    1.0
6    0.0
7    0.5
8    0.0
9   -1.0
dtype: float64

In [None]:
# StandardScaler 모델에 적용하기 위해 2차원 구조로 변경
x_df = pd.DataFrame({'x': x})

In [None]:
# 2) 편향추정치 표준편차를 계산하여 결과를 반환
from sklearn import preprocessing
standard = preprocessing.StandardScaler()
standard.fit(x_df)
z_score = standard.transform(x_df)
z_score

array([[ 0.        ],
       [ 1.58113883],
       [-0.52704628],
       [ 0.52704628],
       [-2.10818511],
       [ 1.05409255],
       [ 0.        ],
       [ 0.52704628],
       [ 0.        ],
       [-1.05409255]])

In [None]:
# 편향추정치를 이용하면 같은 결과 볼 수 있음
zscore(x, ddof = 0)

0    0.000000
1    1.581139
2   -0.527046
3    0.527046
4   -2.108185
5    1.054093
6    0.000000
7    0.527046
8    0.000000
9   -1.054093
dtype: float64

## 문제 풀이

### 확률이 중요한 이유

In [None]:
# 1	1) 평균 = 중앙값 = 최빈값
# 	2) 평균을 중심으로 좌우 대칭
# 	3) 점근적 꼬리: 축에 닿지 않음
# 	키, 몸무게 등
# 2	(관측치-평균)/표준편차
# 	동일한 단위 사용
# 	평균, 표준편차를 이용해서 표준화
# 각 분포의 평균, 표준편차를 이용하여 표준화하였고,
# 동일한 단위를 사용하기 때문에 비교가 가능하다.
# 3	서로 다른 분포 비교가 가능하기 때문
# z점수로 서로 다른 분포 비교가 가능하기 때문에

In [None]:
# 4번
x = pd.Series([55,50,60,58.5,46])

In [None]:
x_bar = 50;x_sd = 5

In [None]:
# z점수
(x - x_bar)/x_sd

0    1.0
1    0.0
2    2.0
3    1.7
4   -0.8
dtype: float64

In [None]:
# 5번
# 원점수(관측치) = z점수*표준편차+평균
x_bar = 40;x_sd = 5;z_score = 1.5

In [None]:
z_score * x_sd + x_bar

47.5

In [None]:
# 6번
x = pd.Series([70,80,81,83,63])

In [None]:
x_bar = 75;x_sd = 6.38

In [None]:
# z점수
z_score = (x - x_bar)/x_sd
z_score

0   -0.783699
1    0.783699
2    0.940439
3    1.253918
4   -1.880878
dtype: float64

In [None]:
from scipy.stats import norm
# 누적확률 = 누적분포함수
# 왼쪽에서 오른쪽으로 가면서 누적
cum_p = norm.cdf(z_score);cum_p

array([0.21660836, 0.78339164, 0.82650375, 0.89506418, 0.02999428])

In [None]:
tab = pd.DataFrame({'x': x,
                    'z_score': z_score,
                    'cum_p': cum_p})

In [None]:
tab

Unnamed: 0,x,z_score,cum_p
0,70,-0.783699,0.216608
1,80,0.783699,0.783392
2,81,0.940439,0.826504
3,83,1.253918,0.895064
4,63,-1.880878,0.029994


In [None]:
# 1) 70 ~ 80 확률 = 80 이하 확률 - 70 이하 확률
cum_p[1] - cum_p[0]

0.5667832855106969

In [None]:
# 2) 80 보다 높을 확률 = 1 - 80 이하 확률
1 - cum_p[1]

0.21660835724465155

In [None]:
# 3) 81 ~ 83 확률 = 83 이하 확률 - 81 이하 확률
cum_p[3] - cum_p[2]

0.06856042975493926

In [None]:
# 4) 63 이하 확률
cum_p[4]

0.029994275757256352

In [None]:
# 문제7
z_score = [1,2]
# 누적확률
cum_p = norm.cdf(z_score);cum_p

array([0.84134475, 0.97724987])

In [None]:
# z점수 1 ~ 2 확률 = 2 이하 확률 - 1 이하 확률
cum_p[1] - cum_p[0]

0.13590512198327787

In [None]:
# 문제8
z_score = [1.5, 2.1, 0.7, 0.4, 2, 1.6, 0.4, 0.8, 0.5, 1.7]
# 누적확률
cum_p = norm.cdf(z_score);cum_p

array([0.9331928 , 0.98213558, 0.75803635, 0.65542174, 0.97724987,
       0.94520071, 0.65542174, 0.7881446 , 0.69146246, 0.95543454])

In [None]:
# 문제9
x_bar = 78;x_sd = 5.5

In [None]:
# cdf => z점수를 누적확률
# ppf => 누적확률을 z점수
# 누적분포함수의 역함수(inverse cumulative distribution function) = percent point function
z_score = norm.ppf(0.9)

In [None]:
# 원점수(관측치) = z점수*표준편차+평균
z_score * x_sd + x_bar

85.0485336104953

In [None]:
# 10	표본의 크기 30 보다 크면 정규분포를 가정할 수 있다.
# 11	여러 과목은 각각 다른 평균과 표준편차를 가지고 있음
# 	각 점수를 비교한다 = 각 분포를 비교 = 표준화(표준점수) 필요 = z 분포로 비교
# 각 점수를 비교하려면 각 점수의 분포를 비교해야 함
# 각 점수의 분포는 평균, 표준편차가 다르기 때문에 표준화 방법, z점수를 계산해야 비교가 가능함

In [None]:
# 문제12
df = pd.DataFrame({'math': [85,87],
                   'reading': [88,81]},
                  index = ['동훈','광일'])
df

Unnamed: 0,math,reading
동훈,85,88
광일,87,81


In [None]:
math_mean = 81;reading_mean = 87
math_sd = 2;reading_sd = 10

In [None]:
df['math_zscore'] = (df['math'] - math_mean)/math_sd

In [None]:
df['reading_zscore'] = (df['reading'] - reading_mean)/reading_sd

In [None]:
df

Unnamed: 0,math,reading,math_zscore,reading_zscore
동훈,85,88,2.0,0.1
광일,87,81,3.0,-0.6


In [None]:
df.iloc[:,0:1+1]

Unnamed: 0,math,reading
동훈,85,88
광일,87,81


In [None]:
# 평균
df.iloc[:,0:1+1].mean(axis = 1)

동훈    86.5
광일    84.0
dtype: float64

In [None]:
# z점수의 평균
df.iloc[:,2:].mean(axis = 1)

동훈    1.05
광일    1.20
dtype: float64

In [None]:
# 1) 동훈이의 평균점수가 광일이가 더 높다.
# 2) 광일이의 평균 z점수가 동훈이보다 더 높다.
# 광일이가 더 우수한 학생으로 판단할 수 있음

In [None]:
# 13	아무리 확률이 낮아도 일어날 가능성이 있다.
# 점근적 꼬리 = 축에 닿지 않는다.

### 통계적 유의성

In [None]:
# 문제1
# 1	유의성은 분석한 결과에서 유의한 차이가 있는지 판단할 수 있는 기준이 되기 때문
# 	유의수준 > 유의확률 = 오른쪽에 있다 = 기각역 = 귀무가설 기각 = 연구가설 채택 = 통계적으로 유의한 차이가 있다
# 	임계값 < 검정통계량 = 오른쪽에 있다 = 기각역 = 귀무가설 기각 = 연구가설 채택 = 통계적으로 유의한 차이가 있다

In [None]:
# 2	1) 가설검정은 한 번 시행 = 단일검정
# 	2) 1종오류 = 유의수준 = 확률은 아무리 작아도 존재
# 	3) 결과와는 아무런 관련이 없음
# 	유의수준은 우리가 연구 하기 전에 설정하는 값에 불과

In [None]:
# 3	우연 = 유의확률
# 	우연히 발생할 확률이 낮을수록 좋은 것
# 	연구(대립)가설을 채택하려면 유의수준 > 유의확률

In [None]:
# 4	"1) 귀무가설: 모상관계수 0이다.
# 대립가설: 표본상관계수가 0이 아니다.
# 유의수준(0.05) > 유의확률 = 기각역 = 통계적으로 유의한 상관관계가 있다"
# 	"2) 귀무가설: 모상관계수 0이다.
# 대립가설: 표본상관계수가 0이 아니다.
# 유의수준(0.05) < 유의확률(0.62) = 채택역 = 상관관계가 통계적으로 유의하지 않다"
# 	"3) 귀무가설: 모상관계수 0이거나 0보다 크다.
# 대립가설: 표본상관계수가 0보다 작다.
# 유의수준(0.05) < 유의확률(0.51) = 채택역 = 음의 상관관계가 통계적으로 유의하지 않다"

In [None]:
# 5	0.05 유의수준보다 0.01 유의 수준이 더 낮다 = 더 엄격하다
# 	유의수준이 작다 = 오류 적게 허용 = 유의수준 > 유의확률 가능성이 더 적어짐, 어려워짐

In [None]:
# 6	귀무가설은 모집단에 관련된 것이기 때문에 직접적으로 검정할 수 없음
# 	대립가설은 표본에 관련된 것이기 때문에 직접적으로 검정이 가능함
# 	대립가설 기각 = 귀무가설 채택, 대립가설 채택 = 귀무가설 기각

In [None]:
# 7	가설 검정하기 전에 우리가 정하는 값 = 유의수준 = 면적 = 확률
# 	임계값은 유의수준에 해당하는 축의 값
# 	유의성 검정의 기준

In [None]:
# 8	표본을 이용해서 계산한 값
# 	유의확률 = 면적 = 확률
# 	검정통계량 = 유의확률에 해당하는 축의 값 = 우연히 발생할 확률에 해당하는 축의 값
# 	우리가 원하는 결과가 되려면 면적은 점점 작아져야 하고, 축의 값은 점점 커져야 함

In [None]:
# 9	순서도의 체크포인트
# 	1) 단일 표본 or 두 개 이상의 표본
# 	2) 관계 or 차이
# 	3) 차이를 본다면, 짝지은 표본 or 독립표본
# 	독립표본 t검정의 체크포인트 선택 내용
# 	1) 두 개 이상의 표본
# 	2) 차이
# 	3) 독립표본 & 2개

In [None]:
# 10	유의수준 = 면적 = 확률
# 	기각역 = 귀무가설 기각역
# 	귀무가설 기각 = 대립가설 채택 = 차이가 있다는 내용
# 	통계적으로 유의한 차이가 있다
# 	유의확률이 낮다 = 우연히 발생할 확률이 낮다

In [None]:
# 11	유의수준이 0.05에서 0.01로 이동
# 	오른쪽으로 이동
# 	유의수준이 작아짐 = 면적이 작아짐