# 기본 라이브러리 실행

In [2]:
import pandas as pd
import numpy as np
import statsmodels.stats.proportion as prop
import scipy.stats as stats
from scipy.stats import shapiro

import matplotlib
import matplotlib.pyplot as plt
# 한글 표시를 위한 코드
#matplotlib.rc('font', family = 'Malgun Gothic')

import matplotlib as mpl
# 유니코드 깨짐현상 해결
mpl.rcParams['axes.unicode_minus'] = False
# 나눔고딕 폰트 적용
plt.rcParams["font.family"] = 'NanumGothic'
plt.rcParams['font.size'] = 14

# - 부호 표시를 위한 코드
matplotlib.rc('axes', unicode_minus = False)
import seaborn as sns

# 경고 무시 코드
import warnings
warnings.filterwarnings('ignore')

# 1.연속형 확률분포의 확률 구하기

## 실습 4. 정규분포 계산1

In [2]:
mu = 175 # 평균
sigma = 5 # 표준편차
x = 180 # 관찰값

prob = stats.norm.cdf(x, mu, sigma).round(3) # 정규분포 x값 누적확률
print(f"내 키 상위 : {(1-prob) * 100:.2f}%") # 정규분포 상위누적확률

내 키 상위 : 15.90%


## 실습 5. 정규분포 계산2

In [3]:
mu = 12 # 모평균
sigma = 3 # 모표준편차
xunder = 9 # 누적확률1의 x값
xup = 15 # 누적확률2의 x값
prob_under = stats.norm.cdf(xunder, mu, sigma).round(3)
prob_up = stats.norm.cdf(xup, mu, sigma).round(3)
prob = prob_up - prob_under # 누적확률2 - 누적확률1

print(f"1번 : 9km 이상 15km 이하 달릴 확률 : {prob * 100:.2f}%")
print(f"1번 : 15km 이상 달릴 확률 : {(1 - prob_up) * 100:.2f}%")

1번 : 9km 이상 15km 이하 달릴 확률 : 68.20%
1번 : 15km 이상 달릴 확률 : 15.90%


## 실습 6. t 분포 계산

In [4]:
t = 2 # t 값이 2
df = 100 # 자유도 100

prob_under = stats.t.cdf(t, df).round(3) # t분포 누적확률분포

print(f"P(T <= t) : {prob_under:.3f}%")

P(T <= t) : 0.976%


## 실습 7. chi^2 분포 계산

In [5]:
chisq = 3 # chi 값은 3
df = 8 # 자유도 3
prob = stats.chi2.cdf(chisq, df)
print(f"P(X <= {chisq}) : {(prob):.4f}")

P(X <= 3) : 0.0656


## 실습 8. F 분포 계산

In [6]:
f = 1.5 # f 값 1.5
dfnum = 10 # f_1 자유도
dfden = 1100 # f_2 자유도
prob = stats.f.cdf(x=f, dfn = dfnum, dfd = dfden)
print(f"P(X <= {f}) : {(prob):.4f}")

P(X <= 1.5) : 0.8662


# 2.카이제곱검정과 관련한 문제

## 실습 8. Chi-square test

In [7]:

df = pd.DataFrame({'A' : [18,1,8,7,10,9,10] ,'B' : [8,2,14,5,5,9,4],
                  'C' : [4,1,3,4,9,5,4] , 'D' : [4,1,2,3,2,7,3],
                  'E' : [3,1,3,1,1,1,1], 'F' : [3,25,8,10,2,1,7]})
chi, pval, dof, expected = stats.chi2_contingency(df)

print('chi-square test')
print(f'chisq: {chi:0.3f}')
print(f'p: {pval:0.3f}')
print(f'degree pf freedom: {dof}')
print(f'expected value: \n{expected.round(3)}')

chi-square test
chisq: 98.274
p: 0.000
degree pf freedom: 30
expected value: 
[[11.004  8.21   5.24   3.843  1.921  9.782]
 [ 8.528  6.362  4.061  2.978  1.489  7.581]
 [10.454  7.799  4.978  3.651  1.825  9.293]
 [ 8.253  6.157  3.93   2.882  1.441  7.336]
 [ 7.978  5.952  3.799  2.786  1.393  7.092]
 [ 8.803  6.568  4.192  3.074  1.537  7.825]
 [ 7.978  5.952  3.799  2.786  1.393  7.092]]


# 3.이항확률분포 확률 구하기

## 실습 9. 이항확률분포 계산

In [10]:
# 도장공정에서 불량률은 0.05 일때
# 5대의 차량을 임의로 선택했을때 불량대수가 각각 0,1,2,3,4,5 가 나올 확률은?

n=5
for i in range(n+1):
    prob = stats.binom.pmf(k=i, n=n, p=0.05)
    print(f"P(X <= {i}) : {(prob):.3f}")
print(1-(0.774 + 0.204))
print(5 * (0.05))

P(X <= 0) : 0.774
P(X <= 1) : 0.204
P(X <= 2) : 0.021
P(X <= 3) : 0.001
P(X <= 4) : 0.000
P(X <= 5) : 0.000
0.02200000000000002
0.25


# 4.평균검정에서 두 집단 검정 차이점

## 실습 4. 2-sample t-test

In [9]:
a = pd.DataFrame({'A' : [1.883, 1.715, 1.799, 1.768, 1.711, 1.832, 1.427, 1.344],
                'B' : [1.435, 1.572, 1.486, 1.511, 1.457, 1.548, 1.404, 1.800]})
print(a)

t_result = stats.ttest_ind(a['A'],a['B'])
t, p = t_result.statistic.round(3), t_result.pvalue.round(3)

print('2-sample t-test')
print(f't: {t}')
print(f'p: {p}')

       A      B
0  1.883  1.435
1  1.715  1.572
2  1.799  1.486
3  1.768  1.511
4  1.711  1.457
5  1.832  1.548
6  1.427  1.404
7  1.344  1.800
2-sample t-test
t: 1.94
p: 0.073


## 실습 5. Paired t-test

In [10]:
df = pd.DataFrame({'d1' : [720,589,780,648,720,589,780,648,780,648],
                   'd2' : [710,580,787,712,750,600,782,670,790,680]})
df.head()
t_result = stats.ttest_rel(df['d1'],df['d2'])
t, p = t_result.statistic.round(4), t_result.pvalue.round(4)
print('Paired t-test')
print(f't: {t}' )
print(f'p: {p}' )

Paired t-test
t: -2.2661
p: 0.0497


# 5.상관분석

## 실습 10. Corrleation Analysis

In [11]:
df1=[37.6, 38.6,37.2,36.4,38.6,39,37.2,36.1,35.9,37.1,36.9,37.5,36.3,38.1,39,36.9,36.8,37.6,33,33.5]
df2=[14,15,14,16,17,14,17,16,15,16,14,16,18,13,15,17,14,16,20,21]
corr, pval = stats.pearsonr(df1,df2)
print('Correlation Analysis')
print(f'corr: {corr}')
print(f'p-value : {pval}')

Correlation Analysis
corr: -0.723107314935157
p-value : 0.0003152005510027819
