## python 패키지 불러오기
---

In [1]:
# 데이터 구성 패키지
import pandas as pd

# 행렬 연산 패키지
import numpy as np

# 데이터 시각화 패키지
import matplotlib
import matplotlib.pyplot as plt

# 데이터 시각화(추세 등) 패키지
import seaborn as sns

# 통계 분석 패키지
from scipy import stats
import scipy.stats

# 선형모델 formula
import statsmodels.formula.api as smf
import statsmodels.api as sm

from statsmodels.stats.proportion import proportions_ztest
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm


%matplotlib inline

In [3]:
# matplotlib 패키지 한글 깨침 처리
matplotlib.rc('font', family = 'AppleGothic')
plt.rc('font', family = 'AppleGothic')

# 0. 통계적 추론과 검정
---

**기술통계와 추론통계** <br>
- 기술통계 : 측정이나 실험을 통해 수집한 **통계자료의 정리/표현/요약/해석을 통하여 자료의 특성**을 규명하는 방법과 기법
- 추론통계 : 한 모집단에서 추출한 **표본**에 대해 그의 **모집단의 어떤 특성**에 대해 **결론을 추론하는 절차와 기법**

**통계적 추론과 검정** <br>
- 표본데이터에 기초하여 모집단의 특성에 관한 결론을 얻거나 추론을 하기 위해 사용되는 통계 방법

<br>

# 1. 추론통계(Inferential Statics)
---

## ▪️ 정의
- 표본에 포함된 정보로부터 모집단의 특성 파악, 타당성 검토하여 모수를 추론하거나 미래를 예측하는 것

## ▪️ 활용용도
- 통계적 추정(statistical estimation)
    - 표본의 성격을 나타내는 통계량을 기초로, 모수 추정하는 통계적 분석 방법
- 가설 검정(hypothesis test)
    - 모수에 대하여 특정한 **가설**을 세워놓고, **표본을 선택**하여 **통계량을 계산**한 다음 이를 기초로 **모수에 대한 가설의 진위를 판단**하는 방법

## ▪️ 이론
- 모수(parameter) : 모집단(population)의 기술적 척도
- 통계량(statistic) : 표본(sample)의 기술적 척도

표본 != 모집단 >> **표본으로 구해지는 결론과 추정치들은 항상 옳은 것이 아님** <br>
따라서, **통계적 추론에 신뢰수준(confidence level)과 유의수준(significance level)이 필요**

<br>

# 2. 추정 (Estimation)
---

## ▪️ 정의
- 모집단에서 추출한 표본에서 얻은 정보를 이용하여 모집단의 평균, 표준편차 등을 추측하는 것

## ▪️ 종류
- 점 추정 : 표본 데이터를 이용하여 <u>추정하고자 하는 모수를 하나의 수치로 추정함</u>
- 구간 추정 : 추정하고자 하는 <u>모수가 존재할 것으로 예상되는 구간을 정하여 추정</u>

## ▪️ 이론
- 신뢰수준 : 추정하고자 하는 모평균이 구간(신뢰구간)에 포함될 확률
- 모평균 신뢰수준 (95%, 99%)

<br>

# 3. 추정 (Estimation) : 점 추정
---

## ▪️ 정의
- 표본 데이터를 이용하여 계산된 하나의 숫자로 모수의 값을 추측하는 과정

## ▪️ 추정 대상 모수
- 모평균 μ에 대한 점 추정량 x̄
- 모분산 σ^에 대한 점 추정량 s^
- 모비율 p에 대한 점 추정량 p̂

- 추정량(estimator) : 일종의 절차
- 추정치(estimate) : 결과적으로 산출된 수치

<br>

# 4. 추정 (Estimation) : 구간 추정
---

## ▪️ 정의
- 표본에서 얻은 정보를 이용하여, 추정하고자 하는 모수가 존재하리라 예상되는 구간 설정
- 모수가 존재하리라고 생각되는 <u>신뢰구간</u>과 그 가능성을 나타내는 <u>신뢰수준(신뢰도)</u> 필요

## ▪️ 종류
- 모집단의 평균 추정
- 모집단의 문산 추정
- 모집단의 비율 추정

## ▪️ 신뢰구간
- 점추정값 ± 한계오차

<br>

# 4. 정규성 검정 (Normality Test)
---

## ▪️ 정의
- 확률분포가 정규분포를 따르는지 아닌지를 확인
- 정규성을 갖지 않는 분포가 쓸모 없는 것은 아님! 비정규성으로부터 이상요인을 파악하고, 개선 방향을 알아낼 수 있음
- 비정규성의 유형과 원인 파악 할 수 있어야!

## ▪️ 정규성 검정
- 귀무가설 H0 : 모집단은 정규분포를 따른다.
- 대립가설 H1 : 모집단은 정규분포를 따르지 않는다.

## ▪️ 정규성 확인
### 1) 통계량에 의한 정규성 검정
- Shapiro-Wilk normality test : shapiro.text(x)
- Anderson-Darling test : adTest(x)

### 2) 그래프에 의한 정규성 확인
- Histogram : hist(x)
- Kernel density plot : lines(density(x))
- Q-Q plot : qqnorm(x), qqline(x)

<br>

# 5. 연습 및 실습 (정규성 검정)
---

## [연습1] 

In [2]:
# 패키지 임포트
from scipy.stats import shapiro

In [4]:
# 데이터 가져오기
ds_camshaft = pd.read_csv("../data/camshaft.csv", engine="python")

In [5]:
ds_camshaft.head()

Unnamed: 0,Length,Supp1,Supp2
0,601.4,598.0,601.6
1,601.6,599.8,600.4
2,598.0,600.0,598.4
3,601.4,599.8,600.0
4,599.4,600.0,596.8


In [6]:
data1 = ds_camshaft['Supp1']

# 정규성 검정
shapiro(data1)

ShapiroResult(statistic=0.9788156747817993, pvalue=0.10744144767522812)

In [7]:
statistic, p = stats.shapiro(data1)
print("Shapiro-Wilk Test: static={}, p-value={}".
     format(statistic, p))

Shapiro-Wilk Test: static=0.9788156747817993, p-value=0.10744144767522812


## [실습1] 

In [10]:
# 데이터 가져오기
ds_2sample_t = pd.read_csv("../data/2sample_t_test.csv", engine="python")

In [15]:
# 결측치 확인 결과 : 해당 데이터는 결측치를 포함함
ds_2sample_t.isnull()

Unnamed: 0,Mat_A,Mat_B,Total,Sub
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,False,False,False,False
5,False,False,False,False
6,False,False,False,False
7,False,False,False,False
8,False,False,False,False
9,False,False,False,False


In [16]:
# 결측치가 존재하는 부분은 제외. -> slice 이용
statistic1, p1 = stats.shapiro(ds_2sample_t['Mat_A'][0:10])
statistic2, p2 = stats.shapiro(ds_2sample_t['Mat_B'][0:10])

print("Shapiro-Wilk Test(Mat_A): static={}, p-value={}".
     format(statistic1, p1))
print("Shapiro-Wilk TestMat_B): static={}, p-value={}".
     format(statistic2, p2))

Shapiro-Wilk Test(Mat_A): static=0.9062636494636536, p-value=0.2562994360923767
Shapiro-Wilk TestMat_B): static=0.9729753732681274, p-value=0.9169777035713196


<br>

# 6. 모평균(μ) 신뢰구간 추정 : 모표준편차(σ)를 아는 경우
---

## ▪️ 모평균(μ) 에 대한 100(1-α)% 신뢰구간

![image-2.png](attachment:image-2.png)

<br>

# 7. 연습 및 실습 (모평균(μ) 신뢰구간 추정)
---

## [연습1]
- 새로운 품종의 배추 40통 랜덤추출 후 무게 측정
- 모표준편차 0.397
- 평균 무게에 대한 95% 신뢰 구간?

In [17]:
# 데이터 가져오기
df = pd.DataFrame({'Sample': [3.6, 2.9, 2.8, 2.6, 3.4, 3.2, 2.2, 2.6, 2.6, 2.4,
                             2.4, 2.6, 3.4, 2.4, 2.1, 2.6, 3.0, 2.4, 2.7, 2.4,
                             2.6, 2.9, 2.9, 2.0, 2.7, 2.2, 2.8, 2.7, 1.8, 2.5,
                             3.0, 3.2, 2.8, 2.6, 3.2, 3.1, 2.9, 2.7, 2.7, 2.2]})

In [18]:
df.head()
statistic, p = stats.shapiro(df)
print("Shapiro-Wilk Test: static={}, p-value={}".
     format(statistic, p))

Shapiro-Wilk Test: static=0.985405445098877, p-value=0.8764991760253906


In [19]:
# 정규분포 구간 추정 함수 시행
lower, upper = stats.norm.interval(0.95, loc=np.mean(df), 
                                   scale=0.397/np.sqrt(40))

print("신뢰구간: ({0}, {1})" .format(lower.round(2), upper.round(2)))

신뢰구간: ([2.57], [2.82])


## [실습1]
- 새로운 품종의 감자 20박스 랜덤추출 후 무게 측정
- 모표준편차 0.38
- 평균 무게에 대한 95% 신뢰 구간?

In [20]:
df = pd.DataFrame({'Potato': [18, 18, 20, 21, 20, 23, 19, 18, 17, 21,
                              22, 20, 20, 21, 20, 19, 19, 18, 17, 19]})

# 정규분포 구간 추정 함수 시행
lower, upper = stats.norm.interval(0.95, loc=np.mean(df), scale=0.38/np.sqrt(20))
print("신뢰구간: ({0}, {1})" .format(lower.round(2), upper.round(2)))

신뢰구간: ([19.33], [19.67])


<br>

# 8. 모평균(μ) 신뢰구간 추정 : 모표준편차(σ)를 모르는 경우
---

## ▪️ 모평균(μ) 에 대한 100(1-α)% 신뢰구간

![image-2.png](attachment:image-2.png)

<br>

# 9. 연습 및 실습 (모평균(μ) 신뢰구간 추정)
---

## [연습1]
- 기대하는 강종 평균 인장강도 55 kg/mm^
- 시험 생산되는 강종 중 임의로 20개의 코일을 대상으로 랜덤 추출
- 표본평균은 54.860 kmg/mm^, 표본표준편차 1.0081 kg/mm^
- 이 모평균 값의 95% 신뢰구간?

In [23]:
# 데이터 가져오기
df = pd.DataFrame({'Sample': [54.1, 53.3, 56.1, 55.7, 54.0, 54.1, 54.5, 57.1, 55.2, 53.8,
                             54.1, 54.1, 56.1, 55.0, 55.9, 56.0, 54.9, 54.3, 53.9, 55.0]})

# 정규분포 구간 추정 함수 실행
lower, upper = stats.t.interval(0.95, len(df)-1, loc=np.mean(df), scale=scipy.stats.sem(df))
print("신뢰구간: ({0}, {1})" .format(lower.round(2), upper.round(2)))

신뢰구간: ([54.39], [55.33])


## [실습1] 
- 기대하는 강종 평균 인장강도 70 kg/mm^
- 시험 생산되는 강종 중 임의로 20개의 코일을 대상으로 랜덤 추출
- 표본평균은 71.50 kmg/mm^, 표본표준편차 1.933 kg/mm^
- 이 모평균 값의 95% 신뢰구간?

In [24]:
# 데이터 가져오기
df = pd.DataFrame({'Sample': [73, 71, 74, 69, 70, 73, 70, 68, 75, 72,
                             70, 72, 73, 70, 70, 72, 71, 70, 75, 72]})

# 정규분포 구간 추정 함수 실행
lower, upper = stats.t.interval(0.95, len(df)-1, loc=np.mean(df), scale=scipy.stats.sem(df))
print("신뢰구간: ({0}, {1})" .format(lower.round(2), upper.round(2)))

신뢰구간: ([70.6], [72.4])


<br>

# 10. 모분산(σ^) 신뢰구간 추정
---

## ▪️ 모표준편차(σ) 에 대한 100(1-α)% 신뢰구간

![image.png](attachment:image.png)

<br>

# 11. 연습 및 실습 (모분산(σ^) 신뢰구간 추정)
---

## [실습1]
- 콜센타 성능 평가하기 위해 랜덤하게 50번의 전화를 걸고 통화대기시간 기록
- 15초를 초과한 통화대기는 통화관리 실패로 규정
- 통화대기시간의 모분산에 대해 점추정량 및 95% 신뢰구간?

![image.png](attachment:image.png)

<br>

# 12. 모비율(p) 신뢰구간 추정
---

## ▪️ 모비율(p) 에 대한 100(1-α)% 신뢰구간

![image-2.png](attachment:image-2.png)

<br>

# 13. 연습 및 실습 (모비율(p) 신뢰구간 추정)
---

## [실습1]
- 콜센타 성능 평가하기 위해 랜덤하게 50번의 전화를 걸고 통화대기시간 기록
- 15초를 초과한 통화대기는 통화관리 실패로 규정
- 통화관리 성공율에 대한 점추정량 및 95% 신뢰구간?

![image.png](attachment:image.png)