In [1]:
import numpy as np
import pandas as pd
from scipy import stats
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
from statsmodels.stats.proportion import proportions_ztest
from sklearn import linear_model

---

# 기술 통계

>1. 중심/산포 척도
>> * 산수평균, 중앙값, 최빈값
>> * Range, 분산, 표준편차
>2. 범주형 데이터에 계산
>> * counts, percents, cumulative counts, cumulative percents

## 정의

수집된 데이터로부터 ***평균, 분산 등의 요약 통계량*** 이나 ***그래프***를 이용하여 체계적으로 정리/요약 하여 ***전반적 특성***을 파악하는 것

## 활용 용도

* 데이터의 중심적 경향 파악 - 중심척도(Central Tendency)
>* 평균(mean)
>* 중앙값(median) 
>* 최빈값(mode)
* 데이터의 퍼짐 정도(Spread) - 산포척도(Degree of Dispersion)
>* 표준편차(Standard Deviation)
>* 분산(Variance)
>* 범위(Range)
>* 사분위 범위(inter-quartile range)
* 데이터의 분포모양 확인 - 분포모양(Shape)
>* 왜도(Skewness)
>* 첨도(Kurtosis)

---

## 중심/산포 척도

### 중심척도

* 산술평균(Mean)
>* 이상치에 대한 영항이 큼
* 중앙값(Median)
>* 순서대로 정리하여 가운데 위치한 값
>* 데이터 수가 짝수 시, 가운데 두 수의 평균값 (1+n)/2
>* 이상치에 대한 영향을 거의 받지 않음

### 산포척도

* 범위(Range; R)
>* 이상치에 대한 영향이 큼
>> max(x) - min(x)
* 표본분산(Sample Variance; s^2)
* 표본 표준편차(Sample Standard Deviation; s)
* Q3 - Q1
> Q1: 1사분위수(25%), Q3: 3사분위수(75%)
>> IQR: Interquartile Range: 데이터의 중간 50% 영역

---

### 실습1 - 기술통계

자동차 연비 Data Set에서 기술통계치 구하기
>* 시내에서 연비(mpg) 통계치 구하기
>> 모델 별 데이터수, 평균, 중앙값, 표준편차, min, max, Q1, Q3

In [3]:
cars_data = pd.read_csv('../files/실습화일/mycars.csv', engine='python')
cars_data.head(3)

Unnamed: 0,manufacturer,model,displacement,year,cylinder,automatic,driving,mpg,highway_mileage,fuel,class
0,audi,a4,1.8,1999,4,auto,f,18,29,p,compact
1,audi,a4,1.8,1999,4,manual,f,21,29,p,compact
2,audi,a4,2.0,2008,4,manual,f,20,31,p,compact


In [7]:
cars_data[['mpg','model']].groupby('model').describe()

Unnamed: 0_level_0,mpg,mpg,mpg,mpg,mpg,mpg,mpg,mpg
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
model,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
4runner 4wd,6.0,15.166667,0.752773,14.0,15.0,15.0,15.75,16.0
a4,7.0,18.857143,1.864454,16.0,18.0,18.0,20.5,21.0
a4 quattro,8.0,17.125,1.807722,15.0,15.75,17.0,18.25,20.0
a6 quattro,3.0,16.0,1.0,15.0,15.5,16.0,16.5,17.0
altima,6.0,20.666667,1.966384,19.0,19.0,20.0,22.5,23.0
c1500 suburban 2wd,5.0,12.8,1.30384,11.0,12.0,13.0,14.0,14.0
camry,7.0,19.857143,1.46385,18.0,18.5,21.0,21.0,21.0
camry solara,7.0,19.857143,1.772811,18.0,18.0,21.0,21.0,22.0
caravan 2wd,11.0,15.818182,1.834022,11.0,15.5,16.0,17.0,18.0
civic,9.0,24.444444,1.943651,21.0,24.0,24.0,25.0,28.0


>* 시내에서 연비(mpg) 통계치 구하기
>> 구동 방식별 데이터 수, 평균, 중앙값, 표준편차, min, max, Q1, Q3

In [8]:
cars_data[['mpg','automatic']].groupby('automatic').describe()

Unnamed: 0_level_0,mpg,mpg,mpg,mpg,mpg,mpg,mpg,mpg
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
automatic,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
auto,157.0,15.968153,3.848777,9.0,13.0,16.0,18.0,29.0
manual,77.0,18.675325,4.488118,9.0,15.0,18.0,21.0,35.0


---

### 실습2 - 기술통계

자동차 연비 Data Set에서 기술통계치 구하기
>* 자동차의 모델과 연비에 범주형 데이터에 대해 counts, percents, cumulative counts, cumulative percents를 계산하시오

In [15]:
df = cars_data[['mpg','model']]
count = df.model.value_counts(0)
cumcnt = np.cumsum(count)
percent = count/sum(count)*100
cumpct = np.cumsum(percent)
count_data = pd.DataFrame({'Count':count, 'CumCnt':cumcnt,'Percent':percent,'CumPct':cumpct})
count_data.columns.name = 'Model'
count_data
# df = df.value_counts().sort_index()

Model,Count,CumCnt,Percent,CumPct
caravan 2wd,11,11,4.700855,4.700855
ram 1500 pickup 4wd,10,21,4.273504,8.974359
mustang,9,30,3.846154,12.820513
jetta,9,39,3.846154,16.666667
civic,9,48,3.846154,20.512821
dakota pickup 4wd,9,57,3.846154,24.358974
grand cherokee 4wd,8,65,3.418803,27.777778
a4 quattro,8,73,3.418803,31.196581
impreza awd,8,81,3.418803,34.615385
passat,7,88,2.991453,37.606838


---

# 추론 통계

>1. 추정(Estimation)
>> * 점추정
>> * 구간추정
>2. 가설검정(Hypothesis Test)
>> * 평균검정
>>> * t-test
>>> * paried test
>>> * ANOVA
>> * F test
>> * Chi square test
>> * Proportion test

### 정의

표본에 포함된 정보로부터 모집단의 **특성을 파악**하고 **타당성을 검토**하여 **모수를 추론**하거나 **미래를 예측**하는것

### 활용 용도

* 통계적 추정(statistic estimation)
> 표본의 성격을 나타내는 통계량을 기초로 하여 모수를 추정하는 통계적 분석 방법
* 가설검정(Hypothesis test)
> 모수에 대하여 특정한 가설을 세워놓고, 표본을 선택하여 통계량을 계산한 다음 이를 기초로 하여 모수에 대한 가설의 진위를 판단하는 방법

### 이론

* 모수(Parameter)
> 모집단(population)의 기술적 척도
* 통계량(Statistic)
> 표본(sample)의 기술적 척도

>> 표본 != 모집단 -> 표본으로 구해지는 결론과 추정치들은 항상 옳은 것이 아님.

> 그래서, 통계적 추론에 신뢰의 척도, 즉 **신뢰수준(Confidence level)** 과 **유의수준(Significance level)**필요!

---

## 추정(estimation)

### 정의

> **모집단**에서 **추출**한**표본**에서 얻은 **정보를 이용**하여 ***모집단의 평균, 표준편차 등을 추측***하는것!

### 종류

>* 점추정
>> 하나의 값으로 추정
>* 구간추정
>> 값을 포함하는 구간을 추정

### 이론

>* 신뢰도
>> 추정하고자 하는 모평균이 신뢰구간에 포함될 확률
>* 모평균 신뢰도(95%, 99% 등)

* 계산
> **점 추정하고자 하는 모수**를 표본 데이터를 이용하여 **하나의 수치로 추정**함
>> * 모평균에 대한 점 추정량
>>> * 표본평균
>> * 모분산에 대한 점 추정량
>>> * 표본 분산

>1. 모평균
>>1. 모표준편차를 아는경우
>>> Z
>>>> **모집단이 정규분포일경우 항상 성립**함
>>2. 모표준편차를 모르는 경우
>>> T
>>>> **모집단이 정규분포가 아닐 경우 표본의 크기만 크다면** 중심극한 정리에 의해 성립
>2. 모분산
>> 카이제곱
>>> 모집단이 정규분포일 경우 항상 성립함
>3. 모비율
>>> 표본크기가 클 때 근사적으로 성립함 

### 구간추정

> **추정하고자 하는 모수가 존재할 것으로 예상되는 구간**을 정하여 **추정**
>> 모수가 존재할 것으로 예상되는 신뢰수준에 따라 신뢰구간 추정

#### 모평균 신뢰구간 추정

>* 모표준편차를 아는경우
>> z분포를 계산하여 알 수 있음
>* 모표준편차를 모르는 경우
>>* 일반적인 경우 표본으로부터 표준편차를 추정해야만 함
>>* 따라서 미지의 모표준편차대신 표본 표준편차를 사용하게 될 경우 T분포를 통해 알수있음

## 가설검정

### 정의

> 어떤 가설이 옳은 가의 여부를 통계적 방법으로 판정
>* 모집단 실제의 값이 얼마가 된다는 주장과 관련해, **표본의 정보** 를 사용해서 **가설의 타당성 여부를 판정**하는 과정 

### 절차

>1. 가설수립
>>* 귀무가설
>>* 대립가설
>2. 유의수준
>>* 기각역 수립
>>* 판정의 기준
>3. 검정통계량
>>* 귀무가설이 참이라는 가정
>4. 판정
>>* 참으로 받아드릴 가설 선택

>* 여러가지 추측의 설정(가설수립)
>>* **귀무가설(null hypothesis):** 현재의 상황을 나타내는 가설로 대립가설을 부정함, H0
>>> 귀무가설은: ~같다, ~ 차이가 없다, ~가 동일하다, 0이다.
>>* **대립가설(alternative hypothesis):** 새로운 주장이거나 검토되는 가설 H1
>* 모집단으로부터 임의 표본을 추출하고 검정 통계량(test statistic)을 계산
>>* **검정통계량:** 검정에 사용되는 통계량
>>* **기각역:** 귀무가설을 기각시키는 검정 통계량의 관측값 영역
>* 유의 수준 검토:
>>* 귀무가설이 참일 때 측정치에 의하여 ***귀무가설이 기각될 확률의 최대 허용 한계***
>* 가설 기각 vs 채택

>* p-value
>>* 귀무가설이 참이라는 가정하에 표본데이터가 귀무가설을 지지하는 확률
>>> P값이 유의수준보다 작으면 귀무가설을 기각하고, 아니면 기각하지 못함
>* 유의수준
>>* 귀무가설이 실제로 참인데도 불구하고 귀무가설이 거짓이라고 판단하는 **최대허용오류**
>>> 1종 오류(참인데 거짓이라고 판단)의 위험성을 부담할 최대 허용수준(통상 0.05)

## 통계에 의한 검정

>1. 평균 검정(T-검정)
>> 집단의 평균값에 대한 가설을 검정하는 도구
>>* **1-sample-t:** 한 집단의 평균이 특정 값과 같은지 비교
>>* **2-sample-t:** 두 집단 간 평균이 같은지 비교
>>* **Paired-t:** 쌍을 이룬 두 집단간 평균이 같은지 비교
>2. 분산 검정(F-검정)
>> 두 개 이상의 집단간 모 분산이 동일한 지를 검정하는 도구
>>* **2 Variances:** 두 집단간 분산 비교
>>* **Equal Variances:** 3 집단간의 분산 비교
>3. 비율 검정(Proportion Test)
>> 한 집단 또는 두 집단의 비율이 같은 지를 검정하는 도구
>>* **1 Proportion test:** 한 집단의 비율이 특정 비율과 같은지 비교
>>* **2 Proportion test:** 두 집단의 비율 비교
>4. 카이제곱 검정
>> 범주들 간의 동일성이나 독립성을 검정하거나, 적합도를 검정하는 도구
>>* **동일성 검정:** 특성별 두 가지 이상으로 분류된 범주간에 상호 동일한 비율로 나타는가를 검정
>>* **독립성 검정:** 특성별 두 가지 이상으로 분류된 범주간에 상호 관련성이 있는지를 검정
>>* **적합도 검정:** 어떤 특성치 또는 사건이 기대치에 따라 발생했는지 여부를 검정

___

### 실습3 - 추론 통계

새로운 품종의 감자 20BOX를 랜덤 추출하여 무게를 측정할 결과가 다음과 같음  
이 자료로부터 신품종 배추의 평균 무게에 대한 95% 신뢰구간을 구하시오.  
(단, 모표준편차는 3.8로 알려져 있음)

In [21]:
df = pd.DataFrame({"Weight":[18,18,20,21,20,23,19,18,17,21,22,20,20,21,20,19,19,18,17,19]})
lower, upper = stats.norm.interval(0.95, loc=df.mean(), scale=0.397/np.sqrt(len(df)))
print("신뢰구간:({0},{1})".format(lower.round(2),upper.round(2)))

신뢰구간:([19.33],[19.67])


___

### 실습4 - 모평균 신뢰구간 추정 - 모표준편차를 모르는 경우

제품개발자는 새로 개발된 강조으이 평균 인장강도를 70kg/mm^2으로 기대하고 있음.  
이를 검증하기 위해 시험 생산되는 강종 중 임의로 20개의 코일을 대상으로 랜덤하게 시편을 채취하였음  
표본평균은 71.5kg/mm2, 표본표준편차는 1.933kg/mm2임을 알았음  
이 모평균값의 95% 신뢰구간을 추정하시오

In [28]:
df = pd.DataFrame({"Sample":[73, 71,74,69,70,73,70,68,75,72,70,72,73,70,70,72,71,70,75,72]})
lower, upper = stats.t.interval(0.95,len(df)-1,loc=df.mean(),scale=stats.sem(df))
print("신뢰구간:({0},{1})".format(lower.round(2),upper.round(2)))
# df.sem()

신뢰구간:([70.6],[72.4])


___

### 실습 5 - 1-Sample_T test

고객서비스센터의 고객만족도 평균은 76.7이다. 개선활동을 완료한 후 다음과 같은 10개의 고객만족도 데이터를 얻었다. 개선활동이 만족도를 변화 시켰는가? (유의수준 0.05)

In [31]:
df = pd.DataFrame({"Sample":[85.0,79.0,79.1,79.9,81.6,78.6,85.4,83.4,78.1,79.2]})
t_result = stats.ttest_1samp(df,76.7)
t,p =t_result.statistic, t_result.pvalue
print('t검정 통계량: %.3f'% t)
print('p-value: %.3f'% p)

t검정 통계량: 4.879
p-value: 0.001


p-value가 유의수준보다 낮으므로 대립가설을 채택한다. 즉 개선활동이 만족도를 변화 시켰다.

___

### 실습 6 - Paired T-test

회사원 10명에 대해 영어점수가 학원가기 전의 점수와 학원수강 후에 영어점수가 짝을 이루고 있다. 회사원들의 성적은 학원가기 전후에 대해 차이가 있는지 검정하라.

In [33]:
df = pd.DataFrame({"Before":[720,589,780,648,720,589,780,648,780,648],
                   "After":[710,580,787,712,750,600,782,670,790,680]})
t_result = stats.ttest_rel(df.Before,df.After)
t,p =t_result.statistic, t_result.pvalue
print('t검정 통계량: %.3f'% t)
print('p-value: %f'% p)

t검정 통계량: -2.266
p-value: 0.049682


p-value가 유의수준 0.05보다 낮으므로 대립가설을 채택한다. 즉 학원이 회사원들의 성적에 영향을 끼쳤다.

___

### 실습 7 - 1 proportion test

고급강 A제품을 가공하는 국내 고객사는 전체 주에 20% 정도가 만족을 표시했다.  
한해동안 A제품의 품질에 대해 노력을 하여 전체 고객 중 100여개의 업체를 표본으로 하여 가공 품질을 확인한 후 10개의 업체가 만족을 표현했다. 과연 품질개선을 한 결과로 기존보다 전체 고개 중 만족도의 차이가 있는것인가? 유의수준 = 0.05

In [35]:
count = 10
nobs = 100
value = 0.2

stat, pval = proportions_ztest(count, nobs, value)
print("1 proportion test")
print("P검정 통계량: %.3f"% stat)
print("p-value: %.3f"% pval)

1 proportion test
P검정 통계량: -3.333
p-value: 0.001


p-value가 유의수준 0.05보다 낮으므로 대립가설을 채택한다. 즉 품질개선이 만족도의 변화를 가져왔다.

___

### 실습 8 - 2 proportion test

동일한 제품을 생산하는 두 공장에서 불량률을 측정한 결과 아래와 같다.  
두공정의 불량률이 같다고 할 수 있는가? 유의수준=0.05
>* 공장A: N1 = 1200, X1 = 14
>* 공장B: N2 = 1200, X1 = 5

In [37]:
count = np.array([14,5])
nobs = np.array([1200, 1200])

stat, pval = proportions_ztest(count, nobs)
print("2 proportion test")
print("p검정통계량: %.3f"% stat)
print("p: %.3f"% pval)

2 proportion test
p검정통계량: 2.073
p: 0.038


p-value가 유의수준 0.05보다 낮으므로 대립가설을 채택한다. 즉 두 공정의 불량률은 차이가 있다.

___

### 실습 9 - chi-square test

노트북 컴퓨터의 6가지 제품에 대하여 7가지 제품의 이미지를 중복 선택 할 수 있도록 32명의 소비자를 대상으로 설문조사한 Table이다. 각 제품에 대해 이미지에 대해 차이가 있겠는가?

In [38]:
df = pd.DataFrame({'As':[18,8,4,4,3,3],
                   'Price':[1,2,1,1,1,25],
                   'Performance':[8,14,3,2,3,8],
                   'Expandability':[7,5,4,3,1,10],
                   'Design':[10,5,9,2,1,2],
                   'Stability':[9,9,5,7,1,1],
                   'Functionality':[10,4,4,3,1,7]})

chi, pval, dof, expected = stats.chi2_contingency(df.T)
print("chi-square test")
print("chisq: %.3f"% chi)
print("p: %.3f"% pval)
print("degree of freedom: %d"% dof)
print("expected value: \n{0}".format(expected.round(3)))

chi-square test
chisq: 98.274
p: 0.000
degree of freedom: 30
expected value: 
[[11.004  8.21   5.24   3.843  1.921  9.782]
 [ 8.528  6.362  4.061  2.978  1.489  7.581]
 [10.454  7.799  4.978  3.651  1.825  9.293]
 [ 8.253  6.157  3.93   2.882  1.441  7.336]
 [ 7.978  5.952  3.799  2.786  1.393  7.092]
 [ 8.803  6.568  4.192  3.074  1.537  7.825]
 [ 7.978  5.952  3.799  2.786  1.393  7.092]]


p-value가 유의수준 0.05보다 낮으므로 대립가설을 채택한다. 각 제품에 대해 이미지 차이가 있다.