# 등분산성

## 1.등분산성 감정

> 인용구 추가




* 등분산성 감정 (Test for equal-variance)
  * cipy의 stats에서 이를 위한 bartlett-killen, levene, fligner 등이 있음
  * 둘 이상의 정규성을 만족하는 데이터 집합에 대해 모분산이 같은 지 확인하기 위한 검정에는 bartlett 사용
  * 정규성을 만족하지 않는 경우 levene, fligner를 사용함

* 등분산성 검저의 가설
 * 귀무가설(H0) : 데이터셋이 등분산성을 충족한다
 * 대립가설(H1) : 데이터셋이 등분산성을 충족하지 앟ㄴ는다

 * 귀무가설이 채택되는 경우 등분산성을 갖는다
 p-vlaue > 유의수준,검정통계량 < 임계값

* 등분산성 검정의 종류
  * Bartlett Killen Test
    * 정규성을 충족하는, 데이터셋의 크기가 서로 다른 2개 이상의 집단 사용 가능
  * Levene Test
    * 정규성을 충족하지 않는 비모수 데이터 사용 가능(중앙을 median으로 설정)
    * 2개 이상의 집단 사용 가능
  * Fligner Test
    * Levene Test와 동일한 특성, 비모수 데이터에 더 강건하게 검정 할 수 있음

## 2.등분산성 검정을 위한 함수


* 등분산성 검정을 위한 객체 함수
  * 객체 생성 함수 import
    * from scipy.stats import bartlett,levene,fligner

  * Bartlett Killen Test
    * bartlett(*samples) -> statistic,p-value
  
  * Levene Test
    * levene(*samples, center="median", proportiontocut=0.05)
      * statistic, p-valuecenter={'median', 'mean', 'trimmed'}, proportiontocut은 center="trimmed'" 일 경우 사용 https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.levene.html
    
  * Fligner Test
    * fligner(*samples, center='median", proportiontocut=0.05) → statistic, p-value
    https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.fligner.html

* center 지정
  * 'median' : Recommended for skewed (non-normal) distributions.
  * 'mean' : Recommended for symmetric, moderate-tailed distributions.
  * 'trimmed : Recommended for heavy-tailed distributions.

## 3.등분산 검정의 예

### 3-1. iris 데이터

In [None]:
# 파일 읽어와 내용 확인
import seaborn as sns
iris = sns.load_dataset('iris')
print(iris.head(2))
print(iris['species'].unique())

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
['setosa' 'versicolor' 'virginica']


In [None]:
# [1] target = 'sepal_length', 폼종별 그룹을 나누어 저장함
import pandas as pd
target = 'sepal_length'
iris['species'].unique()

gA = iris.loc[iris['species']=='setosa',target].to_list()
gB = iris.loc[iris['species']=='versicolor',target].to_list()
gC = iris.loc[iris['species']=='virginica',target].to_list()
print(gA)

# p-value > 0.05 이므로 귀무가설을 채택하게 되고,등분산성을 충족한다

[5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.8, 4.8, 4.3, 5.8, 5.7, 5.4, 5.1, 5.7, 5.1, 5.4, 5.1, 4.6, 5.1, 4.8, 5.0, 5.0, 5.2, 5.2, 4.7, 4.8, 5.4, 5.2, 5.5, 4.9, 5.0, 5.5, 4.9, 4.4, 5.1, 5.0, 4.5, 4.4, 5.0, 5.1, 4.8, 5.1, 4.6, 5.3, 5.0]


In [None]:
groups = [x.to_list() for name, x in iris.groupby('species')[target]]
#print(groups)
gA,gB,gC = groups
print(gA)

[5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.8, 4.8, 4.3, 5.8, 5.7, 5.4, 5.1, 5.7, 5.1, 5.4, 5.1, 4.6, 5.1, 4.8, 5.0, 5.0, 5.2, 5.2, 4.7, 4.8, 5.4, 5.2, 5.5, 4.9, 5.0, 5.5, 4.9, 4.4, 5.1, 5.0, 4.5, 4.4, 5.0, 5.1, 4.8, 5.1, 4.6, 5.3, 5.0]


In [None]:
#[2] burtlett 검정
from scipy.stats import bartlett,shapiro

# 정규성 검정
_, pvalueA = shapiro(gA)
_, pvalueB = shapiro(gB)
_, pvalueC = shapiro(gC)
print(pvalueA,pvalueB,pvalueC)
#이 코드에서는 검정 통계량은 필요하지 않고, 오직 p-value만 필요하기 때문에, 사용하지 않는 값에 대해 **_**를 사용하여 "무시"하는 것입니다.

# p-value 해석:
# 일반적으로 p-value가 0.05 이상이면, 데이터가 정규 분포를 따른다고 판단합니다.
# p-valueA = 0.4595, p-valueB = 0.4647, p-valueC = 0.2583 모두 0.05 이상이므로,
# gA, gB, gC 데이터는 모두 정규 분포를 따른다고 결론 내릴 수 있습니다.

# 등분산성 검정
statistic,pvalue = bartlett(gA,gB,gC)
print(statistic,pvalue)
# 귀무가설 기각 - 등분산성을 만족하지 않음

0.4595131499174534 0.4647370359250263 0.25831474614079086
16.005701874401502 0.0003345076070163035


In [None]:
#[3] levene의 center는 'mean'으로 지정
from scipy.stats import levene
statistic,pvalue = levene(*groups,center='mean')
print(statistic,pvalue)
# 귀무가설 기각  - 등분산성을 만족하지 않음

# [4] fligner의 center는 'trimmed'.proportiontocut=5% 지정
from scipy.stats import fligner
statistic,pvalue = fligner( *groups,center = 'trimmed',
                           proportiontocut=0.05)
print(statistic,pvalue)
# 귀무가설 기각 - 등분산성 만족하지 않음

7.381091747801267 0.0008817887814641548
13.193438547424174 0.0013648383616752843


### 3.2 tips 데이터


In [None]:
import seaborn as sns
tip3 = sns.load_dataset('tips')
tip3.head(3)

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3


In [None]:
#[1] target = 'total_bill', 요일별 그룹을 나누어 저장함
import pandas as pd
target = 'total_bill'
#target = tip3['total_bill']
groups = [x.to_list() for _, x in tip3.groupby('day')[target]]
gA,gB,gC,gD = groups
print(groups)

[[27.2, 22.76, 17.29, 19.44, 16.66, 10.07, 32.68, 15.98, 34.83, 13.03, 18.28, 24.71, 21.16, 10.65, 12.43, 24.08, 11.69, 13.42, 14.26, 15.95, 12.48, 29.8, 8.52, 14.52, 11.38, 22.82, 19.08, 20.27, 11.17, 12.26, 18.26, 8.51, 10.33, 14.15, 16.0, 13.16, 17.47, 34.3, 41.19, 27.05, 16.43, 8.35, 18.64, 11.87, 9.78, 7.51, 19.81, 28.44, 15.48, 16.58, 7.56, 10.34, 43.11, 13.0, 13.51, 18.71, 12.74, 13.0, 16.4, 20.53, 16.47, 18.78], [28.97, 22.49, 5.75, 16.32, 22.75, 40.17, 27.28, 12.03, 21.01, 12.46, 11.35, 15.38, 12.16, 13.42, 8.58, 15.98, 13.42, 16.27, 10.09], [20.65, 17.92, 20.29, 15.77, 39.42, 19.82, 17.81, 13.37, 12.69, 21.7, 19.65, 9.55, 18.35, 15.06, 20.69, 17.78, 24.06, 16.31, 16.93, 18.69, 31.27, 16.04, 38.01, 26.41, 11.24, 48.27, 20.29, 13.81, 11.02, 18.29, 17.59, 20.08, 16.45, 3.07, 20.23, 15.01, 12.02, 17.07, 26.86, 25.28, 14.73, 10.51, 17.92, 44.3, 22.42, 20.92, 15.36, 20.49, 25.21, 18.24, 14.31, 14.0, 7.25, 10.59, 10.63, 50.81, 15.81, 26.59, 38.73, 24.27, 12.76, 30.06, 25.89, 48.33, 

  groups = [x.to_list() for _, x in tip3.groupby('day')[target]]


In [None]:
#[2] levene의 center는 'median'으로 지정
from scipy.stats import levene,shapiro

# 정규성 검정
_,pvalueA = shapiro(gA)
_,pvalueB = shapiro(gB)
_,pvalueC = shapiro(gC)
_,pvalueD = shapiro(gD)
print(pvalueA,pvalueB,pvalueC,pvalueD)
# 정규성을 만족하지 않음
print([round(shapiro(x)[1],4) for x in groups])

# 등분산성 검정
statistic,pvalue = levene(*groups,center='median')
print(statistic,pvalue) #등분산성을 만족함


2.85715908758707e-05 0.04085649671549424 7.991754612612711e-06 0.0035657960627037957
[0.0, 0.0409, 0.0, 0.0036]
0.6653578279881612 0.5740792267812198
