In [1]:
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
from scipy.stats import shapiro
from scipy.stats import levene
from scipy.stats import bartlett
from scipy.stats import ttest_ind
from pandas import DataFrame
from statsmodels.sandbox.stats.multicomp import MultiComparison
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from Anovalib import my_group_count
from Anovalib import my_tukey_hsd
from Anovalib import my_bonferroni

from pandas import concat

# 8)

In [2]:
df8 = DataFrame({
    'diet' : [1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4],
    'cage' : [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5],
    '체중변화' :[1.5, 1.4, 1.4, 1.2, 1.4, 2.7, 2.9, 2.1, 3.0, 3.3, 2.1, 2.2, 2.4, 2.0, 2.5, 1.3, 1.0, 1.1, 1.3, 1.5]
})
df8 = concat([df8, df8])
df8

Unnamed: 0,diet,cage,체중변화
0,1,1,1.5
1,1,2,1.4
2,1,3,1.4
3,1,4,1.2
4,1,5,1.4
5,2,1,2.7
6,2,2,2.9
7,2,3,2.1
8,2,4,3.0
9,2,5,3.3


In [3]:
print(df8['diet'].unique())
print(df8['cage'].unique())

[1 2 3 4]
[1 2 3 4 5]


In [4]:
df8['diet'] = df8['diet'].astype('category')
df8['cage'] = df8['cage'].astype('category')
print(df8['diet'].unique())
print(df8['cage'].unique())

[1, 2, 3, 4]
Categories (4, int64): [1, 2, 3, 4]
[1, 2, 3, 4, 5]
Categories (5, int64): [1, 2, 3, 4, 5]


In [5]:
my_group_count(df8,'체중변화')

group by diet
      cage  체중변화
diet            
1       10    10
2       10    10
3       10    10
4       10    10
-----------------------------------
[O] 집단별 표본수 동일

group by cage
      diet  체중변화
cage            
1        8     8
2        8     8
3        8     8
4        8     8
5        8     8
-----------------------------------
[O] 집단별 표본수 동일

group by ['diet', 'cage']
           체중변화
diet cage      
1    1        2
     2        2
     3        2
     4        2
     5        2
2    1        2
     2        2
     3        2
     4        2
     5        2
3    1        2
     2        2
     3        2
     4        2
     5        2
4    1        2
     2        2
     3        2
     4        2
     5        2
-----------------------------------
[O] 집단별 표본수 동일



- 성별과 전공 요인으로 구분한 각 집단별 표본수는 각각 10과 8로 동일
- 모든 집단별 표본수가 동일하므로, 균형설계자료 -> 이원분산분석 가능

In [6]:
model = ols('체중변화 ~ C(diet) * C(cage)', df8)
fit = model.fit()
anova_lm(fit)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(diet),3.0,16.307,5.435667,2.019202e+30,5.695189e-295
C(cage),4.0,0.786,0.1965,7.299439e+28,2.5014859999999997e-281
C(diet):C(cage),12.0,1.558,0.1298333,4.822954e+28,7.293092e-282
Residual,20.0,5.383976000000001e-29,2.691988e-30,,


### 결과분석
- diet: F(3,20) = 2.019202e+30, p-value < 0.05로 유의미, 즉 diet에 따라 평균에 차이가 난다고 볼 수 있다.
- cage: F(4,20) = 7.299439e+28, p-value < 0.05로 유의미, 즉 cage에 따라 평균에 차이가 난다고 볼 수 있다.
- diet, cage: F(12,20) = 4.822954e+28, p-value < 0.05로 유의미, 즉 diet, cage는 평균과 관련이 있다고 볼 수 있다.

### 결과보고

`체중변화`에 대하여 `diet`와 `cage`를 요인으로 하는 이원분산분석을 실시한 결과, `diet`의 주효과는 유의미하였으며(F(3,20) = 2.019202e+30, p-value < 0.05) <br> `cage`의 주효과는 유의미하였으며(F(4,20) = 7.299439e+28, p-value < 0.05)<br> `diet`와 `cage` 요인은 유의미한 상호작용효과를 가진다.(F(12,20) = 4.822954e+28, p-value < 0.05)

In [7]:
my_tukey_hsd(df8,'체중변화')


NaN result encountered.

NaN result encountered.

NaN result encountered.
diet:1 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj  lower upper reject
------------------------------------------------
     1      2     -0.1  0.001  -0.1  -0.1   True
     1      3     -0.1  0.001  -0.1  -0.1   True
     1      4     -0.3  0.001  -0.3  -0.3   True
     1      5     -0.1  0.001  -0.1  -0.1   True
     2      3      0.0 0.5566   0.0   0.0  False
     2      4     -0.2  0.001  -0.2  -0.2   True
     2      5      0.0 0.5566   0.0   0.0  False
     3      4     -0.2  0.001  -0.2  -0.2   True
     3      5      0.0 0.5566   0.0   0.0  False
     4      5      0.2  0.001   0.2   0.2   True
------------------------------------------------

diet:2 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj lower upper reject
-----------------------------------------------
     1      2      0.2 0.001   0.2   0.2   True
     1      3     -0.6 0.

  st_range = np.abs(meandiffs) / std_pairs #studentized range statistic
  st_range = np.abs(meandiffs) / std_pairs #studentized range statistic


### 사후분석 결과보고
- 요인들간의 상호작용관계가 유의미함에 따라 사후분석을 진행하였다.
- diet를 고정으로 했을때 일부 cage와 체중변화간의 관계는 유의미 하지 않았다.
- cage를 고정으로 했을때 모든 diet와 체중변화간의 관계는 유의미 하였다.
- cage와 diet간의 상호작용 효과에서 diet가 미치는 영향이 더 큰 것을 알 수 있다.

### 사후분석의 meandiff 결과를 보아 2번 cage에서 식이요법 2번을 사용했을때 평균이 가장 크다고 생각할 수 있다.

# 9)

In [8]:
df9 = DataFrame({'강도' : [580, 568, 570, 550, 530, 579, 546, 575, 599, 1090, 1087, 1085, 1070, 1035, 1000, 1045, 1053, 1066, 1392, 1380, 1386, 1328, 1312, 1299, 867, 904, 889],
                '온도':[100, 100, 100, 100, 100, 100, 100, 100,100, 125, 125, 125, 125, 125, 125, 125, 125, 125, 150, 150, 150, 150, 150, 150, 150, 150, 150],
                '종류':[1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 1, 1, 2, 2, 2, 3, 3, 3]})
df9

Unnamed: 0,강도,온도,종류
0,580,100,1
1,568,100,1
2,570,100,1
3,550,100,2
4,530,100,2
5,579,100,2
6,546,100,3
7,575,100,3
8,599,100,3
9,1090,125,1


In [9]:
print(df9['온도'].unique())
print(df9['종류'].unique())

[100 125 150]
[1 2 3]


In [10]:
df9['온도'] = df9['온도'].astype('category')
df9['종류'] = df9['종류'].astype('category')
print(df9['온도'].unique())
print(df9['종류'].unique())

[100, 125, 150]
Categories (3, int64): [100, 125, 150]
[1, 2, 3]
Categories (3, int64): [1, 2, 3]


In [11]:
my_group_count(df9,'강도')

group by 온도
     강도  종류
온도         
100   9   9
125   9   9
150   9   9
-----------------------------------
[O] 집단별 표본수 동일

group by 종류
    강도  온도
종류        
1    9   9
2    9   9
3    9   9
-----------------------------------
[O] 집단별 표본수 동일

group by ['온도', '종류']
        강도
온도  종류    
100 1    3
    2    3
    3    3
125 1    3
    2    3
    3    3
150 1    3
    2    3
    3    3
-----------------------------------
[O] 집단별 표본수 동일



- 온도과 종류 요인으로 구분한 각 집단별 표본수는 모두 9로 동일
- 모든 집단별 표본수가 동일하므로, 균형설계자료 -> 이원분산분석 가능

In [12]:
model = ols('강도 ~ C(온도) * C(종류)', df9)
fit = model.fit()
anova_lm(fit)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(온도),2.0,1970335.0,985167.259259,2695.259499,5.0089570000000007e-23
C(종류),2.0,150864.5,75432.259259,206.370554,3.886026e-13
C(온도):C(종류),4.0,290551.7,72637.925926,198.725707,1.254188e-14
Residual,18.0,6579.333,365.518519,,


### 결과분석
- 온도: F(2,18) = 2695.259499, p-value < 0.05로 유의미, 즉 온도에 따라 평균에 차이가 난다고 볼 수 있다.
- 종류: F(2,18) = 206.370554, p-value < 0.05로 유의미, 즉 종류에 따라 평균에 차이가 난다고 볼 수 있다.
- 온도, 종류: F(4,18) = 198.725707, p-value < 0.05로 유의미, 즉 온도, 종류는 평균과 관련이 있다고 볼 수 있다.

### 결과보고

`강도`에 대하여 `온도`와 `종류`를 요인으로 하는 이원분산분석을 실시한 결과, `온도`의 주효과는 유의미하였으며(F(2,18) = 2695.259499, p-value < 0.05) <br> `종류`의 주효과는 유의미하였으며(F(2,18) = 206.370554, p-value < 0.05)<br> `온도`와 `종류` 요인은 유의미한 상호작용효과를 가진다.(F(4,18) = 198.725707, p-value < 0.05)

In [13]:
my_tukey_hsd(df9,'강도')

온도:100  Multiple Comparison of Means - Tukey HSD, FWER=0.05 
group1 group2 meandiff p-adj   lower    upper  reject
-----------------------------------------------------
     1      2 -19.6667 0.5305 -72.8012 33.4678  False
     1      3   0.6667    0.9 -52.4678 53.8012  False
     2      3  20.3333 0.5103 -32.8012 73.4678  False
-----------------------------------------------------

온도:125  Multiple Comparison of Means - Tukey HSD, FWER=0.05  
group1 group2 meandiff p-adj    lower    upper  reject
------------------------------------------------------
     1      2 -52.3333 0.0523 -105.2908  0.6241  False
     1      3 -32.6667  0.221  -85.6241 20.2908  False
     2      3  19.6667 0.5285  -33.2908 72.6241  False
------------------------------------------------------

온도:150    Multiple Comparison of Means - Tukey HSD, FWER=0.05   
group1 group2  meandiff p-adj    lower     upper   reject
---------------------------------------------------------
     1      2     -73.0 0.0017 -108.1909

### 사후분석 결과보고
- 요인들간의 상호작용관계가 유의미함에 따라 사후분석을 진행하였다.
- 온도를 100, 125 고정으로 했을때 모든 종류와 강도간의 관계는 유의미 하지 않았다.
- 온도를 150 고정으로 했을때 모든 종류와 강도간의 관계는 유의미 하였다.
- 종류를 고정으로 했을때 모든 온도와 강도간의 관계는 유의미 하였다.
- 이를 미루어 보아 판유리의 모든 종류는 온도와 상호작용을 가지고, 온도가 높을 때 유리의 종류와 온도가 상호작용을 가짐을 알 수 있다. 

# 10)

In [14]:
df10 = DataFrame({'수율': [97.6, 97.3, 96.7, 98.6, 98.2, 96.9, 99, 98, 97.9, 98, 97.7, 96.5],
                  '온도': [180, 180, 180, 190, 190, 190, 200, 200, 200, 210, 210, 210],
                  '원료': ['B1', 'B2', 'B3', 'B1', 'B2', 'B3', 'B1', 'B2', 'B3', 'B1', 'B2', 'B3',]})
df10 = concat([df10, df10])

df10

Unnamed: 0,수율,온도,원료
0,97.6,180,B1
1,97.3,180,B2
2,96.7,180,B3
3,98.6,190,B1
4,98.2,190,B2
5,96.9,190,B3
6,99.0,200,B1
7,98.0,200,B2
8,97.9,200,B3
9,98.0,210,B1


In [15]:
print(df10['온도'].unique())
print(df10['원료'].unique())

[180 190 200 210]
['B1' 'B2' 'B3']


In [16]:
df10['온도'] = df10['온도'].astype('category')
df10['원료'] = df10['원료'].astype('category')
print(df10['온도'].unique())
print(df10['원료'].unique())

[180, 190, 200, 210]
Categories (4, int64): [180, 190, 200, 210]
['B1', 'B2', 'B3']
Categories (3, object): ['B1', 'B2', 'B3']


In [17]:
my_group_count(df10,'수율')

group by 온도
     수율  원료
온도         
180   6   6
190   6   6
200   6   6
210   6   6
-----------------------------------
[O] 집단별 표본수 동일

group by 원료
    수율  온도
원료        
B1   8   8
B2   8   8
B3   8   8
-----------------------------------
[O] 집단별 표본수 동일

group by ['온도', '원료']
        수율
온도  원료    
180 B1   2
    B2   2
    B3   2
190 B1   2
    B2   2
    B3   2
200 B1   2
    B2   2
    B3   2
210 B1   2
    B2   2
    B3   2
-----------------------------------
[O] 집단별 표본수 동일



- 온도과 원료 요인으로 구분한 각 집단별 표본수는 각각 6, 8로 동일
- 모든 집단별 표본수가 동일하므로, 균형설계자료 -> 이원분산분석 가능

In [18]:
model = ols('수율 ~ C(온도) * C(원료)', df10)
fit = model.fit()
anova_lm(fit)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(온도),3.0,4.44,1.48,2.763773e+25,2.695262e-149
C(원료),2.0,6.88,3.44,6.423905e+25,6.639155e-151
C(온도):C(원료),6.0,1.12,0.1866667,3.48584e+24,9.988341e-145
Residual,12.0,6.425998e-25,5.354997999999999e-26,,


### 결과분석
- 온도: F(3,12) = 2.763773e+25, p-value < 0.05로 유의미, 즉 온도에 따라 평균에 차이가 난다고 볼 수 있다.
- 원료: F(2,12) = 6.423905e+25, p-value < 0.05로 유의미, 즉 원료에 따라 평균에 차이가 난다고 볼 수 있다.
- 온도, 종류: F(6,12) = 3.485840e+24, p-value < 0.05로 유의미, 즉 온도, 원료는 평균과 관련이 있다고 볼 수 있다.

### 결과보고
`수율`에 대하여 `온도`와 `원료`를 요인으로 하는 이원분산분석을 실시한 결과, `온도`의 주효과는 유의미하였으며(F(3,12) = 2.763773e+25, p-value < 0.05) <br> `원료`의 주효과는 유의미하였으며(F(2,12) = 6.423905e+25, p-value < 0.05)<br> `온도`와 `원료` 요인은 유의미한 상호작용효과를 가진다.(F(6,12) = 3.485840e+24, p-value < 0.05)

In [19]:
my_tukey_hsd(df10,'수율')

온도:180 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj lower upper reject
-----------------------------------------------
    B1     B2     -0.3 0.001  -0.3  -0.3   True
    B1     B3     -0.9 0.001  -0.9  -0.9   True
    B2     B3     -0.6 0.001  -0.6  -0.6   True
-----------------------------------------------

온도:190 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj lower upper reject
-----------------------------------------------
    B1     B2     -0.4 0.001  -0.4  -0.4   True
    B1     B3     -1.7 0.001  -1.7  -1.7   True
    B2     B3     -1.3 0.001  -1.3  -1.3   True
-----------------------------------------------

온도:200 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj lower upper reject
-----------------------------------------------
    B1     B2     -1.0 0.001  -1.0  -1.0   True
    B1     B3     -1.1 0.001  -1.1  -1.1   True
    B2     B3     -0.1 0.001  -0.1  -0.1   True
-----

  st_range = np.abs(meandiffs) / std_pairs #studentized range statistic


### 사후분석 결과보고
- 요인들간의 상호작용관계가 유의미함에 따라 사후분석을 진행하였다.
- 온도를 고정으로 했을때 모든 원료와 수율간의 관계는 유의미 하였다.
- 원료를 고정으로 했을때 모든 온도와 수율간의 관계는 유의미 하였다.

### B3사의 원료로 190도의 반응 온도를 가지면 가장 큰 수율을 낼 수 있다. 

# 11)

In [20]:
df11 = DataFrame({'score': [65, 87, 73, 79, 81, 69, 55, 76, 77, 70, 88, 82, 79, 85, 60, 65, 70, 79, 80, 76, 90, 68, 75, 69, 83, 81, 72, 79, 85, 89, 90, 77, 95, 72, 75, 93, 85, 60, 65, 88, 92, 83, 93, 78],
                  'method': [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2],
                  'subject': ['국어','국어','국어','국어','국어','국어','국어','국어','국어','국어','국어','영어','영어','영어','영어','영어','영어','영어','영어','영어','영어','영어','국어','국어','국어','국어','국어','국어','국어','국어','국어','국어','국어','영어','영어','영어','영어','영어','영어','영어','영어','영어','영어','영어']})
df11

Unnamed: 0,score,method,subject
0,65,1,국어
1,87,1,국어
2,73,1,국어
3,79,1,국어
4,81,1,국어
5,69,1,국어
6,55,1,국어
7,76,1,국어
8,77,1,국어
9,70,1,국어


In [21]:
print(df11['method'].unique())
print(df11['subject'].unique())

[1 2]
['국어' '영어']


In [22]:
df11['method'] = df11['method'].astype('category')
df11['subject'] = df11['subject'].astype('category').cat.rename_categories({'국어': 1, '영어': 2})
print(df11['method'].unique())
print(df11['subject'].unique())

[1, 2]
Categories (2, int64): [1, 2]
[1, 2]
Categories (2, int64): [1, 2]


In [23]:
my_group_count(df11,'score')

group by method
        score  subject
method                
1          22       22
2          22       22
-----------------------------------
[O] 집단별 표본수 동일

group by subject
         score  method
subject               
1           22      22
2           22      22
-----------------------------------
[O] 집단별 표본수 동일

group by ['method', 'subject']
                score
method subject       
1      1           11
       2           11
2      1           11
       2           11
-----------------------------------
[O] 집단별 표본수 동일



- method와 subject으로 구분한 각 집단별 표본수는 모두 22로 동일
- 모든 집단별 표본수가 동일하므로, 균형설계자료 -> 이원분산분석 가능

In [24]:
model = ols('score ~ C(method) * C(subject)', df11)
fit = model.fit()
anova_lm(fit)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(method),1.0,355.113636,355.113636,3.84587,0.056857
C(subject),1.0,0.204545,0.204545,0.002215,0.962695
C(method):C(subject),1.0,14.204545,14.204545,0.153835,0.696979
Residual,40.0,3693.454545,92.336364,,


### 결과분석
- 온도: F(1,40) = 3.845870, p-value > 0.05로 유의미하지 않다, 즉 온도에 따라 평균에 차이가 난다고 보기 힘들다.
- 원료: F(1,40) = 0.002215, p-value > 0.05로 유의미하지 않다, 즉 원료에 따라 평균에 차이가 난다고 보기 힘들다.
- 온도, 종류: F(1,40) = 0.153835, p-value > 0.05로 유의미하지 않다, 즉 온도, 원료는 평균과 관련이 있다고 보기 힘들다.

### 결과보고
`score`에 대하여 `method`와 `subject`를 요인으로 하는 이원분산분석을 실시한 결과, `method`의 주효과는 유의미 하지 않았으며(F(1,40) = 3.845870, p-value > 0.05) <br> `원료`의 주효과는 유의미 하지 않았다.(F(1,40) = 0.002215, p-value > 0.05)<br> `온도`와 `원료` 요인은 유의미한 상호작용효과를 가진다고 보기 힘들다.(F(1,40) = 0.153835, p-value > 0.05)

### 따라서 교육방법에 대한 국어와 영어의 효과가 서로 다르다고 보기 힘들다

# 12-1)

In [25]:
df12 = DataFrame({'소음': [78,76,75,79,80,80,81,83,83,74,76,75,78,79,80,79,77,75,75,76,77,78,77,79,79,80,81],
                  '볼베어링': [0,0,0,0,0,0,0,0,0,5,5,5,5,5,5,5,5,5,10,10,10,10,10,10,10,10,10],
                  '진동': [40,40,40,110,110,110,180,180,180,40,40,40,110,110,110,180,180,180,40,40,40,110,110,110,180,180,180]})
df12

Unnamed: 0,소음,볼베어링,진동
0,78,0,40
1,76,0,40
2,75,0,40
3,79,0,110
4,80,0,110
5,80,0,110
6,81,0,180
7,83,0,180
8,83,0,180
9,74,5,40


In [26]:
print(df12['볼베어링'].unique())
print(df12['진동'].unique())

[ 0  5 10]
[ 40 110 180]


In [27]:
df12['볼베어링'] = df12['볼베어링'].astype('category')
df12['진동'] = df12['진동'].astype('category')
print(df12['볼베어링'].unique())
print(df12['진동'].unique())

[0, 5, 10]
Categories (3, int64): [0, 5, 10]
[40, 110, 180]
Categories (3, int64): [40, 110, 180]


In [28]:
my_group_count(df12,'소음')

group by 볼베어링
      소음  진동
볼베어링        
0      9   9
5      9   9
10     9   9
-----------------------------------
[O] 집단별 표본수 동일

group by 진동
     소음  볼베어링
진동           
40    9     9
110   9     9
180   9     9
-----------------------------------
[O] 집단별 표본수 동일

group by ['볼베어링', '진동']
          소음
볼베어링 진동     
0    40    3
     110   3
     180   3
5    40    3
     110   3
     180   3
10   40    3
     110   3
     180   3
-----------------------------------
[O] 집단별 표본수 동일



- 볼베어링와 진동으로 구분한 각 집단별 표본수는 모두 9로 동일
- 모든 집단별 표본수가 동일하므로, 균형설계자료 -> 이원분산분석 가능

In [29]:
model = ols('소음 ~ C(볼베어링) * C(진동)', df12)
fit = model.fit()
anova_lm(fit)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(볼베어링),2.0,27.185185,13.592593,9.410256,0.001595
C(진동),2.0,79.407407,39.703704,27.487179,3e-06
C(볼베어링):C(진동),4.0,22.814815,5.703704,3.948718,0.017961
Residual,18.0,26.0,1.444444,,


### 결과분석
- 볼베어링: F(2,18) = 9.410256, p-value < 0.05로 유의미, 즉 온도에 따라 평균에 차이가 난다고 볼 수 있다.
- 진동: F(2,18) = 27.487179, p-value < 0.05로 유의미, 즉 원료에 따라 평균에 차이가 난다고 볼 수 있다.
- 볼베어링, 진동: F(4,18) = 3.948718, p-value < 0.05로 유의미, 즉 온도, 원료는 평균과 관련이 있다고 볼 수 있다.

### 결과보고
`소음`에 대하여 `볼베어링`과 `진동`를 요인으로 하는 이원분산분석을 실시한 결과, `볼베어링`의 주효과는 유의미 하였으며(F(2,18) = 9.410256, p-value < 0.05) <br> `진동`의 주효과는 유의미 하였다.(F(2,18) = 27.487179, p-value < 0.05)<br> `볼베어링`과 `진동` 요인은 유의미한 상호작용효과를 가진다고 볼 수 있다.(F(4,18) = 3.948718, p-value < 0.05)


In [30]:
my_tukey_hsd(df12,'소음')

볼베어링:0 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
    40    110   3.3333 0.0283  0.4439 6.2228   True
    40    180      6.0 0.0017  3.1106 8.8894   True
   110    180   2.6667 0.0671 -0.2228 5.5561  False
---------------------------------------------------

볼베어링:5 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
    40    110      4.0 0.0308  0.4612 7.5388   True
    40    180      2.0  0.269 -1.5388 5.5388  False
   110    180     -2.0  0.269 -5.5388 1.5388  False
---------------------------------------------------

볼베어링:10 Multiple Comparison of Means - Tukey HSD, FWER=0.05
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
    40    110      2.0 0.1085 -0.5023 4.5023  False
    40    180      4.0 0.0065  1.4977 6.

### 사후분석 결과보고
- 요인들간의 상호작용관계가 유의미함에 따라 사후분석을 진행하였다.
- 볼베어링를 고정으로 했을때 일부 진동과 소음의 관계는 유의미 하지 않았다.
- 원료를 고정으로 했을때 대부분의 볼베어링와 소음간의 관계는 유의미 하지 않았다.
- 이를 보아 볼베어링과 진동간의 상호작용 관계에서 진동 요인이 미치는 영향이 더 크다고 볼 수 있다.

# 12-2)

In [31]:
df12 = DataFrame({'소음': [76,75,79,80,80,81,83,83,74,76,75,78,79,80,79,77,75,75,76,77,78,77,79,79,81],
                  '볼베어링': [0,0,0,0,0,0,0,0,5,5,5,5,5,5,5,5,5,10,10,10,10,10,10,10,10],
                  '진동': [40,40,110,110,110,180,180,180,40,40,40,110,110,110,180,180,180,40,40,40,110,110,110,180,180]})
df12

Unnamed: 0,소음,볼베어링,진동
0,76,0,40
1,75,0,40
2,79,0,110
3,80,0,110
4,80,0,110
5,81,0,180
6,83,0,180
7,83,0,180
8,74,5,40
9,76,5,40


In [32]:
print(df12['볼베어링'].unique())
print(df12['진동'].unique())

[ 0  5 10]
[ 40 110 180]


In [33]:
df12['볼베어링'] = df12['볼베어링'].astype('category')
df12['진동'] = df12['진동'].astype('category')
print(df12['볼베어링'].unique())
print(df12['진동'].unique())

[0, 5, 10]
Categories (3, int64): [0, 5, 10]
[40, 110, 180]
Categories (3, int64): [40, 110, 180]


In [34]:
my_group_count(df12,'소음')

group by 볼베어링
      소음  진동
볼베어링        
0      8   8
5      9   9
10     8   8
-----------------------------------
[X] 집단별 표본수 상이

group by 진동
     소음  볼베어링
진동           
40    8     8
110   9     9
180   8     8
-----------------------------------
[X] 집단별 표본수 상이

group by ['볼베어링', '진동']
          소음
볼베어링 진동     
0    40    2
     110   3
     180   3
5    40    3
     110   3
     180   3
10   40    3
     110   3
     180   2
-----------------------------------
[X] 집단별 표본수 상이



- 집단별 표본수가 상이하기 때문에 anova_lm 함수에 typ = 3 옵션을 넣어준다.

In [35]:
model = ols('소음 ~ C(볼베어링) * C(진동)', df12)
fit = model.fit()
anova_lm(fit, typ=3)

Unnamed: 0,sum_sq,df,F,PR(>F)
Intercept,11400.5,1.0,8354.564885,3.5025920000000003e-23
C(볼베어링),1.5,2.0,0.549618,0.587687
C(진동),56.041667,2.0,20.534351,3.817472e-05
C(볼베어링):C(진동),25.796756,4.0,4.726123,0.01039605
Residual,21.833333,16.0,,


### 결과분석
- 볼베어링: F(2, 16) = 0.549618, p-value > 0.05로 유의미 하지 않았다.즉, 볼베어링의 유격 따라 소음에 차이가 난다고 보기 힘들다.
- 진동: F(2,16) = 20.534351, p-value < 0.05로 유의미, 즉 진동에 따라 소음에 차이가 난다고 볼 수 있다.
- 볼베어링, 진동: F(4,16) = 4.726123, p-value < 0.05로 유의미, 즉 볼베어링의 유격, 진동은 상호작용 관계가 있다고 볼 수 있다.

In [36]:
my_bonferroni(df12, '소음')

볼베어링:0 Test Multiple Comparison ttest_ind 
FWER=0.05 method=bonf
alphacSidak=0.02, alphacBonf=0.017
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
    40    110 -7.0003    0.0       0.0   True
    40    180 -4.0555 0.0012    0.0035   True
   110    180 -0.8553 0.4058       1.0  False
---------------------------------------------

볼베어링:5 Test Multiple Comparison ttest_ind 
FWER=0.05 method=bonf
alphacSidak=0.02, alphacBonf=0.017
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
    40    110 -7.0003    0.0       0.0   True
    40    180 -4.0555 0.0012    0.0035   True
   110    180 -0.8553 0.4058       1.0  False
---------------------------------------------

볼베어링:10 Test Multiple Comparison ttest_ind 
FWER=0.05 method=bonf
alphacSidak=0.02, alphacBonf=0.017
group1 group2   stat   pval  pval_corr reject
---------------------------------------------
    40    110 -7.0003    0.0       0.0   True
    40 

### 사후분석 결과보고
- 요인들간의 상호작용관계가 유의미함에 따라 사후분석을 진행하였다.
- 표본의 크기가 상이하기 때문에 봉페르니교정 방법을 사용하였다.
- 볼베어링를 고정으로 했을때 대부분 진동과 소음의 관계는 유의미 하였다.
- 진동를 고정으로 했을때 볼베어링와 소음간의 관계는 유의미 하지 않았다.
- 이를 보아 볼베어링과 진동간의 상호작용 관계에서 진동 요인이 미치는 영향이 더 크다고 볼 수 있다.