산업 규모별 근로시간 통계 검정
======================
> * 금융보험, 정보통신 사이의 통계검정 및 분산검정
> * 제조, 정보통신 사이의 통계검정 및 분산검정

In [32]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import statsmodels.api as sm

filename = '산업_규모별_임금_및_근로시간_20230315212140.csv'
pd_data = pd.read_csv(filename, encoding = 'cp949')
np_data = pd_data.to_numpy()
print(np_data[:5])

# 제조, 건설, 도소매, 정보통신, 금융보험
# 각 업종별, 근로시간 평균, 평균값 비교, ttest(정보통신, 금융보험), shapiro, levene 실행

[['전규모(1인이상)' '전체근로시간 (시간)' 2020.01 168.3 136.6 160.2 159.2 157.8]
 ['전규모(1인이상)' '전체근로시간 (시간)' 2020.02 169.8 132.0 159.9 160.3 158.4]
 ['전규모(1인이상)' '전체근로시간 (시간)' 2020.03 185.0 144.3 170.8 174.6 173.2]
 ['전규모(1인이상)' '전체근로시간 (시간)' 2020.04 169.9 136.1 159.2 159.1 157.7]
 ['전규모(1인이상)' '전체근로시간 (시간)' 2020.05 157.4 130.3 154.6 150.6 149.3]]


In [22]:
np_data = np_data[:, 2:].astype(np.float64)
print(np_data)

[[2020.01  168.3   136.6   160.2   159.2   157.8 ]
 [2020.02  169.8   132.    159.9   160.3   158.4 ]
 [2020.03  185.    144.3   170.8   174.6   173.2 ]
 [2020.04  169.9   136.1   159.2   159.1   157.7 ]
 [2020.05  157.4   130.3   154.6   150.6   149.3 ]
 [2020.06  177.7   143.3   171.3   174.2   172.5 ]
 [2020.07  184.2   145.5   177.3   179.3   178.7 ]
 [2020.08  160.3   132.6   158.2   156.9   153.9 ]
 [2020.09  176.4   137.5   166.    165.3   164.  ]
 [2020.1   163.4   127.8   152.7   150.1   148.6 ]
 [2020.11  178.    136.5   165.2   166.3   162.5 ]
 [2020.12  181.8   140.8   170.5   169.1   168.7 ]
 [2021.01  170.8   135.5   160.5   160.    158.5 ]
 [2021.02  154.    121.3   146.    145.2   144.2 ]
 [2021.03  183.6   140.7   171.4   172.8   173.  ]
 [2021.04  183.9   141.2   172.    174.3   173.2 ]
 [2021.05  164.8   129.3   155.2   151.7   149.4 ]
 [2021.06  183.9   142.1   171.9   173.6   171.6 ]
 [2021.07  182.1   140.5   171.4   173.1   170.7 ]
 [2021.08  166.5   136.    163.

In [23]:
# axis=0을 따라서 각각의 평균
print(np.mean(np_data[:, 1:], axis=0))

[172.43333333 135.70555556 163.30833333 163.45277778 161.28611111]


In [24]:
stats.ttest_ind(np_data[:, 4], np_data[:, 5]) # 귀무가설 수용 (두개의 그룹은 평균값이 같다.)

Ttest_indResult(statistic=0.9370074508726426, pvalue=0.3519763682469319)

In [25]:
print(stats.shapiro(np_data[:, 4])) # 정보통신업 - 귀무가설 수용 (정규분포를 따른다.)
print(stats.shapiro(np_data[:, 5])) # 금융보험  -  귀무가설 수용 (정규분포를 따른다.)

ShapiroResult(statistic=0.9487093687057495, pvalue=0.09523387998342514)
ShapiroResult(statistic=0.9620586633682251, pvalue=0.2486262172460556)


In [26]:
print(stats.levene(np_data[:, 4], np_data[:, 5])) # 귀무가설 수용 (두개의 그룹은 분산이 같다. == 동일분산)

print(stats.bartlett(np_data[:, 4], np_data[:, 5])) # 귀무가설 수용(두개의 그룹은 분산이 같다. == 동일분산)

LeveneResult(statistic=0.054289038864324124, pvalue=0.816441308281776)
BartlettResult(statistic=0.04283620837640401, pvalue=0.8360339905731001)


In [31]:
# 평균근로시간 ttest(2022년 정보통신, 2022년 제조업), shapiro, levene 실행
sub_data = np_data[24:].astype(np.float64)
print(sub_data)
print('\n')
# 값이 float로 저장되어 있기 때문에 년도를 2022보다 크고 2023보다 작다 하면 filtering 가능하다.
filter1 = (np_data[:, 0] > 2022) & (np_data[:,0] < 2023)
print(filter1)
print('\n')
print(np_data[filter1])

[[2022.01  169.1   135.3   159.9   160.1   156.5 ]
 [2022.02  151.8   118.9   145.1   143.8   140.9 ]
 [2022.03  174.    135.6   164.4   164.6   161.  ]
 [2022.04  175.8   137.4   166.4   166.8   163.9 ]
 [2022.05  175.    136.5   165.2   166.    163.3 ]
 [2022.06  169.9   135.    159.5   159.2   156.6 ]
 [2022.07  174.5   136.5   164.9   166.2   162.7 ]
 [2022.08  169.7   138.6   168.3   170.9   167.9 ]
 [2022.09  166.    131.1   157.8   158.2   156.2 ]
 [2022.1   164.1   128.7   154.    152.1   148.6 ]
 [2022.11  182.8   139.    171.7   173.9   171.3 ]
 [2022.12  180.2   139.1   170.5   169.4   169.  ]]


[False False False False False False False False False False False False
 False False False False False False False False False False False False
  True  True  True  True  True  True  True  True  True  True  True  True]


[[2022.01  169.1   135.3   159.9   160.1   156.5 ]
 [2022.02  151.8   118.9   145.1   143.8   140.9 ]
 [2022.03  174.    135.6   164.4   164.6   161.  ]
 [2022.04 

In [28]:
# normal? => 2022 정보통신, 2022 제조업 shapiro
print(stats.shapiro(sub_data[:, 1])) # 귀무가설 수용( 제조업은 정규분포를 따른다. => 샘플은 정규분포 집단에서 추출됨. )
print(stats.shapiro(sub_data[:, 4])) # 귀무가설 수용( 정보통신업은 정규분포를 따른다. => 샘플은 정규분포 집단에서 추출됨. )

ShapiroResult(statistic=0.9328455924987793, pvalue=0.41125211119651794)
ShapiroResult(statistic=0.9346754550933838, pvalue=0.4323103725910187)


In [29]:
# 2022 정보통신, 2022 제조업 levene, bartlett실행
print(stats.levene(sub_data[:, 1], sub_data[:, 4])) # 귀무가설 수용( 제조업과 정보통신업은 분산이 같다.)
print(stats.bartlett(sub_data[:, 1], sub_data[:, 4])) #귀무가설 수용( 제조업과 정보통신업은 분산이 같다.)

LeveneResult(statistic=0.01562407603446479, pvalue=0.9016616337948137)
BartlettResult(statistic=0.01528489295956008, pvalue=0.901606585553217)


In [30]:
# 평균근로시간 ttest(2022년 정보통신, 2022년 제조업)
print(stats.ttest_ind(sub_data[:, 1], sub_data[:, 4])) # 귀무가설 기각(두 개의 그룹은 평균이 같다고 할 수 없다.)
print(np.mean(sub_data[:, 1]))
print(np.mean(sub_data[:, 4]))
# 최종결론 : 2022년 정보통신과 제조업의 평균 근로시간은 다르다.

Ttest_indResult(statistic=2.4960989375114, pvalue=0.020541352765606515)
171.07499999999996
162.6
