In [2]:
#working year 별로 salary 차이(2020 2021 2022) ANOVA 사용
import pandas as pd

df = pd.read_csv("Data_Science_Fields_Salary_Categorization.csv")

# 컬럼 이름 공백 제거
df.columns = df.columns.str.strip()

# 'Working_Year'를 정수형으로 변환
df['Working_Year'] = pd.to_numeric(df['Working_Year'], errors='coerce')

# 'Salary_In_Rupees'에서 쉼표 제거하고 숫자로 변환
df['Salary_In_Rupees'] = df['Salary_In_Rupees'].replace({',': ''}, regex=True)
df['Salary_In_Rupees'] = pd.to_numeric(df['Salary_In_Rupees'], errors='coerce')

# 데이터 전처리: NaN 값 제거 (Salary_In_Rupees와 Working_Year에 NaN 값이 있는 경우 제거)
df_clean = df.dropna(subset=['Salary_In_Rupees', 'Working_Year'])

# 각 연도별 데이터 분리
salary_2020 = df_clean[df_clean['Working_Year'] == 2020]['Salary_In_Rupees']
salary_2021 = df_clean[df_clean['Working_Year'] == 2021]['Salary_In_Rupees']
salary_2022 = df_clean[df_clean['Working_Year'] == 2022]['Salary_In_Rupees']

# ANOVA 분석: Working_Year별 Salary 차이 분석
import scipy.stats as stats
anova_result = stats.f_oneway(salary_2020, salary_2021, salary_2022)
print("ANOVA 결과:", anova_result)
#결과: p-value 매우 작음 >> 귀무가설 기각(연도별 유의미한 급여 차이 있음),statistic(그룹 간 평균 차이와 그룹 내 변동의 비율)이  큼

ANOVA 결과: F_onewayResult(statistic=10.306060749567642, pvalue=3.9701985038953e-05)


In [3]:
#Company Size 별로 salary 차이 (3개) kruskal 사용
import scipy.stats as stats
#위에 한 import와 변환과정 생략

# 'Company_Size'별로 salary를 분리
salary_L = df[df['Company_Size'] == 'L']['Salary_In_Rupees']
salary_M = df[df['Company_Size'] == 'M']['Salary_In_Rupees']
salary_S = df[df['Company_Size'] == 'S']['Salary_In_Rupees']

# Kruskal-Wallis 검정: Company_Size별 Salary 차이 분석
kruskal_result = stats.kruskal(salary_L, salary_M, salary_S)

print("Kruskal-Wallis 검정 결과:")
print("Statistic:", kruskal_result.statistic)
print("p-value:", kruskal_result.pvalue)

if kruskal_result.pvalue < 0.05:
    print("유의미한 차이가 있습니다.")
else:
    print("유의미한 차이가 없습니다.")
#결과: pvalue<0.05 유의미한 차이 존재 statistic=36(값이 크면 그룹간 차이 큼)>> 꽤 크게 차이남


Kruskal-Wallis 검정 결과:
Statistic: 36.41081550087724
p-value: 1.240200417426716e-08
유의미한 차이가 있습니다.


In [4]:
#company-location 별로 salary 차이 (상위 5개) kruskal
# 'Company_Location' 별로 Salary 상위 5개 회사 리스트 모으기
salary_by_location = {}

for location in df['Company_Location'].unique():
    # 해당 위치에서 Salary 상위 5개를 뽑음
    top_5_salary = df[df['Company_Location'] == location].nlargest(5, 'Salary_In_Rupees')['Salary_In_Rupees']
    
    # 해당 위치가 상위 5개 Salary를 가진다면 딕셔너리에 저장
    if len(top_5_salary) > 0:
        salary_by_location[location] = top_5_salary
#리스트를 각 지역이름으로 저장(salary_by_lacation에 저장)
# Kruskal-Wallis 검정: 여러 지역에 대해 Salary 차이 분석
kruskal_result = stats.kruskal(*salary_by_location.values())

print("Kruskal-Wallis 검정 결과:")
print("Statistic:", kruskal_result.statistic)
print("p-value:", kruskal_result.pvalue)

# p-value가 0.05 미만이면, 유의미한 차이가 있다는 결론을 내릴 수 있습니다.
if kruskal_result.pvalue < 0.05:
    print("지역별 급여 차이는 통계적으로 유의미합니다.")
else:
    print("지역별 급여 차이는 통계적으로 유의미하지 않습니다.")
#결과 pvalue 작아서 차이 유의미 statistic 매우큼 >> 차이 매우 큼

Kruskal-Wallis 검정 결과:
Statistic: 96.93359029648119
p-value: 5.40348072477555e-05
지역별 급여 차이는 통계적으로 유의미합니다.


In [5]:
#designation group 별로 salary 차이(5개) ANOVA or kruskal (block ANOVA 까지)
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 'Job'별로 Salary 그룹화 (직업별)
salary_by_job = [df[df['Designation'] == job]['Salary_In_Rupees'] 
                 for job in df['Designation'].unique()]

# One-way ANOVA 분석 (직업별 급여 차이 분석)
anova_result = stats.f_oneway(*salary_by_job)

# 결과 출력
print("One-way ANOVA 결과:")
print("F-statistic:", anova_result.statistic)
print("p-value:", anova_result.pvalue)

# 유의미한 차이가 있는지 확인
if anova_result.pvalue < 0.05:
    print("유의미한 차이가 있습니다.")
else:
    print("유의미한 차이가 없습니다.")

# 블록 ANOVA 분석 (Designation을 고정효과, Experience를 블록효과로 사용)
model = ols('Salary_In_Rupees ~ C(Designation) + C(Experience)', data=df).fit()

# ANOVA 분석
anova_table = sm.stats.anova_lm(model, typ=2)

print("Block ANOVA 결과:")
print(anova_table)
#결과:직업별로 유의미 statistic은 별로 크지않은 모습
#block anova결과:sum_sq:각 요소가 설명하는 총 제곱합(변동성)을 의미,C(Designation)과 C(Experience)가 설명하는 변동량과 잔차
#F:각 요소의 변동성을 비교한 F-statistic,PR(>F):각 F-statistic에 대응하는 p-value 이 값을 통해 해당 요소가 유의미한 영향을 미치는지를 알 수 있음
#경험 역시 pvalue가 작기 때문에 급여차이에 유의미한 영향을 준다고 볼 수 있음(귀무가설 기각)

One-way ANOVA 결과:
F-statistic: 3.8110059155522595
p-value: 6.894557391308788e-15
유의미한 차이가 있습니다.
Block ANOVA 결과:
                      sum_sq     df          F        PR(>F)
C(Designation)  3.505198e+15   49.0   3.567081  2.038787e-13
C(Experience)   3.357538e+15    3.0  55.807973  1.559853e-31
Residual        1.110998e+16  554.0        NaN           NaN
