In [88]:
# (Data Engineer, Big Data Engineer), (Machine Learning Engineer, ML Engineer) 같이 비슷한 직책을 그룹화
# *그룹화를 위해 ChatGPT를 이용*

# 그룹화 기준 정의
import pandas as pd

df = pd.read_csv("Data_Science_Fields_Salary_Categorization.csv")
group_mapping = {
    "Data Engineer": [
        "Data Engineer", "Big Data Engineer", "Cloud Data Engineer", "Lead Data Engineer", 
        "Principal Data Engineer", "Data Engineering Manager", "ETL Developer", "Data Architect", 
        "Big Data Architect"
    ],
    "Data Scientist": [
        "Data Scientist", "Applied Data Scientist", "Principal Data Scientist", "Staff Data Scientist", 
        "Research Scientist", "AI Scientist", "Director of Data Science", "Head of Data Science", 
        "Data Science Manager", "Data Science Consultant", "Data Science Engineer"
    ],
    "Machine Learning Engineer": [
        "Machine Learning Engineer", "ML Engineer", "Machine Learning Developer", 
        "Machine Learning Scientist", "Applied Machine Learning Scientist", "Lead Machine Learning Engineer", 
        "Machine Learning Infrastructure Engineer", "Head of Machine Learning", "Machine Learning Manager", 
        "NLP Engineer"
    ],
    "Data Analyst": [
        "Data Analyst", "Business Data Analyst", "BI Data Analyst", "Financial Data Analyst", 
        "Marketing Data Analyst", "Product Data Analyst", "Lead Data Analyst", 
        "Principal Data Analyst", "Data Specialist", "Data Analytics Manager", 
        "Data Analytics Engineer", "Data Analytics Lead", "Analytics Engineer"
    ],
    "Computer Vision Engineer": [
        "Computer Vision Engineer", "3D Computer Vision Researcher", "Computer Vision Software Engineer"
    ]
}

# 직책을 그룹화
def map_designation(designation):
    for group, titles in group_mapping.items():
        if designation in titles:
            return group
    return 'Other'

# 그룹 컬럼 추가
df['Group'] = df['Designation'].apply(map_designation)
df['Group'].value_counts()

Group
Data Scientist               212
Data Engineer                170
Data Analyst                 135
Machine Learning Engineer     69
Other                         11
Computer Vision Engineer      10
Name: count, dtype: int64

In [89]:
# 직책 그룹이 Other인 df를 제거
df=df[df['Group'] != 'Other']
# object 타입인 salary를 float으로 변경
df_copy=df.copy()
df_copy['Salary_In_Rupees']=df['Salary_In_Rupees'].replace(',', '', regex=True).astype(float)

# Salary의 기준을 Rupee에서 Won(백만단위)으로 변경
df_copy['Salary_Million_Won']=(df_copy['Salary_In_Rupees']*16.5/1000000).astype(int)
# 사용할 데이터를 정리
df=df_copy[['Working_Year','Experience','Employment_Status',
           'Employee_Location','Company_Location','Company_Size',
           'Remote_Working_Ratio','Group','Salary_Million_Won']]

In [90]:
#working year 별로 salary 차이(2020 2021 2022) kruskal 사용
import scipy.stats as stats

# 컬럼 이름 공백 제거
df_copy.columns = df_copy.columns.str.strip()

# 각 연도별 데이터 분리
salary_2020 = df_copy[df_copy['Working_Year'] == 2020]['Salary_Million_Won']
salary_2021 = df_copy[df_copy['Working_Year'] == 2021]['Salary_Million_Won']
salary_2022 = df_copy[df_copy['Working_Year'] == 2022]['Salary_Million_Won']

# 정규성 검정: 2020년 급여
stat_2020, p_value_2020 = stats.shapiro(salary_2020)
stat_2021, p_value_2021 = stats.shapiro(salary_2021)
stat_2022, p_value_2022 = stats.shapiro(salary_2022)

if p_value_2020 > 0.05 and p_value_2021 > 0.05 and p_value_2022 > 0.05:
    print("정규 분포를 따름")
else:
    print("정규 분포를 따르지 않음")
    
# 정규분포를 따르지 않음으로 Kruskal-Wallis 검정사용: Working_Year별 Salary 차이 분석
kruskal_result = stats.kruskal(salary_2020, salary_2021, salary_2022)

# 결과 출력
print("Kruskal-Wallis 결과:")
print("Statistic:", kruskal_result.statistic)
print("p-value:", kruskal_result.pvalue)

if kruskal_result.pvalue < 0.05:
    print("연도별 급여 차이는 통계적으로 유의미함.")
else:
    print("연도별 급여 차이는 통계적으로 유의미하지 않음.")

정규 분포를 따르지 않음
Kruskal-Wallis 결과:
Statistic: 50.848164998392285
p-value: 9.087852364399997e-12
연도별 급여 차이는 통계적으로 유의미함.


In [91]:
#Company Size 별로 salary 차이 (3개) kruskal 사용
import scipy.stats as stats

# 'Company_Size'별로 salary를 분리
salary_L = df_copy[df_copy['Company_Size'] == 'L']['Salary_Million_Won']
salary_M = df_copy[df_copy['Company_Size'] == 'M']['Salary_Million_Won']
salary_S = df_copy[df_copy['Company_Size'] == 'S']['Salary_Million_Won']

# Shapiro-Wilk 검정: 정규성 확인
shapiro_L = stats.shapiro(salary_L)
shapiro_M = stats.shapiro(salary_M)
shapiro_S = stats.shapiro(salary_S)

# 결과 출력
print("Shapiro-Wilk 검정 결과 (L 크기 회사):")
print("Statistic:", shapiro_L.statistic)
print("p-value:", shapiro_L.pvalue)

print("\nShapiro-Wilk 검정 결과 (M 크기 회사):")
print("Statistic:", shapiro_M.statistic)
print("p-value:", shapiro_M.pvalue)

print("\nShapiro-Wilk 검정 결과 (S 크기 회사):")
print("Statistic:", shapiro_S.statistic)
print("p-value:", shapiro_S.pvalue)

# p-value가 0.05 미만이면 귀무가설을 기각, 즉 정규 분포를 따르지 않는다고 판단
if shapiro_L.pvalue < 0.05:
    print("L 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.")
else:
    print("L 크기 회사의 급여 데이터는 정규 분포를 따릅니다.")

if shapiro_M.pvalue < 0.05:
    print("M 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.")
else:
    print("M 크기 회사의 급여 데이터는 정규 분포를 따릅니다.")

if shapiro_S.pvalue < 0.05:
    print("S 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.")
else:
    print("S 크기 회사의 급여 데이터는 정규 분포를 따릅니다.")
    
# 정규분포 따르지 않기 때문에Kruskal-Wallis 검정: Company_Size별 Salary 차이 분석
kruskal_result = stats.kruskal(salary_L, salary_M, salary_S)

print("Kruskal-Wallis 검정 결과:")
print("Statistic:", kruskal_result.statistic)
print("p-value:", kruskal_result.pvalue)

if kruskal_result.pvalue < 0.05:
    print("유의미한 차이가 있습니다.")
else:
    print("유의미한 차이가 없습니다.")
#결과: pvalue<0.05 유의미한 차이 존재 statistic=36(값이 크면 그룹간 차이 큼)>> 꽤 크게 차이남


Shapiro-Wilk 검정 결과 (L 크기 회사):
Statistic: 0.8403610553880689
p-value: 3.345832895083634e-13

Shapiro-Wilk 검정 결과 (M 크기 회사):
Statistic: 0.9661838208605249
p-value: 7.420203578199665e-07

Shapiro-Wilk 검정 결과 (S 크기 회사):
Statistic: 0.793588871846546
p-value: 2.689809817418749e-09
L 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.
M 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.
S 크기 회사의 급여 데이터는 정규 분포를 따르지 않습니다.
Kruskal-Wallis 검정 결과:
Statistic: 36.86499939739986
p-value: 9.882506147487886e-09
유의미한 차이가 있습니다.


In [97]:
#company-location 별로 salary 차이 (상위 5개) kruskal
# 'Company_Location' 별로 Salary 상위 5개 회사 리스트 모으기
salary_by_location = {}
shapiro_results = {} # 샤피로테스트 결과 저장
valid_locations = []  # 정규분포를 따르는 지역을 저장할 리스트
for location in df['Company_Location'].unique():
    # 해당 위치에서 Salary 상위 5개를 뽑음
    top_5_salary = df_copy[df_copy['Company_Location'] == location].nlargest(5, 'Salary_Million_Won')['Salary_Million_Won']
    
    # 해당 위치가 상위 5개 Salary를 가진다면 딕셔너리에 저장
    if len(top_5_salary) >= 3:#Shapiro-Wilk 검정을 하려면 데이터 최소3개 포함 3개이하 데이터는 제외했음
        salary_by_location[location] = top_5_salary
        # Shapiro-Wilk 검정: 각 지역에 대해 정규성 확인
        result = stats.shapiro(top_5_salary)
        shapiro_results[location] = result

# p-value가 0.05 이상이면 정규분포를 따름 >> 정규분포 따르는 지역만 따로 뽑음
        if result.pvalue >= 0.05:
            valid_locations.append(location)
# 정규분포를 따르는 지역들만 선택하여 ANOVA 분석
valid_salary_data = [salary_by_location[location] for location in valid_locations]

#리스트를 각 지역이름으로 저장(salary_by_lacation에 저장)
# ANOVA 분석
if len(valid_salary_data) > 1:  # 두 개 이상의 그룹이 있어야 ANOVA 분석이 가능
    anova_result = stats.f_oneway(*valid_salary_data)
    print("ANOVA 결과:")
    print("Statistic:", anova_result.statistic)
    print("p-value:", anova_result.pvalue)

    if anova_result.pvalue < 0.05:
        print("정규분포를 따르는 지역들 간에는 급여 차이가 통계적으로 유의미합니다.")
    else:
        print("정규분포를 따르는 지역들 간에는 급여 차이가 통계적으로 유의미하지 않습니다.")
else:
    print("정규분포를 따르는 지역이 2개 미만이어서 ANOVA 분석을 수행할 수 없습니다.")
#결과 pvalue<0.05 급여차이가 통계적으로 유의미(귀무가설 기각) + statistic이 10.54이므로 그룹간 급여차이가 그룹내 변동에 비해 상대적으로 큰걸알수있음
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 'Salary_In_Rupees' ~ 직책(Designation) + 경험(Experience)
model = ols('Salary_Million_Won ~ C(Group) + C(Experience)', data=df_copy).fit()

# ANOVA 분석
anova_table = sm.stats.anova_lm(model, typ=2)

print("Block ANOVA 결과:")
print(anova_table)
#경험과 직책 모두 pvalue<0.05로 유의미 하지만 경험이 더많은 영향을 끼침

ANOVA 결과:
Statistic: 10.539935417687328
p-value: 5.787291396553991e-10
정규분포를 따르는 지역들 간에는 급여 차이가 통계적으로 유의미합니다.
Block ANOVA 결과:
                     sum_sq     df          F        PR(>F)
C(Group)       9.508454e+04    4.0   3.653720  5.961006e-03
C(Experience)  1.216299e+06    3.0  62.316679  5.384805e-35
Residual       3.825533e+06  588.0        NaN           NaN


In [95]:
# 직책 그룹별로 급여 데이터를 나누기
salary_by_group = {group: df_copy[df_copy['Group'] == group]['Salary_Million_Won']
                  for group in df_copy['Group'].unique()}

# Shapiro-Wilk 검정: 각 그룹별로 정규성 검사
shapiro_results = {}
for group, salary_data in salary_by_group.items():
    # 3개 이상의 데이터가 있을 때만 검정
    if len(salary_data) >= 3:
        shapiro_results[group] = stats.shapiro(salary_data)
    else:
        shapiro_results[group] = (None, None)  # 데이터가 부족한 경우 None 반환

# 정규성 검사 결과 출력
for group, result in shapiro_results.items():
    if result[0] is not None:
        print(f"{group} 그룹의 Shapiro-Wilk p-value: {result[1]}")
    else:
        print(f"{group} 그룹의 데이터가 부족하여 검정을 수행할 수 없습니다.")
# Kruskal-Wallis 검정: 직책 그룹별 급여 차이 분석
kruskal_results = stats.kruskal(*salary_by_group.values())

print("Kruskal-Wallis 검정 결과:")
print("Statistic:", kruskal_results.statistic)
print("p-value:", kruskal_results.pvalue)

# p-value가 0.05 미만이면, 유의미한 차이가 있다는 결론을 내릴 수 있습니다.
if kruskal_results.pvalue < 0.05:
    print("직책 그룹별 급여 차이는 통계적으로 유의미합니다.")
else:
    print("직책 그룹별 급여 차이는 통계적으로 유의미하지 않습니다.")

Data Scientist 그룹의 Shapiro-Wilk p-value: 8.937441043073733e-10
Machine Learning Engineer 그룹의 Shapiro-Wilk p-value: 3.79859306822503e-05
Data Engineer 그룹의 Shapiro-Wilk p-value: 8.658445898475194e-11
Data Analyst 그룹의 Shapiro-Wilk p-value: 2.1307783146143868e-11
Computer Vision Engineer 그룹의 Shapiro-Wilk p-value: 0.2000305015153439
Kruskal-Wallis 검정 결과:
Statistic: 14.290102495748233
p-value: 0.006424472749536494
직책 그룹별 급여 차이는 통계적으로 유의미합니다.
