# 대학 전공과 월급의 관계 분석 

In [1]:
# 필요 모듈 임포트 
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

## 1. 데이터 탐색 및 데이터 전처리

In [2]:
# 데이터 불러오기 
df = pd.read_csv('data/salaries_by_college_major.csv')
df.head()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,Accounting,46000.0,77100.0,42200.0,152000.0,Business
1,Aerospace Engineering,57700.0,101000.0,64300.0,161000.0,STEM
2,Agriculture,42600.0,71900.0,36300.0,150000.0,Business
3,Anthropology,36800.0,61500.0,33800.0,138000.0,HASS
4,Architecture,41600.0,76800.0,50600.0,136000.0,Business


In [3]:
# 데이터 수 및 컬럼 탐색 
print(df.shape)
df.columns

(51, 6)


Index(['Undergraduate Major', 'Starting Median Salary',
       'Mid-Career Median Salary', 'Mid-Career 10th Percentile Salary',
       'Mid-Career 90th Percentile Salary', 'Group'],
      dtype='object')

In [4]:
# NaN 체크 
df.isna()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [5]:
# 실제 NaN 값 확인 
df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS
50,Source: PayScale Inc.,,,,,


In [6]:
# 필요없는 NaN 값 제거
clean_df = df.dropna()
clean_df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
45,Political Science,40800.0,78200.0,41200.0,168000.0,HASS
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS


- 데이터를 불러와 조회결과 해당 데이터는 51개의 행과 6개의 컬럼으로 이루어져 있다.
- 해당 데이터의 컬럼 정보는 아래와 같다 
    - Undergraduate Major: 학부 전공
    - Starting Median Salary: 평균연봉 시작
    - Mid-Career Median Salary: 중간 경력 평균 급여
    - Mid-Career 10th Percentile Salary: 중간 경력 10번째 백분위수 소득
    - Mid-Career 90th Percentile Salary: 중간 경력 90번째 백분위수 소득
    - Group: 그룹
- NaN값이 있나 체크를 해보니 존재하여 NaN 제거후 "clean_df"라는 변수명으로 다시 저장하였다.

## 2. 분석 파트

### 2-1. 초봉이 가장 높은 대학 전공은 무슨 전공일까?

In [7]:
# Starting Median Salary에서 가장 높은 초봉 찾기 
sms_max = str(clean_df['Starting Median Salary'].max())
print(f'가장 높은 초봉: {sms_max}')

# 가장 높은 초봉의 대학 전공 출력 
sms_major = str(clean_df['Undergraduate Major'].loc[43])
print(f'가장 높은 초봉의 대학전공: {sms_major}')

# 해당 전공의 정보 
clean_df.loc[43]

가장 높은 초봉: 74300.0
가장 높은 초봉의 대학전공: Physician Assistant


Undergraduate Major                  Physician Assistant
Starting Median Salary                           74300.0
Mid-Career Median Salary                         91700.0
Mid-Career 10th Percentile Salary                66400.0
Mid-Career 90th Percentile Salary               124000.0
Group                                               STEM
Name: 43, dtype: object

### 2-2. 중간 경력 봉급이 가장 높은 대학 전공과 해당 전공 졸업생들은 얼마를 벌까? (여기서 중간 경력은 10년 이상의 경력을 정의)¶

In [8]:
# Mid-Career Median Salary에서 가장 높은 초봉 찾기 
mms_max = str(clean_df['Mid-Career Median Salary'].max())
print(f'중간 경력급에서 가장 높은 연봉: {mms_max}')

# 중간 경력 봉급이 가장 높은 대학 전공
mms_major = str(clean_df['Undergraduate Major'].loc[8])
print(f'중간 경력급 봉급이 가장 높은 대학 전공: {mms_major}')

# 해당 전공의 정보 
clean_df.loc[8]

중간 경력급에서 가장 높은 연봉: 107000.0
중간 경력급 봉급이 가장 높은 대학 전공: Chemical Engineering


Undergraduate Major                  Chemical Engineering
Starting Median Salary                            63200.0
Mid-Career Median Salary                         107000.0
Mid-Career 10th Percentile Salary                 71900.0
Mid-Career 90th Percentile Salary                194000.0
Group                                                STEM
Name: 8, dtype: object

### 2-3. 초봉이 가장 낮은 대학 전공과 소득 그리고 중간 경력 봉급이 가장 낮은 대학 전공과 소득이 얼마일까?

In [9]:
# 초봉이 가장 낮은 대학 전공과 소득
ssm_min_major = clean_df['Undergraduate Major'].loc[49]
print(f"초봉이 가장 낲은 대학 전공: {ssm_min_major}")

ssm_min = clean_df['Starting Median Salary'].min()
print(f"연봉: {ssm_min}")

# 해당 전공 정보 
clean_df.loc[49]

초봉이 가장 낲은 대학 전공: Spanish
연봉: 34000.0


Undergraduate Major                  Spanish
Starting Median Salary               34000.0
Mid-Career Median Salary             53100.0
Mid-Career 10th Percentile Salary    31000.0
Mid-Career 90th Percentile Salary    96400.0
Group                                   HASS
Name: 49, dtype: object

In [10]:
# 중간 경력 봉급이 가장 낮은 대학 전공과 소득
mms_min_major = clean_df['Undergraduate Major'].loc[18]
print(f"중간 경력 봉급이 가장 낮은 대학 전공: {mms_min_major}")

mms_min = clean_df['Mid-Career Median Salary'].min()
print(f"연봉: {mms_min}")

clean_df.loc[18]

중간 경력 봉급이 가장 낮은 대학 전공: Education
연봉: 52000.0


Undergraduate Major                  Education
Starting Median Salary                 34900.0
Mid-Career Median Salary               52000.0
Mid-Career 10th Percentile Salary      29300.0
Mid-Career 90th Percentile Salary     102000.0
Group                                     HASS
Name: 18, dtype: object

### 2-4. 위험도가 가장 낮은 전공은 무엇일까? 
- 저위험 전공은 최저 급여와 최고 급여의 차이가 작은 학위 이다. 다른 말로, 우리 전공에서 10번째 백분위수와 90번째 백분위수 소득의 차이가 작으면, 우리가 졸업 후 받게 될 급여에 대해 더 확신할 수 있을 것이다.

In [11]:
# 10번째 백준위수와 90번째 백분위수 소득 간의 차이를 추가 
spread_col = clean_df['Mid-Career 90th Percentile Salary'] - clean_df['Mid-Career 10th Percentile Salary']    # 10번째 백준위수와 90번째 백분위수 소득 간의 차이 계산 
clean_df.insert(1, 'Spread', spread_col)      # .insert()메소드를 사용하여 열 추가 - 위치: 두 번째, 컬럼명: Spread, 행 값: spread_col

# 가장 작은 분포를 가진 확위 조회 후 학위와 전공 이름 데이터만 추출 
low_risk = clean_df.sort_values('Spread', ascending=True)            # 계산한 'Spread'열 기준으로 정렬 (오름차순으로 정렬)
low_risk[['Undergraduate Major', 'Spread']].head()                   # 전공 이름과 차이값 만 추출 

Unnamed: 0,Undergraduate Major,Spread
40,Nursing,50700.0
43,Physician Assistant,57600.0
41,Nutrition,65300.0
49,Spanish,65400.0
27,Health Care Administration,66400.0


- 위험도가 가장 낮은 전공은 아래와 같다.
    - Nursing(간호학)
    - Physician Assistant(의사 보조학)
    - Nutrition(영양학)
    - Spanish(스페인어학)
    - Health Care Administration(건강 관리학)
- 대부분 우리 신체와 관련된 학과들로 구성되어 있으며, 언어학은 하나만 포함되어 있다.

### 2-5. 잠재력이 가장 높은 5개의 학위는 무엇일까? 

In [12]:
# 90번째 백분위수에서 가장 높은 값을 가진 상위 5 학위를 찾기 
potential = clean_df.sort_values('Mid-Career 90th Percentile Salary', ascending=False)    # 90번째 백분위수 소득에서 가장 높은 값 조회 -> 내림차순 정렬
potential[['Undergraduate Major', 'Mid-Career 90th Percentile Salary']].head()    

Unnamed: 0,Undergraduate Major,Mid-Career 90th Percentile Salary
17,Economics,210000.0
22,Finance,195000.0
8,Chemical Engineering,194000.0
37,Math,183000.0
44,Physics,178000.0


- 잠재력이 가장 높은 상위 5개의 학위는 아래와 같다.
    - Economics(경제학과)
    - Finance(금융학과)
    - Chemical Engineering(화학 공학과)
    - Math(수학학과)
    - Physics(물리학과)
- 대부분 과학 기술, 금융 및 경제, 수학으로 구성되어 있다.

### 2-6. 급여에서 가장 큰 분포를 보이는 학위 찾기 (졸업 후 고소득자와 저소득자 사이 소득차이가 가장 큰 전공은 무엇일까?)

In [13]:
# 급여 차이가 큰 분포를 차지하는 학위 출력 
high_risk = clean_df.sort_values('Spread', ascending=False)       # 급여 차이가 가장 큰 기준으로 정렬 (내림차순)
high_risk[['Undergraduate Major', 'Spread']].head()               # 급여 차이가 가장 큰 분포를 보이는 학위 추출

Unnamed: 0,Undergraduate Major,Spread
17,Economics,159400.0
22,Finance,147800.0
37,Math,137800.0
36,Marketing,132900.0
42,Philosophy,132500.0


- 탐색 결과 급여에서 가장 큰 분포를 보이는 학위는 Economics(경제학과)였다
- 상위 5개중 3개가 어떻게 존재하는지 보면, 경제학 학위자 중 몇몇은 소득이 매우 높지만, 그만큼 많지 않은 사람들도 있다는 것을 의미한다. (이는 10번째 백분위수 소득과 90번째 백분위수 수득 차이가 크기 때문이다.)

In [14]:
# 중간 봉급이 매우 높은 학위 출력 
highest_spread = clean_df.sort_values('Mid-Career Median Salary', ascending=False)     # 중간 봉급이 높은 순으로 정렬 
highest_spread[['Undergraduate Major', 'Mid-Career Median Salary']].head()             # 중간 봉급이 높은 학위 추출 

Unnamed: 0,Undergraduate Major,Mid-Career Median Salary
8,Chemical Engineering,107000.0
12,Computer Engineering,105000.0
19,Electrical Engineering,103000.0
1,Aerospace Engineering,101000.0
17,Economics,98600.0


- 여기 중간 봉급이 매우 높은 학위는 화학 공학과 이며, 봉급 분포 차이는 3번째로 높다. 해당 학과도 잠재력은 높지만 경력마다 봉급 차이가 꾀 있는 것을 말한다.
- 2번째 컴퓨터 공학과를 보면 중간 봉급은 2번째로 높고, 잠재력 전공은 13번쨰로 높고, 봉급 분포 차이는 32번째로 높다. 잠재력은 중간이지만, 봉급차이도 적당히 있고, 중간 급여가 꾀 높다. 해당 학과도 잠재력이 꾀 높은 편이라고 할 수 있다.

### 2-7. 평균 봉급이 가장 높은 학위 범주는 어디일까? 

In [15]:
# 그룹별 평균 봉급 계산
pd.options.display.float_format = '{:,.2f}'.format              # 데이터프레임 소수점 형식 변환 
clean_df.groupby('Group').mean()                                # 그룹별 평균 봉급 계산

Unnamed: 0_level_0,Spread,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Business,103958.33,44633.33,75083.33,43566.67,147525.0
HASS,95218.18,37186.36,62968.18,34145.45,129363.64
STEM,101600.0,53862.5,90812.5,56025.0,157625.0


- 평균 봉급이 가장 높은 그룹은 STEM(과학, 기술, 공학, 수학)이었다.

## Result Summary 
### 1. 초봉이 가장 높은 대학 전공은 무슨 전공일까?
- 가장 높은 초봉은 **`$74,300`** 이며, "**Physician Assistant**" 전공으로 결과가 나왔다.

### 2.중간 경력 봉급이 가장 높은 대학 전공과 해당 전공 졸업생들은 얼마를 벌까? 
- 중간 경력급의 봉급이 가장 높은 대학 전공은 "**Chemical Engineering**"이며, 가장 높은 연봉은 **`$107,000`**이다.

### 3.  초봉이 가장 낮은 대학 전공과 소득 그리고 중간 경력 봉급이 가장 낮은 대학 전공과 소득이 얼마일까?
- 초봉이 가장 낮은 대학 전공은 "**Spanish**"이며, 연봉은 **`$34,000`** 이다.
- 중간 경력 봉급이 가장 낮은 대학 전공은 "**Education**"이며, 연봉은 **`$52,000`** 이다.

### 4. 잠재력이 가장 큰 전공 vs 위험도가 낮은 전공은 무엇일까?
- 위험도가 가장 낮은 전공은 아래와 같다.
    - Nursing(간호학)
    - Physician Assistant(의사 보조학)
    - Nutrition(영양학)
    - Spanish(스페인어학)
    - Health Care Administration(건강 관리학)

- 잠재력이 가장 높은 상위 5개의 학위는 아래와 같다.
    - Economics(경제학과)
    - Finance(금융학과)
    - Chemical Engineering(화학 공학과)
    - Math(수학학과)
    - Physics(물리학과)

### 5. 급여에서 가장 큰 분포를 보이는 학위 찾기 (졸업 후 고소득자와 저소득자 사이 소득차이가 가장 큰 전공은 무엇일까?)¶
- 급여 차이가 큰 분포를 차지하는 학위를 조사한 결과, 급여에서 가장 큰 분포를 보이는 학위는 Economics(경제학과)였다.
- 상위 5개중 3개가 어떻게 존재하는지 보면, 경제학 학위자 중 몇몇은 소득이 매우 높지만, 그만큼 많지 않은 사람들도 있다는 것을 의미한다. (이는 10번째 백분위수 소득과 90번째 백분위수 수득 차이가 크기 때문이다.)
- 그렇다면 중간 봉급은 어떨까? 중근 봉급에서 매우 높은 학위는 화학 공학과 이며, 봉급 분포 차이는 3번째로 높다. 해당 학과도 잠재력은 높지만 경력마다 봉급 차이가 꾀 있는 것을 말한다.
- 2번째 컴퓨터 공학과를 보면 중간 봉급은 2번째로 높고, 잠재력 전공은 13번쨰로 높고, 봉급 분포 차이는 32번째로 높다. 잠재력은 중간이지만, 봉급차이도 적당히 있고, 중간 급여가 꾀 높다. 해당 학과도 잠재력이 꾀 높은 편이라고 할 수 있다.

### 6. 평균 봉급이 가장 높은 학위 범주는 어디일까?
- 해당 데이터를 그룹화 하여 탐색한 결과 평균 봉급이 가장 높은 그룹은 STEM(과학, 기술, 공학, 수학)이었다. 역시 기술을 전공한 학과가 봉급이 높다.