# 대학 전공과 월급의 관계 분석 

In [1]:
# 필요 모듈 임포트 
import pandas as pd

import warnings
warnings.filterwarnings('ignore')

## 1. 데이터 탐색 및 데이터 전처리

In [3]:
# 데이터 불러오기 
df = pd.read_csv('data/salaries_by_college_major.csv')
df.head()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,Accounting,46000.0,77100.0,42200.0,152000.0,Business
1,Aerospace Engineering,57700.0,101000.0,64300.0,161000.0,STEM
2,Agriculture,42600.0,71900.0,36300.0,150000.0,Business
3,Anthropology,36800.0,61500.0,33800.0,138000.0,HASS
4,Architecture,41600.0,76800.0,50600.0,136000.0,Business


In [4]:
# 데이터 수 및 컬럼 탐색 
print(df.shape)
df.columns

(51, 6)


Index(['Undergraduate Major', 'Starting Median Salary',
       'Mid-Career Median Salary', 'Mid-Career 10th Percentile Salary',
       'Mid-Career 90th Percentile Salary', 'Group'],
      dtype='object')

In [5]:
# NaN 체크 
df.isna()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [6]:
# 실제 NaN 값 확인 
df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS
50,Source: PayScale Inc.,,,,,


In [7]:
# 필요없는 NaN 값 제거
clean_df = df.dropna()
clean_df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
45,Political Science,40800.0,78200.0,41200.0,168000.0,HASS
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS


- 데이터를 불러와 조회결과 해당 데이터는 51개의 행과 6개의 컬럼으로 이루어져 있다.
- 해당 데이터의 컬럼 정보는 아래와 같다 
    - Undergraduate Major: 학부 전공
    - Starting Median Salary: 평균연봉 시작
    - Mid-Career Median Salary: 중간 경력 평균 급여
    - Mid-Career 10th Percentile Salary: 중간 경력 10번째 백분위수 소득
    - Mid-Career 90th Percentile Salary: 중간 경력 90번째 백분위수 소득
    - Group: 그룹
- NaN값이 있나 체크를 해보니 존재하여 NaN 제거후 "clean_df"라는 변수명으로 다시 저장하였다.

## 2. 분석 파트

### 2-1. 초봉이 가장 높은 대학 전공은 무슨 전공일까?

In [17]:
# Starting Median Salary에서 가장 높은 초봉 찾기 
sms_max = str(clean_df['Starting Median Salary'].max())
print(f'가장 높은 초봉: {sms_max}')

# 가장 높은 초봉의 대학 전공 출력 
sms_major = str(clean_df['Undergraduate Major'].loc[43])
print(f'가장 높은 초봉의 대학전공: {sms_major}')

# 해당 전공의 정보 
clean_df.loc[43]

가장 높은 초봉: 74300.0
가장 높은 초봉의 대학전공: Physician Assistant


Undergraduate Major                  Physician Assistant
Starting Median Salary                           74300.0
Mid-Career Median Salary                         91700.0
Mid-Career 10th Percentile Salary                66400.0
Mid-Career 90th Percentile Salary               124000.0
Group                                               STEM
Name: 43, dtype: object

### 2-2. 중간 경력 봉급이 가장 높은 대학 전공과 해당 전공 졸업생들은 얼마를 벌까? (여기서 중간 경력은 10년 이상의 경력을 정의)¶

In [19]:
# Mid-Career Median Salary에서 가장 높은 초봉 찾기 
mms_max = str(clean_df['Mid-Career Median Salary'].max())
print(f'중간 경력급에서 가장 높은 연봉: {mms_max}')

# 중간 경력 봉급이 가장 높은 대학 전공
mms_major = str(clean_df['Undergraduate Major'].loc[8])
print(f'중간 경력급 봉급이 가장 높은 대학 전공: {mms_major}')

# 해당 전공의 정보 
clean_df.loc[8]

중간 경력급에서 가장 높은 연봉: 107000.0
중간 경력급 봉급이 가장 높은 대학 전공: Chemical Engineering


Undergraduate Major                  Chemical Engineering
Starting Median Salary                            63200.0
Mid-Career Median Salary                         107000.0
Mid-Career 10th Percentile Salary                 71900.0
Mid-Career 90th Percentile Salary                194000.0
Group                                                STEM
Name: 8, dtype: object

### 2-3. 초봉이 가장 낮은 대학 전공과 소득 그리고 중간 경력 봉급이 가장 낮은 대학 전공과 소득이 얼마일까?

In [22]:
# 초봉이 가장 낮은 대학 전공과 소득
ssm_min_major = clean_df['Undergraduate Major'].loc[49]
print(f"초봉이 가장 낲은 대학 전공: {ssm_min_major}")

ssm_min = clean_df['Starting Median Salary'].min()
print(f"연봉: {ssm_min}")

# 해당 전공 정보 
clean_df.loc[49]

초봉이 가장 낲은 대학 전공: Spanish
연봉: 34000.0


Undergraduate Major                  Spanish
Starting Median Salary               34000.0
Mid-Career Median Salary             53100.0
Mid-Career 10th Percentile Salary    31000.0
Mid-Career 90th Percentile Salary    96400.0
Group                                   HASS
Name: 49, dtype: object

In [23]:
# 중간 경력 봉급이 가장 낮은 대학 전공과 소득
mms_min_major = clean_df['Undergraduate Major'].loc[18]
print(f"중간 경력 봉급이 가장 낮은 대학 전공: {mms_min_major}")

mms_min = clean_df['Mid-Career Median Salary'].min()
print(f"연봉: {mms_min}")

clean_df.loc[18]

중간 경력 봉급이 가장 낮은 대학 전공: Education
연봉: 52000.0


Undergraduate Major                  Education
Starting Median Salary                 34900.0
Mid-Career Median Salary               52000.0
Mid-Career 10th Percentile Salary      29300.0
Mid-Career 90th Percentile Salary     102000.0
Group                                     HASS
Name: 18, dtype: object

### 2-4. 위험도가 가장 낮은 전공은 무엇일까? 
- 저위험 전공은 최저 급여와 최고 급여의 차이가 작은 학위 이다. 다른 말로, 우리 전공에서 10번째 백분위수와 90번째 백분위수 소득의 차이가 작으면, 우리가 졸업 후 받게 될 급여에 대해 더 확신할 수 있을 것이다.

In [24]:
# 10번째 백준위수와 90번째 백분위수 소득 간의 차이를 추가 
spread_col = clean_df['Mid-Career 90th Percentile Salary'] - clean_df['Mid-Career 10th Percentile Salary']    # 10번째 백준위수와 90번째 백분위수 소득 간의 차이 계산 
clean_df.insert(1, 'Spread', spread_col)      # .insert()메소드를 사용하여 열 추가 - 위치: 두 번째, 컬럼명: Spread, 행 값: spread_col

# 가장 작은 분포를 가진 확위 조회 후 학위와 전공 이름 데이터만 추출 
low_risk = clean_df.sort_values('Spread', ascending=True)            # 계산한 'Spread'열 기준으로 정렬 (오름차순으로 정렬)
low_risk[['Undergraduate Major', 'Spread']].head()                   # 전공 이름과 차이값 만 추출 

Unnamed: 0,Undergraduate Major,Spread
40,Nursing,50700.0
43,Physician Assistant,57600.0
41,Nutrition,65300.0
49,Spanish,65400.0
27,Health Care Administration,66400.0


### 2-5. 잠재력이 가장 높은 5개의 학위는 무엇일까? 

## Result Summary 
### 1. 초봉이 가장 높은 대학 전공은 무슨 전공일까?
- 가장 높은 초봉은 **`$74,300`** 이며, "**Physician Assistant**" 전공으로 결과가 나왔다.

### 2.중간 경력 봉급이 가장 높은 대학 전공과 해당 전공 졸업생들은 얼마를 벌까? 
- 중간 경력급의 봉급이 가장 높은 대학 전공은 "**Chemical Engineering**"이며, 가장 높은 연봉은 **`$107,000`**이다.

### 3.  초봉이 가장 낮은 대학 전공과 소득 그리고 중간 경력 봉급이 가장 낮은 대학 전공과 소득이 얼마일까?
- 초봉이 가장 낮은 대학 전공은 "**Spanish**"이며, 연봉은 **`$34,000`** 이다.
- 중간 경력 봉급이 가장 낮은 대학 전공은 "**Education**"이며, 연봉은 **`$52,000`** 이다.

### 4. 