## 대학 전공과 월급의 관계 분석 

### 1. 준비 
- 파일 다운로드 
- 다운로드한 CSV 파일 판다스로 읽기 

In [1]:
import pandas as pd

In [3]:
# 데이터 풀러오기 
df = pd.read_csv('salaries_by_college_major.csv')
df.head()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,Accounting,46000.0,77100.0,42200.0,152000.0,Business
1,Aerospace Engineering,57700.0,101000.0,64300.0,161000.0,STEM
2,Agriculture,42600.0,71900.0,36300.0,150000.0,Business
3,Anthropology,36800.0,61500.0,33800.0,138000.0,HASS
4,Architecture,41600.0,76800.0,50600.0,136000.0,Business


### 2. 판다스를 이용한 예비 데이터 탐색 및 데이터 정리
- 이제 데이터를 데이터프레임에 로드했으므로 작업 중인 데이터가 무엇인지 이해하기 위해 데이터를 살펴본다. 
- 이것은 어떤 데이터 사이언스 프로젝트에서 거치는 첫 번째 단계이다. 
- 여기서 탐색할 것들은 아래와 같다 
    - 데이터프레임에는 몇 개의 행과 몇 개의 열이 있나?
    - 열의 레이블은 무엇이며, 이름이 있나? 
    - 데이터에 누락된 값이 있나? 데이터프레임에 잘못된 데이터가 포함되어 있나? 

#### 2-1. 데이터프레임에는 몇 개의 행과 몇 개의 열이 있나?

In [5]:
df.shape

(51, 6)

- shape 속성을 사용하면 정보를 알 수 있다. 
- 조회결과 해당 데이터는 51개의 행과 6개의 컬럼으로 이루어져 있다.

#### 2-2. 열의 레이블은 무엇이며, 이름이 있나?

In [6]:
df.columns

Index(['Undergraduate Major', 'Starting Median Salary',
       'Mid-Career Median Salary', 'Mid-Career 10th Percentile Salary',
       'Mid-Career 90th Percentile Salary', 'Group'],
      dtype='object')

- 처음 데이터를 확인할 때 컬럼 이름이 보였지만, 그래도 columns 속성을 이용하여 한번 더 체크해준다,
- 조회 결과 컬럼명은 아래와 같다. 
     - Undergraduate Major: 학부 전공
     - Starting Median Salary: 평균연봉 시작
     - Mid-Career Median Salary: 중간 경력 평균 급여 
     - Mid-Career 10th Percentile Salary: 중간 경력 10% 급여
     - Mid-Career 90th Percentile Salary: 중간 경력 90% 급여
     - Group: 그룹

#### 2-3. 데이터에 누락된 값이 있나? 데이터프레임에 잘못된 데이터가 포함되어 있나?
- 분석을 진행하기 전에 나중에 일어날 수 있는 문제를 피하기 위해, 데이터프레임에 누락된 데이터 또는 정크 데이터가 없는지 확인해야 한다. 
- 여기서 데이터프레임에 NaN(Not a Number, 숫자 아님) 값을 찾아보고자 한다. 
- NaN 값은 빈 셀 또는 숫자 대신 문자열을 포함하는 셀이다.

In [7]:
df.isna()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


- 마지막 열을 살펴보면 'True'라고 나와 있는데, 해당 True는 NaN값이 있다라는 의미이다.

In [8]:
# 실제 NaN 값 확인 
df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS
50,Source: PayScale Inc.,,,,,


- 마지막열을 확인해보니 'NaN'이라고 표시되어 있다.

In [9]:
# 필요없는 NaN 값 제거
clean_df = df.dropna()
clean_df.tail()

Unnamed: 0,Undergraduate Major,Starting Median Salary,Mid-Career Median Salary,Mid-Career 10th Percentile Salary,Mid-Career 90th Percentile Salary,Group
45,Political Science,40800.0,78200.0,41200.0,168000.0,HASS
46,Psychology,35900.0,60400.0,31600.0,127000.0,HASS
47,Religion,34100.0,52000.0,29700.0,96400.0,HASS
48,Sociology,36500.0,58200.0,30700.0,118000.0,HASS
49,Spanish,34000.0,53100.0,31000.0,96400.0,HASS


- 확인한 'NaN'값은 필요가 없다. 그래서 해당 행을 제거할 필요가 있다. 
- 해당 행을 제거하는 방법은 두 가지가 있다. 첫 번쨰 방법으로는 50번째 Index를 수동으로 제거하는 방법, 두 번째는 판다스의 .dropna() 메서드를 이용하는 것이다. 
- 마지막으로 마지막 행이 없는 새 데이터프레임을 만들고, 마지막 5개 행을 검사하여 마지막 행이 제거되었는지 확인해 보았다. 

### 3. 데이터프레임에 있는 열 및 개별 셀에 접근하기

#### 3-1. 초봉이 가장 높은 대학 전공 찾기 
- 데이터 프레임에서 특정 열에 접근하려면 아래와 같이 데이터프레임 변수 옆에 `[]`표기를 사용해준다.

In [10]:
# Starting Median Salary 컬럼 조회
clean_df['Starting Median Salary']

0     46000.0
1     57700.0
2     42600.0
3     36800.0
4     41600.0
5     35800.0
6     38800.0
7     43000.0
8     63200.0
9     42600.0
10    53900.0
11    38100.0
12    61400.0
13    55900.0
14    53700.0
15    35000.0
16    35900.0
17    50100.0
18    34900.0
19    60900.0
20    38000.0
21    37900.0
22    47900.0
23    39100.0
24    41200.0
25    43500.0
26    35700.0
27    38800.0
28    39200.0
29    37800.0
30    57700.0
31    49100.0
32    36100.0
33    40900.0
34    35600.0
35    49200.0
36    40800.0
37    45400.0
38    57900.0
39    35900.0
40    54200.0
41    39900.0
42    39900.0
43    74300.0
44    50300.0
45    40800.0
46    35900.0
47    34100.0
48    36500.0
49    34000.0
Name: Starting Median Salary, dtype: float64

In [11]:
# Starting Median Salary에서 가장 높은 초봉 찾기 
clean_df['Starting Median Salary'].max()

74300.0

- 해당 컬럼에서 가장 높은 값을 찾으려면 ".max()"메소드를 연결하면 된다.
- 탐색 결과 가장 높은 초봉은 `$74,300` 이다. 높은 초봉은 찾았지만, 어느 대학 전공이 초봉이 높은지는 나오지 않는다. 
- 만약 해당 대학 전공을 알고 싶다면 인덱스 번호를 알아야 한다.

In [13]:
# 검색한 가장 높은 초봉의 인덱스 찾기
clean_df['Starting Median Salary'].idxmax()

43

- 판다스에서 `.idxmax()` 메소드를 사용하면 가장 큰 값을 가진 행에 대한 인덱스를 제공해준다.
- 탐색 결과 가장 높은 초봉의 값의 인덱스 값은 `43`이다.

- 그럼 특정 행에 해당하는 전공 이름을 보려면 `.loc[인덱스 위치]` 속성을 사용한다. 

In [17]:
# 가장 높은 초봉의 대학 전공 출력 
clean_df['Undergraduate Major'].loc[43]

'Physician Assistant'

- 탐색 결과 가장 높은 초봉 `$74,300`의 대학 전공은 "의사 보조 이다.
- 여기에서 열(학부 전공)과 인덱스 43에 있는 행 하나를 둘 다 선택해서 특정 셀의 값을 검색한다. 

In [18]:
# 가장 높은 초봉의 대학 전공 출력 - 다른 방법
clean_df['Undergraduate Major'][43]

'Physician Assistant'

- 정확히 같은 결과를 얻기 위해 `[]` 표기법을 사용하기도 한다.

In [19]:
# 43번째 인덱스 전체 행 검색 
clean_df.loc[43]

Undergraduate Major                  Physician Assistant
Starting Median Salary                           74300.0
Mid-Career Median Salary                         91700.0
Mid-Career 10th Percentile Salary                66400.0
Mid-Career 90th Percentile Salary               124000.0
Group                                               STEM
Name: 43, dtype: object

- 만약 특정 열을 지정하지 않으면 `.loc` 속성을 사용하여 전체 행을 검색 할 수 있다.

#### 3-2. 중간 경력 봉급이 가장 높은 대학 전공과 해당 전공 졸업생들은 얼마를 벌까? (여기서 중간 경력은 10년 이상의 경력을 정의)

In [21]:
# 중간 경력 고연봉 값 검색 
clean_df['Mid-Career Median Salary'].max()

107000.0

In [22]:
# 중간 경력 고연봉 값이 포함된 인덱스 위치 조회 
clean_df['Mid-Career Median Salary'].idxmax()

8

In [23]:
# 조회한 인덱스로 전공 검색
clean_df['Undergraduate Major'].loc[8]

'Chemical Engineering'

- 탐색 결과 중간 경력 봉급이 가장 높은 대학 전공은 "Chemical Engineering(화학 공학)"으로 연봉은 "$107,000"이다.

#### 3-3. 초봉이 가장 낮은 대학 전공과 소득 그리고 중간 경력 봉급이 가장 낮은 대학 전공과 소득이 얼마일까?

In [24]:
# 가장 낮은 초봉 찾기 
clean_df['Starting Median Salary'].min()

34000.0

In [26]:
# 가장 낮은 초봉의 인덱스 조회 
clean_df['Starting Median Salary'].idxmin()

49

In [28]:
# 가장 낮은 초봉의 대학 전공 조회
clean_df['Undergraduate Major'].loc[49]

'Spanish'

- 탐색 결과 초봉이 가장 낮은 대학 전공은 "Spanish(스페인어과)"로 연봉은 "$34,000" 이다.

In [29]:
# 중간 경력 저연봉 검색
clean_df['Mid-Career Median Salary'].min()

52000.0

In [31]:
# 중간 경력 저연봉 값이 포함된 인덱스 위치 조회 
clean_df['Mid-Career Median Salary'].idxmin()

18

In [32]:
# 가장 낮은 초봉의 대학 전공 조회
clean_df['Undergraduate Major'].loc[18]

'Education'

- 중간 경력의 경우 가장 낮은 대학 전공은 "Education(교육과)"로 연봉은 "$52,000"이다.