In [1]:
import pandas as pd

# 예제 6-1 서로 다른 열의 이름으로 데이터 병합

In [2]:
import numpy as np

In [4]:
df_emp = pd.DataFrame({'근로자' : ['철수','후순','영희','영재'],
                    '부서' : ['회계부','전산부','전산부','인사부']})
df_emp

Unnamed: 0,근로자,부서
0,철수,회계부
1,후순,전산부
2,영희,전산부
3,영재,인사부


In [5]:
df_name = pd.DataFrame({'이름' : ['철수','후순','영희','영재'],
                    '고용년도' : [2004,2005,2006,2007]})
df_name

Unnamed: 0,이름,고용년도
0,철수,2004
1,후순,2005
2,영희,2006
3,영재,2007


In [7]:
# pd.merge(데이터프레임1,데이터프레임2, how = 'inner', => default는 inner
# left_on = '열이름1', right_on = '열이름2') =>열 이름이 다르다면
# on = '열이름' => 열 이름이 같다면
pd.merge(df_emp,df_name, left_on = '근로자', right_on = '이름')

Unnamed: 0,근로자,부서,이름,고용년도
0,철수,회계부,철수,2004
1,후순,전산부,후순,2005
2,영희,전산부,영희,2006
3,영재,인사부,영재,2007


In [8]:
# 근로자열과 이름 열은 같은 데이터이므로 이름 열은 삭제한다. 
pd.merge(df_emp,df_name, left_on = '근로자', right_on = '이름').drop('이름',axis = 1)

Unnamed: 0,근로자,부서,고용년도
0,철수,회계부,2004
1,후순,전산부,2005
2,영희,전산부,2006
3,영재,인사부,2007


# 예제 6-2 인덱스를 가지고 병합

In [17]:
df4 = pd.DataFrame({'근로자' : ['철수','후순','영희','영재'],
                    '부서' : ['회계부','전산부','전산부','인사부']})
df5 = pd.DataFrame({'근로자' : ['철수','후순','영희','영재'],
                    '고용년도' : [2004,2005,2006,2007]})

In [18]:
df4 = df4.set_index('근로자')
df4

Unnamed: 0_level_0,부서
근로자,Unnamed: 1_level_1
철수,회계부
후순,전산부
영희,전산부
영재,인사부


In [19]:
df5 = df5.set_index('근로자')
df5

Unnamed: 0_level_0,고용년도
근로자,Unnamed: 1_level_1
철수,2004
후순,2005
영희,2006
영재,2007


In [21]:
# 병합을 행 인덱스로 진행
# left_index = True, right_index = True를 반드시 설정해야 함
df_inx = pd.merge(df4, df5, left_index = True, right_index = True)
df_inx

Unnamed: 0_level_0,부서,고용년도
근로자,Unnamed: 1_level_1,Unnamed: 2_level_1
철수,회계부,2004
후순,전산부,2005
영희,전산부,2006
영재,인사부,2007


# 예제 6-3 내부 값들에 대한 매핑관계

In [22]:
df3 = pd.DataFrame({'고용자' : ['홍길동','김아무개','서용덕','조현웅'],
                    '부서' : ['재무부','공학부','공학부','인사부'],
                    '고용년도' : [2014,2015,2016,2017]})
df4 = pd.DataFrame({'부서' : ['재무부','공학부','인사부'],
                    '해당임원' : ['한규돈', '박찬주', '문달']})
df3

Unnamed: 0,고용자,부서,고용년도
0,홍길동,재무부,2014
1,김아무개,공학부,2015
2,서용덕,공학부,2016
3,조현웅,인사부,2017


In [23]:
df4

Unnamed: 0,부서,해당임원
0,재무부,한규돈
1,공학부,박찬주
2,인사부,문달


In [25]:
# 해당 임원과 부서는 일 대 다의 관계이다
# 이런 경우에도 매칭이 된느 모든 값과 merget를 시켜준다
df_one_many = pd.merge(df3,df4, on = '부서')
# 범주형 데이터에 대한 부가정보를 만들어서 추가하고자 할 때 유용하다.
df_one_many

Unnamed: 0,고용자,부서,고용년도,해당임원
0,홍길동,재무부,2014,한규돈
1,김아무개,공학부,2015,박찬주
2,서용덕,공학부,2016,박찬주
3,조현웅,인사부,2017,문달


## Rank함수 동작 방식

In [32]:
df = pd.DataFrame([2.0, 3.0, 3.5,3.5, 4.0],columns=['학점'])
df

Unnamed: 0,학점
0,2.0
1,3.0
2,3.5
3,3.5
4,4.0


In [37]:
# default는 average 방식으로 동작
# 동점이 발생시 해당 그룹에 대한 평균값을 리턴
df['학점'].rank(ascending = False)

0    5.0
1    4.0
2    2.5
3    2.5
4    1.0
Name: 학점, dtype: float64

In [38]:
# 동점을 최소등수로 표시
df['학점'].rank(method='min', ascending = False)

0    5.0
1    4.0
2    2.0
3    2.0
4    1.0
Name: 학점, dtype: float64

In [39]:
# 동점을 최대 등수로 표시
df['학점'].rank(method='max', ascending = False)

0    5.0
1    4.0
2    3.0
3    3.0
4    1.0
Name: 학점, dtype: float64

In [40]:
# 동점에 대해 최초 발견된 데이터의 순위를 높여줌
df['학점'].rank(method='first', ascending = False)

0    5.0
1    4.0
2    2.0
3    3.0
4    1.0
Name: 학점, dtype: float64