# 데이터 프레임 병합
## - append, concat, join, merge  

  
  
- append와 concat은 행기준  

- merge와 join은 열 기준으로 병합을 합니다.  
  
  

4가지의 차이점과 공통점에 대해서 알아볼게여

In [1]:
import pandas as pd

In [2]:
# data frame 만들기
df_top = pd.DataFrame({'국어':[90,80], '수학':[81,76]}, index=['민지', '수진'])
df_top

Unnamed: 0,국어,수학
민지,90,81
수진,80,76


In [3]:
df_mid = pd.DataFrame({'국어':[70,62], '영어':[77,68]}, index=['영민', '정수'])
df_mid

Unnamed: 0,국어,영어
영민,70,77
정수,62,68


In [4]:
df_bott = pd.DataFrame({'영어':[70,88], '과학':[81,76]}, index=['민철', '태영'])
df_bott

Unnamed: 0,영어,과학
민철,70,81
태영,88,76


### 행 단위로 병합하기
데이터 프레임 간에 컬럼이 달라도 존재하지 않은 컬럼은 NaN으로 채워 넣음  
컬럼이 서로 다를 경우엔, **sort = False** 를 넣어야 경고가 발생하지 않음.

우리가 현재 다룰 데이터는 각 컬럼이 다름!  

- sort : 컬럼 이름을 정렬하는 파라미터  


#### append

In [5]:
df_a = df_top.append([df_mid, df_bott], sort=False)
df_a

Unnamed: 0,국어,수학,영어,과학
민지,90.0,81.0,,
수진,80.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,81.0
태영,,,88.0,76.0


#### Concat
- concat이 속도가 더 빠르고 가로 세로 모두 다 가능하기 때문에 주로 사용

In [6]:
df_c = pd.concat([df_top, df_mid, df_bott], sort=False)
df_c
# append랑 concat이랑 똑같죠

Unnamed: 0,국어,수학,영어,과학
민지,90.0,81.0,,
수진,80.0,76.0,,
영민,70.0,,77.0,
정수,62.0,,68.0,
민철,,,70.0,81.0
태영,,,88.0,76.0


### 열 단위로 병합하기

In [7]:
df_left = pd.DataFrame({'고객번호':[1001, 1002, 1003, 1004], '이름' : ['둘리','도우니','기영', '기철']})
df_left

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우니
2,1003,기영
3,1004,기철


In [8]:
df_right = pd.DataFrame({'고객번호':[1001, 1002, 1003, 1005], '금액' : ['10000','20000','15000', '500']})
df_right

Unnamed: 0,고객번호,금액
0,1001,10000
1,1002,20000
2,1003,15000
3,1005,500


#### merge  

한 번에 **두 개**의 객체만 가능함.  

공통 컬럼을 기준으로 병합하기
- SQL에서 inner join과 같은 개념

In [9]:
pd.merge(df_left, df_right)

# 이때 1004번과 1005는 겹치지 않아서 그거 빼고 병합.

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1002,도우니,20000
2,1003,기영,15000


In [10]:
# 그치만 데이터를 함부로 버리면 어떡해. outer join

pd.merge(df_left, df_right, how = 'outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1002,도우니,20000.0
2,1003,기영,15000.0
3,1004,기철,
4,1005,,500.0


- how 파라미터  

how = left, right, outer가 존재.  
default = inner join  

SQL 생각하면 됨.

In [11]:
pd.merge(df_left, df_right, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1002,도우니,20000.0
2,1003,기영,15000.0
3,1004,기철,


In [12]:
pd.merge(df_left, df_right, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1002,도우니,20000
2,1003,기영,15000
3,1005,,500


apppend와 concat처럼,  
merge와 join이 같은 역할을 함.  

데이터를 다루는 것인 만큼 **concat**과 **merge**로 공부해둘 것.

### 중복되는 데이터가 존재하는 경우의 열 단위 병합 (merge)

In [13]:
# 모든 경우의 수를 따져서 조합을 만들어 냄

df_first = pd.DataFrame({'아이디': ['hello','world','python','hello'], "결제금액":[14000,13000,15000,13000]})
df_first

Unnamed: 0,아이디,결제금액
0,hello,14000
1,world,13000
2,python,15000
3,hello,13000


In [14]:
df_second = pd.DataFrame({'아이디': ['hello','python','python','world'], 
                          "적립금":[300,500,100,200]})
df_second

Unnamed: 0,아이디,적립금
0,hello,300
1,python,500
2,python,100
3,world,200


In [15]:
pd.merge(df_first, df_second)
# 모든 경우의 수를 다 보여주는 방식으로 merge를 함

Unnamed: 0,아이디,결제금액,적립금
0,hello,14000,300
1,hello,13000,300
2,world,13000,200
3,python,15000,500
4,python,15000,100


#### 공통하는 컬럼이 2개 이상 존재하는 경우에는?

In [16]:
# on 파라이터 사용
df_a = pd.DataFrame({'고객명': ['민수','수영'], 
                    '데이터':['20000','10000'],
                    '날짜' : ['2018-01-01', '2018-01-01']})
df_a

Unnamed: 0,고객명,데이터,날짜
0,민수,20000,2018-01-01
1,수영,10000,2018-01-01


In [17]:
df_b = pd.DataFrame({'고객명': ['민수','수영'], 
                    '데이터':['21세','20세']})
df_b

Unnamed: 0,고객명,데이터
0,민수,21세
1,수영,20세


In [18]:
pd.merge(df_a, df_b)
# 데이터라는 컬럼이 두개가 되기 때문에 on을 사용해서 변수를 알려줘야함

Unnamed: 0,고객명,데이터,날짜


In [19]:
merge_temp = pd.merge(df_a, df_b, on = ['고객명'])
merge_temp
# 데이터 컬럼명이 중복이라서 x와 y로 구분되어 나타남

Unnamed: 0,고객명,데이터_x,날짜,데이터_y
0,민수,20000,2018-01-01,21세
1,수영,10000,2018-01-01,20세


In [20]:
# Rename을 사용해서 변수명 변경
merge_temp = merge_temp.rename(columns = {'데이터_x' : '금액', '데이터_y' : '나이' })
merge_temp

Unnamed: 0,고객명,금액,날짜,나이
0,민수,20000,2018-01-01,21세
1,수영,10000,2018-01-01,20세


#### 공통 컬럼은 존재하지 않지만 변수 명이 다른 두 컬럼을 지정해서 merge하는 방법  

- 임의로 같다고 생각하는 방법
- left_on, right_on

In [21]:
국어점수 = pd.DataFrame({'이름':['영희', '철수'], '국어':[87,91]})
국어점수

Unnamed: 0,이름,국어
0,영희,87
1,철수,91


In [22]:
수학점수 = pd.DataFrame({'성명':['영희', '철수'], '영어':[77,81]})
수학점수

Unnamed: 0,성명,영어
0,영희,77
1,철수,81


In [23]:
점수 = pd.merge(국어점수, 수학점수, left_on = ['이름'], right_on = ['성명'])
점수
# 반드시 left_on, right_on 둘 다 작성해야됨 !!! 

Unnamed: 0,이름,국어,성명,영어
0,영희,87,영희,77
1,철수,91,철수,81


In [24]:
# 잘 했지만 이름과 성명이 그대로 남아있으니까 지우자 
# drop - 성명이라는 column 명을 언급했으므로 axis = 1(열)
점수.drop(['성명'], axis = 1, inplace=True)
점수

Unnamed: 0,이름,국어,영어
0,영희,87,77
1,철수,91,81


#### index를 기준으로 병합도 가능.  

- 이때는 인덱스로 주어져 있어야 함
- left_index = True, right_index = True

In [25]:
수학점수 = pd.DataFrame({'수학':[90,82]}, index = ['민철', '봉구'])
수학점수

Unnamed: 0,수학
민철,90
봉구,82


In [26]:
과학점수 = pd.DataFrame({'과학':[90,82]}, index = ['민철', '철수'])
과학점수

Unnamed: 0,과학
민철,90
철수,82


In [27]:
수학과학 = pd.merge(수학점수, 과학점수, left_index=True, right_index=True)
수학과학
# 공통으로 존재하는 민철이만 잡아서 merge

Unnamed: 0,수학,과학
민철,90,90


In [28]:
# 이겨냅니다 outer로

수학과학 = pd.merge(수학점수, 과학점수, left_index=True, right_index=True, how='outer')
수학과학

Unnamed: 0,수학,과학
민철,90.0,90.0
봉구,82.0,
철수,,82.0


#### 예외 경우엔?

In [29]:
한국사 = pd.DataFrame({'한국사':[90,82]}, index = ['영희', '철수'])
한국사

Unnamed: 0,한국사
영희,90
철수,82


In [30]:
세계사 = pd.DataFrame({'세계사':[90,82], '이름' : ['영희', '철수']})
세계사

Unnamed: 0,세계사,이름
0,90,영희
1,82,철수


In [31]:
# 그럴땐 무리없이 짬뽕해서 사용

역사 = pd.merge(한국사, 세계사, left_index=True, right_on = '이름')
역사

Unnamed: 0,한국사,세계사,이름
0,90,90,영희
1,82,82,철수


In [32]:
# index 값 변경
역사.index = 역사['이름'].values
역사

Unnamed: 0,한국사,세계사,이름
영희,90,90,영희
철수,82,82,철수


In [33]:
# 필요 없는 열 버려 
역사.drop(['이름'], axis = 1, inplace=True)
역사

Unnamed: 0,한국사,세계사
영희,90,90
철수,82,82


## 끝