---
데이터 병합 함수들
---
- concat()
- merge()
- join()
---
### 언제 병합을 하는가?
    - 데이터의 테이블 자체가 다른 곳에 있는 경우 -> 하나로 합쳐져야 하는 경우
    - 데이터 전처리 과정에서 우리가 만든 다양한 데이터프레임을 합쳐야 하는 경우 등

### concat()

In [1]:
# concat
# 데이터프레임(덩어리) + 데이터프레임(덩어리) 합칠 때
# 축을 기준으로 열과, 행 방향으로 합쳐진다.
# 공통기준이 있는게 아니라 데이터프레임끼리 축에 따라 붙는다.
# 공통 기준 컬럼이 없음

import pandas as pd

df1 = pd.DataFrame({'Test_A':[10, 20, 30], 'Test_B':[40, 50, 60]})
df2 = pd.DataFrame({'Test_A':[40, 50], 'Test_B':[60, 70]})
df3 = pd.DataFrame({'Test_A':[11, 12], 'Test_B':[60, 70], 'Test_C':[5, 6]})

In [6]:
display(df1)
display(df2)
display(df3)

Unnamed: 0,Test_A,Test_B
0,10,40
1,20,50
2,30,60


Unnamed: 0,Test_A,Test_B
0,40,60
1,50,70


Unnamed: 0,Test_A,Test_B,Test_C
0,11,60,5
1,12,70,6


In [7]:
# df1 + df2를 합쳐보자.
# 인덱스가 정렬되지 않는다. (행기준)
pd.concat([df1, df2], axis=0) # axis=0은 행기준

Unnamed: 0,Test_A,Test_B
0,10,40
1,20,50
2,30,60
0,40,60
1,50,70


In [8]:
pd.concat([df1, df2], axis=1) # axis=1은 열기준

Unnamed: 0,Test_A,Test_B,Test_A.1,Test_B.1
0,10,40,40.0,60.0
1,20,50,50.0,70.0
2,30,60,,


In [9]:
# 세 개의 데이터프레임을 합쳐보자. df1 + df2 + df3
pd.concat([df1, df2, df3], axis=0) # (행기준)
# 결측값이 발생한다.

Unnamed: 0,Test_A,Test_B,Test_C
0,10,40,
1,20,50,
2,30,60,
0,40,60,
1,50,70,
0,11,60,5.0
1,12,70,6.0


In [10]:
pd.concat([df1, df2, df3], axis=1) # (열기준)
# 마찬가지로 결측값이 발생한다. 

Unnamed: 0,Test_A,Test_B,Test_A.1,Test_B.1,Test_A.2,Test_B.2,Test_C
0,10,40,40.0,60.0,11.0,60.0,5.0
1,20,50,50.0,70.0,12.0,70.0,6.0
2,30,60,,,,,


In [11]:
# 위와 같이만 결합하면 인덱스 번호가 구분이 되지 않기에 보기 좋지 않다.
# ignore_index=True를 사용하여 정렬이 될 수 있게 해주자.
pd.concat([df1, df2, df3], axis=0, ignore_index=True) # (행기준)

Unnamed: 0,Test_A,Test_B,Test_C
0,10,40,
1,20,50,
2,30,60,
3,40,60,
4,50,70,
5,11,60,5.0
6,12,70,6.0


### merge()
- 공통적인 컬럼 기준이 필요
- 공통적인 컬럼을 기준으로 데이터를 병합

In [13]:
student_df1 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                    'class':['C', 'Python', 'Java', 'R']})
student_df2 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                    'Grade':[90, 80, 70, 60]})

In [14]:
display(student_df1, student_df2)

Unnamed: 0,name,class
0,kim,C
1,na,Python
2,park,Java
3,lee,R


Unnamed: 0,name,Grade
0,kim,90
1,na,80
2,park,70
3,lee,60


In [15]:
# name 컬럼을 기준으로 병합된다.
pd.merge(student_df1, student_df2)

Unnamed: 0,name,class,Grade
0,kim,C,90
1,na,Python,80
2,park,Java,70
3,lee,R,60


In [20]:
student_df3 = pd.DataFrame({'상점':[1, 3, 5, 7],
                           '사유폼 제출 횟수':[0, 2, 4, 5]})

In [17]:
# 만약 공통된 컬럼(키)이 없다면?
pd.merge(student_df1, student_df3)
# 오류 발생

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [19]:
# 컬럼명은 같지만 값이 다른 경우
student_df4 = pd.DataFrame({'Grade':[1, 3, 5, 7],
                           '사유폼 제출 횟수':[0, 2, 4, 5]})

In [21]:
pd.merge(student_df2, student_df4)

Unnamed: 0,name,Grade,사유폼 제출 횟수


In [22]:
student_df5 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                    'class':['C', 'Python', 'Java', 'R']})
student_df6 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60]})

In [23]:
# inner merge
# 공통된 컬럼(키) 중 같은 값이 같은 경우만 선택해서 출력한다.
pd.merge(student_df5, student_df6, how='inner')

Unnamed: 0,name,class,Grade
0,kim,C,90
1,na,Python,80
2,park,Java,70


In [24]:
# left merge
# 가장 왼쪽 인자의 데이터프레임의 공통 컬럼의 값을 기준으로 잡고 병합
pd.merge(student_df5, student_df6, how='left')
# 결측값이 발생할 수 있다.

Unnamed: 0,name,class,Grade
0,kim,C,90.0
1,na,Python,80.0
2,park,Java,70.0
3,lee,R,


In [25]:
# right merge
# 가장 오른쪽 인자의 데이터프레임의 공통 컬럼의 값을 기준으로 잡고 병합
pd.merge(student_df5, student_df6, how='right')
# 결측값이 발생할 수 있다.

Unnamed: 0,name,class,Grade
0,kim,C,90
1,na,Python,80
2,park,Java,70
3,ha,,60


In [26]:
# outer merge
# 모든 인자의 데이터프레임의 공통 컬럼 값을 다 불러와서 병합해라!
pd.merge(student_df5, student_df6, how='outer')
# 결측값이 발생할 수 있다.

Unnamed: 0,name,class,Grade
0,kim,C,90.0
1,na,Python,80.0
2,park,Java,70.0
3,lee,R,
4,ha,,60.0


In [27]:
student_df7 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            'ID':['100','200','300','400']})
student_df8 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            'ID':['100','200','300','500']})
student_df9 = pd.DataFrame({'name':['kim', 'na', 'park', 'son'],
                            'Grade':[10, 20, 30, 40],
                            'ID':['100','200','300','600']})

In [28]:
display(student_df7, student_df8, student_df9)

Unnamed: 0,name,class,ID
0,kim,C,100
1,na,Python,200
2,park,Java,300
3,lee,R,400


Unnamed: 0,name,Grade,ID
0,kim,90,100
1,na,80,200
2,park,70,300
3,ha,60,500


Unnamed: 0,name,Grade,ID
0,kim,10,100
1,na,20,200
2,park,30,300
3,son,40,600


In [31]:
# 2개 이상 컬럼 잡는 법
# on = ['공통된 컬럼명1', '공통된 컬럼명2']
display(pd.merge(student_df7, student_df8, on=['name', 'ID']))
display(pd.merge(student_df7, student_df9, on=['name', 'ID']))

Unnamed: 0,name,class,ID,Grade
0,kim,C,100,90
1,na,Python,200,80
2,park,Java,300,70


Unnamed: 0,name,class,ID,Grade
0,kim,C,100,10
1,na,Python,200,20
2,park,Java,300,30


In [33]:
# left, right, outer 다 적용이 가능하다.
display(pd.merge(student_df7, student_df9, on=['name', 'ID'], how='left'))
display(pd.merge(student_df7, student_df9, on=['name', 'ID'], how='right'))
display(pd.merge(student_df7, student_df9, on=['name', 'ID'], how='outer'))

Unnamed: 0,name,class,ID,Grade
0,kim,C,100,10.0
1,na,Python,200,20.0
2,park,Java,300,30.0
3,lee,R,400,


Unnamed: 0,name,class,ID,Grade
0,kim,C,100,10
1,na,Python,200,20
2,park,Java,300,30
3,son,,600,40


Unnamed: 0,name,class,ID,Grade
0,kim,C,100,10.0
1,na,Python,200,20.0
2,park,Java,300,30.0
3,lee,R,400,
4,son,,600,40.0


In [40]:
# 만약 한 개의 공통 컬럼은 같고, 한 개의 공통 컬럼은 값이 다르면 어떻게 되는가?
student_df10 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            'ID':['100','200','300','400']})
student_df11 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            'ID':['100','200','333','500']})

In [36]:
pd.merge(student_df10, student_df11, on = ['name', 'ID'])
# 지정한 컬럼의 값이 완전히 일치해야 호출됨을 알 수 있다.

Unnamed: 0,name,class,ID,Grade
0,kim,C,100,90
1,na,Python,200,80


In [37]:
# 그러면 위의 데이터 프레임을 merge할 때 이름만을 기준으로 한다면?
pd.merge(student_df10, student_df11, on = ['name'])
# 중복 컬럼이 발생

Unnamed: 0,name,class,ID_x,Grade,ID_y
0,kim,C,100,90,100
1,na,Python,200,80,200
2,park,Java,300,70,333


In [42]:
# 컬럼의 데이터는 같은데 컬럼명이 다르다.
# 그렇다면 이때는 어떻게 merge할 수 있을까?
student_df12 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            })
student_df13 = pd.DataFrame({'성명':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            })

In [43]:
# left_on, right_on을 사용하여 지정을 해줘야 한다.
pd.merge(student_df12, student_df13, left_on='name', right_on='성명')

Unnamed: 0,name,class,성명,Grade
0,kim,C,kim,90
1,na,Python,na,80
2,park,Java,park,70


In [52]:
student_df14 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            })
student_df15 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            })

In [55]:
# 'name'이라는 컬럼을 인덱스로 바꿔보자!
# set_index('컬럼')으로 지정
# reset_index()로 풀 수 있다.

student_df_idx = student_df14.set_index('name')
student_df_idx2 = student_df15.set_index('name')

In [56]:
display(student_df_idx)
display(student_df_idx2)

Unnamed: 0_level_0,class
name,Unnamed: 1_level_1
kim,C
na,Python
park,Java
lee,R


Unnamed: 0_level_0,Grade
name,Unnamed: 1_level_1
kim,90
na,80
park,70
ha,60


In [57]:
# 풀어보자.
student_df_idx.reset_index()

Unnamed: 0,name,class
0,kim,C
1,na,Python
2,park,Java
3,lee,R


In [58]:
# 하나가 인덱스, 하나는 컬럼을 지정해줘야 하는 경우
pd.merge(student_df_idx, student_df15, left_index=True, right_on = 'name')

Unnamed: 0,class,name,Grade
0,C,kim,90
1,Python,na,80
2,Java,park,70


In [59]:
# 둘 다 인덱스인 경우 둘 다 참으로
pd.merge(student_df_idx, student_df_idx2, left_index=True, right_index=True)

Unnamed: 0_level_0,class,Grade
name,Unnamed: 1_level_1,Unnamed: 2_level_1
kim,C,90
na,Python,80
park,Java,70


### join()
- 인덱스를 기준으로 병합한다.

In [60]:
# 기본 폼
# 첫 번째 DataFrame.join(두 번째 DataFrame)
# 첫 번째 DataFrame의 인덱스가 메인이 됨.
student_df_idx.join(student_df_idx2)

Unnamed: 0_level_0,class,Grade
name,Unnamed: 1_level_1,Unnamed: 2_level_1
kim,C,90.0
na,Python,80.0
park,Java,70.0
lee,R,


In [61]:
student_df_idx2.join(student_df_idx, how='outer')

Unnamed: 0_level_0,Grade,class
name,Unnamed: 1_level_1,Unnamed: 2_level_1
ha,60.0,
kim,90.0,C
lee,,R
na,80.0,Python
park,70.0,Java


In [62]:
student_df_idx2.join(student_df_idx, how='inner')

Unnamed: 0_level_0,Grade,class
name,Unnamed: 1_level_1,Unnamed: 2_level_1
kim,90,C
na,80,Python
park,70,Java


In [None]:
student_df14 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            })
student_df15 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            })

In [65]:
# 인덱스를 기준으로 잡아주지 않으면 오류가 발생한다.
student_df14.join(student_df15)

ValueError: columns overlap but no suffix specified: Index(['name'], dtype='object')

In [66]:
# 데이터프레임 3개 이상을 합쳐보자.
student_df16 = pd.DataFrame({'name':['kim', 'na', 'park', 'lee'],
                            'class':['C', 'Python', 'Java', 'R'],
                            'ID':['100','200','300','400']})
student_df17 = pd.DataFrame({'name':['kim', 'na', 'park', 'ha'],
                            'Grade':[90, 80, 70, 60],
                            'ID':['100','200','300','500']})
student_df18 = pd.DataFrame({'name':['kim', 'na', 'park', 'son'],
                            'Grade':[10, 20, 30, 40],
                            'ID':['100','200','300','600']})

In [67]:
student_df19 = pd.merge(student_df16, student_df17)

In [68]:
pd.merge(student_df19, student_df18, on=['name'])

Unnamed: 0,name,class,ID_x,Grade_x,Grade_y,ID_y
0,kim,C,100,90,10,100
1,na,Python,200,80,20,200
2,park,Java,300,70,30,300


### reduce 함수
- 시퀀스(리스트 등)의 모든 요소에 누적 적용하여 단일 결과를 반환하는 데 사용
---
    - 구문
        functools.reduce(function, iterable[, initializer])
---
- function: 두 개의 인수를 취하고 하나의 값을 반환하는 함수
- iterable: 함수가 누적 적용될 시퀀스
- initializer (선택적): 초기값을 지정할 수 있다. 지정하면 이 값이 첫 번째 요소와 함께 함수에 전달된다.


In [69]:
from functools import reduce

In [70]:
# 병합할 데이터 프레임들을 하나에 넣자.
student_dfs = [student_df16, student_df17, student_df18]

In [72]:
mg_df_all = reduce(lambda left, right:pd.merge(left, right, on='name', how='inner'), student_dfs)

In [73]:
mg_df_all

Unnamed: 0,name,class,ID_x,Grade_x,ID_y,Grade_y,ID
0,kim,C,100,90,100,10,100
1,na,Python,200,80,200,20,200
2,park,Java,300,70,300,30,300
