## 데이터 병합
---
- concat
- merge
- join

- 크게 3가지 정도로 볼 수 있다.
- 데이터를 병합하는 상황이 필요할 때 해당 문법을 통해 데이터를 잘 병합 하면 된다.
    - 병합하는 상황?
    - 다양한 상황이 존재하지만, 데이터의 테이블 자체가 다른 곳에 있는 경우 -> 하나로 합쳐야 하는 경우
    - 데이터 전처리 과정에서 우리가 만든 다양한 데이터프레임을 합쳐서야 하는 경우
    - 이러한 경우에서 데이터 병합은 필수적으로 잘 아셔야 합니다.

## Concat

In [None]:
# Concat
# 데이터프레임(덩어리) + 데이터프레임(덩어리) 합치는 경우
# 축을 기준으로 열과, 행방향으로 합쳐진다.
# 공통기준이 있는 게 아니라 데이터프레임끼리 축에 따라 붙이는다.
# 공통 기준 컬럼이 없다.


import pandas as pd


df1 = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6]})
df2 = pd.DataFrame({'A':[4,5], 'B':[6,7]})
df3 = pd.DataFrame({'A':[11,12], 'B':[6,7], 'C':[50,60]})


In [None]:
# 가장 단순한 문법
# pd.concat([데이터프레임1, 데이터프레임2 ...n] axis=0) # 0행 1열
# pd.concat([데이터프레임1, 데이터프레임2 ...n] axis=1) # 0행 1열


display(df1)
display(df2)
display(df3)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Unnamed: 0,A,B
0,4,6
1,5,7


Unnamed: 0,A,B,C
0,11,6,50
1,12,7,60


In [None]:
#df1 + df2 합치자!
#인덱스가 정렬이 되지 않는다.
pd.concat([df1, df2],axis=0)  #행기준, 디폴트 0값

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6
0,4,6
1,5,7


In [None]:
# 열 기준으로 병합이 된다.
pd.concat([df1, df2],axis=1)  #행기준, 디폴트 0값
# NaN값이 나온다, 두 가지 컬럼이 중복이 된다.

Unnamed: 0,A,B,A.1,B.1
0,1,4,4.0,6.0
1,2,5,5.0,7.0
2,3,6,,


In [None]:
display(df1)
display(df2)

Unnamed: 0,A,B
0,1,4
1,2,5
2,3,6


Unnamed: 0,A,B
0,4,6
1,5,7


In [None]:
#df1 + df2 +df3 합치자!
#인덱스가 정렬이 되지 않는다.
pd.concat([df1, df2, df3],axis=0)  #행기준, 디폴트 0값

# 행 기준으로 병합하는 경우 최대한 컬럼 기준 도메인이 맞는 데이터프레임끼리 합치면 좋다.
# 공통적인 컬럼의 월별데이터, 시계열이나 등등
# 특정 C 컬럼이 df1 ,df2 와는 다른 df3만 C가 있다.
# na값 나온다.

Unnamed: 0,A,B,C
0,1,4,
1,2,5,
2,3,6,
0,4,6,
1,5,7,
0,11,6,50.0
1,12,7,60.0


In [None]:
# 열기준
pd.concat([df1, df2, df3],axis=1)  #행기준, 디폴트 0값

Unnamed: 0,A,B,A.1,B.1,A.2,B.2,C
0,1,4,4.0,6.0,11.0,6.0,50.0
1,2,5,5.0,7.0,12.0,7.0,60.0
2,3,6,,,,,


In [None]:
# 인덱스 순서 재정렬
# ignore_index=True
pd.concat([df1, df2, df3],axis=0, ignore_index=True)  #행기준, 디폴트 0값

Unnamed: 0,A,B,C
0,1,4,
1,2,5,
2,3,6,
3,4,6,
4,5,7,
5,11,6,50.0
6,12,7,60.0


## merge
- Sql Join 연산을 생각하면 키(pk, 컬럼기준이 필요) 공통적인 컬럼 기준이 필요하다.
- 그 공통적인 컬럼을 기준으로 데이터를 병합하는 것!

- 처음 작성한 데이터프레임이 첫 번째가 된다.
- ***left*** : 병합할 첫 번째 데이터프레임
- ***Right*** : 병합할 두 번째 데이터프레임
- ***how*** : 데이터 병합 방법 ( 디폴트 inner, 'left','right','outer','inner')
- ***on*** : 병합할 때 사용할 공통 열 이름 지정, 지정하지 않으면 두 데이터프레임 공통 열을 사용한다.
- ***left_on*** : 병합할 때 사용할 공통 열 이름 지정, 지정하지 않으면 두 데이터프레임 공통 열을 사용한다.
- ***right_on*** : 병합할 때 사용할 공통 열 이름 지정, 지정하지 않으면 두 데이터프레임 공통 열을 사용한다.

- ***left_index*** : 오른쪽 데이터프레임 인덱스를 기준으로 병합 키 사용 여부 확인
- ***right_index*** : 왼쪽 데이터프레임 인덱스를 기준으로 병합 키 사용 여부 확인



In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '점수':[50,60,70,80]})

In [None]:
display(df1,df2)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,오길동,80


In [None]:
#pd.merge(왼쪽데이터프레임, 오른쪽데이터프레임, 기타 매개변수들)
#
pd.merge(df1, df2)

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50
1,박길동,데이터분석입문,60
2,이길동,데이터분석전처리,70
3,오길동,데이분석모델링,80


In [None]:
#공통된 키가 없는 겨우
#공통된 컬럼은 컬럼, 값도 같아야 한다.
#컬럼명 기반으로 공통을 찾는구나!+ 데이터타입이 같아야 하는구나
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '점수':[50,60,70,80]})
df3 = pd.DataFrame({'벌점':[10,20,30,40],
                   'score':[50,60,70,80]})

In [None]:
display(df1, df2 ,df3)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,오길동,80


Unnamed: 0,벌점,score
0,10,50
1,20,60
2,30,70
3,40,80


In [None]:
pd.merge(df1, df3)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [None]:
pd.merge(df2, df3)

MergeError: No common columns to perform merge on. Merge options: left_on=None, right_on=None, left_index=False, right_index=False

In [None]:
# 만약 컬럼명은 같지만 값이 다른 경우

df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '점수':[50,60,70,80]})
df3 = pd.DataFrame({'벌점':[10,20,30,40],
                   '점수':[5,6,7,8]})

In [None]:
#결론 컬럼 이름은 같지만 데이터 타입이 다르면 안 된다.
# 컬럼 이름도 같고 데이터 타입도 같아야 한다.
pd.merge(df2, df3)

Unnamed: 0,이름,점수,벌점


In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80]})
df3 = pd.DataFrame({'벌점':[10,20,30,40],
                   '점수':[5,6,7,8]})

In [None]:
display(df1, df2)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,장길동,80


In [None]:
pd.merge(df1, df2, how='inner')

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50
1,박길동,데이터분석입문,60
2,이길동,데이터분석전처리,70


In [None]:
#left df1의 공통 컬럼의 값을 모두 기준으로 잡고 병합해라
pd.merge(df1, df2, how='left')

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50.0
1,박길동,데이터분석입문,60.0
2,이길동,데이터분석전처리,70.0
3,오길동,데이분석모델링,


In [None]:
#right df2의 공통 컬럼의 값을 모두 기준으로 잡고 병합해라
pd.merge(df1, df2, how='right')

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50
1,박길동,데이터분석입문,60
2,이길동,데이터분석전처리,70
3,장길동,,80


In [None]:
#df1, df2의 모든 공통 컬럼의 값을 다 불러와서 병합해라!
pd.merge(df1, df2, how='outer')

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50.0
1,박길동,데이터분석입문,60.0
2,이길동,데이터분석전처리,70.0
3,오길동,데이분석모델링,
4,장길동,,80.0


In [None]:
'홍길동','박길동','이길동','오길동'
'01','02','03','04'
'장길동','심길동'
'05','06'

('01', '02', '03', '04')

In [None]:
# 공통된 컬럼이 꼭 하나인가?
# 공통된 컬럼이 2개 이상일 수 있다.
# 데이터를 2개 이상 병합할 수 있다.

df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링'],
                   '학번':['01','02','03','04']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80],
                   '학번':['01','02','03','05']})
df3 = pd.DataFrame({'이름':['홍길동','박길동','이길동','심길동'],
                   '점수':[5,6,7,8],
                   '학번':['01','02','03','06']})

In [None]:
display(df1, df2, df3)

Unnamed: 0,이름,반,학번
0,홍길동,프로그래밍,1
1,박길동,데이터분석입문,2
2,이길동,데이터분석전처리,3
3,오길동,데이분석모델링,4


Unnamed: 0,이름,점수,학번
0,홍길동,50,1
1,박길동,60,2
2,이길동,70,3
3,장길동,80,5


Unnamed: 0,이름,점수,학번
0,홍길동,5,1
1,박길동,6,2
2,이길동,7,3
3,심길동,8,6


In [None]:
#2개 이상 컬럼 잡는법
pd.merge(df1,df2,on=['이름','학번'])

Unnamed: 0,이름,반,학번,점수
0,홍길동,프로그래밍,1,50
1,박길동,데이터분석입문,2,60
2,이길동,데이터분석전처리,3,70


In [None]:
pd.merge(df1,df3,on=['이름','학번'])

Unnamed: 0,이름,반,학번,점수
0,홍길동,프로그래밍,1,5
1,박길동,데이터분석입문,2,6
2,이길동,데이터분석전처리,3,7


In [None]:
pd.merge(df1,df3,on=['이름','학번'],how='left')

Unnamed: 0,이름,반,학번,점수
0,홍길동,프로그래밍,1,5.0
1,박길동,데이터분석입문,2,6.0
2,이길동,데이터분석전처리,3,7.0
3,오길동,데이분석모델링,4,


In [None]:
# 여기서 예외 케이스
# 공통 컬럼 중 학번 다른 값이 있다.
# 어떤 식으로 값이 병합이 되는가
# 이길동이 df1 03 df2 33
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링'],
                   '학번':['01','02','03','04']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80],
                   '학번':['01','02','33','05']})
df3 = pd.DataFrame({'이름':['홍길동','박길동','이길동','심길동'],
                   '점수':[5,6,7,8],
                   '학번':['01','02','03','06']})

In [None]:
display(df1, df2)

Unnamed: 0,이름,반,학번
0,홍길동,프로그래밍,1
1,박길동,데이터분석입문,2
2,이길동,데이터분석전처리,3
3,오길동,데이분석모델링,4


Unnamed: 0,이름,점수,학번
0,홍길동,50,1
1,박길동,60,2
2,이길동,70,33
3,장길동,80,5


In [None]:
# 두 개 지정한 컬럼이 또는 디폴트 값이 모두 동일해야 한다.
pd.merge(df1,df2)

Unnamed: 0,이름,반,학번,점수
0,홍길동,프로그래밍,1,50
1,박길동,데이터분석입문,2,60


In [None]:
pd.merge(df1,df2, on='이름')

Unnamed: 0,이름,반,학번_x,점수,학번_y
0,홍길동,프로그래밍,1,50,1
1,박길동,데이터분석입문,2,60,2
2,이길동,데이터분석전처리,3,70,33


In [None]:
pd.merge(df1,df2, on='학번')

#공통된 컬럼이 2개인데 -> 1개만 지정을했다.
#x,y 처럼 중복 컬럼이 발생한다.

Unnamed: 0,이름_x,반,학번,이름_y,점수
0,홍길동,프로그래밍,1,홍길동,50
1,박길동,데이터분석입문,2,박길동,60


In [None]:
pd.merge(df1, df2,df3, how='inner')

TypeError: merge() got multiple values for argument 'how'

- 컬럼명 다른 경우
    - left_on : 병합할 때 사용할 공통 열 이름 지정, 지정하지 않으면 두 데이터프레임 공통 열을 사용한다.
    - right_on : 병합할 때 사용할 공통 열 이름 지정, 지정하지 않으면 두 데이터프레임 공통 열을 사용한다.

In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링'],
                   '학번':['01','02','03','04']})
df2 = pd.DataFrame({'Name':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80],
                   '학번':['01','02','33','05']})
df3 = pd.DataFrame({'이름':['홍길동','박길동','이길동','심길동'],
                   '점수':[5,6,7,8],
                   '학번':['01','02','03','06']})

In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'Name':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80]
                   })

In [None]:
display(df1, df2)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,Name,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,장길동,80


In [None]:
#왼쪽 오른쪽의 공통 컬럼이 다른 경우 지정을 해준다!
pd.merge(df1,df2, left_on='이름',right_on='Name')

Unnamed: 0,이름,반,Name,점수
0,홍길동,프로그래밍,홍길동,50
1,박길동,데이터분석입문,박길동,60
2,이길동,데이터분석전처리,이길동,70


- left_index : 오른쪽 데이터프레임 인덱스를 기준으로 병합 키 사용 여부 확인
- right_index : 왼쪽 데이터프레임 인덱스를 기준으로 병합 키 사용 여부 확인

In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df2 = pd.DataFrame({'이름':['홍길동','박길동','이길동','장길동'],
                   '점수':[50,60,70,80]
                   })

In [None]:
#이름이라는 컬럼을 인덱스로 바꾸자!
#set_index('컬럼')로 지정하고
#reset_index()로 풀 수 있다.

df_idx=df1.set_index('이름')
df2_idx= df2.set_index('이름')

In [None]:
#다시 컬럼을 뺄 수 있다.
df_idx.reset_index()

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


In [None]:
pd.merge(df_idx,df2, left_index=True, right_on='이름') # 인덱스가 아닌 경우는 꼭 지정해 줘야 한다

Unnamed: 0,반,이름,점수
0,프로그래밍,홍길동,50
1,데이터분석입문,박길동,60
2,데이터분석전처리,이길동,70


In [None]:
df2_idx

Unnamed: 0_level_0,점수
이름,Unnamed: 1_level_1
홍길동,50
박길동,60
이길동,70
장길동,80


In [None]:
# 둘 다 인덱스면 둘 다 참으로 하면 된다.
pd.merge(df_idx,df2_idx, left_index=True, right_index=True)

Unnamed: 0_level_0,반,점수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,프로그래밍,50
박길동,데이터분석입문,60
이길동,데이터분석전처리,70


## join

- 인덱스 기준으로 병합
- on - 병합할 때 사용할 열 이름, 지정하지 않으면 인덱스 기준으로 병합 ( 디폴트가 인덱스 )
- how - 동일
- suffix : 컬럼을 지정해 달라는 뜻

In [None]:
#첫 번째 데이터프레임 잡고.join(두 번째 데이터프레임)
#첫 번째 데이터프레임 기준이 앞에 있기 때문에 얘의 인덱스가 메인이 된다.
df_idx.join(df2_idx )

Unnamed: 0_level_0,반,점수
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,프로그래밍,50.0
박길동,데이터분석입문,60.0
이길동,데이터분석전처리,70.0
오길동,데이분석모델링,


In [None]:
df2_idx.join(df_idx,how='outer')

Unnamed: 0_level_0,점수,반
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
박길동,60.0,데이터분석입문
오길동,,데이분석모델링
이길동,70.0,데이터분석전처리
장길동,80.0,
홍길동,50.0,프로그래밍


In [None]:
df2_idx.join(df_idx,how='inner')

Unnamed: 0_level_0,점수,반
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,50,프로그래밍
박길동,60,데이터분석입문
이길동,70,데이터분석전처리


In [None]:
df1.join(df2)

ValueError: columns overlap but no suffix specified: Index(['이름'], dtype='object')

In [None]:
df2

Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,장길동,80


In [None]:
df2_idx

Unnamed: 0_level_0,점수
이름,Unnamed: 1_level_1
홍길동,50
박길동,60
이길동,70
장길동,80


### 데이터프레임을 3개 이상 합치는 경우

In [None]:

display(df1, df2, df3)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,장길동,80


Unnamed: 0,이름,점수,학번
0,홍길동,5,1
1,박길동,6,2
2,이길동,7,3
3,심길동,8,6


In [None]:
# df1, df2 병합하고, df3해

df_mg12=pd.merge(df1,df2)

pd.merge(df_mg12,df3, on='이름')

Unnamed: 0,이름,반,점수_x,점수_y,학번
0,홍길동,프로그래밍,50,5,1
1,박길동,데이터분석입문,60,6,2
2,이길동,데이터분석전처리,70,7,3


In [None]:
df_mg12

Unnamed: 0,이름,반,점수
0,홍길동,프로그래밍,50
1,박길동,데이터분석입문,60
2,이길동,데이터분석전처리,70


In [None]:
pd.merge(df_mg12,df3, on='이름')

Unnamed: 0,이름,반,점수_x,점수_y,학번
0,홍길동,프로그래밍,50,5,1
1,박길동,데이터분석입문,60,6,2
2,이길동,데이터분석전처리,70,7,3


In [None]:
from functools import reduce

In [None]:
#병합할 데이터프레임을 하나에 넣기

dfs = [df1, df2, df3]

In [None]:
mg_df_all = reduce(lambda left, right:pd.merge(left, right ,on='이름',how='inner'),dfs)

In [None]:
mg_df_all

Unnamed: 0,이름,반,점수_x,점수_y,학번
0,홍길동,프로그래밍,50,5,1
1,박길동,데이터분석입문,60,6,2
2,이길동,데이터분석전처리,70,7,3


In [None]:
df1 = pd.DataFrame({'이름':['홍길동','박길동','이길동','오길동'],
                   '반':['프로그래밍','데이터분석입문','데이터분석전처리','데이분석모델링']})
df4 = pd.DataFrame({'이름':['홍길동','홍길동','홍길동','장길동'],
                   '점수':[50,60,70,80]
                   })

In [None]:
display(df1, df2, df4)

Unnamed: 0,이름,반
0,홍길동,프로그래밍
1,박길동,데이터분석입문
2,이길동,데이터분석전처리
3,오길동,데이분석모델링


Unnamed: 0,이름,점수
0,홍길동,50
1,박길동,60
2,이길동,70
3,장길동,80


Unnamed: 0,이름,점수
0,홍길동,50
1,홍길동,60
2,홍길동,70
3,장길동,80


In [None]:
# 해당 값이 고유한 유니크한 값이 아니고 중복된 값이 있다면 아래처럼 병합할 때 중복 값으로 인해서 데이터프레임의 전체 행값이 달라질 수 있다.
pd.merge(df1,df2,how='outer').shape

(5, 3)

In [None]:
# 해당 값이 고유한 유니크한 값이 아니고 중복된 값이 있다면 아래처럼 병합할 때 중복 값으로 인해서 데이터프레임의 전체 행값이 달라질 수 있다.
pd.merge(df1,df4,how='outer').shape

(7, 3)

In [None]:
# 나의 데이터 병합에 대해서 꼭 진단하는 검증 방법을 로직을 잘 이해하기.