# 📍 데이터병합

### ✅ concat()
: ```pd.concat([df1, df2], axis, join, ignore_index=True/False)```
- axis : 0(default값) 행방향 / 1 열방향 결합
- join : 'inner' / 'outer'(default값)
- ignore_index=True : index 초기화

In [1]:
import pandas as pd
import numpy as np

df1=pd.DataFrame(
                np.arange(6).reshape(3,2),
                index=['a','b','c'],
                columns=['데이터1','데이터2']
                )
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [2]:
df2=pd.DataFrame(
                5+np.arange(4).reshape(2,2),
                index=['a','c'],
                columns=['데이터2','데이터4']
                )
df2

Unnamed: 0,데이터2,데이터4
a,5,6
c,7,8


In [3]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [4]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,데이터1,데이터2,데이터4
a,0.0,1,
b,2.0,3,
c,4.0,5,
a,,5,6.0
c,,7,8.0


In [5]:
pd.concat([df1,df2], axis=1, join='inner')

Unnamed: 0,데이터1,데이터2,데이터2.1,데이터4
a,0,1,5,6
c,4,5,7,8


In [6]:
pd.concat([df1,df2], axis=0, join='inner')

Unnamed: 0,데이터2
a,1
b,3
c,5
a,5
c,7


In [7]:
test = pd.concat([df1,df2], axis=1, join='inner', keys=['x','y'])
test

Unnamed: 0_level_0,x,x,y,y
Unnamed: 0_level_1,데이터1,데이터2,데이터2,데이터4
a,0,1,5,6
c,4,5,7,8


In [8]:
test.x.데이터1

a    0
c    4
Name: 데이터1, dtype: int64

### ✅ merge()
: 공통된 key값(column)을 가지고 있을 시 병합 가능\
  ```pd.merge(df1, df2, how)```
- how : left, right, outer, inner(default값)

In [9]:
df1 = pd.DataFrame({
    '고객명': ['박세리', '이대호', '손흥민', '김연아', '마이클조던'],
    '생년월일': ['1980-01-02', '1982-02-22', '1993-06-12', '1988-10-16', '1970-03-03'],
    '성별': ['여자', '남자', '남자', '여자', '남자']})
df1

Unnamed: 0,고객명,생년월일,성별
0,박세리,1980-01-02,여자
1,이대호,1982-02-22,남자
2,손흥민,1993-06-12,남자
3,김연아,1988-10-16,여자
4,마이클조던,1970-03-03,남자


In [10]:
df2 = pd.DataFrame({
    '고객명': ['김연아', '박세리', '손흥민', '이대호', '타이거우즈'],
    '연봉': ['2000원', '3000원', '1500원', '2500원', '3500원']})
df2

Unnamed: 0,고객명,연봉
0,김연아,2000원
1,박세리,3000원
2,손흥민,1500원
3,이대호,2500원
4,타이거우즈,3500원


In [11]:
# how='inner'(defalut) : df1, df2 중복된 요소만 병합
pd.merge(df1, df2)

Unnamed: 0,고객명,생년월일,성별,연봉
0,박세리,1980-01-02,여자,3000원
1,이대호,1982-02-22,남자,2500원
2,손흥민,1993-06-12,남자,1500원
3,김연아,1988-10-16,여자,2000원


In [12]:
# how='left' : df1(left) 기준으로 병합
pd.merge(df1, df2, how='left')

Unnamed: 0,고객명,생년월일,성별,연봉
0,박세리,1980-01-02,여자,3000원
1,이대호,1982-02-22,남자,2500원
2,손흥민,1993-06-12,남자,1500원
3,김연아,1988-10-16,여자,2000원
4,마이클조던,1970-03-03,남자,


In [13]:
# how='right' : df2(right) 기준으로 병합
pd.merge(df1, df2, how='right')

Unnamed: 0,고객명,생년월일,성별,연봉
0,김연아,1988-10-16,여자,2000원
1,박세리,1980-01-02,여자,3000원
2,손흥민,1993-06-12,남자,1500원
3,이대호,1982-02-22,남자,2500원
4,타이거우즈,,,3500원


In [14]:
# how='outer' : df1, df2의 모든 데이터 병합
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객명,생년월일,성별,연봉
0,박세리,1980-01-02,여자,3000원
1,이대호,1982-02-22,남자,2500원
2,손흥민,1993-06-12,남자,1500원
3,김연아,1988-10-16,여자,2000원
4,마이클조던,1970-03-03,남자,
5,타이거우즈,,,3500원


: 병합하려는 column의 이름이 다른 경우\
  ```pd.merge(df1, df2, left_on='df1_column', right_on='df2_column')```

In [15]:
df1 = pd.DataFrame({
    '이름': ['박세리', '이대호', '손흥민', '김연아', '마이클조던'],
    '생년월일': ['1980-01-02', '1982-02-22', '1993-06-12', '1988-10-16', '1970-03-03'],
    '성별': ['여자', '남자', '남자', '여자', '남자']})
df1

Unnamed: 0,이름,생년월일,성별
0,박세리,1980-01-02,여자
1,이대호,1982-02-22,남자
2,손흥민,1993-06-12,남자
3,김연아,1988-10-16,여자
4,마이클조던,1970-03-03,남자


In [16]:
df2 = pd.DataFrame({
    '고객명': ['김연아', '박세리', '손흥민', '이대호', '타이거우즈'],
    '연봉': ['2000원', '3000원', '1500원', '2500원', '3500원']})
df2

Unnamed: 0,고객명,연봉
0,김연아,2000원
1,박세리,3000원
2,손흥민,1500원
3,이대호,2500원
4,타이거우즈,3500원


In [17]:
pd.merge(df1, df2, left_on='이름', right_on='고객명')

Unnamed: 0,이름,생년월일,성별,고객명,연봉
0,박세리,1980-01-02,여자,박세리,3000원
1,이대호,1982-02-22,남자,이대호,2500원
2,손흥민,1993-06-12,남자,손흥민,1500원
3,김연아,1988-10-16,여자,김연아,2000원


: 이름이 같은 column이 여러개 있는 경우\
  이름이 같아도 키가 되면 안되는 열이 있을 때 on 인수로 기준열을 명시\
```pd.merge(df1, df2, on='column')```

In [18]:
df1 = pd.DataFrame({
    '이름': ['박세리', '이대호', '손흥민', '김연아', '마이클조던'],
    '생년월일': ['1980-01-02', '1982-02-22', '1993-06-12', '1988-10-16', '1970-03-03'],
    '데이터': ['여자', '남자', '남자', '여자', '남자']})
df1

Unnamed: 0,이름,생년월일,데이터
0,박세리,1980-01-02,여자
1,이대호,1982-02-22,남자
2,손흥민,1993-06-12,남자
3,김연아,1988-10-16,여자
4,마이클조던,1970-03-03,남자


In [19]:
df2 = pd.DataFrame({
    '이름': ['김연아', '박세리', '손흥민', '이대호', '타이거우즈'],
    '데이터': ['2000원', '3000원', '1500원', '2500원', '3500원']})
df2

Unnamed: 0,이름,데이터
0,김연아,2000원
1,박세리,3000원
2,손흥민,1500원
3,이대호,2500원
4,타이거우즈,3500원


In [20]:
# 데이터 column은 값의 의미가 다름(키로 사용되면 안됨)
# 기준열을 on을 통해 직접 지정(반환 결과에 동일 필드명이 있을 경우 column_x, column_y로 변경해서 표현
pd.merge(df1,df2, on='이름')

Unnamed: 0,이름,생년월일,데이터_x,데이터_y
0,박세리,1980-01-02,여자,3000원
1,이대호,1982-02-22,남자,2500원
2,손흥민,1993-06-12,남자,1500원
3,김연아,1988-10-16,여자,2000원


: index를 기준으로 병합\
```pd.merge(df1, df2, left_index=True/False, right_index=True/False)```

In [21]:
df1 = pd.DataFrame([[1.,2.],[3.,4.],[5.,6.]],
                    index=['봄','여름','겨울'],
                    columns=['서울','부산'])
df1

Unnamed: 0,서울,부산
봄,1.0,2.0
여름,3.0,4.0
겨울,5.0,6.0


In [22]:
df2 = pd.DataFrame([[7.,8.],[9.,10.],[11.,12.],[13.,14.]],
                    index=['초여름','여름','가을','겨울'],
                    columns=['대구','광주'])
df2

Unnamed: 0,대구,광주
초여름,7.0,8.0
여름,9.0,10.0
가을,11.0,12.0
겨울,13.0,14.0


In [23]:
# 기준이 모두 index로 처리되어 있는 경우 index는 기존 index를 사용
pd.merge(df1, df2, left_index=True, right_index=True, how='outer')

Unnamed: 0,서울,부산,대구,광주
가을,,,11.0,12.0
겨울,5.0,6.0,13.0,14.0
봄,1.0,2.0,,
여름,3.0,4.0,9.0,10.0
초여름,,,7.0,8.0


### ✅ join()
: ```df1.join(df2, how)```
- how : left, right, outer, inner(default값)

In [24]:
df1.join(df2, how='outer')

Unnamed: 0,서울,부산,대구,광주
가을,,,11.0,12.0
겨울,5.0,6.0,13.0,14.0
봄,1.0,2.0,,
여름,3.0,4.0,9.0,10.0
초여름,,,7.0,8.0
