# 4.6 데이터프레임 합성

판다스는 두 개 이상의 데이터프레임을 하나로 합치는 데이터 병합(merge)이나 연결(concatenate)을 지원한다.

## `merge` 함수를 사용한 데이터프레임 병합

```{margin}
`merge`
```

`merge` 함수는 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 두 개의 테이블을 합친다. 이 때 기준이 되는 열, 행의 데이터를 키(key)라고 한다.

In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({
    '계좌번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
}, columns=['계좌번호', '이름'])
df1

Unnamed: 0,계좌번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [3]:
df2 = pd.DataFrame({
    '계좌번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
}, columns=['계좌번호', '금액'])
df2

Unnamed: 0,계좌번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


`merge` 함수로 위의 두 데이터프레임 df1, df2 를 합치면 공통 열인 `계좌번호` 열을 기준으로 데이터를 찾아서 합친다.   
이 때 기본적으로는 양쪽 데이터프레임에 모두 키가 '존재하는 데이터'만 보여주는 inner join 방식을 사용한다.

In [5]:
pd.merge?

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mmerge[0m[1;33m([0m[1;33m
[0m    [0mleft[0m[1;33m:[0m [1;34m'DataFrame | Series'[0m[1;33m,[0m[1;33m
[0m    [0mright[0m[1;33m:[0m [1;34m'DataFrame | Series'[0m[1;33m,[0m[1;33m
[0m    [0mhow[0m[1;33m:[0m [1;34m'MergeHow'[0m [1;33m=[0m [1;34m'inner'[0m[1;33m,[0m[1;33m
[0m    [0mon[0m[1;33m:[0m [1;34m'IndexLabel | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mleft_on[0m[1;33m:[0m [1;34m'IndexLabel | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mright_on[0m[1;33m:[0m [1;34m'IndexLabel | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mleft_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mright_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0msort[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1

In [6]:
pd.merge(df1, df2) # default = inner join 교집합

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


outer join 방식은 키 값이 한쪽에만 있어도 데이터를 보여준다.

In [7]:
pd.merge(df1, df2, how='outer') # 합집합

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


left, right 방식은 각각 첫번째, 혹은 두번째 데이터프레임의 키 값을 모두 보여준다.

In [8]:
pd.merge(df1, df2, how='left')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [9]:
pd.merge(df1, df2, how='right')

Unnamed: 0,계좌번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,30000


만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는   
있을 수 있는 모든 경우의 수를 따져서 조합을 만들어 낸다.

In [10]:
df1 = pd.DataFrame({
    '품종': ['setosa', 'setosa', 'virginica', 'virginica'],
    '꽃잎길이': [1.4, 1.3, 1.5, 1.3]},
    columns=['품종', '꽃잎길이'])
df1

Unnamed: 0,품종,꽃잎길이
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,virginica,1.3


In [11]:
df2 = pd.DataFrame({
    '품종': ['setosa', 'virginica', 'virginica', 'versicolor'],
    '꽃잎너비': [0.4, 0.3, 0.5, 0.3]},
    columns=['품종', '꽃잎너비'])
df2

Unnamed: 0,품종,꽃잎너비
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


이 데이터에서 키 값 setosa에 대해 왼쪽 데이터프레임(df1)는 1.4와 1.3라는 2개의 데이터,   
오른쪽 데이터프레임(df2)에 0.4라는 1개의 데이터가 있으므로 병합된 데이터에는 setosa가 (1.4, 0.4), (1.3, 0.4) 두 개의 데이터가 생긴다.   
키 값 virginica의 경우에는 왼쪽 데이터프레임에 1.5와 1.3라는 2개의 데이터,   
오른쪽 데이터프레임에 0.3와 0.5라는 2개의 데이터가 있으므로 2개와 2개의 조합에 의해 4가지 값이 생긴다.

In [12]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,virginica,1.3,0.3
5,virginica,1.3,0.5


두 데이터프레임에서 이름이 같은 열은 모두 키가 된다.   
만약 이름이 같아도 키가 되면 안되는 열이 있다면 `on` 인수로 기준열을 명시해야 한다.   
다음 예에서 첫번째 데이터프레임의 "데이터"는 실제로는 금액을 나타내는 데이터이고   
두번째 데이터프레임의 "데이터"는 실제로는 성별을 나타내는 데이터이므로 이름이 같아도 다른 데이터이다.   
따라서 이 열은 기준열이 되면 안된다.

In [13]:
df1 = pd.DataFrame({
    '고객명': ['춘향', '춘향', '몽룡'],
    '날짜': ['2018-01-01', '2018-01-02', '2018-01-01'],
    '데이터': ['20000', '30000', '100000']})
df1

Unnamed: 0,고객명,날짜,데이터
0,춘향,2018-01-01,20000
1,춘향,2018-01-02,30000
2,몽룡,2018-01-01,100000


In [15]:
df2 = pd.DataFrame({
    '고객명': ['춘향', '몽룡'],
    '데이터': ['여자', '남자']})
df2

Unnamed: 0,고객명,데이터
0,춘향,여자
1,몽룡,남자


In [16]:
pd.merge(df1, df2) # 고객명과 데이터칼럼의 &조건으로 교집합

Unnamed: 0,고객명,날짜,데이터


In [17]:
pd.merge(df1, df2, on='고객명')

Unnamed: 0,고객명,날짜,데이터_x,데이터_y
0,춘향,2018-01-01,20000,여자
1,춘향,2018-01-02,30000,여자
2,몽룡,2018-01-01,100000,남자


이 때 기준 열이 아니면서 이름이 같은 열에는 `_x` 또는 `_y` 와 같은 접미사가 붙는다.

반대로 키가 되는 기준열의 이름이 두 데이터프레임에서 다르다면 `left_on`, `right_on` 인수를 사용하여 기준열을 명시해야 한다.

In [18]:
df1 = pd.DataFrame({
    '이름': ['영희', '철수', '철수'],
    '성적': [1, 2, 3]})
df1

Unnamed: 0,이름,성적
0,영희,1
1,철수,2
2,철수,3


In [19]:
df2 = pd.DataFrame({
    '성명': ['영희', '영희', '철수'],
    '성적2': [4, 5, 6]})
df2

Unnamed: 0,성명,성적2
0,영희,4
1,영희,5
2,철수,6


In [20]:
pd.merge(df1, df2, left_on='이름', right_on="성명")

Unnamed: 0,이름,성적,성명,성적2
0,영희,1,영희,4
1,영희,1,영희,5
2,철수,2,철수,6
3,철수,3,철수,6


일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 `left_index` 또는 `right_index` 인수를 `True` 로 설정한다.

In [21]:
df1 = pd.DataFrame({
    '도시': ['서울', '서울', '서울', '부산', '부산'],
    '연도': [2000, 2005, 2010, 2000, 2005],
    '인구': [9853972, 9762546, 9631482, 3655437, 3512547]})
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,9853972
1,서울,2005,9762546
2,서울,2010,9631482
3,부산,2000,3655437
4,부산,2005,3512547


In [23]:
import numpy as np

In [24]:
df2 = pd.DataFrame(np.arange(12).reshape((6, 2)),
    index=[['부산', '부산', '서울', '서울', '서울', '서울'],
           [2000, 2005, 2000, 2005, 2010, 2015]],
    columns=['데이터1', '데이터2'])
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [27]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,9853972,4,5
1,서울,2005,9762546,6,7
2,서울,2010,9631482,8,9
3,부산,2000,3655437,0,1
4,부산,2005,3512547,2,3


In [28]:
df1 = pd.DataFrame(
    [[1., 2.], [3., 4.], [5., 6.]],
    index=['a', 'c', 'e'],
    columns=['서울', '부산'])
df1

Unnamed: 0,서울,부산
a,1.0,2.0
c,3.0,4.0
e,5.0,6.0


In [29]:
df2 = pd.DataFrame(
    [[7., 8.], [9., 10.], [11., 12.], [13, 14]],
    index=['b', 'c', 'd', 'e'],
    columns=['대구', '광주'])
df2

Unnamed: 0,대구,광주
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [30]:
pd.merge(df1, df2, how='outer', left_index=True, right_index=True)

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


### join 메서드

`merge` 명령어 대신 `join` 메서드를 사용할 수도 있다.    
결합 기준이 index, merge는 결합기준이 칼럼입니다.

In [31]:
df1.join(df2, how='outer')

Unnamed: 0,서울,부산,대구,광주
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


### 연습 문제
```
두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 단 데이터프레임은 다음 조건을 만족해야 한다.

1. 각각 5 x 5 이상의 크기를 가진다.
2. 공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.
```

In [44]:
# 공통열 만들기
idx = np.array(list(range(1, 6))).reshape(5,1)
idx

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [45]:
# 벨류 만들기
value = np.random.randint(0, 101, size=(5, 4))
value

array([[37, 49, 58, 15],
       [45,  5, 60, 80],
       [33, 37, 93, 95],
       [29, 33, 75, 31],
       [ 4, 49, 61, 49]])

In [46]:
# 첫 번째 데이터프레임 생성
df1 = pd.DataFrame( np.hstack([idx, value]),
                   columns=['A', 'B', 'C', 'D', 'E'])
df1

Unnamed: 0,A,B,C,D,E
0,1,37,49,58,15
1,2,45,5,60,80
2,3,33,37,93,95
3,4,29,33,75,31
4,5,4,49,61,49


In [47]:
# 두 번째 데이터프레임 생성
df2 = pd.DataFrame(np.hstack([idx, value]),
                              columns=['A1', 'B1', 'C1', 'D1', 'E1'])
df2

Unnamed: 0,A1,B1,C1,D1,E1
0,1,37,49,58,15
1,2,45,5,60,80
2,3,33,37,93,95
3,4,29,33,75,31
4,5,4,49,61,49


In [48]:
# 두 데이터프레임을 merge 명령으로 합침
df_merged = pd.merge(df1, df2, left_on='A', right_on='A1')
df_merged

Unnamed: 0,A,B,C,D,E,A1,B1,C1,D1,E1
0,1,37,49,58,15,1,37,49,58,15
1,2,45,5,60,80,2,45,5,60,80
2,3,33,37,93,95,3,33,37,93,95
3,4,29,33,75,31,4,29,33,75,31
4,5,4,49,61,49,5,4,49,61,49


## `concat` 함수를 사용한 데이터 연결

```{margin}
`concat`
```

In [49]:
s1 = pd.Series([0, 1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [50]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [51]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [52]:
pd.concat?

[1;31mSignature:[0m
[0mpd[0m[1;33m.[0m[0mconcat[0m[1;33m([0m[1;33m
[0m    [0mobjs[0m[1;33m:[0m [1;34m'Iterable[NDFrame] | Mapping[HashableT, NDFrame]'[0m[1;33m,[0m[1;33m
[0m    [1;33m*[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mjoin[0m[1;33m:[0m [1;34m'str'[0m [1;33m=[0m [1;34m'outer'[0m[1;33m,[0m[1;33m
[0m    [0mignore_index[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mkeys[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mlevels[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mnames[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0mverify_integrity[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0msort[0m[1;33m:[0m [1;34m'bool'[0m [1;33m=[0m [1;32mFalse[0m[1;33m,[0m[1;33m
[0m    [0mcopy[0m[1;33m:[0m [1;34m'bool | 

만약 옆으로 데이터 열을 연결하고 싶으면 `axis=1`로 인수를 설정한다.

In [53]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2'])
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [54]:
df2 = pd.DataFrame(
    5 + np.arange(4).reshape(2, 2),
    index=['a', 'c'],
    columns=['데이터3', '데이터4'])
df2

Unnamed: 0,데이터3,데이터4
a,5,6
c,7,8


In [55]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


### 연습 문제
```
어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다.
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.
```

In [61]:
# 전반기 실적 데이터프레임 생성
df1 = pd.DataFrame(np.random.randint(0, 101, size=(6, 3)), columns=['매출', '비용', '이익'])
df1.index = ['1월', '2월', '3월', '4월', '5월', '6월']
df1

Unnamed: 0,매출,비용,이익
1월,21,45,83
2월,43,80,46
3월,52,88,91
4월,66,35,95
5월,99,53,31
6월,19,5,74


In [62]:
# 후반기 실적 데이터프레임 생성
df2 = pd.DataFrame(np.random.randint(0, 101, size=(6, 3)), columns=['매출', '비용', '이익'])
df2.index = ['7월', '8월', '9월', '10월', '11월', '12월']
df2

Unnamed: 0,매출,비용,이익
7월,90,21,83
8월,87,14,58
9월,54,76,66
10월,25,63,69
11월,86,48,96
12월,21,91,99


In [63]:
# 전반기와 후반기 실적을 합친 데이터프레임 생성
df = pd.concat([df1, df2], axis=0)
df

Unnamed: 0,매출,비용,이익
1월,21,45,83
2월,43,80,46
3월,52,88,91
4월,66,35,95
5월,99,53,31
6월,19,5,74
7월,90,21,83
8월,87,14,58
9월,54,76,66
10월,25,63,69


In [64]:
# 이익 계산하여 마지막 열에 추가
df['이익'] = df['매출'] - df['비용']
df

Unnamed: 0,매출,비용,이익
1월,21,45,-24
2월,43,80,-37
3월,52,88,-36
4월,66,35,31
5월,99,53,46
6월,19,5,14
7월,90,21,69
8월,87,14,73
9월,54,76,-22
10월,25,63,-38


In [65]:
# 총 실적 계산하여 마지막 행에 추가
df.loc['총 실적'] = df.sum(axis=0)
df

Unnamed: 0,매출,비용,이익
1월,21,45,-24
2월,43,80,-37
3월,52,88,-36
4월,66,35,31
5월,99,53,46
6월,19,5,14
7월,90,21,69
8월,87,14,73
9월,54,76,-22
10월,25,63,-38
