In [1]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음  
병합의 기준이 되는 열 혹은 행을 `키`라고 함  

기본적으로 `merge()` 메서드는 **inner join** 형태를 가짐  
**outer(full), left, right** 형태로 변경하고 하고자 한다면 `how`인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 할려 한다면, 동일한 이름의 열 또는 행이 존재해야 한다.

In [2]:
df1 = pd.DataFrame(
    {
        '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
        '이름': ['둘리', ' 도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns = [ '고객번호', '이름' ])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [3]:
df2 = pd.DataFrame(
    {
        '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
        '금액': [10000, 2000, 15000, 5000, 100000, 3000]
    }, columns = ['고객번호', '금액'])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,2000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,3000


In [4]:
# merge함수로 두 데이터 프레임의 공통 열인 고객번호를 기준으로 데이터가 합쳐진다.
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,2000
2,1001,둘리,3000
3,1005,희동,15000
4,1006,마이콜,5000


In [5]:
pd.merge(df1, df2, how='outer') # 키 값이 한쪽에만 있어도 출력 됨 (NaN)이 하나만 있으면 출력 됨.

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,2000.0
2,1001,둘리,3000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [6]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,2000.0
2,1001,둘리,3000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [7]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,2000
2,1005,희동,15000
3,1006,마이콜,5000
4,1008,,100000
5,1001,둘리,3000


만약 키 값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [8]:
df1 = pd.DataFrame(
    {
        '품종': ['튤립', '튤립', '장미', '장미'],
        '꽃잎길이': [1.4, 1.3, 1.5, 1.3]
    }
)
df1

Unnamed: 0,품종,꽃잎길이
0,튤립,1.4
1,튤립,1.3
2,장미,1.5
3,장미,1.3


In [9]:
df2 = pd.DataFrame(
    {
        '품종': ['튤립', '장미', '장미', '무궁화'],
        '꽃잎너비': [0.4, 0.3, 0.5, 0.3]
    }
)
df2

Unnamed: 0,품종,꽃잎너비
0,튤립,0.4
1,장미,0.3
2,장미,0.5
3,무궁화,0.3


In [10]:
pd.merge(df1, df2)

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,튤립,1.4,0.4
1,튤립,1.3,0.4
2,장미,1.5,0.3
3,장미,1.5,0.5
4,장미,1.3,0.3
5,장미,1.3,0.5


In [11]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,품종,꽃잎길이,꽃잎너비
0,무궁화,,0.3
1,장미,1.5,0.3
2,장미,1.5,0.5
3,장미,1.3,0.3
4,장미,1.3,0.5
5,튤립,1.4,0.4
6,튤립,1.3,0.4


병합되는 두 데이터프레임의 동일한 컬럼명이 여러개 존재한다면 모두 키가 되기 때문에  
특정한  컬럼만 키로 사용하고자 한다면 `on`인수로 지정해야함

In [12]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102'],
        '데이터': [20000, 30000, 100000]
    }
)
df1

Unnamed: 0,이름,날짜,데이터
0,춘향,20180101,20000
1,몽룡,20180102,30000
2,춘향,20180102,100000


In [13]:
df2 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡'],
        '데이터': ['여', '자']
    }
)
df2

Unnamed: 0,이름,데이터
0,춘향,여
1,몽룡,자


In [20]:
pd.merge(df1, df2, on='성명')

KeyError: '성명'

In [None]:
pd.merge(df1, df2, on='이름')   # on 으로 기준열 명시, 값이 명시적으로 나온 값만 출력

Unnamed: 0,이름,날짜,데이터_x,데이터_y
0,춘향,20180101,20000,여
1,몽룡,20180102,30000,자
2,춘향,20180102,100000,여


키가 되는 기준열의 이름이 서로 다르면 `left_on`, `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [None]:
df1 = pd.DataFrame(
    {
        '이름': ['춘향', '몽룡', '춘향'],
        '날짜': ['20180101', '20180102', '20180102']
    }
)
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,몽룡,20180102
2,춘향,20180102


In [15]:
df2 = pd.DataFrame(
    {
        '성명': ['춘향', '몽룡', '길동'],
        '데이터': ['여', '남', '남']
    }
)
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [16]:
pd.merge(df1, df2, left_on='이름', right_on='성명')

Unnamed: 0,이름,날짜,데이터_x,성명,데이터_y
0,춘향,20180101,20000,춘향,여
1,몽룡,20180102,30000,몽룡,남
2,춘향,20180102,100000,춘향,여


In [21]:
df1 = pd.DataFrame(
    {
        '도시': ['서울', '서울', '서울', '부산', '부산'],
        '연도': [2000, 2005, 2010, 2000, 2005],
        '인구': [980, 970, 960, 360, 350]
    }
)
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [22]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6,2)),
    index = [
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns = ['데이터1', '데이터2']
    )
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [25]:
pd.merge(df1, df2, left_on=['도시', '연도'], right_index=True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드를 사용

In [26]:
df1.join(df2, on=['도시', '연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


<aside>
<img src="https://noticon-static.tammolo.com/dgggcrkxq/image/upload/v1574221064/noticon/xjal9z4a8h46soi6ktgo.png" alt="https://noticon-static.tammolo.com/dgggcrkxq/image/upload/v1574221064/noticon/xjal9z4a8h46soi6ktgo.png" width="40px" /> **파이썬으로 다음 연산을 수행한다.**

두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 단 데이터프레임은 다음 조건을 만족해야 한다.

1. 각각 5 x 5 이상의 크기를 가진다.
2. 공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.   (해보자)
</aside>

### `concat` 메서드로 데이터 연결
기준 열 지정없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위아래로 행을 연결하기 때문에 인덱스가 중복될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis=1` 인수를 사용한다. 

In [28]:
s1 = pd.Series([0,1], index=['A', 'B'])
s1

A    0
B    1
dtype: int64

In [29]:
s2 = pd.Series([2, 3, 4], index=['A', 'B', 'C'])
s2

A    2
B    3
C    4
dtype: int64

In [32]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [35]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=['a', 'b', 'c'],
    columns=['데이터1', '데이터2']
)
df1

Unnamed: 0,데이터1,데이터2
a,0,1
b,2,3
c,4,5


In [36]:
df2 = pd.DataFrame(
    np.arange(4).reshape(2, 2),
    index=['b', 'c'],
    columns=['데이터3', '데이터4']
)
df2

Unnamed: 0,데이터3,데이터4
b,0,1
c,2,3


In [37]:
pd.concat([df1, df2], axis=1)   # pd.concat으로 df1, df2를 붙이는데 axis=1 로 인해 열만 연결이 된다.(axis=0 은 행.)

Unnamed: 0,데이터1,데이터2,데이터3,데이터4
a,0,1,,
b,2,3,0.0,1.0
c,4,5,2.0,3.0
