In [None]:
import pandas as pd
import numpy as np
import seaborn

### `merge` 함수를 통한 데이터프레임 병합
`merge()` 메서드로 공통 열 혹은 행을 기준으로 두 개의 데이터프레임을 병합 할 수 있음,  
병합의 기준이 되는 열 혹은 행을 '키'라고 함
기본적으로 `merge()`메서드는 **inner join** 형태를 가짐  
**outer(full), left, right join** 형태로 변경하고자 한다면 `how`  
인수에 조인 방식을 지정함  
`merge()` 메서드로 병합을 하려 한다면 동일한 이름의 열 또는 행이 존재해야함

In [None]:
df1 = pd.DataFrame(
    {
        '고객번호' : [1001, 1002, 1003, 1004, 1005, 1006, 1007 ],
        '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희'],
    }, columns = ['고객번호', '이름']
)
df1

In [None]:
df2 = pd.DataFrame (
    {
        '고객번호' : [1001, 1001, 1005, 1006 ,1008, 1001],
        '금액' : [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns= ['고객번호', '금액']
)
df2

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, how='right')

만약 키값에 동일한 데이터가 여러개 존재한다면 모든 경우의 수를 표현함

In [None]:
df1 = pd.DataFrame(
    {
        '품종' : ['튤립', '튤립', '장미', '장미'],
        '꽃잎 길이' : [1.4, 1.3, 1.5, 1.3]
    }
)
df1

In [None]:
df2 = pd.DataFrame(
    {
        '품종' : ['튤립', '장미', '장미', '무궁화'],
        '꽃잎너비' : [0.4, 0.3, 0.5, 0.3]
    }
)
df2

In [None]:
pd.merge(df1, df2)

In [None]:
pd.merge(df1,df2, how = 'outer')

병합되는 두 데이터 프레임의 동일한 컬럼영이 여러개 존재한다면 모두 키가 되기  
때문에 특정한 컬러만 키로 사용하고자 한다면 `on` 인수로 지정해줘야함

In [None]:
df1 = pd.DataFrame(
    {
        '이름' : ['춘향', '몽룡', '춘향'],
        '날짜' : ['20180101', '20180102', '20180102'],
        '데이터' : ['20000', '30000', '100000']
    }
)
df1

In [None]:
df2 = pd.DataFrame (
    {
        '이름' : ['춘향', '몽룡'],
        '데이터' : ['여', '남']
    }
)
df2

In [None]:
pd.merge(df1, df2)

이때 기준 열이 아니면서 이름이 같은 열에는 _x 또는 _y와 같은 접미사가 붙는다.

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1,df2, on='이름')

키가 되는 기준열의 이름이 서로 다르면 `left_on` `right_on` 인수에 사용할 키 컬럼 이름을 지정함

In [48]:
df1 = pd.DataFrame(
    {
        '이름' : ['춘향', '몽룡', '춘향'],
        '날짜' : ['20180101', '20180102', '20180102'],
    }
)
df1

Unnamed: 0,이름,날짜
0,춘향,20180101
1,몽룡,20180102
2,춘향,20180102


In [49]:
df2 = pd.DataFrame (
    {
        '성명' : ['춘향', '몽룡', '길동'],
        '데이터' : ['여', '남', '남']
    }
)
df2

Unnamed: 0,성명,데이터
0,춘향,여
1,몽룡,남
2,길동,남


In [50]:
pd.merge(df1, df2, left_on = '이름', right_on = '성명')

Unnamed: 0,이름,날짜,성명,데이터
0,춘향,20180101,춘향,여
1,몽룡,20180102,몽룡,남
2,춘향,20180102,춘향,여


In [55]:
df1 = pd.DataFrame(
    {
        '도시' : ['서울', '서울', '서울', '부산','부산'],
        '연도' : [2000, 2005, 2010, 2000, 2005],
        '인구' : [980, 970, 960, 360, 350]
    }
)
df1

Unnamed: 0,도시,연도,인구
0,서울,2000,980
1,서울,2005,970
2,서울,2010,960
3,부산,2000,360
4,부산,2005,350


In [56]:
df2 = pd.DataFrame(
    np.arange(12).reshape((6, 2)),
    index = [
        ['부산', '부산', '서울', '서울', '서울', '서울'],
        [2000, 2005, 2000, 2005, 2010, 2015]
    ],
    columns = ['데이터1', '데이터2']
)
df2

Unnamed: 0,Unnamed: 1,데이터1,데이터2
부산,2000,0,1
부산,2005,2,3
서울,2000,4,5
서울,2005,6,7
서울,2010,8,9
서울,2015,10,11


In [57]:
pd.merge(df1, df2, left_on = ['도시', '연도'], right_index= True)

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


#### `Join` 메서드
데이터프레임 인스턴스에 사용할 땐 `merge` 메서드 대신에 `join` 메서드 사용

In [58]:
df1.join(df2, on = ['도시', '연도'])

Unnamed: 0,도시,연도,인구,데이터1,데이터2
0,서울,2000,980,4,5
1,서울,2005,970,6,7
2,서울,2010,960,8,9
3,부산,2000,360,0,1
4,부산,2005,350,2,3


### `concat` 메서드로 데이터 연결  
기준 열 지정 없이 단순히 데이터를 연결하고자 할 땐 `concat()` 메서드를 사용함  
기본적으로 위 아래로 행을 연결하기 때문에 인덱스가 중복 될 수 있음  
만약 좌우로 열을 연결하고 싶을 때는 `axis = 1` 인수를 사용함

In [60]:
s1 = pd.Series([0, 1] , index= ['A', 'B'])

In [59]:
s2 = pd.Series([2,3,4] , index= ['A', 'B', 'C'])

In [61]:
pd.concat([s1, s2])

A    0
B    1
A    2
B    3
C    4
dtype: int64

In [None]:
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),  
    index = ['a', 'b', 'c'],
    columns = ['데이터1', '데이터2']
)