# Pandas 데이터 합성

Pandas는 두 개 이상의 데이터프레임을 하나로 합치는 데이터 합성을 지원한다.

## merge
merge 명령은 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 데이터베이스 테이블 조인(join)과 같이 두 개의 테이블을 합친다. 기준이 되는 데이터를 키(key)라고 한다.

In [2]:
import numpy as np
import pandas as pd

In [4]:
df1 = pd.DataFrame({
    '고객번호': [1001, 1002, 1003, 1004, 1005, 1006, 1007],
    '이름': ['둘리', '도우너', '또치', '길동', '희동', '마이콜', '영희']
    }, columns=['고객번호', '이름']
)
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [5]:
df2 = pd.DataFrame({
    '고객번호': [1001, 1001, 1005, 1006, 1008, 1001],
    '금액': [10000, 20000, 15000, 5000, 100000, 30000]
    }, columns=['고객번호', '금액']
)
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


merge 명령으로 두 데이터프레임 df1, df2 를 합치면 공통 열인 고객번호 열을 기준으로 데이터를 찾아서 합친다. 이 때 기본적으로는 양쪽 데이터프레임에 모두 키가 존재하는 데이터만 보여주는 inner join 방식을 사용한다.

In [6]:
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


outer join 방식은 키 값이 한쪽에만 있어도 양쪽 데이터를 모두 보여준다.

In [7]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


left, right 방식은 첫번째, 혹은 두번째 데이터프레임을 모두 보여준다.

In [8]:
pd.merge(df1, df2, how='left')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [10]:
pd.merge(df1, df2, how='right')

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 경우의 수를 따져서 조합을 만들어 낸다.



In [11]:
df1 = pd.DataFrame({'key': ['setosa', 'setosa', 'virginica', 'versicolor'], 
                    'petal length': [1.4, 1.3, 1.5, 1.3]})
df1

Unnamed: 0,key,petal length
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,versicolor,1.3


In [12]:
df2 = pd.DataFrame({'key': ['setosa', 'virginica', 'virginica', 'versicolor'], 
                    'petal width': [0.4, 0.3, 0.5, 0.3]})
df2

Unnamed: 0,key,petal width
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [13]:
pd.merge(df1, df2)

Unnamed: 0,key,petal length,petal width
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,versicolor,1.3,0.3


In [14]:
df1 = pd.DataFrame({'성별': ['남자', '남자', '여자'], 
                    '연령': ['미성년자', '성인', '미성년자'], 
                    '매출1': [1, 2, 3]})
df1

Unnamed: 0,매출1,성별,연령
0,1,남자,미성년자
1,2,남자,성인
2,3,여자,미성년자


In [17]:
df2 = pd.DataFrame({'성별': ['남자', '남자', '여자', '여자'],
                    '연령': ['미성년자', '미성년자', '미성년자', '성인'],
                    '매출2': [4, 5, 6,7]})
df2

Unnamed: 0,매출2,성별,연령
0,4,남자,미성년자
1,5,남자,미성년자
2,6,여자,미성년자
3,7,여자,성인


In [18]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [19]:
pd.merge(df1, df2)

Unnamed: 0,매출1,성별,연령,매출2
0,1,남자,미성년자,4
1,1,남자,미성년자,5
2,3,여자,미성년자,6


In [20]:
pd.merge(df1, df2, on=['성별', '연령'], how='outer')

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [21]:
pd.merge(df1, df2, on='성별')

Unnamed: 0,매출1,성별,연령_x,매출2,연령_y
0,1,남자,미성년자,4,미성년자
1,1,남자,미성년자,5,미성년자
2,2,남자,성인,4,미성년자
3,2,남자,성인,5,미성년자
4,3,여자,미성년자,6,미성년자
5,3,여자,미성년자,7,성인


In [22]:
df1 = pd.DataFrame({'key1': ['foo', 'foo', 'bar'], 
                    'key2': ['one', 'two', 'one'], 
                    'lval': [1, 2, 3]})
df1

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [23]:
df2 = pd.DataFrame({'k1': ['foo', 'foo', 'bar', 'bar'],
                    'k2': ['one', 'one', 'one', 'two'],
                    'rval': [4, 5, 6, 7]})
df2

Unnamed: 0,k1,k2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [24]:
pd.merge(df1, df2, left_on='key1', right_on="k1")

Unnamed: 0,key1,key2,lval,k1,k2,rval
0,foo,one,1,foo,one,4
1,foo,one,1,foo,one,5
2,foo,two,2,foo,one,4
3,foo,two,2,foo,one,5
4,bar,one,3,bar,one,6
5,bar,one,3,bar,two,7
