In [None]:
"""
Pandas 데이터 합성

Pandas는 두 개 이상의 데이터프레임을 하나로 합치는 데이터 합성을 지원한다.

Merge

merge 명령은 두 데이터 프레임의 공통 열 혹은 인덱스를 기준으로 
데이터베이스 테이블 조인(join)과 같이 두 개의 테이블을 합친다. 
기준이 되는 데이터를 키(key)라고 한다.
"""

In [1]:
import pandas as pd
import numpy as np

In [2]:
# merge 1
data = {
    "고객번호": [i for i in range(1001, 1008)],
    "이름": ["둘리", "도우너", "또치", "길동", "희동", "마이콜", "영희"]
}
df1 = pd.DataFrame(data, columns=["고객번호", "이름"])
df1

Unnamed: 0,고객번호,이름
0,1001,둘리
1,1002,도우너
2,1003,또치
3,1004,길동
4,1005,희동
5,1006,마이콜
6,1007,영희


In [4]:
data2 = {
    "고객번호": [1001, 1001, 1005, 1006, 1008, 1001],
    "금액": [10000, 20000, 15000, 5000, 100000, 30000]
}
df2 = pd.DataFrame(data2, columns=["고객번호", "금액"])
df2

Unnamed: 0,고객번호,금액
0,1001,10000
1,1001,20000
2,1005,15000
3,1006,5000
4,1008,100000
5,1001,30000


In [None]:
"""
merge()

두 데이터프레임 df1, df2 를 합치면 
공통 열인 고객번호 열을 기준으로 데이터를 찾아서 합친다. 
이 때 기본적으로는 양쪽 데이터프레임에 
모두 키가 존재하는 데이터만 보여주는 inner join 방식을 사용한다.
"""

In [6]:
# inner join
pd.merge(df1, df2)

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000


In [7]:
# outer join
pd.merge(df1, df2, how="outer")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,
9,1008,,100000.0


In [8]:
# right join
pd.merge(df1, df2, how="right")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000
1,1001,둘리,20000
2,1001,둘리,30000
3,1005,희동,15000
4,1006,마이콜,5000
5,1008,,100000


In [9]:
# left join
pd.merge(df1, df2, how="left")

Unnamed: 0,고객번호,이름,금액
0,1001,둘리,10000.0
1,1001,둘리,20000.0
2,1001,둘리,30000.0
3,1002,도우너,
4,1003,또치,
5,1004,길동,
6,1005,희동,15000.0
7,1006,마이콜,5000.0
8,1007,영희,


In [None]:
# merge 2
# 만약 테이블에 키 값이 같은 데이터가 여러개 있는 경우에는 
# 경우의 수를 따져서 조합을 만들어 낸다.

In [10]:
df1 = pd.DataFrame(
    {
        'key': ['setosa', 'setosa', 'virginica', 'versicolor'], 
        'petal length': [1.4, 1.3, 1.5, 1.3]
    }
)
df1

Unnamed: 0,key,petal length
0,setosa,1.4
1,setosa,1.3
2,virginica,1.5
3,versicolor,1.3


In [11]:
df2 = pd.DataFrame(
    {
        'key': ['setosa', 'virginica', 'virginica', 'versicolor'], 
        'petal width': [0.4, 0.3, 0.5, 0.3]
    }
)
df2

Unnamed: 0,key,petal width
0,setosa,0.4
1,virginica,0.3
2,virginica,0.5
3,versicolor,0.3


In [15]:
pd.merge(df1, df2)

Unnamed: 0,key,petal length,petal width
0,setosa,1.4,0.4
1,setosa,1.3,0.4
2,virginica,1.5,0.3
3,virginica,1.5,0.5
4,versicolor,1.3,0.3


In [20]:
# merge 3
df1 = pd.DataFrame(
    {
        "성별": ["남자", "남자", "여자"],
        "연령": ["미성년자", "성인", "미성년자"],
        "매출1": [1, 2, 3]
    }
)
df1

Unnamed: 0,매출1,성별,연령
0,1,남자,미성년자
1,2,남자,성인
2,3,여자,미성년자


In [17]:
df2 = pd.DataFrame(
    {
        "성별": ["남자", "남자", "여자", "여자"],
        "연령": ["미성년자", "미성년자", "미성년자", "성인"],
        "매출2": [4, 5, 6, 7]
    }
)
df2

Unnamed: 0,매출2,성별,연령
0,4,남자,미성년자
1,5,남자,미성년자
2,6,여자,미성년자
3,7,여자,성인


In [21]:
# 이름이 같은 열이 여러개 있는 경우 모두 기준 열로 사용한다.
# inner join
pd.merge(df1, df2)

Unnamed: 0,매출1,성별,연령,매출2
0,1,남자,미성년자,4
1,1,남자,미성년자,5
2,3,여자,미성년자,6


In [22]:
# outer join
pd.merge(df1, df2, how="outer")

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [23]:
# 기준 열은 on 인수로 명시적 설정 가능
pd.merge(df1, df2, on=["성별", "연령"], how="outer")

Unnamed: 0,매출1,성별,연령,매출2
0,1.0,남자,미성년자,4.0
1,1.0,남자,미성년자,5.0
2,2.0,남자,성인,
3,3.0,여자,미성년자,6.0
4,,여자,성인,7.0


In [24]:
# 동일한 열 이름인데도 기준열로 설정하지 않을 경우 _x 또는 _y가 붙는다.
pd.merge(df1, df2, on="성별")

Unnamed: 0,매출1,성별,연령_x,매출2,연령_y
0,1,남자,미성년자,4,미성년자
1,1,남자,미성년자,5,미성년자
2,2,남자,성인,4,미성년자
3,2,남자,성인,5,미성년자
4,3,여자,미성년자,6,미성년자
5,3,여자,미성년자,7,성인


In [None]:
# merge 4
# (data는 동일하나 컬럼명이 다를 경우)
# 기준 열을 각각의 데이터프레임에 대해 다르게 정하려면 
# left_on, right_on 인수를 사용한다.

In [25]:
df1 = pd.DataFrame(
    {
        "key1": ["foo", "foo", "bar"],
        "key2": ["one", "two", "one"],
        "lval": [1, 2, 3]
    }
)
df1

Unnamed: 0,key1,key2,lval
0,foo,one,1
1,foo,two,2
2,bar,one,3


In [26]:
df2 = pd.DataFrame(
    {
        'k1': ['foo', 'foo', 'bar', 'bar'],
        'k2': ['one', 'one', 'one', 'two'],
        'rval': [4, 5, 6, 7]
    }
)
df2

Unnamed: 0,k1,k2,rval
0,foo,one,4
1,foo,one,5
2,bar,one,6
3,bar,two,7


In [34]:
# pd.merge(df1, df2, how="outer")
# error : No common columns to perform merge on 

pd.merge(df1, df2, left_on="key1", right_on="k1")

Unnamed: 0,key1,key2,lval,k1,k2,rval
0,foo,one,1,foo,one,4
1,foo,one,1,foo,one,5
2,foo,two,2,foo,one,4
3,foo,two,2,foo,one,5
4,bar,one,3,bar,one,6
5,bar,one,3,bar,two,7


In [None]:
# merge 5
# 일반 데이터 열이 아닌 인덱스를 기준열로 사용하려면 
# left_index 또는 right_index 인수를 True 로 설정한다.

In [35]:
df1 = pd.DataFrame(
    {
        'key': ['a', 'b', 'a', 'a', 'b', 'c'], 
        'value': range(6)
    }
)
df1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [36]:
df2 = pd.DataFrame(
    {'group_val': [3.5, 7]}, 
    index=['a', 'b']
)
df2

Unnamed: 0,group_val
a,3.5
b,7.0


In [44]:
pd.merge(df1, df2, left_on="key", right_index=True, how="outer")

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0
5,c,5,


In [65]:
# merge 6
df1 = pd.DataFrame(
    {
        'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'key2': [2000, 2001, 2002, 2001, 2002],
        'data': np.arange(5.)
    }
)
df1

Unnamed: 0,data,key1,key2
0,0.0,Ohio,2000
1,1.0,Ohio,2001
2,2.0,Ohio,2002
3,3.0,Nevada,2001
4,4.0,Nevada,2002


In [66]:
df2 = pd.DataFrame(np.arange(0, 12).reshape(6, 2), 
        columns=["event1", "event2"],
        index=[["Nevada", "Nevada", "Ohio", "Ohio", "Ohio", "Ohio"],
               [2001, 2000, 2000, 2000, 2001, 2002]]
)
df2

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11


In [51]:
pd.merge(df1, df2, left_on=["key1", "key2"], right_index=True)

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4,5
0,0.0,Ohio,2000,6,7
1,1.0,Ohio,2001,8,9
2,2.0,Ohio,2002,10,11
3,3.0,Nevada,2001,0,1


In [69]:
df1.join(df2, on=["key1", "key2"], how="inner")

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4,5
0,0.0,Ohio,2000,6,7
1,1.0,Ohio,2001,8,9
2,2.0,Ohio,2002,10,11
3,3.0,Nevada,2001,0,1


In [61]:
# merge 7
# 동일한 컬럼명이 없고 index만 같을 경우 index로만 merge
df1 = pd.DataFrame(
    [[1, 2],[3 , 4], [5, 6]],
    index=["a", "c", "e"],
    columns=["Ohio", "Nevada"]
)
df1

Unnamed: 0,Ohio,Nevada
a,1,2
c,3,4
e,5,6


In [56]:
df2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]], 
                   index=['b', 'c', 'd', 'e'], 
                   columns=['Missouri', 'Alabama'])
df2

Unnamed: 0,Missouri,Alabama
b,7.0,8.0
c,9.0,10.0
d,11.0,12.0
e,13.0,14.0


In [62]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [63]:
# join() : merge() 대신 사용 가능
df1.join(df2, how="outer")

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


In [None]:
"""
연습 문제 1

두 개의 데이터프레임을 만들고 merge 명령으로 합친다. 
단 데이터프레임은 다음 조건을 만족해야 한다.

각각 5 x 5 이상의 크기를 가진다.
공통 열을 하나 이상 가진다. 다만 공통 열의 이름은 서로 다르다.
"""

In [91]:
df1 = pd.DataFrame(np.arange(1, 26).reshape(5, 5),
                   columns=["a", "b", "c", "d", "e" ])
df1

Unnamed: 0,a,b,c,d,e
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15
3,16,17,18,19,20
4,21,22,23,24,25


In [92]:
df2 = pd.DataFrame(np.arange(1, 26).reshape(5, 5),
                   columns=["z", "k","g", "f", "w" ])
df2

Unnamed: 0,z,k,g,f,w
0,1,2,3,4,5
1,6,7,8,9,10
2,11,12,13,14,15
3,16,17,18,19,20
4,21,22,23,24,25


In [96]:
pd.merge(df1, df2, left_on=["a", "e"], right_on=["z", "w"])

Unnamed: 0,a,b,c,d,e,z,k,g,f,w
0,1,2,3,4,5,1,2,3,4,5
1,6,7,8,9,10,6,7,8,9,10
2,11,12,13,14,15,11,12,13,14,15
3,16,17,18,19,20,16,17,18,19,20
4,21,22,23,24,25,21,22,23,24,25


In [None]:
"""
concat

concat 명령을 사용하면 기준 열(key column)을 사용하지 않고 
단순히 데이터를 추가한다.
기본적으로는 아래에 데이터 행을 덧붙이지만 (인덱스가 중복됨) axis=1로 인수를 
설정하면 인덱스 기준으로 옆으로 데이터 열를 덧붙인다.
"""

In [97]:
s1 = pd.Series([0, 1], index=['a', 'b'])
s2 = pd.Series([2, 3, 4], index=['c', 'd', 'e'])
s3 = pd.Series([5, 6], index=['f', 'g'])

In [102]:
s1, s2, s3

(a    0
 b    1
 dtype: int64, c    2
 d    3
 e    4
 dtype: int64, f    5
 g    6
 dtype: int64)

In [103]:
# 세로로 붙여진다
pd.concat([s1, s2])

a    0
b    1
c    2
d    3
e    4
dtype: int64

In [107]:
pd.concat([s1, s2, s3])

a    0
b    1
c    2
d    3
e    4
f    5
g    6
dtype: int64

In [112]:
# axis=1로 할 경우 index는 밑으로 data는 옆으로 붙어진다.
pd.concat([s1, s2], axis=1)

Unnamed: 0,0,1
a,0.0,
b,1.0,
c,,2.0
d,,3.0
e,,4.0


In [120]:
pd.concat([s1, s2, s3], axis=1)

Unnamed: 0,0,1,2
a,0.0,,
b,1.0,,
c,,2.0,
d,,3.0,
e,,4.0,
f,,,5.0
g,,,6.0


In [121]:
# DataFrame concat
df1 = pd.DataFrame(
    np.arange(6).reshape(3, 2),
    index=["a", "b", "c"], columns=["one", "two"]
)
df1

Unnamed: 0,one,two
a,0,1
b,2,3
c,4,5


In [122]:
df2 = pd.DataFrame(5 + np.arange(4).reshape(2, 2), 
                   index=['a', 'c'], columns=['three', 'four'])
df2

Unnamed: 0,three,four
a,5,6
c,7,8


In [127]:
pd.concat([df1, df2], axis=0)

Unnamed: 0,four,one,three,two
a,,0.0,,1.0
b,,2.0,,3.0
c,,4.0,,5.0
a,6.0,,5.0,
c,8.0,,7.0,


In [129]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [131]:
pd.merge(df1, df2, left_index=True, right_index=True, how="outer")

Unnamed: 0,one,two,three,four
a,0,1,5.0,6.0
b,2,3,,
c,4,5,7.0,8.0


In [None]:
"""
연습 문제 2

어느 회사의 전반기(1월 ~ 6월) 실적을 나타내는 데이터프레임과 
후반기(7월 ~ 12월) 실적을 나타내는 데이터프레임을 만든 뒤 합친다. 
실적 정보는 "매출", "비용", "이익" 으로 이루어진다. (이익 = 매출 - 비용).

또한 1년간의 총 실적을 마지막 행으로 덧붙인다.
"""

In [135]:
df1 = pd.DataFrame(
    {
        "sale": [10, 20, 30, 40, 50, 60],
        "cost": [2, 4, 6, 8, 10, 12],
        "profit": [8, 16, 24, 32, 40, 48]
    },
    index=[1, 2, 3, 4, 5, 6]
)
df1

Unnamed: 0,cost,profit,sale
1,2,8,10
2,4,16,20
3,6,24,30
4,8,32,40
5,10,40,50
6,12,48,60


In [136]:
df2 = pd.DataFrame(
    {
        "sale": [100, 200, 300, 400, 500, 600],
        "cost": [20, 40, 60, 80, 100, 120],
        "profit": [80, 160, 240, 320, 400, 480]
    },
    index=[7, 8, 9, 10, 11, 12]
)
df2

Unnamed: 0,cost,profit,sale
7,20,80,100
8,40,160,200
9,60,240,300
10,80,320,400
11,100,400,500
12,120,480,600


In [138]:
pd.concat([df1, df2])

Unnamed: 0,cost,profit,sale
1,2,8,10
2,4,16,20
3,6,24,30
4,8,32,40
5,10,40,50
6,12,48,60
7,20,80,100
8,40,160,200
9,60,240,300
10,80,320,400


In [139]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,cost,profit,sale,cost.1,profit.1,sale.1
1,2.0,8.0,10.0,,,
2,4.0,16.0,20.0,,,
3,6.0,24.0,30.0,,,
4,8.0,32.0,40.0,,,
5,10.0,40.0,50.0,,,
6,12.0,48.0,60.0,,,
7,,,,20.0,80.0,100.0
8,,,,40.0,160.0,200.0
9,,,,60.0,240.0,300.0
10,,,,80.0,320.0,400.0


In [149]:
pd.merge(df1, df2, how="outer")

Unnamed: 0,cost,profit,sale
0,2,8,10
1,4,16,20
2,6,24,30
3,8,32,40
4,10,40,50
5,12,48,60
6,20,80,100
7,40,160,200
8,60,240,300
9,80,320,400


In [164]:
total = pd.concat([df1, df2])
total.loc["result"] = total.sum()
total

Unnamed: 0,cost,profit,sale
1,2,8,10
2,4,16,20
3,6,24,30
4,8,32,40
5,10,40,50
6,12,48,60
7,20,80,100
8,40,160,200
9,60,240,300
10,80,320,400
