## 데이터프레임 합치기
- 데이터가 나뉘어져 있을 때 하나로 합치거나 연결해야 함

### concat
- 단순히 두 DataFrame을 연결한다.

In [1]:
import pandas as pd

In [5]:
df1 = pd.DataFrame({'가':['가0','가1','가2'],
             '나':['나0','나1','나2'],
             '다':['다0','다1','다2']})
df2 = pd.DataFrame({'나':['나0','나1'],
             '다':['다0','다1'],
             '라':['라0','라1'],
                   '마':['마0','마1']})

In [6]:
df1

Unnamed: 0,가,나,다
0,가0,나0,다0
1,가1,나1,다1
2,가2,나2,다2


In [7]:
df2

Unnamed: 0,나,다,라,마
0,나0,다0,라0,마0
1,나1,다1,라1,마1


In [8]:
pd.concat([df1,df2])

# 위-아래 방향으로 연결됨

Unnamed: 0,가,나,다,라,마
0,가0,나0,다0,,
1,가1,나1,다1,,
2,가2,나2,다2,,
0,,나0,다0,라0,마0
1,,나1,다1,라1,마1


In [9]:
pd.concat([df1,df2],axis=1)

# 좌-우 방향으로 연결

Unnamed: 0,가,나,다,나.1,다.1,라,마
0,가0,나0,다0,나0,다0,라0,마0
1,가1,나1,다1,나1,다1,라1,마1
2,가2,나2,다2,,,,


In [14]:
pd.concat([df1,df2],join='inner') # 교집합 내용만 추출

Unnamed: 0,나,다
0,나0,다0
1,나1,다1
2,나2,다2
0,나0,다0
1,나1,다1


In [15]:
pd.concat([df1,df2],join='inner',ignore_index=True) # 기존 index는 무시하고 새로 작성

Unnamed: 0,나,다
0,나0,다0
1,나1,다1
2,나2,다2
3,나0,다0
4,나1,다1


### DataFrame 병합 - merge
- 어떤 기준에 의해 두 DataFrame을 병합
- 기준이 되는 column이나 index를 key라고 표현
- key는 양쪽 DataFrame에 전부 존재해야 함

In [16]:
pd.merge(df1,df2) 

# on=None 과 how='inner'가 default
# on=None -> 두 DF에 공통으로 속하는 모든 column을 기준으로 병합
# how='inner' -> 기준이 되는 column의 데이터가 양쪽 DF에 공통으로 존재하는 교집합일 경우에만 추출

Unnamed: 0,가,나,다,라,마
0,가0,나0,다0,라0,마0
1,가1,나1,다1,라1,마1


In [17]:
pd.merge(df1,df2,how='outer')

Unnamed: 0,가,나,다,라,마
0,가0,나0,다0,라0,마0
1,가1,나1,다1,라1,마1
2,가2,나2,다2,,


In [23]:
pd.merge(df1,df2,how='left') # left는 df1을 기준으로, right는 df2를 기준으로 배치

Unnamed: 0,가,나,다,라,마
0,가0,나0,다0,라0,마0
1,가1,나1,다1,라1,마1
2,가2,나2,다2,,


In [24]:
pd.merge(df1,df2,how='right')

Unnamed: 0,가,나,다,라,마
0,가0,나0,다0,라0,마0
1,가1,나1,다1,라1,마1


### DataFrame 결합 - join

In [25]:
df1.join(df2)

# ValueError가 발생
# index를 기준으로 결합하려 하는데, column이 중복되면 실행이 안됨

ValueError: columns overlap but no suffix specified: Index(['나', '다'], dtype='object')

In [26]:
df1 = df1.set_index('나')
df1

Unnamed: 0_level_0,가,다
나,Unnamed: 1_level_1,Unnamed: 2_level_1
나0,가0,다0
나1,가1,다1
나2,가2,다2


In [27]:
df2 = df2.set_index('다')
df2

Unnamed: 0_level_0,나,라,마
다,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
다0,나0,라0,마0
다1,나1,라1,마1


In [29]:
df1.join(df2)

# default(how=left) - df1의 index에 해당하는 것을 기준으로 결합됨

Unnamed: 0_level_0,가,다,나,라,마
나,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
나0,가0,다0,,,
나1,가1,다1,,,
나2,가2,다2,,,
