## 데이터 통합

### 세로 방향 통합

```
DataFrame_data1.append(DataFrame_data2 [,ignore_index=True])
```

In [1]:
import pandas as pd
import numpy as np

In [2]:
df1 = pd.DataFrame({'Class1': [95, 92, 98, 100],
                    'Class2': [91, 93, 97, 99]})
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [3]:
df2 = pd.DataFrame({'Class1':[87, 89],
                    'Class2':[85, 90]})
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


In [4]:
df1.append(df2)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,90


그런데 보면 인덱스 번호가 그대로 통합이 되었다  
이것을 해결하려면 아래의 코드를 추가해준다
```
ignore_index=True
```

In [5]:
df1.append(df2,ignore_index=True)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


**😆👍**

만약 두 DataFrame의 columns 수가 같지 않다면 없는 부분은 NaN 으로 채워진다

In [6]:
df3 = pd.DataFrame({'Class1':[96,83]})
df3

Unnamed: 0,Class1
0,96
1,83


In [7]:
df2.append(df3, ignore_index=True)

Unnamed: 0,Class1,Class2
0,87,85.0
1,89,90.0
2,96,
3,83,


### 가로 방향 통합

```
DataFrame_data1.join(DataFrame_data2)
```

In [8]:
df4 = pd.DataFrame({'Class3': [93, 91, 95, 98]})
df4

Unnamed: 0,Class3
0,93
1,91
2,95
3,98


In [9]:
df1.join(df4)

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


index 라벨을 지정한 경우에도 index가 같으면 join() 사용 가능

In [10]:
index_label = ['a','b','c','d']
df1a = pd.DataFrame({'Class1': [95, 92, 98, 100],
                     'Class2': [91, 93, 97, 99]}, index=index_label)
df4a = pd.DataFrame({'Class3': [93, 91, 95, 98]}, index=index_label)

df1a.join(df4a)

Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


index 크기가 다르면 append 와 마찬가지로 NaN 으로 채워진다

In [11]:
df5 = pd.DataFrame({'Class4': [82, 92]})
df5

Unnamed: 0,Class4
0,82
1,92


In [12]:
df1.join(df5)

Unnamed: 0,Class1,Class2,Class4
0,95,91,82.0
1,92,93,92.0
2,98,97,
3,100,99,


### 특정 열을 기준으로 통합

```
DataFrame_left_data.merge(DataFrame_right_data)
```

이를 수행하면 `왼쪽 데이터`와 `오른쪽 데이터`가 공통된 열을 중심으로 통합된다

In [13]:
df_A_B = pd.DataFrame({'판매월':['1월','2월','3월','4월'],
                       '제품A':[100,150,200,130],
                       '제품B':[90,110,140,170]})
df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [14]:
df_C_D = pd.DataFrame({'판매월':['1월','2월','3월','4월'],
                       '제품C ':[112, 141, 203, 134],
                       '제품D' :[90, 110, 140, 170]})
df_C_D

Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [15]:
df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


### 두개의 데이터가 특정 열을 기준으로 일부만 공통된 값을 갖는 경우

In [None]:
```
DataFrame_left_data.merge(DataFrame_right_data, how=merge_method, on=key_label)
```

on 인자에 통합하려는 기준이 되는 특정 열의 라벨 이름을 입력,  
입력하지 않을 시 자동으로 공통적으로 포함된 열이 선택된다  

how 인자에는 지정된 특정 열을 기준으로 통합 방법을 지정한다

left : 왼쪽 데이터는 모두 선택, 지정된 열에 값이 있는 오른쪽 데이터를 선택  

right : 오른쪽 데이터는 모두 선택하고 지정된 열에 값이 있는 왼쪽 데이터를 선택

outer : 지정된 열을 기준으로 왼쪽과 오른쪽 데이터를 모두 선택  

inner : 지정된 열을 기준으로 왼쪽과 오른쪽 데이터 중 공통 항목만 선택

In [16]:
df_left = pd.DataFrame({'key':['A','B','C'], 'left':[1,2,3]})
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [17]:
df_right = pd.DataFrame({'key':['A','B','D'], 'right':[4,5,6]})
df_right

Unnamed: 0,key,right
0,A,4
1,B,5
2,D,6


In [18]:
df_left.merge(df_right, how='left', on='key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [20]:
df_left.merge(df_right, how='right',on='key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [21]:
df_left.merge(df_right,how='outer',on='key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [22]:
df_left.merge(df_right, how='inner', on='key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5
