# 4. 데이터 통합하기

## (1) 세로 방향으로 통합하기

- DataFrame에서 columns가 같은 두 데이터를 세로 방향(index 증가 방향)으로 합하려면 다음과 같이 `append()`를 이용

```python
DataFrame_data1.append(DataFrame_data2 [,ignore_index=True])
```

- 두 학급의 시험 점수가 담긴 두 개의 DataFrame 데이터 생성
- `append()` 를 통해 데이터 합침
<img src="https://user-images.githubusercontent.com/52685250/77734832-c6999200-704c-11ea-91c6-e11c9cc8e8c5.png" width="600">

- 데이터가 없는 부분이 있을 경우 `NaN`으로 처리됨
<img src="https://user-images.githubusercontent.com/52685250/77734838-c7cabf00-704c-11ea-90f9-a57cee7fa729.png" width="600">

## (2) 가로 방향으로 통합하기

- `join()`을 이용하여 가로 방향으로 데이터 합치기
```python
DataFrame_data1.join(DataFrame_data2)
```

<img src="https://user-images.githubusercontent.com/52685250/77735070-33149100-704d-11ea-8de9-a96db918f266.png" width="600">

In [None]:
import numpy as np
import pandas as pd

In [None]:
df1 = pd.DataFrame({'Class1': [45, 46, 48, 50],
                    'Class2': [40, 41, 44, 48]})
df1

In [None]:
df2 = pd.DataFrame({'Class1': [41, 42],
                    'Class2': [43, 45]})
df2

In [None]:
df1.append(df2)

In [None]:
df1.append(df2, ignore_index=True)

In [None]:
df3 = pd.DataFrame({'Class1': [48, 38]})
df3

In [None]:
df2.append(df3, ignore_index=True)

In [None]:
df4 = pd.DataFrame({'Class3': [49, 47, 45, 48]})
df4

In [None]:
df1.join(df4)

In [None]:
index_label = ['a', 'b', 'c', 'd']
df1a = pd.DataFrame({'Class1': [48, 46, 49, 50],
                     'Class2': [44, 46, 42, 41]}, index = index_label)
df4a = pd.DataFrame({'Class3': [43, 41, 42, 47]}, index = index_label)

In [None]:
df1a

In [None]:
df4a

In [None]:
df1a.join(df4a)

In [None]:
df5 = pd.DataFrame({'Class4': [42, 47]})
df5

In [None]:
# df1과 df5 결합

In [None]:
df1

In [None]:
df1.join(df5) # 없는 값은 NaN

## (3) 특정열 기준으로 통합하기

- 두 개의 DataFrame 데이터가 특정 열을 기준으로 공통된 값을 찾는 경우 `merge()`를 이용하여 통합

```python
DataFrame_left_data.merge(DataFrame_right_data)
DataFrame_left_data.merge(DataFrame_right_data, how=merge_method, on=key_label)  # 통합하려는 기준이 되는 특정 열을 이용해 통합
```
- `merge()` 함수의 how 선택 인자에 따른 통합 방법
<table>
    <thead>
        <tr>
            <td><center><b>how 선택 인자</b></center></td>
            <td><center><b>설명</b></center></td>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td><center>left</center></td>
            <td><div style="text-align: left;">왼쪽 데이터는 모두 선택하고 지정한 열(key)에 값이 있는 오른쪽 데이터를 선택</div></td>
        </tr>
        <tr>
            <td><center>right</center></td>
            <td><div style="text-align: left;">오른쪽 데이터는 모두 선택하고 지정된 열(key)에 값이 있는 왼쪽 데이터를 선택</div></td>
        </tr>
        <tr>
            <td><center>outer</center></td>
            <td><div style="text-align: left;">지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터를 모두 선택</div></td>
        </tr>
        <tr>
            <td><center>inner</center></td>
            <td><div style="text-align: left;">지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터 중 공통 항목만 선택(기본값)</div></td>
        </tr>
    </tbody>
</table>

In [None]:
df6 = pd.DataFrame({'판매월': ['9월', '10월', '11월', '12월'],
                    '제품A': [120, 167, 214, 209],
                    '제품B': [190, 210, 348, 365]})
df6

In [None]:
df7 = pd.DataFrame({'판매월': ['9월', '10월', '11월', '12월'],
                    '제품C': [135, 160, 251, 214],
                    '제품D': [187, 207, 366, 302]})
df7

In [None]:
df6.merge(df7)

In [None]:
df_left = pd.DataFrame({'key': ['A', 'B', 'C'], 'left': [1, 2, 3]})
df_left

In [None]:
df_right = pd.DataFrame({'key': ['A', 'B', 'D'], 'right': [4, 5, 6]})
df_right

In [None]:
df_left.merge(df_right, how='left', on='key')

In [None]:
df_left.merge(df_right, how='right', on='key')

In [None]:
df_left.merge(df_right, how='outer', on='key')

In [None]:
df_left.merge(df_right, how='inner', on='key')