# UNIT 34 데이터 합치기

### 데이터 통합하기
- 세로로 증가하는 방향으로 통합하기
- 가로로 증가하는 방향으로 통합하기
- 특정 열을 기준으로 통합하는 방법

### 세로 방향으로 통합
- DataFrame에서 columns가 같은 두 데이터를 세로방향, 즉 index가 증가하는 방향으로 통합
- append()함수 사용
- DataFrame_data1.append(DataFrame_data2, ignore_index = True)
- 세로 방향으로 DataFrame_data1 다음에 DataFrame_data2가 추가되어서 DataFrame 데이터로 반환
- 매개변수 ignore_index = True를 입력하지 않으면 생성된 DataFrame 데이터에는 기존의 데이터의 index가 그대로 유지
- 매개변수 ignore_index = True를 입력하면 생성된 DataFrame 데이터에는 데이터 순서대로 새로운 index가 할당

In [2]:
import pandas as pd
import numpy as np

df1 = pd.DataFrame({'Class1': [95, 92, 98, 100],
                   'Class2' : [91, 93, 97, 99]})

df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [3]:
import pandas as pd
import numpy as np

df2 = pd.DataFrame({'Class1':[87, 89],
                   'Class2':[85, 90]})

df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


In [6]:
# 매개변수 ignore_index = True를 입력하지 않았기 때문에 
# 기존의 데이터 index가 그대로 유지

df1.append(df2)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
0,87,85
1,89,90


In [7]:
# 매개변수 ignore_index = True를 입력하여 데이터 순서대로 새로운 index가 할당

df1.append(df2, ignore_index=True)

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99
4,87,85
5,89,90


In [10]:
# Columns가 같지 않을 경우 데이터가 없는 부분은 NaN으로 채워짐

df3 = pd.DataFrame({'Class1':[96, 83]})
df3

Unnamed: 0,Class1
0,96
1,83


In [11]:
df2

Unnamed: 0,Class1,Class2
0,87,85
1,89,90


In [12]:
df2.append(df3, ignore_index=True)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort,


Unnamed: 0,Class1,Class2
0,87,85.0
1,89,90.0
2,96,
3,83,


### 가로 방향으로 통합
- Index가 같은 두 DataFrame 데이터에 대하여 가로 방향, 즉 columns가 증가하는 방향에 새로운 데이터를 추가하는 방법
- 두 개의 DataFrame 데이터를 가로방향으로 합치려면 join()함수 이용
- DataFrame_data1.join(DataFrame_data2)

In [13]:
df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [14]:
df4 = pd.DataFrame({'Class3':[93, 91,95, 98]})
df4

Unnamed: 0,Class3
0,93
1,91
2,95
3,98


In [15]:
df1.join(df4)

Unnamed: 0,Class1,Class2,Class3
0,95,91,93
1,92,93,91
2,98,97,95
3,100,99,98


In [17]:
# Index라벨을 지정한 DataFrame의 데이터 경우에도 index가 같으면
# join()을 이용해 가로방향으로 데이터 추가 가능

index_label = ['a', 'b', 'c', 'd']
df1a = pd.DataFrame({'Class1':[95, 92, 98, 100],
                    'Class2':[91, 93, 97, 99]}, index = index_label)
print(df1a)
df4a = pd.DataFrame({'Class3':[93, 91, 95, 98]}, index = index_label)
print(df4a)
df1a.join(df4a)

   Class1  Class2
a      95      91
b      92      93
c      98      97
d     100      99
   Class3
a      93
b      91
c      95
d      98


Unnamed: 0,Class1,Class2,Class3
a,95,91,93
b,92,93,91
c,98,97,95
d,100,99,98


In [18]:
# index의 크기가 같지 않을 경우 데이터가 없는 부분은 NaN으로 채워짐

df1

Unnamed: 0,Class1,Class2
0,95,91
1,92,93
2,98,97
3,100,99


In [20]:
df5 = pd.DataFrame({'Class4':[82, 92]})
df5

Unnamed: 0,Class4
0,82
1,92


In [21]:
df1.join(df5)

Unnamed: 0,Class1,Class2,Class4
0,95,91,82.0
1,92,93,92.0
2,98,97,
3,100,99,


### 특정 열 기준 통합
- 두 개의 DataFrame 데이터에 공통된 열(특정 열인 key를 기준)을 기준으로 두 데이터를 통합
- DataFrame_left_data.merge(DataFrame_right_data)
- 왼쪽 데이터(DataFrame_left_data)와 오른쪽 데이터(DataFrame_right_data)가 공통된 열(Key)을 중심으로 좌우로 통합

In [24]:
df_A_B = pd.DataFrame({'판매월' : ['1월', '2월', '3월', '4월'],
                      '제품A': [100, 150, 200, 130],
                      '제품B': [90, 110, 140, 170]})
df_A_B

Unnamed: 0,판매월,제품A,제품B
0,1월,100,90
1,2월,150,110
2,3월,200,140
3,4월,130,170


In [25]:
df_C_D = pd.DataFrame({'판매월' : ['1월', '2월', '3월', '4월'],
                      '제품C' : [112, 141, 203, 134],
                      '제품D': [90, 110, 140, 170]})
df_C_D


Unnamed: 0,판매월,제품C,제품D
0,1월,112,90
1,2월,141,110
2,3월,203,140
3,4월,134,170


In [26]:
# 판매월을 기준으로 df_A_B와 df_C_D가 통합

df_A_B.merge(df_C_D)

Unnamed: 0,판매월,제품A,제품B,제품C,제품D
0,1월,100,90,112,90
1,2월,150,110,141,110
2,3월,200,140,203,140
3,4월,130,170,134,170


### 특정 열 기준 통합(2)
- 두 개의 DataFrame 데이터가 특정 열을 기준으로 일부만 공통된 값을 갖는 경우에 통합하려면 merge()에 선택 인자 지정
- DataFrame_left_data.merge(DataFrame_right_data, how = merge_method, on=key_label)
- on인자에는 통합하려는 기준이 되는 특정 열(key)의 라벨 이름(key_label)을 입력
- on인자를 입력하지 않으면 자동으로 두 데이터에서 공통적으로 포함된 열이 선택됨
- how 인자에는 지정된 특정 열(key)을 기준으로 통합 방법(merge_method)을 지정
- 해당 항목에 데이터가 없는 경우 NaN으로 자동 입력

- left : 왼쪽 데이터는 모두 선택, 지정된 열(key)에 값이 있는 오른 쪽 데이터를 선택
- right : 오른쪽 데이터는 모두 선택, 지정된 열(key)에 값이 있는 왼족 데이터
- outer : 지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터를 모두 선택
- inner : 지정된 열(key)을 기준으로 왼쪽과 오른쪽 데이터 중 공통 항목만 선택(기본값)

In [31]:
df_left = pd.DataFrame({'key':['A', 'B', 'C'],
                              'left': [1,2,3]})
df_left

Unnamed: 0,key,left
0,A,1
1,B,2
2,C,3


In [40]:
df_right = pd.DataFrame({'key': ['A', 'B', 'D'],
                         'right':[4, 5, 6]})
df_right

Unnamed: 0,key,right
0,A,4
1,B,5
2,D,6


In [42]:
df_left.merge(df_right, how = 'left',on = 'key')

Unnamed: 0,key,left,right
0,A,1,4.0
1,B,2,5.0
2,C,3,


In [43]:
df_left.merge(df_right, how = 'right',on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4
1,B,2.0,5
2,D,,6


In [44]:
df_left.merge(df_right, how = 'outer', on = 'key')

Unnamed: 0,key,left,right
0,A,1.0,4.0
1,B,2.0,5.0
2,C,3.0,
3,D,,6.0


In [45]:
df_left.merge(df_right, how ='inner', on = 'key')

Unnamed: 0,key,left,right
0,A,1,4
1,B,2,5
