#### 데이터 프레임의 결합

- 유니언 결합
    - 단순하게 행이나 열을 결합하는 방식
    - pandas에 내장된 concat() 함수를 사용
        - concat( [데이터 프레임, 데이터 프레임, ...] ) # list 형태이기에 인자값으로 여러 데이터 프레임을 받을 수 있음
            - axis
                - 0 | rows == 행을 결합
                - 1 | columns == 열을 결합
            - ignore_index
                - False (Default) == 결합되는 index들을 보존
                - True == 결합되는 index들을 초기화

- join 결합
    - 특정한 조건에 맞게 열을 결합하는 방식
    - 데이터 프레임 + 데이터 프레임 join결합 == 특정 column 의 데이터들이 같은 값들로 이루어져 있을 때만 열을 추가하는 결합
         - pandas에 내장된 merge() 함수 사용
            - merge(데이터프레임, 데이터프레임) # 인자값으로 두 개의 데이터 프레임 필요
                - on
                    - 조건식(두 개의 데이터 프레임이 공통적으로 가지고 있는 column의 이름)
                    - 두 데이터프레임의 column의 이름이 다른 경우
                        - 데이터 프레임의 column의 이름을 변경 후 merge() 사용
                        - left_on, right_on 매개변수를 사용하여 column의 이름 지정
                - how
                    - left == 왼쪽의 데이터프레임을 기준으로 열 결합
                    - right == 오른쪽의 데이터프레임을 기준으로 열 결합
                    - inner == 두 개의 데티어프레임이 공통적으로 가지고 있는 데이터들을 기준으로 결합
                    - outer == 두 개의 데이터프레임의 합집합 (MySQL에서의 full)


In [1]:
import pandas as pd

In [2]:
data = {
    'name' : ['test', 'test2', 'test3'],
    'age' : [20, 30, 40]
}

df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [6]:
data2 = {
    'name' : ['test4', 'test5'],
    'loc' : ['seoul', 'busan']
}

df2 = pd.DataFrame(data2)


In [7]:

df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [9]:
# 단순하게 행을 결합

pd.concat([df, df2], axis= 0)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [11]:
# 원본 데이터 프레임의 index 삭제 후 재지정

pd.concat([df, df2], axis= 0).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [10]:
# 원본 데이터 프레임의 index 초기화

pd.concat([df, df2], axis= 0, ignore_index= True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [12]:
## 단순하게 열을 결합

pd.concat([df, df2], axis= 1)

Unnamed: 0,name,age,name.1,loc
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [13]:
pd.concat([df, df2], axis= 1, ignore_index= True) # 열로 결합했기에 column의 이름들이 초기화

Unnamed: 0,0,1,2,3
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,
