# 1.5 데이터 결합
- R과 다른점 : 결합하려는 데이터프레임의 행과 열의 개수가 맞지 않아도 NaN으로 값이 채워짐

### 1.5.1 행결합
#### 1.5.1.1. 데이터프레임 붙이기 : pd.concat()

In [1]:
import pandas as pd

customer1 = pd.DataFrame({'id':['c01', 'c02', 'c03', 'c04'],
                          'last_name':['Lee', 'Kim', 'Choi', 'Park']},
                          index = [0, 1, 2, 3])

customer2 = pd.DataFrame({'Id':['c05', 'c06', 'c07'],
                          'Last_name':['Lim', 'Bae', 'Kim'],
                          'age':[23, 34, 45]},
                          index = [0, 1, 2])

In [2]:
customer1

Unnamed: 0,id,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park


In [3]:
customer2

Unnamed: 0,Id,Last_name,age
0,c05,Lim,23
1,c06,Bae,34
2,c07,Kim,45


In [4]:
pd.concat([customer1, customer2]) # 컬럼이 다르기 때문에 이렇게 된다

Unnamed: 0,id,last_name,Id,Last_name,age
0,c01,Lee,,,
1,c02,Kim,,,
2,c03,Choi,,,
3,c04,Park,,,
0,,,c05,Lim,23.0
1,,,c06,Bae,34.0
2,,,c07,Kim,45.0


In [5]:
customer2.columns = ['id', 'last_name', 'age']

In [6]:
customer2

Unnamed: 0,id,last_name,age
0,c05,Lim,23
1,c06,Bae,34
2,c07,Kim,45


In [7]:
pd.concat([customer1, customer2])

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
0,c05,Lim,23.0
1,c06,Bae,34.0
2,c07,Kim,45.0


In [8]:
customers = pd.concat([customer1, customer2]).reset_index(drop=True)

In [9]:
customers

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
4,c05,Lim,23.0
5,c06,Bae,34.0
6,c07,Kim,45.0


행 인덱스와 열 인덱스가 다른 데이터프레임 합치기
- pd.concat([df1, df2, ...], axis=0)
- default 값으로 axis=0이 적용되어 행방향으로 데이터프레임을 붙임
- customer1 에는 age열이 없으므로 NaN 값이 채워짐
- ignore_index = True를 붙이면 인덱스 재배열 가능

# 1.5.2 열결합
### 1.5.2.1 데이터프레임 붙이기 : pd.concat()
행 인덱스와 열 인덱스가 다른 데이터프레임 합치기
- pd.concat([df1, df2, ...], axis=1)
- axis=1은 열방향으로 데이터프레임을 붙임
- customer2에는 index3행이 없으므로 NaN값이 채워짐

In [10]:
result2 = pd.concat([customer2, customer1], axis=1)
result2

Unnamed: 0,id,last_name,age,id.1,last_name.1
0,c05,Lim,23.0,c01,Lee
1,c06,Bae,34.0,c02,Kim
2,c07,Kim,45.0,c03,Choi
3,,,,c04,Park


### 1.5.2.2 시리즈를 데이터프레임에 붙이기 : pd.concat()
시리즈 객체를 생성할 때 name은, 이 시리즈가 데이터프레임이 결합되었을 때의 열이름을 나타냄

In [11]:
grade = pd.Series(['A', 'B', 'C', 'A', 'D', 'C', 'B'], name='grade')
grade2 = pd.Series(['A', 'B', 'C', 'A', 'D', 'C'], name='grade')

In [12]:
result3 = pd.concat([grade, grade2], axis=1)
result3

Unnamed: 0,grade,grade.1
0,A,A
1,B,B
2,C,C
3,A,A
4,D,D
5,C,C
6,B,


In [13]:
grade

0    A
1    B
2    C
3    A
4    D
5    C
6    B
Name: grade, dtype: object

### 1.5.2.3 시리즈끼리 붙이기

In [16]:
sr1 = pd.Series(['e0', 'e1', 'e2', 'e3'], name = 'e')
sr2 = pd.Series(['g0', 'g1', 'g2', 'g3'], name = 'g')

# 열방향으로 시리즈를 연결하면 데이터프레임이 됨
result4 = pd.concat([sr1, sr2], axis=1)
print(result4)
print(type(result4), '\n')

# 행방향으로 시리즈를 연결하면 시리즈 타입 유지
result5 = pd.concat([sr1, sr2], ignore_index=True)
print(result5)
print(type(result5))

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3
<class 'pandas.core.frame.DataFrame'> 

0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object
<class 'pandas.core.series.Series'>


# 1.5.3 merge
두 데이터프레임에 존재하는 고유값(Key)를 기준으로 병합
- pd.merge(df_left, df_right, how='inner', on=None)이 default
- how에 들어갈 수 있는 매개변수 : 'inner', 'outer', 'left', 'right'

In [17]:
id_name = pd.DataFrame({'ID' : ['c01', 'c02', 'c03', 'c04', 'c05', 'c06', 'c07'],
                        'last_name' : ['Lee', 'Kim', 'Choi', 'Park', 'Lim', "Bae", 'Kim']})

id_number = pd.DataFrame({'id':['c03', 'c04', 'c05', 'c06', 'c07', 'c08', 'c09'],
                          'number' : [3, 1, 0, 7, 3, 4, 1]})

In [18]:
id_name

Unnamed: 0,ID,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park
4,c05,Lim
5,c06,Bae
6,c07,Kim


In [19]:
id_number.columns = ['ID', 'number'] # Key 값을 맞추어주어야 한다(ID)

In [20]:
id_number

Unnamed: 0,ID,number
0,c03,3
1,c04,1
2,c05,0
3,c06,7
4,c07,3
5,c08,4
6,c09,1


In [21]:
pd.concat([id_name, id_number], axis=1)

Unnamed: 0,ID,last_name,ID.1,number
0,c01,Lee,c03,3
1,c02,Kim,c04,1
2,c03,Choi,c05,0
3,c04,Park,c06,7
4,c05,Lim,c07,3
5,c06,Bae,c08,4
6,c07,Kim,c09,1


In [22]:
pd.merge(id_name, id_number, how='inner', on='ID')

Unnamed: 0,ID,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3


In [23]:
pd.merge(id_name, id_number, how='left', on='ID')

Unnamed: 0,ID,last_name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0


In [24]:
pd.merge(id_name, id_number, how='outer', on='ID')

Unnamed: 0,ID,last_name,number
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,3.0
3,c04,Park,1.0
4,c05,Lim,0.0
5,c06,Bae,7.0
6,c07,Kim,3.0
7,c08,,4.0
8,c09,,1.0


In [25]:
pd.merge(id_name, id_number, how='right', on='ID')

Unnamed: 0,ID,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3
5,c08,,4
6,c09,,1


### inner join
- 컬럼을 기준으로 두 테이블이 모두 공통된 값을 가지고 있는 경우에만 두 데이터를 병합

### outer join
- 공동된 값이 없는 경우에도 데이터가 출력되도록 id 칼럼을 기준으로 두 데이터의 모든 행을 병합