# 데이터 결합
R과 다른점 : 결합하려는 데이터프레임의 행과 열의 개수가 맞지 않아도 NaN값이 채워짐
## 행결합
### 데이터프레임 붙이기 : pd.concat()

In [40]:
import pandas as pd

customer1 = pd.DataFrame({'id':['c01', 'c02', 'c03', 'c04'],
                        'last_name':["Lee","Kim","Choi","Park"]},
                        index = [0,1, 2,3])

customer2 = pd.DataFrame({'Id':['c05','c06','c07'],
                         'Last_name':['Lim', 'Bae', 'Kim'],
                         'age':[23, 34, 45]},
                        index = [0, 1, 2])

In [41]:
customer1

Unnamed: 0,id,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park


In [42]:
customer2

Unnamed: 0,Id,Last_name,age
0,c05,Lim,23
1,c06,Bae,34
2,c07,Kim,45


In [45]:
customer2.columns =['id','last_name','age']

In [46]:
customer2

Unnamed: 0,id,last_name,age
0,c05,Lim,23
1,c06,Bae,34
2,c07,Kim,45


In [47]:
pd.concat([customer1,customer2])

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
0,c05,Lim,23.0
1,c06,Bae,34.0
2,c07,Kim,45.0


In [49]:
customer = pd.concat([customer1,customer2]).reset_index(drop=True)

In [50]:
customer

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
4,c05,Lim,23.0
5,c06,Bae,34.0
6,c07,Kim,45.0


In [51]:
print(customer1, '\n')
print(customer2)

    id last_name
0  c01       Lee
1  c02       Kim
2  c03      Choi
3  c04      Park 

    id last_name  age
0  c05       Lim   23
1  c06       Bae   34
2  c07       Kim   45


행인덱스와 열인덱스가 다른 데이터프레임 합치기     
* pd.concat([df1, df2, ...], axis=0)     
    
default 값으로 axis=0이 적용되어 행방향으로 데이터프레임을 붙임     
customer1에는 age열이 없으므로 NaN값이 채워짐      
ignore_index=True를 붙이면 인덱스 재배열 가능

In [53]:
result = pd.concat([customer1, customer2],ignore_index=True)
result

Unnamed: 0,id,last_name,age
0,c01,Lee,
1,c02,Kim,
2,c03,Choi,
3,c04,Park,
4,c05,Lim,23.0
5,c06,Bae,34.0
6,c07,Kim,45.0


In [None]:
result.reset_index()

## 열결합

### 데이터프레임 붙이기 : pd.concat()

행인덱스와 열인덱스가 다른 데이터프레임 합치기     
* pd.concat([df1, df2, ...], axis=1)     
    
axis=1은 열방향으로 데이터프레임을 붙임     
customer2에는 index 3행이 없으므로 NaN값이 채워짐      

In [54]:
result2 = pd.concat([customer2,customer1], axis=1)
result2

Unnamed: 0,id,last_name,age,id.1,last_name.1
0,c05,Lim,23.0,c01,Lee
1,c06,Bae,34.0,c02,Kim
2,c07,Kim,45.0,c03,Choi
3,,,,c04,Park


### 시리즈를 데이터프레임에 붙이기 : pd.concat()
시리즈 객체를 생성할 때 name은, 이 시리즈가 데이터프레임이 결합되었을 때의 열이름을 나타냄

In [None]:
grade = pd.Series(['A', 'B', 'C','A', 'D', 'C', 'B'], name='grade')
grade2 = pd.Series(['A', 'B', 'C','A', 'D', 'C'], name='grade')

In [55]:
result3 = pd.concat([grade, grade2], axis=1)
result3

Unnamed: 0,grade,grade.1
0,A,A
1,B,B
2,C,C
3,A,A
4,D,D
5,C,C
6,B,


### 시리즈끼리 붙이기 : pd.concat()


In [57]:
sr1 = pd.Series(['e0','e1','e2','e3'], name = 'e')
sr2 = pd.Series(['g0','g1','g2','g3'], name = 'g')

# 열방향으로 시리즈를 연결하면 데이터프레임이 됨
result4 = pd.concat([sr1, sr2], axis=1) 
print(result4)
print(type(result4), '\n')

#행방향으로 시리즈를 연결하면 시리즈 타입 유지
result5 = pd.concat([sr1, sr2], ignore_index=True)
print(result5)
print(type(result5))

    e   g
0  e0  g0
1  e1  g1
2  e2  g2
3  e3  g3
<class 'pandas.core.frame.DataFrame'> 

0    e0
1    e1
2    e2
3    e3
4    g0
5    g1
6    g2
7    g3
dtype: object
<class 'pandas.core.series.Series'>


## merge
두 데이터프레임에 존재하는 고유값(Key)를 기준으로 병합
* pd.merge(df_left, df_right, how='inner', on=None) 이 default

    how에 들어갈 수 있는 매개변수 : 'inner' , 'outer', 'left', 'right'

In [58]:
id_name = pd.DataFrame({'ID' : ['c01', 'c02', 'c03', 'c04', 'c05', 'c06', 'c07'],
                       'last_name': ['Lee', 'Kim', 'Choi', 'Park','Lim','Bae','Kim']})
id_number = pd.DataFrame({'id' : ['c03', 'c04', 'c05', 'c06', 'c07', 'c08', 'c09'],
                         'number' : [3, 1, 0, 7, 3, 4, 1]})

In [59]:
id_name

Unnamed: 0,ID,last_name
0,c01,Lee
1,c02,Kim
2,c03,Choi
3,c04,Park
4,c05,Lim
5,c06,Bae
6,c07,Kim


In [61]:
id_number.columns = ['ID','number']

In [62]:
id_number

Unnamed: 0,ID,number
0,c03,3
1,c04,1
2,c05,0
3,c06,7
4,c07,3
5,c08,4
6,c09,1


In [63]:
pd.concat([id_name,id_number],axis=1)

Unnamed: 0,ID,last_name,ID.1,number
0,c01,Lee,c03,3
1,c02,Kim,c04,1
2,c03,Choi,c05,0
3,c04,Park,c06,7
4,c05,Lim,c07,3
5,c06,Bae,c08,4
6,c07,Kim,c09,1


In [68]:
pd.merge(id_name,id_number,how='right',on='ID')

Unnamed: 0,ID,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3
5,c08,,4
6,c09,,1


In [None]:
id_name

In [69]:
pd.merge(id_name, id_number,how='inner',on='ID')

Unnamed: 0,ID,last_name,number
0,c03,Choi,3
1,c04,Park,1
2,c05,Lim,0
3,c06,Bae,7
4,c07,Kim,3


In [75]:
# 컬럼을 기준으로 두 테이블이 모두 공통된 값을 가지고 있는 경우에만 두 데이터(id_name, id_number)를 병합해보세요.
# inner join 

In [76]:
# 공통된 값이 없는 경우에도 데이터가 출력되도록 id 칼럼을 기준으로 두 데이터의 모든 행을 병합해보세요.
# Outer Join

In [77]:
# id 칼럼을 기준으로 두 데이터를 병합하는데, 
# 기준칼럼에 공통 값이 없는 경우에는 id_number 데이터를 기준으로 병합해보세요. 
# Right Outer Join에 해당
