### 데이터프레임의 결합

- 유니언 결합
    - 가장 단순한 결합의 형태
    - 단순하게 행을 결합, 열을 결합
- 조인 결합
    - 특정한 조건에 맞춰 데이터들을 열 결합
    - 데이터프레임 + 데이터프레임 결합할때 -> 특정 컬럼의 데이터들이 같은 값들로 이루어져있을떄 열을 추가함 

In [28]:
import pandas as pd

In [29]:
data = {
    'name' : ['test','test2','test3'],
    'age' : [20,30,40]
}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,name,age
0,test,20
1,test2,30
2,test3,40


In [30]:
data2 = {
    'name' : ['test4', 'test5'],
    'loc' : ['seoul','busan']
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,name,loc
0,test4,seoul
1,test5,busan


In [31]:
# 단순하게 행을 결합
# pandas 안에 있는 concat([데이터프레임1, 데이터프레임2, ...], axis={0|1, rows|columns}, ignore_index={bool})
# axis 매개변수 : 행결합이냐 열결합을 지정
# ignore_index 매개변수 : 기본값은 False, 행을 결합할때 index를 초기화 할 것인가?, 열을 결합할때는 컬럼을 초기화 할것인가를 지정

pd.concat([df1,df2], axis=0)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [32]:
pd.concat([df1,df2], axis=0, ignore_index=False)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
0,test4,,seoul
1,test5,,busan


In [33]:
pd.concat([df1,df2], axis=0, ignore_index=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [34]:
# if ignore_index가 기억이 안나면
pd.concat([df1,df2], axis=0).reset_index(drop=True)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
3,test4,,seoul
4,test5,,busan


In [35]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,name,age,name.1,loc
0,test,20,test4,seoul
1,test2,30,test5,busan
2,test3,40,,


In [36]:
# index결과과 다를때
df2.index = [5,6]
df2

Unnamed: 0,name,loc
5,test4,seoul
6,test5,busan


In [37]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,name,age,name.1,loc
0,test,20.0,,
1,test2,30.0,,
2,test3,40.0,,
5,,,test4,seoul
6,,,test5,busan


In [38]:
pd.concat([df1, df2], axis=1, ignore_index= True)

Unnamed: 0,0,1,2,3
0,test,20.0,,
1,test2,30.0,,
2,test3,40.0,,
5,,,test4,seoul
6,,,test5,busan


In [39]:
data3 = {
    'name' : ['test6', 'test7'],
    'age' : [25,35],
    'loc' : ['ulsan', 'mokpo']         
}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,name,age,loc
0,test6,25,ulsan
1,test7,35,mokpo


In [40]:
# 3개의 데이터프레임을 행 결합
pd.concat([df1,df2,df3], axis=0)

Unnamed: 0,name,age,loc
0,test,20.0,
1,test2,30.0,
2,test3,40.0,
5,test4,,seoul
6,test5,,busan
0,test6,25.0,ulsan
1,test7,35.0,mokpo


In [41]:
# 특정한 조건에 맞춰서 열 결합 : 조인 결합
# pandas 안에 있는 merge()
# merge(데이터프레임1, 데이터프레임2, on = {컬럼명(조건)}, how = {left | right | inner | outer 중에 하나 들어감})

In [42]:
data = {
    'id' : ['test','test2', 'test3', 'test4'],
    'item' : ['A', 'B', 'A', 'D' ]
}
df1 = pd.DataFrame(data)
df1

Unnamed: 0,id,item
0,test,A
1,test2,B
2,test3,A
3,test4,D


In [43]:
data2 = {
    'item_name' : ['A', 'B', 'C'],
    'price' : [100,200,300]
}
df2 = pd.DataFrame(data2)
df2

Unnamed: 0,item_name,price
0,A,100
1,B,200
2,C,300


In [44]:
# 데이터프레임에서 조건 컬럼의 이름이 같은 경우
pd.merge(df1,df2, on='item', how='inner')

KeyError: 'item'

In [None]:
pd.merge(df1,df2, on='item', how='left')

Unnamed: 0,id,item,price
0,test,A,100.0
1,test2,B,200.0
2,test3,A,100.0
3,test4,D,


In [None]:
pd.merge(df1,df2, on='item', how='right')

Unnamed: 0,id,item,price
0,test,A,100
1,test3,A,100
2,test2,B,200
3,,C,300


In [None]:
pd.merge(df1,df2, on='item', how='outer')

Unnamed: 0,id,item,price
0,test,A,100.0
1,test3,A,100.0
2,test2,B,200.0
3,test4,D,
4,,C,300.0


In [None]:
# 데이터프레임에서 조건 컬럼의 이름이 다른 경우
pd.merge(df1,df2, left_on='item', right_on='item_name', how='left')

KeyError: 'item_name'

In [46]:
data3 = {
    'id' : ['test', 'test2', 'test3'],
    'gold' : [10000, 5000, 0]
}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,id,gold
0,test,10000
1,test2,5000
2,test3,0


In [47]:
# df1,df2.df3 모두 조인 결합
# df2의 컬럼의 이름을 변경
df2.rename(columns={
    'item_name' : 'item'
})

Unnamed: 0,item,price
0,A,100
1,B,200
2,C,300


In [48]:
df2.rename(columns={
    'item_name' : 'item'
}, inplace=True)

In [51]:
merge_data = pd.merge(df1,df2, on='item', how='left')
merge_data

Unnamed: 0,id,item,price
0,test,A,100.0
1,test2,B,200.0
2,test3,A,100.0
3,test4,D,


In [52]:
df3

Unnamed: 0,id,gold
0,test,10000
1,test2,5000
2,test3,0


In [53]:
pd.merge(merge_data, df3, on='id', how='left')

Unnamed: 0,id,item,price,gold
0,test,A,100.0,10000.0
1,test2,B,200.0,5000.0
2,test3,A,100.0,0.0
3,test4,D,,
