##### 데이터프레임 결합
##### 1.단순 결합(유니언결합) ; 단순 행 추가 or 열 추가 -> concat() 사용
#####       매개변수 ; axis(행 결합or열 결합)
#####                 ignore_index(데이터프레임 결합 후 인덱스를 초기화할 것인가)->행 추가시에만 사용

##### 2.특정 조건에 맞게 데이터 결합(조인 결합)
#####       ; 데이터프레임 특정 조건이 참이면 데이터를 결합
#####       -> 열추가 ; merge()
#####       -> 매개변수 on ; 특정 조건 지정
#####       -> 매개변수 how ; (left, right, inner, outer) ; 데이터프레임의 기준을 지정



In [81]:
import pandas as pd

In [82]:
df = pd.DataFrame({
    'S1':[1,2,3,4],
    'S2':[5,6,7,8]
})

df

Unnamed: 0,S1,S2
0,1,5
1,2,6
2,3,7
3,4,8


In [83]:
df2 = pd.DataFrame([1,2])

df2

Unnamed: 0,0
0,1
1,2


In [84]:
# 단순 결합 - 행 추가(axis="rows"가 default)
print(pd.concat([df,df2]))

print()
print(pd.concat([df,df2]).reset_index(drop=True))
print()

print(pd.concat([df,df2], ignore_index=True))

    S1   S2    0
0  1.0  5.0  NaN
1  2.0  6.0  NaN
2  3.0  7.0  NaN
3  4.0  8.0  NaN
0  NaN  NaN  1.0
1  NaN  NaN  2.0

    S1   S2    0
0  1.0  5.0  NaN
1  2.0  6.0  NaN
2  3.0  7.0  NaN
3  4.0  8.0  NaN
4  NaN  NaN  1.0
5  NaN  NaN  2.0

    S1   S2    0
0  1.0  5.0  NaN
1  2.0  6.0  NaN
2  3.0  7.0  NaN
3  4.0  8.0  NaN
4  NaN  NaN  1.0
5  NaN  NaN  2.0


In [85]:
df3 = pd.DataFrame({
    'S1':[1,2]
})

df3

Unnamed: 0,S1
0,1
1,2


In [86]:
pd.concat([df,df3])

Unnamed: 0,S1,S2
0,1,5.0
1,2,6.0
2,3,7.0
3,4,8.0
0,1,
1,2,


In [87]:
# 단순 결합 - 열 추가

In [88]:
pd.concat([df,df2], axis="columns")

Unnamed: 0,S1,S2,0
0,1,5,1.0
1,2,6,2.0
2,3,7,
3,4,8,


In [89]:
df2.index = [6,7]

In [90]:
pd.concat([df,df2], axis="columns")

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
6,,,1.0
7,,,2.0


In [91]:
pd.concat([df,df3], axis="columns")

Unnamed: 0,S1,S2,S1.1
0,1,5,1.0
1,2,6,2.0
2,3,7,
3,4,8,


In [92]:
pd.concat([df,df2,df3])

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
6,,,1.0
7,,,2.0
0,1.0,,
1,2.0,,


In [93]:
pd.concat([df,df2,df3], axis="columns")

Unnamed: 0,S1,S2,0,S1.1
0,1.0,5.0,,1.0
1,2.0,6.0,,2.0
2,3.0,7.0,,
3,4.0,8.0,,
6,,,1.0,
7,,,2.0,


In [94]:
# 조인결합 - merge()

In [95]:
df = pd.DataFrame({
    "id":[1,2,3,4,5],
    "item":['a','b','a','a','b']
})

df2 = pd.DataFrame({
    "id":[1,4,5,2,3],
    "name":["Kim","Lee","Park","Choi","Ha"]
})

In [96]:
print(df)
print()
print(df2)

   id item
0   1    a
1   2    b
2   3    a
3   4    a
4   5    b

   id  name
0   1   Kim
1   4   Lee
2   5  Park
3   2  Choi
4   3    Ha


In [97]:
pd.merge(df,df2,on="id")

Unnamed: 0,id,item,name
0,1,a,Kim
1,2,b,Choi
2,3,a,Ha
3,4,a,Lee
4,5,b,Park


In [98]:
pd.merge(df,df2,on="id",how="left")  
# id값을 갖는 데이터에 대해 왼쪽 테이블의 값이 있는 것에 대해 왼쪽 순서에 맞게 결합
# 왼쪽엔 값이 있는데 오른쪽에는 값이 없는 경우 Nan으로 채움
# 왼쪽에 없는 값에 대해서는 오른쪽 값도 삭제됨

Unnamed: 0,id,item,name
0,1,a,Kim
1,2,b,Choi
2,3,a,Ha
3,4,a,Lee
4,5,b,Park


In [99]:
pd.merge(df,df2,on="id",how="right")
# id값을 갖는 데이터에 대해 오른쪽 테이블의 값이 있는 것에 대해 오른쪽 순서에 맞게 결합
# 오른쪽엔 값이 있는데 왼쪽에는 값이 없는 경우 Nan으로 채움
# 오른쪽에 없는 값에 대해서는 왼쪽 값도 삭제됨

Unnamed: 0,id,item,name
0,1,a,Kim
1,4,a,Lee
2,5,b,Park
3,2,b,Choi
4,3,a,Ha


In [100]:
pd.merge(df,df2,on="id",how="inner")

Unnamed: 0,id,item,name
0,1,a,Kim
1,2,b,Choi
2,3,a,Ha
3,4,a,Lee
4,5,b,Park


In [101]:
pd.merge(df,df2,on="id",how="outer")

Unnamed: 0,id,item,name
0,1,a,Kim
1,2,b,Choi
2,3,a,Ha
3,4,a,Lee
4,5,b,Park


In [102]:
df = pd.DataFrame({
    "id":[1,2,3,4,5],
    "item":['a','b','a','a','b']
})

df2 = pd.DataFrame({
    "id":[4,5,6,7,8],
    "name":["Kim","Lee","Park","Choi","Ha"]
})

In [103]:
pd.merge(df,df2,on="id",how="inner")
# df와 df2가 겹치는 부분만 합침

Unnamed: 0,id,item,name
0,4,a,Kim
1,5,b,Lee


In [104]:
pd.merge(df,df2,on="id",how="outer")
# df와 df2가 겹치지 않는 것까지 다 합침

Unnamed: 0,id,item,name
0,1,a,
1,2,b,
2,3,a,
3,4,a,Kim
4,5,b,Lee
5,6,,Park
6,7,,Choi
7,8,,Ha


In [105]:
df3 = pd.DataFrame({
    "item":['a','b','c'],
    "price":[100,200,300]
})

df3

Unnamed: 0,item,price
0,a,100
1,b,200
2,c,300


In [106]:
pd.merge(df,df3,on="item",how="left")

Unnamed: 0,id,item,price
0,1,a,100
1,2,b,200
2,3,a,100
3,4,a,100
4,5,b,200


In [107]:
pd.merge(df,df3,on="item",how="right")

Unnamed: 0,id,item,price
0,1.0,a,100
1,3.0,a,100
2,4.0,a,100
3,2.0,b,200
4,5.0,b,200
5,,c,300


In [108]:
pd.merge(df,df3,on="item",how="inner")

Unnamed: 0,id,item,price
0,1,a,100
1,3,a,100
2,4,a,100
3,2,b,200
4,5,b,200


In [109]:
pd.merge(df,df3,on="item",how="outer")

Unnamed: 0,id,item,price
0,1.0,a,100
1,3.0,a,100
2,4.0,a,100
3,2.0,b,200
4,5.0,b,200
5,,c,300


In [113]:
df.loc[3,"item"]="d"

In [114]:
df

Unnamed: 0,id,item
0,1,a
1,2,b
2,3,a
3,4,d
4,5,b
