##데이터프레임의 결합
1. 단순한 행, 열 결합
2. 특정한 조건에 따라서 열을 추가하는 경우

In [24]:
import pandas as pd

In [25]:
## 단순한 행을 추가
df = pd.DataFrame({
    'S1':[1,2,3,4],
    'S2':[5,6,7,8]
})
df

Unnamed: 0,S1,S2
0,1,5
1,2,6
2,3,7
3,4,8


In [26]:
df_2 = pd.DataFrame({1,2})
df_2

Unnamed: 0,0
0,1
1,2


###concat()
1. 데이터프레임을 결합하는 함수
2. 매개변수 axis -> 행을 추가할지 열을 추가할지 지정
3. 단순한 결합
4. 매개변수 ignore_index -> 기본값이 false, 인덱스의 값을 그대로 유지할지 지정

In [27]:
## 행을 추가 
pd.concat([df,df_2], axis=0, ignore_index=True)
# = pd.concat([df,df_2], axis="rows").reset_index(drop=True)

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
4,,,1.0
5,,,2.0


In [28]:
df_3 = pd.DataFrame({
    'S1' : [1,2]
    })

In [29]:
pd.concat([df, df_3], axis=0)

Unnamed: 0,S1,S2
0,1,5.0
1,2,6.0
2,3,7.0
3,4,8.0
0,1,
1,2,


## merge()
1. 데이터프레임을 결합하는 함수
2. 특정 조건에 맞춰서 열을 추가하는 함수
3. 매개변수 on -> 조건
4. 매개변수 how -> (left, right, inner, full) 방법

In [30]:
df_4 = pd.DataFrame({
    "id" : [1,2,3,4,5],
    "item" : ['a','b','a','a','b']
})
df_5 = pd.DataFrame({
    "id" : [1,4,5,2,3],
    "name" : ['kim','lee','park','choi','ha']
})

In [31]:
##단순히 열을 추가하는 concat()
pd.concat([df_4, df_5], axis=1)

Unnamed: 0,id,item,id.1,name
0,1,a,1,kim
1,2,b,4,lee
2,3,a,5,park
3,4,a,2,choi
4,5,b,3,ha


In [32]:
pd.concat([df_4, df_5.sort_values("id")], axis=1)

Unnamed: 0,id,item,id.1,name
0,1,a,1,kim
1,2,b,4,lee
2,3,a,5,park
3,4,a,2,choi
4,5,b,3,ha


In [33]:
test = df_5.sort_values("id").reset_index(drop=True)

In [34]:
## 단순한 열 결합 X
## 특정한 조건에 맞게 열 결합
## merge(데이터프레임, 데이터프레임, on = 조건, how = 방법)
pd.merge(df_4, df_5, on = 'id', how="left")

## left, right, inner 데이터의 순서가 다를뿐 내용은 같은 내용이 출력
## 이유는??


Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,a,ha
3,4,a,lee
4,5,b,park


In [35]:
pd.merge(df_4, df_5, on= 'id', how= 'right') #id가 하나만 생성 (df_5 기준으로 알아서 정리해줌)

Unnamed: 0,id,item,name
0,1,a,kim
1,4,a,lee
2,5,b,park
3,2,b,choi
4,3,a,ha


In [36]:
pd.merge(df_4, df_5, on= 'id', how= 'inner') #id가 하나만 생성 (df_4 기준으로 알아서 정리해줌)

Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,a,ha
3,4,a,lee
4,5,b,park


In [37]:
df_6 = pd.DataFrame({
    "item" : ['a','b','c'],
    "item_price" : ['100','200','300']
})

In [38]:
#df_4와 df_6 merge() 이용하여 결합
## on 이라는 조건에 들어가야할 값은 -> item (둘이 겹치는 값)
##df_4 -> item 값 리스트 -> [a,b]
##df_6 -> item 값 리스트 -> [a,b,c]

pd.merge(df_4,df_6, on='item', how='left') # item이 df_4에 있는 a,b 만 

Unnamed: 0,id,item,item_price
0,1,a,100
1,2,b,200
2,3,a,100
3,4,a,100
4,5,b,200


In [39]:
pd.merge(df_4,df_6, on='item', how='right') # item이 df_6에 있는 a,b,c - > de_4에 c가 없기 때문에 id에 NaN (결측치)발생

Unnamed: 0,id,item,item_price
0,1.0,a,100
1,3.0,a,100
2,4.0,a,100
3,2.0,b,200
4,5.0,b,200
5,,c,300


In [40]:
df_7 = pd.DataFrame({
    "id":[1,2,3,4,5,6],
    "item":['a','a','b','a','b','d']
})

In [41]:
pd.merge(df_7, df_6, on='item',how='left')

Unnamed: 0,id,item,item_price
0,1,a,100.0
1,2,a,100.0
2,3,b,200.0
3,4,a,100.0
4,5,b,200.0
5,6,d,


In [42]:
pd.merge(df_7, df_6, on='item',how='right') # 기준에 따라 item c,d 나오는 값이 다름

Unnamed: 0,id,item,item_price
0,1.0,a,100
1,2.0,a,100
2,4.0,a,100
3,3.0,b,200
4,5.0,b,200
5,,c,300


In [43]:
pd.merge(df_7, df_6, on='item',how='inner') # 결측치 없음

Unnamed: 0,id,item,item_price
0,1,a,100
1,2,a,100
2,4,a,100
3,3,b,200
4,5,b,200


In [44]:
pd.merge(df_7, df_6, on='item',how='outer') #c,d 모두 나옴 

Unnamed: 0,id,item,item_price
0,1.0,a,100.0
1,2.0,a,100.0
2,4.0,a,100.0
3,3.0,b,200.0
4,5.0,b,200.0
5,6.0,d,
6,,c,300.0


In [45]:
a = pd.DataFrame({
    'id' : [1,2,3], 
    'item' : ['a', 'b', 'a']
})

b = pd.DataFrame({
    'item' : ['a', 'a', 'b'], 
    'price' : [100, 150, 200]
})

In [46]:
pd.merge(a, b, on = 'item', how = 'left')

Unnamed: 0,id,item,price
0,1,a,100
1,1,a,150
2,2,b,200
3,3,a,100
4,3,a,150
