In [1]:
import pandas as pd

### 데이터프레임의 결합
- 단순하게 결합 (유니언 결합)
    - 단순하게 행을 추가하거나, 열을 추가하여 데이터프레임을 결합
    - concat() 이라는 함수를 사용하여 데이터프레임을 결합
    - 매개변수 axis : 행을 결합할것인지 열을 결합할 것인지 지정
    - 매개변수 ignore_index : 데이터프레임을 결합한 뒤 인덱스를 초기화 할것인지 지정
 
- 특정 조건에 맞게 데이터를 결합 (조인 결합)
    - 데이터프레임 특정한 조건이 참이면 데이터를 결합하는 형태
    - 열을 추가하는 함수로 merge()
    - 매개변수가 on : 특정한 조건 지정
    - 매개변수 how : (left, right, inner, outer) 데이터프레임의 기준을 지정

In [3]:
# 데이터 프레임 생성
df = pd.DataFrame({
    'S1' : [1,2,3,4],
    'S2' : [5,6,7,8]
})

df

Unnamed: 0,S1,S2
0,1,5
1,2,6
2,3,7
3,4,8


In [4]:
df2 = pd.DataFrame([1,2])
df2

Unnamed: 0,0
0,1
1,2


In [8]:
# concat() 함수를 이용하여 데이터프레임을 결합

# 단순하게 행을 추가
# pd.concat([df, df2], axis='rows', ignore_index=True)        # 단순하게 합친 후, ignore_index로 인덱스 초기화
pd.concat([df, df2], axis=0).reset_index(drop=True)           # reset_index()로도 인덱스 초기화 할 수 있다

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
4,,,1.0
5,,,2.0


In [10]:
df3 = pd.DataFrame({
    'S1' : [1,2]
})

df3

Unnamed: 0,S1
0,1
1,2


In [11]:
pd.concat([df, df3], axis=0)

Unnamed: 0,S1,S2
0,1,5.0
1,2,6.0
2,3,7.0
3,4,8.0
0,1,
1,2,


In [12]:
# 단순하게 열을 결합
pd.concat([df, df2], axis=1)

Unnamed: 0,S1,S2,0
0,1,5,1.0
1,2,6,2.0
2,3,7,
3,4,8,


In [13]:
df2.index = [6,7]

In [14]:
pd.concat([df, df2], axis=1)

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
6,,,1.0
7,,,2.0


In [15]:
pd.concat([df, df3], axis=1)

Unnamed: 0,S1,S2,S1.1
0,1,5,1.0
1,2,6,2.0
2,3,7,
3,4,8,


In [16]:
pd.concat([df, df2, df3], axis=0)

Unnamed: 0,S1,S2,0
0,1.0,5.0,
1,2.0,6.0,
2,3.0,7.0,
3,4.0,8.0,
6,,,1.0
7,,,2.0
0,1.0,,
1,2.0,,


In [17]:
pd.concat([df, df2, df3], axis=1)

Unnamed: 0,S1,S2,0,S1.1
0,1.0,5.0,,1.0
1,2.0,6.0,,2.0
2,3.0,7.0,,
3,4.0,8.0,,
6,,,1.0,
7,,,2.0,


In [24]:
# merge()
# 특정한 조건에 맞춰서 열을 추가하는 함수

df = pd.DataFrame({
    "id" : [1,2,3,4,5],
    "item" : ['a', 'b', 'a', 'a', 'b']
})

df2 = pd.DataFrame({
    'id' : [1,4,5,2,3],
    'name' : ['kim', 'lee', 'park', 'choi', 'ha']
})

In [20]:
df

Unnamed: 0,id,item
0,1,a
1,2,b
2,3,a
3,4,a
4,5,b


In [25]:
df2

Unnamed: 0,id,name
0,1,kim
1,4,lee
2,5,park
3,2,choi
4,3,ha


In [26]:
pd.concat([df, df2], axis=1)        # 인자에 [리스트]가 들어있으므로 자유롭게 추가할 수 있지만, merge는 불가하다.

Unnamed: 0,id,item,id.1,name
0,1,a,1,kim
1,2,b,4,lee
2,3,a,5,park
3,4,a,2,choi
4,5,b,3,ha


In [27]:
pd.merge(df, df2, on = 'id', how = "left")      # id 컬럼이 합쳐졌고, name 순서가 바뀜. (인덱스가 item 기준 정렬)

Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,a,ha
3,4,a,lee
4,5,b,park


In [28]:
pd.merge(df, df2, on = 'id', how = "right")     # id 컬럼 합쳐지고, item 순서가 바뀜. (인덱스가 name 기준 정렬)

Unnamed: 0,id,item,name
0,1,a,kim
1,4,a,lee
2,5,b,park
3,2,b,choi
4,3,a,ha


In [29]:
pd.merge(df, df2, on = 'id', how = "inner")

Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,a,ha
3,4,a,lee
4,5,b,park


In [30]:
pd.merge(df, df2, on = 'id', how = "outer")     # 조건인 'id' 가 df, df2 모두 동일하므로, inner(교집합)과 outer(합집합) 동일하다.

Unnamed: 0,id,item,name
0,1,a,kim
1,2,b,choi
2,3,a,ha
3,4,a,lee
4,5,b,park


In [31]:
df3 = pd.DataFrame({
    'item' : ['a', 'b', 'c'],
    'price' : [100, 200, 300]
})

df3

Unnamed: 0,item,price
0,a,100
1,b,200
2,c,300


In [33]:
pd.merge(df, df3, on = 'item', how = 'left')        # 기준이 left이므로, left에 없는 값(c)은 보여주지 않는다.

Unnamed: 0,id,item,price
0,1,a,100
1,2,b,200
2,3,a,100
3,4,a,100
4,5,b,200


In [34]:
pd.merge(df, df3, on = 'item', how = 'right')       # 기준이 right이므로, c가 보여지고, c는 id를 갖지 않으므로 결측치로 나타난다.

Unnamed: 0,id,item,price
0,1.0,a,100
1,3.0,a,100
2,4.0,a,100
3,2.0,b,200
4,5.0,b,200
5,,c,300


In [37]:
df.loc[3, 'item'] = 'd'

In [38]:
pd.merge(df, df3, on = 'item', how = 'left')

Unnamed: 0,id,item,price
0,1,a,100.0
1,2,b,200.0
2,3,a,100.0
3,4,d,
4,5,b,200.0


In [39]:
pd.merge(df, df3, on = 'item', how = 'right')

Unnamed: 0,id,item,price
0,1.0,a,100
1,3.0,a,100
2,2.0,b,200
3,5.0,b,200
4,,c,300


In [40]:
pd.merge(df, df3, on = 'item', how = 'inner')       # 둘 다 가지고 있는 값만 보여준다.

Unnamed: 0,id,item,price
0,1,a,100
1,3,a,100
2,2,b,200
3,5,b,200


In [41]:
pd.merge(df, df3, on = 'item', how = 'outer')       # df, df3가 가지고 있는 값을 모두 보여준다.

Unnamed: 0,id,item,price
0,1.0,a,100.0
1,3.0,a,100.0
2,2.0,b,200.0
3,5.0,b,200.0
4,4.0,d,
5,,c,300.0
