# DataFrame 병합

## merge
특정 컬럼 기준으로 DataFrame 병합

In [1]:
import pandas as pd

In [3]:
df1 = pd.DataFrame({
    'id' : [1, 2, 3, 4],
    'name' : ['홍길동', '신사임당', '이순신', '세종대왕']
})
df1

Unnamed: 0,id,name
0,1,홍길동
1,2,신사임당
2,3,이순신
3,4,세종대왕


In [10]:
df2 = pd.DataFrame({
    'id' : [1, 2, 3, 5],
    'score' : [86, 44, 56, 98]
})
df2

Unnamed: 0,id,score
0,1,86
1,2,44
2,3,56
3,5,98


In [11]:
# merge()
# - on : merge기준 컬럼
# - how : inner(기본값), outer, left, right
pd.merge(df1, df2, on='id', how = 'inner')

Unnamed: 0,id,name,score
0,1,홍길동,86
1,2,신사임당,44
2,3,이순신,56


In [13]:
# 왼쪽 df 기준 merge
pd.merge(df2, df1, on = 'id', how = 'left') # 왼쪽의 df2는 무조건 나옴


Unnamed: 0,id,score,name
0,1,86,홍길동
1,2,44,신사임당
2,3,56,이순신
3,5,98,


In [14]:
# outer 매칭되는 행이 없어도 모두 포함
pd.merge(df1, df2, on = 'id', how = 'outer')

Unnamed: 0,id,name,score
0,1,홍길동,86.0
1,2,신사임당,44.0
2,3,이순신,56.0
3,4,세종대왕,
4,5,,98.0


## join
특정 인덱스 기준으로 DataFrame 병합

In [21]:
df3 = pd.DataFrame({
    'age' : [23, 45, 24],
    'city' : ['서울', '수원', '이천']
}, index=['uptown', 'special', 'rice'])
df3

Unnamed: 0,age,city
uptown,23,서울
special,45,수원
rice,24,이천


In [20]:
df4 = pd.DataFrame({
    'pet' : ['고양이', '도마뱀', '토끼'],

}, index=['uptown', 'special', 'lizard'])
df4

Unnamed: 0,pet
uptown,고양이
special,도마뱀
lizard,토끼


In [24]:
df3.join(df4, how = 'left')


Unnamed: 0,age,city,pet
uptown,23,서울,고양이
special,45,수원,도마뱀
rice,24,이천,


In [25]:
df3.join(df4, how = 'outer')

Unnamed: 0,age,city,pet
lizard,,,토끼
rice,24.0,이천,
special,45.0,수원,도마뱀
uptown,23.0,서울,고양이


## concat
축 기준으로 DataFrame 병합, 특정 기준이 아니라 길이가 맞으면 병합

In [27]:
df5 = pd.DataFrame({
    'name' : ['홍길동', '이순신'],
    'age' : [23, 45],

})
df5

Unnamed: 0,name,age
0,홍길동,23
1,이순신,45


In [28]:
df6 = pd.DataFrame({
    'name' : ['하니', '윈터'],
    'age' : [20, 23],

})
df6

Unnamed: 0,name,age
0,하니,20
1,윈터,23


In [30]:
df7 = pd.concat([df5,df6], axis = 0) # 그냥 가져다 붙이면 인덱스가 0101

df7

Unnamed: 0,name,age
0,홍길동,23
1,이순신,45
0,하니,20
1,윈터,23


In [32]:
pd.concat([df5, df6], axis = 0).reset_index(drop=True) # index 초기화 / drop = True 까지 하면 완벽

Unnamed: 0,name,age
0,홍길동,23
1,이순신,45
2,하니,20
3,윈터,23


In [33]:
pd.concat([df5, df6], axis = 1).reset_index(drop=True) # 열로 붙이기

Unnamed: 0,name,age,name.1,age.1
0,홍길동,23,하니,20
1,이순신,45,윈터,23


## melt
열 병합

In [34]:
df = pd.DataFrame({
    'name' : ['홍길동', '신사임당', '이순신'],
    'math' : [80, 90, 100],
    'eng' : [34, 58, 76],
    'science' : [99, 55, 77]

})
df

Unnamed: 0,name,math,eng,science
0,홍길동,80,34,99
1,신사임당,90,58,55
2,이순신,100,76,77


In [35]:
# melt()
# - id_vars : 고정될 컬럼들(유지)
# - value_vars : 합쳐질 컬럼들
# - var_name : 컬럼명이 합쳐질 컬럼
# - value_name : 컬럼값이 합쳐질 컬럼
pd.melt(
    df,
    id_vars = ['name'],
    value_vars = ['math', 'eng', 'science'],
    var_name = 'subject',
    value_name = 'score',

)

Unnamed: 0,name,subject,score
0,홍길동,math,80
1,신사임당,math,90
2,이순신,math,100
3,홍길동,eng,34
4,신사임당,eng,58
5,이순신,eng,76
6,홍길동,science,99
7,신사임당,science,55
8,이순신,science,77
